Tutorial de procesamiento del lenguaje natural: ¿Qué es la PNL? Ejemplos
¿Qué es el procesamiento del lenguaje natural?
Procesamiento del lenguaje natural (PNL) es una rama de la IA que ayuda a las computadoras a comprender, interpretar y manipular lenguajes humanos como el inglés o el hindi para analizar y derivar su significado. El procesamiento del lenguaje natural ayuda a los desarrolladores a organizar y estructurar el conocimiento para realizar tareas como traducción, resumen, reconocimiento de entidades nombradas, extracción de relaciones, reconocimiento de voz, segmentación de temas, etc.
Historia de la PNL
A continuación se muestran eventos importantes en la historia del procesamiento del lenguaje natural:
1950- La PNL comenzó cuando Alan Turing publicó un artículo titulado "Máquina e inteligencia".
1950- Intentos de automatizar la traducción entre ruso e inglés.
1960- El trabajo de Chomsky y otros sobre la teoría del lenguaje formal y la sintaxis generativa.
1990- Los modelos probabilísticos y basados en datos se habían vuelto bastante estándar
2000- Una gran cantidad de datos hablados y textuales están disponibles
A continuación, en este tutorial de PNL, aprenderemos cómo funciona la PNL.
¿Cómo funciona la PNL?
Antes de aprender cómo funciona la PNL, comprendamos cómo los humanos usan el lenguaje.
Todos los días decimos miles de palabras que otras personas interpretan para hacer innumerables cosas. Nosotros lo consideramos como una simple comunicación, pero todos sabemos que las palabras son mucho más profundas que eso. Siempre hay algún contexto que derivamos de lo que decimos y cómo lo decimos., PNL en Inteligencia Artificial nunca se centra en la modulación de la voz; se basa en patrones contextuales.
Ejemplo:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Aquí podemos correlacionarnos fácilmente porque el hombre es de género masculino y la mujer es de género femenino. De la misma forma, el rey es de género masculino, y su género femenino es de reina.
Ejemplo:
Is King to kings as the queen is to_______? The answer is--- queens
Aquí podemos ver dos palabras reyes y reyes donde una es singular y otra plural. Por lo tanto, cuando llega la reina del mundo, automáticamente se correlaciona con reinas nuevamente en singular plural.
Aquí, la pregunta más importante es ¿cómo sabemos qué significan las palabras? Digamos, ¿quién la llamará reina?
La respuesta es que aprendemos esto a través de la experiencia. Sin embargo, aquí la pregunta principal es: ¿cómo sabe la computadora lo mismo?
Necesitamos proporcionar suficientes datos para que las máquinas aprendan a través de la experiencia. Podemos proporcionar detalles como
- Su Majestad la Reina.
- El discurso de la Reina durante la visita de Estado
- La corona de la reina Isabel
- La madre de las reinas
- La reina es generosa.
Con los ejemplos anteriores, la máquina comprende la entidad Reina.
La máquina crea vectores de palabras como se muestra a continuación. Un vector de palabras se construye utilizando las palabras circundantes.
La máquina crea estos vectores.
- A medida que aprende de múltiples conjuntos de datos
- Utilice el aprendizaje automático (por ejemplo, algoritmos de aprendizaje profundo)
- Un vector de palabras se construye utilizando las palabras circundantes.
Aquí está la fórmula:
Significado (rey) – significado (hombre) + significado (mujer)=?
Esto equivale a realizar operaciones algebraicas simples con vectores de palabras:
Vector (rey) – vector (hombre) + vector (mujer) = vector(?)
A lo que la máquina responde reina.
A continuación, en este tutorial de procesamiento del lenguaje natural, aprenderemos sobre los componentes de la PNL.
Componentes de la PNL
Los cinco componentes principales del procesamiento del lenguaje natural en la IA son:
- Análisis Morfológico y Léxico
- Análisis sintáctico
- Análisis semántico
- Integración del discurso
- Análisis pragmático
Análisis Morfológico y Léxico
El análisis léxico es un vocabulario que incluye sus palabras y expresiones. Representa analizar, identificar y describir la estructura de las palabras. Incluye dividir un texto en párrafos, palabras y oraciones.
Las palabras individuales se analizan en sus componentes y los tokens que no son palabras, como las puntuaciones, se separan de las palabras.
Análisis semántico
El Análisis Semántico es una estructura creada por el analizador sintáctico que asigna significados. Este componente transfiere secuencias lineales de palabras a estructuras. Muestra cómo las palabras se asocian entre sí.
La semántica se centra únicamente en el significado literal de palabras, frases y oraciones. Esto sólo abstrae el significado del diccionario o el significado real del contexto dado. Las estructuras asignadas por el analizador sintáctico siempre tienen significado asignado
Por ejemplo, “idea verde incolora”. Esto sería rechazado por el análisis de Symantec como incoloro Aquí; el verde no tiene ningún sentido.
Análisis pragmático
El análisis pragmático se ocupa del contenido comunicativo y social general y su efecto en la interpretación. Significa abstraer o derivar el uso significativo del lenguaje en situaciones. En este análisis, el foco principal siempre está en lo dicho y reinterpretado en lo que se quiere decir.
El análisis pragmático ayuda a los usuarios a descubrir este efecto deseado mediante la aplicación de un conjunto de reglas que caracterizan los diálogos cooperativos.
Por ejemplo, "¿cerrar la ventana?" debe interpretarse como una petición y no como una orden.
Análisis de sintaxis
Las palabras se aceptan comúnmente como las unidades de sintaxis más pequeñas. La sintaxis se refiere a los principios y reglas que gobiernan la estructura de la oración de cualquier idioma individual.
La sintaxis se centra en el orden correcto de las palabras, lo que puede afectar a su significado. Esto implica el análisis de las palabras de una oración siguiendo la estructura gramatical de la oración. Las palabras se transforman en la estructura para mostrar cómo se relacionan entre sí.
Integración del discurso
Significa un sentido del contexto. El significado de cualquier oración individual que depende de esa oración. También considera el significado de la oración siguiente.
Por ejemplo, la palabra "eso" en la oración "Él quería eso" depende del contexto del discurso anterior.
A continuación, en este tutorial de PNL, aprenderemos sobre PNL y sistemas de escritura.
PNL y sistemas de escritura
El tipo de sistema de escritura utilizado para un idioma es uno de los factores decisivos para determinar el mejor enfoque para el preprocesamiento de texto. Los sistemas de escritura pueden ser
- Logográfico: una Gran cantidad de símbolos individuales representan palabras. Ejemplo japonés, mandarín
- Silábico: los símbolos individuales representan sílabas.
- Alfabético: los símbolos individuales representan sonido.
La mayoría de los sistemas de escritura utilizan el sistema silábico o alfabético. Incluso el inglés, con su sistema de escritura relativamente simple basado en el alfabeto romano, utiliza símbolos logográficos que incluyen números arábigos, símbolos de moneda (S, £) y otros símbolos especiales.
Esta pose sigue los desafíos
- Extraer significado (semántica) de un texto es un desafío
- La PNL en IA depende de la calidad del corpus. Si el dominio es vasto, es difícil entender el contexto.
- Existe una dependencia del conjunto de caracteres y del idioma.
Cómo implementar la PNL
A continuación, se detallan los métodos populares utilizados para el proceso de aprendizaje natural:
Aprendizaje automático: Los procedimientos de aprendizaje de PNL utilizados durante el aprendizaje automático. Se centra automáticamente en los casos más comunes. Entonces, cuando escribimos reglas a mano, a menudo no son correctas en absoluto, preocupándonos por los errores humanos.
Inferencia estadística: La PNL puede hacer uso de algoritmos de inferencia estadística. Le ayuda a producir modelos que sean robustos. por ejemplo, que contengan palabras o estructuras que todos conocen.
Ejemplos de PNL
Hoy en día, la tecnología de aprendizaje del proceso natural es una tecnología ampliamente utilizada.
A continuación se detallan técnicas comunes de procesamiento del lenguaje natural:
Recuperación de información y búsqueda web
Google, Yahoo, Bing y otros motores de búsqueda Basan su tecnología de traducción automática en modelos de aprendizaje profundo de procesamiento del lenguaje natural (PLN). Permite que los algoritmos lean el texto de una página web, interpreten su significado y lo traduzcan a otro idioma.
Corrección de gramática:
La técnica de PNL es ampliamente utilizada por software de procesador de textos como MS-Word para corrección ortográfica y revisión gramatical.
Respuesta a preguntas
Escriba palabras clave para hacer preguntas en lenguaje natural.
Resumen de texto
El proceso de resumir información importante de una fuente para producir una versión abreviada.
Máquina traductora
Uso de aplicaciones informáticas para traducir texto o voz de un lenguaje natural a otro.
Análisis de los sentimientos
La PNL ayuda a las empresas a analizar una gran cantidad de reseñas sobre un producto. También permite a sus clientes dar una reseña del producto en particular.
Futuro de la PNL
- El procesamiento del lenguaje natural legible por humanos es el mayor problema de Al-. Es más o menos lo mismo que resolver el problema central de la inteligencia artificial y hacer que las computadoras sean tan inteligentes como las personas.
- Las computadoras o máquinas del futuro con la ayuda de la PNL podrán aprender de la información en línea y aplicarla en el mundo real; sin embargo, es necesario trabajar mucho en este sentido.
- El kit de herramientas de lenguaje natural o nltk se vuelve más efectivo
- Combinadas con la generación de lenguaje natural, las computadoras serán más capaces de recibir y brindar información o datos útiles e ingeniosos.
Lenguaje natural versus lenguaje informático
A continuación se detallan las principales diferencias entre el lenguaje natural y el lenguaje informático:
Parámetro | Lenguaje natural | Lenguaje de ordenador |
---|---|---|
Ambiguo | Son de naturaleza ambigua. | Están diseñados para ser inequívocos. |
Redundancia | Los lenguajes naturales emplean mucha redundancia. | Los lenguajes formales son menos redundantes. |
literalidad | Los lenguajes naturales están hechos de modismos y metáforas. | Los lenguajes formales significan exactamente lo que quieren decir. |
Ventajas de la PNL
- Los usuarios pueden hacer preguntas sobre cualquier tema y obtener una respuesta directa en segundos.
- El sistema PNL proporciona respuestas a las preguntas en lenguaje natural.
- El sistema PNL ofrece respuestas exactas a las preguntas, sin información innecesaria o no deseada.
- La precisión de las respuestas aumenta con la cantidad de información relevante proporcionada en la pregunta.
- El proceso de PNL ayuda a las computadoras a comunicarse con los humanos en su idioma y escala otras tareas relacionadas con el lenguaje.
- Permite realizar más comparaciones de datos basados en el lenguaje que un ser humano sin fatiga y de manera imparcial y consistente.
- Estructurar una fuente de datos altamente desestructurada
Desventajas de la PNL
- Lenguaje de consulta complejo: es posible que el sistema no pueda proporcionar la respuesta correcta si la pregunta está mal redactada o es ambigua.
- El sistema está diseñado únicamente para una tarea única y específica; no puede adaptarse a nuevos dominios y problemas debido a funciones limitadas.
- El sistema PNL no tiene una interfaz de usuario que carece de funciones que permitan a los usuarios interactuar aún más con el sistema.
Resumen
- El procesamiento del lenguaje natural es una rama de la inteligencia artificial que ayuda a las computadoras a comprender, interpretar y manipular el lenguaje humano.
- La PNL comenzó cuando Alan Turing publicó un artículo titulado "Máquina e inteligencia".
- La PNL nunca se centra en la modulación de la voz; se basa en patrones contextuales
- Cinco componentes esenciales del procesamiento del lenguaje natural en inteligencia artificial son 1) Análisis morfológico y léxico 2) Análisis sintáctico 3) Análisis semántico 4) Integración del discurso 5) Análisis pragmático
- Tres tipos de sistema de escritura de proceso natural son 1) Logográfico 2) Silábico 3) Alfabético
- El aprendizaje automático y la inferencia estadística son dos métodos para la implementación del aprendizaje de procesos naturales.
- Las aplicaciones esenciales de PNL son la recuperación de información y la búsqueda web, la corrección gramatical, la respuesta a preguntas, el resumen de textos, la traducción automática, etc.
- Computadoras o máquinas futuras con la ayuda de PNL y Data science Podrá aprender de la información en línea y aplicarla en el mundo real; sin embargo, es necesario trabajar mucho en este sentido.
- La PNL es ambigua, mientras que el lenguaje informático de código abierto está diseñado para ser inequívoco.
- La mayor ventaja del sistema PNL en Inteligencia Artificial es que ofrece respuestas exactas a las preguntas, sin información innecesaria o no deseada.
- El mayor inconveniente del sistema de PNL está diseñado para una tarea única y específica, por lo que no puede adaptarse a nuevos dominios y problemas debido a funciones limitadas.