Tutorial zur Verarbeitung natürlicher Sprache: Was ist NLP? Beispiele
Was ist die Verarbeitung natürlicher Sprache?
Natürliche Sprachverarbeitung (NLP) ist ein Zweig der KI, der Computern hilft, menschliche Sprachen wie Englisch oder Hindi zu verstehen, zu interpretieren und zu manipulieren, um sie zu analysieren und ihre Bedeutung abzuleiten. NLP hilft Entwicklern, Wissen zu organisieren und zu strukturieren, um Aufgaben wie Übersetzung, Zusammenfassung, Erkennung benannter Entitäten, Beziehungsextraktion, Spracherkennung, Themensegmentierung usw. auszuführen.
Geschichte des NLP
Hier sind wichtige Ereignisse in der Geschichte der Verarbeitung natürlicher Sprache:
1950- NLP begann, als Alan Turing einen Artikel mit dem Titel „Maschine und Intelligenz“ veröffentlichte.
1950- Versuche, die Übersetzung zwischen Russisch und Englisch zu automatisieren
1960- Die Arbeiten von Chomsky und anderen zur formalen Sprachtheorie und generativen Syntax
1990- Wahrscheinlichkeits- und datengesteuerte Modelle waren zum Standard geworden
2000- Es steht eine große Menge gesprochener und textlicher Daten zur Verfügung
Als nächstes lernen wir in diesem NLP-Tutorial, wie NLP funktioniert.
Wie funktioniert NLP?
Bevor wir lernen, wie NLP funktioniert, wollen wir verstehen, wie Menschen Sprache verwenden.
Jeden Tag sagen wir tausende Wörter, die andere Menschen interpretieren, um unzählige Dinge zu tun. Wir betrachten es als eine einfache Kommunikation, aber wir alle wissen, dass Worte viel tiefer gehen. Es gibt immer einen Kontext, den wir aus dem ableiten, was wir sagen und wie wir es sagen., NLP in Künstliche Intelligenz konzentriert sich nie auf die Stimmmodulation; es stützt sich auf kontextuelle Muster.
Ejemplo:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Hier können wir leicht einen Zusammenhang herstellen, da der Mann das männliche Geschlecht und die Frau das weibliche Geschlecht hat. Ebenso hat der König das männliche Geschlecht und sein weibliches Geschlecht ist die Königin.
Ejemplo:
Is King to kings as the queen is to_______? The answer is--- queens
Hier sehen wir zwei Wörter, Könige und Könige, wobei eines im Singular und das andere im Plural steht. Wenn daher die Weltkönigin kommt, korreliert sie automatisch wieder mit Königinnen im Singular Plural.
Hier ist die größte Frage: Woher wissen wir, was Wörter bedeuten? Sagen wir mal, wer wird es Königin nennen?
Die Antwort ist, dass wir dieses Denken durch Erfahrung lernen. Hier stellt sich jedoch vor allem die Frage: Woher weiß der Computer davon?
Wir müssen genügend Daten bereitstellen, damit Maschinen durch Erfahrung lernen können. Wir können Details wie
- Ihre Majestät die Königin.
- Die Rede der Königin während des Staatsbesuchs
- Die Krone von Königin Elizabeth
- Die Mutter der Königin
- Die Königin ist großzügig.
Mit den obigen Beispielen versteht die Maschine die Entität Königin.
Die Maschine erstellt Wortvektoren wie folgt. Ein Wortvektor wird aus umgebenden Wörtern erstellt.
Die Maschine erstellt diese Vektoren
- Da es aus mehreren Datensätzen lernt
- Nutzen Sie maschinelles Lernen (z. B. Deep-Learning-Algorithmen)
- Ein Wortvektor wird aus umgebenden Wörtern erstellt.
Hier ist die Formel:
Bedeutung (König) – Bedeutung (Mann) + Bedeutung (Frau)=?
Dies läuft darauf hinaus, einfache algebraische Operationen an Wortvektoren durchzuführen:
Vektor (König) – Vektor (Mann) + Vektor (Frau)= Vektor(?)
Darauf antwortet die Maschine, Königin.
Als nächstes lernen wir in diesem Tutorial zur Verarbeitung natürlicher Sprache die Komponenten von NLP kennen.
Bestandteile von NLP
Fünf Hauptkomponenten der Verarbeitung natürlicher Sprache in der KI sind:
- Morphologische und lexikalische Analyse
- Syntaktische Analyse
- Semantische Analyse
- Diskursintegration
- Pragmatische Analyse

Morphologische und lexikalische Analyse
Die lexikalische Analyse ist ein Vokabular, das seine Wörter und Ausdrücke umfasst. Es zeigt die Analyse, Identifizierung und Beschreibung der Struktur von Wörtern. Dazu gehört die Unterteilung eines Textes in Absätze, Wörter und Sätze
Einzelne Wörter werden in ihre Bestandteile analysiert und Nichtwort-Token wie Satzzeichen von den Wörtern getrennt.
Semantische Analyse
Die semantische Analyse ist eine vom syntaktischen Analysator erstellte Struktur, die Bedeutungen zuweist. Diese Komponente überführt lineare Wortfolgen in Strukturen. Es zeigt, wie die Wörter miteinander verbunden sind.
Die Semantik konzentriert sich nur auf die wörtliche Bedeutung von Wörtern, Phrasen und Sätzen. Dadurch wird nur die Wörterbuchbedeutung oder die tatsächliche Bedeutung aus dem gegebenen Kontext abstrahiert. Die vom syntaktischen Analysator zugewiesenen Strukturen haben immer eine zugewiesene Bedeutung
Z.B. „farblose grüne Idee.“ Dies würde die Symantec-Analyse hier als farblos ablehnen; Grün macht keinen Sinn.
Pragmatische Analyse
Die pragmatische Analyse befasst sich mit dem gesamten kommunikativen und sozialen Inhalt und seiner Auswirkung auf die Interpretation. Es bedeutet, den sinnvollen Gebrauch von Sprache in Situationen zu abstrahieren oder abzuleiten. Bei dieser Analyse liegt das Hauptaugenmerk stets auf dem Gesagten und dessen Umdeutung auf das Gemeinte.
Mithilfe einer pragmatischen Analyse können Benutzer diesen beabsichtigten Effekt ermitteln, indem sie eine Reihe von Regeln anwenden, die kooperative Dialoge charakterisieren.
ZB: „Fenster schließen?“ sollte als Bitte und nicht als Befehl interpretiert werden.
Syntaxanalyse
Die Wörter werden allgemein als die kleinsten Einheiten der Syntax angesehen. Mit der Syntax sind die Prinzipien und Regeln gemeint, die den Satzbau der einzelnen Sprachen bestimmen.
Bei der Syntax geht es um die richtige Reihenfolge der Wörter, die ihre Bedeutung beeinflussen kann. Dabei werden die Wörter in einem Satz analysiert, indem man der grammatikalischen Struktur des Satzes folgt. Die Wörter werden in die Struktur umgewandelt, um zu zeigen, wie die Wörter miteinander in Beziehung stehen.
Diskursintegration
Es bedeutet ein Gespür für den Kontext. Die Bedeutung jedes einzelnen Satzes, die von diesen Sätzen abhängt. Es berücksichtigt auch die Bedeutung des folgenden Satzes.
Beispielsweise hängt das Wort „das“ im Satz „Er wollte das“ vom vorherigen Diskurskontext ab.
Als nächstes lernen wir in diesem NLP-Tutorial etwas über NLP und Schreibsysteme.
NLP und Schreibsysteme
Die Art des für eine Sprache verwendeten Schriftsystems ist einer der entscheidenden Faktoren bei der Bestimmung des besten Ansatzes für die Textvorverarbeitung. Schreibsysteme können sein
- Logografisch: Eine Vielzahl einzelner Symbole repräsentieren Wörter. Beispiel Japanisch, Mandarin
- Silbe: Einzelne Symbole repräsentieren Silben
- Alphabetisch: Einzelne Symbole repräsentieren Klang
Die meisten Schriftsysteme verwenden das Silben- oder Alphabetsystem. Sogar Englisch mit seinem relativ einfachen Schriftsystem, das auf dem römischen Alphabet basiert, verwendet logografische Symbole, darunter arabische Ziffern, Währungssymbole (S, £) und andere Sonderzeichen.
Dies stellt folgende Herausforderungen dar
- Die Bedeutung (Semantik) aus einem Text zu extrahieren, ist eine Herausforderung
- NLP in der KI hängt von der Qualität des Korpus ab. Wenn die Domäne umfangreich ist, ist es schwierig, den Kontext zu verstehen.
- Es besteht eine Abhängigkeit vom Zeichensatz und der Sprache
So implementieren Sie NLP
Nachfolgend sind beliebte Methoden aufgeführt, die für den natürlichen Lernprozess verwendet werden:
Maschinelles Lernen: Die beim maschinellen Lernen verwendeten Lern-NLP-Verfahren. Es konzentriert sich automatisch auf die häufigsten Fälle. Wenn wir also Regeln von Hand schreiben, sind sie aus Angst vor menschlichen Fehlern oft überhaupt nicht korrekt.
Statistische Inferenz: NLP kann statistische Inferenzalgorithmen nutzen. Es hilft Ihnen, Modelle zu erstellen, die robust sind. Beispielsweise solche, die Wörter oder Strukturen enthalten, die jeder kennt.
NLP-Beispiele
Heutzutage ist die Technologie des natürlichen Prozesslernens eine weit verbreitete Technologie.
Hier sind gängige Techniken zur Verarbeitung natürlicher Sprache:
Informationsbeschaffung und Websuche
Google, Yahoo, Bing und andere Suchmaschinen basieren ihre maschinelle Übersetzungstechnologie auf NLP-Deep-Learning-Modellen. Sie ermöglicht es Algorithmen, Text auf einer Webseite zu lesen, seine Bedeutung zu interpretieren und ihn in eine andere Sprache zu übersetzen.
Grammatikkorrektur:
Die NLP-Technik wird häufig von Textverarbeitungsprogrammen wie MS-Word zur Rechtschreibkorrektur und Grammatikprüfung verwendet.
Frage beantworten
Geben Sie Schlüsselwörter ein, um Fragen in natürlicher Sprache zu stellen.
Textzusammenfassung
Der Prozess der Zusammenfassung wichtiger Informationen aus einer Quelle, um eine verkürzte Version zu erstellen
Maschinelle Übersetzung
Verwendung von Computeranwendungen zur Übersetzung von Text oder Sprache von einer natürlichen Sprache in eine andere.
Stimmungsanalyse
NLP hilft Unternehmen dabei, eine große Anzahl von Bewertungen zu einem Produkt zu analysieren. Es ermöglicht den Kunden außerdem, eine Bewertung des jeweiligen Produkts abzugeben.
Zukunft des NLP
- Die Verarbeitung natürlicher Sprache, die von Menschen gelesen werden kann, ist das größte KI-Problem. Es ist fast dasselbe wie die Lösung des zentralen Problems der künstlichen Intelligenz und die Frage, ob Computer so intelligent wie Menschen werden sollen.
- Zukünftige Computer oder Maschinen werden mit Hilfe von NLP in der Lage sein, aus den Informationen online zu lernen und diese in der realen Welt anzuwenden, allerdings ist diesbezüglich noch viel Arbeit erforderlich.
- Das Natural Language Toolkit oder NLTK wird effektiver
- In Kombination mit der Erzeugung natürlicher Sprache werden Computer besser in der Lage sein, nützliche und einfallsreiche Informationen oder Daten zu empfangen und weiterzugeben.
Natürliche Sprache vs. Computersprache
Nachfolgend sind die Hauptunterschiede zwischen natürlicher Sprache und Computersprache aufgeführt:
Parameter | Natürliche Sprache | Computer Sprache |
---|---|---|
Mehrdeutig | Sie sind mehrdeutiger Natur. | Sie sind auf Eindeutigkeit ausgelegt. |
Redundanz | Natürliche Sprachen verwenden viel Redundanz. | Formale Sprachen sind weniger redundant. |
Buchstäblichkeit | Natürliche Sprachen bestehen aus Redewendungen und Metaphern | Formale Sprachen bedeuten genau das, was sie sagen wollen |
Vorteile von NLP
- Benutzer können Fragen zu jedem Thema stellen und erhalten innerhalb von Sekunden eine direkte Antwort.
- Das NLP-System liefert Antworten auf die Fragen in natürlicher Sprache
- Das NLP-System bietet genaue Antworten auf die Fragen, keine unnötigen oder unerwünschten Informationen
- Die Genauigkeit der Antworten steigt mit der Menge der in der Frage enthaltenen relevanten Informationen.
- Der NLP-Prozess hilft Computern, mit Menschen in ihrer Sprache zu kommunizieren und andere sprachbezogene Aufgaben zu übernehmen
- Ermöglicht Ihnen, im Vergleich zu einem Menschen ermüdungsfrei und auf unvoreingenommene und konsistente Weise mehr sprachbasierte Daten auszuführen.
- Strukturieren einer stark unstrukturierten Datenquelle
Nachteile von NLP
- Komplexe Abfragesprache – das System ist möglicherweise nicht in der Lage, auf eine schlecht formulierte oder mehrdeutige Frage die richtige Antwort zu geben.
- Das System ist nur für eine einzige und spezifische Aufgabe konzipiert; Aufgrund eingeschränkter Funktionen ist es nicht in der Lage, sich an neue Domänen und Probleme anzupassen.
- Das NLP-System verfügt nicht über eine Benutzeroberfläche, der es an Funktionen mangelt, die es Benutzern ermöglichen, weiter mit dem System zu interagieren
Zusammenfassung
- Die Verarbeitung natürlicher Sprache ist ein Zweig der KI, der Computern hilft, menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren
- NLP begann, als Alan Turing einen Artikel mit dem Titel „Maschine und Intelligenz“ veröffentlichte.
- NLP konzentriert sich nie auf die Stimmmodulation; es stützt sich auf kontextuelle Muster
- Fünf wesentliche Komponenten der Verarbeitung natürlicher Sprache in der künstlichen Intelligenz sind 1) morphologische und lexikalische Analyse, 2) syntaktische Analyse, 3) semantische Analyse, 4) Diskursintegration und 5) pragmatische Analyse
- Drei Arten des Natural-Process-Schreibsystems sind 1) logografisch, 2) syllabisch und 3) alphabetisch
- Maschinelles Lernen und statistische Inferenz sind zwei Methoden zur Implementierung des Natural Process Learning
- Wesentliche Anwendungen von NLP sind Informationsabruf und Websuche, Beantwortung von Fragen zur Grammatikkorrektur, Textzusammenfassung, maschinelle Übersetzung usw.
- Zukünftige Computer oder Maschinen mit Hilfe von NLP und Daten Wissenschaft wird in der Lage sein, aus den Online-Informationen zu lernen und diese in der realen Welt anzuwenden, allerdings muss diesbezüglich noch viel Arbeit geleistet werden
- NLP ist mehrdeutig, während Open-Source-Computersprachen auf Eindeutigkeit ausgelegt sind
- Der größte Vorteil des NLP-Systems für künstliche Intelligenz besteht darin, dass es genaue Antworten auf die Fragen bietet und keine unnötigen oder unerwünschten Informationen enthält
- Der größte Nachteil des NLP-Systems besteht darin, dass es nur für eine einzelne und spezifische Aufgabe konzipiert ist und sich daher aufgrund eingeschränkter Funktionen nicht an neue Bereiche und Probleme anpassen kann