Tutorial zur Verarbeitung natürlicher Sprache: Was ist NLP? Beispiele

Was ist die Verarbeitung natürlicher Sprache?

Natürliche Sprachverarbeitung (NLP) ist ein Zweig der KI, der Computern hilft, menschliche Sprachen wie Englisch oder Hindi zu verstehen, zu interpretieren und zu manipulieren, um sie zu analysieren und ihre Bedeutung abzuleiten. NLP hilft Entwicklern, Wissen zu organisieren und zu strukturieren, um Aufgaben wie Übersetzung, Zusammenfassung, Erkennung benannter Entitäten, Beziehungsextraktion, Spracherkennung, Themensegmentierung usw. auszuführen.

Geschichte des NLP

Hier sind wichtige Ereignisse in der Geschichte der Verarbeitung natürlicher Sprache:

1950- NLP begann, als Alan Turing einen Artikel mit dem Titel „Maschine und Intelligenz“ veröffentlichte.

1950- Versuche, die Übersetzung zwischen Russisch und Englisch zu automatisieren

1960- Die Arbeiten von Chomsky und anderen zur formalen Sprachtheorie und generativen Syntax

1990- Wahrscheinlichkeits- und datengesteuerte Modelle waren zum Standard geworden

2000- Es steht eine große Menge gesprochener und textlicher Daten zur Verfügung

Als nächstes lernen wir in diesem NLP-Tutorial, wie NLP funktioniert.

Wie funktioniert NLP?

Bevor wir lernen, wie NLP funktioniert, wollen wir verstehen, wie Menschen Sprache verwenden.

Jeden Tag sagen wir tausende Wörter, die andere Menschen interpretieren, um unzählige Dinge zu tun. Wir betrachten es als eine einfache Kommunikation, aber wir alle wissen, dass Worte viel tiefer gehen. Es gibt immer einen Kontext, den wir aus dem ableiten, was wir sagen und wie wir es sagen., NLP in Künstliche Intelligenz konzentriert sich nie auf die Stimmmodulation; es stützt sich auf kontextuelle Muster.

Ejemplo:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Hier können wir leicht einen Zusammenhang herstellen, da der Mann das männliche Geschlecht und die Frau das weibliche Geschlecht hat. Ebenso hat der König das männliche Geschlecht und sein weibliches Geschlecht ist die Königin.

Ejemplo:

Is King to kings as the queen is to_______?
The answer is--- queens 

Hier sehen wir zwei Wörter, Könige und Könige, wobei eines im Singular und das andere im Plural steht. Wenn daher die Weltkönigin kommt, korreliert sie automatisch wieder mit Königinnen im Singular Plural.

Hier ist die größte Frage: Woher wissen wir, was Wörter bedeuten? Sagen wir mal, wer wird es Königin nennen?

NLP-Arbeit

Die Antwort ist, dass wir dieses Denken durch Erfahrung lernen. Hier stellt sich jedoch vor allem die Frage: Woher weiß der Computer davon?

Wir müssen genügend Daten bereitstellen, damit Maschinen durch Erfahrung lernen können. Wir können Details wie

  • Ihre Majestät die Königin.
  • Die Rede der Königin während des Staatsbesuchs
  • Die Krone von Königin Elizabeth
  • Die Mutter der Königin
  • Die Königin ist großzügig.

Mit den obigen Beispielen versteht die Maschine die Entität Königin.

Die Maschine erstellt Wortvektoren wie folgt. Ein Wortvektor wird aus umgebenden Wörtern erstellt.

NLP-Arbeit

Die Maschine erstellt diese Vektoren

  • Da es aus mehreren Datensätzen lernt
  • Nutzen Sie maschinelles Lernen (z. B. Deep-Learning-Algorithmen)
  • Ein Wortvektor wird aus umgebenden Wörtern erstellt.

Hier ist die Formel:

Bedeutung (König) – Bedeutung (Mann) + Bedeutung (Frau)=?

Dies läuft darauf hinaus, einfache algebraische Operationen an Wortvektoren durchzuführen:

Vektor (König) – Vektor (Mann) + Vektor (Frau)= Vektor(?)

Darauf antwortet die Maschine, Königin.

Als nächstes lernen wir in diesem Tutorial zur Verarbeitung natürlicher Sprache die Komponenten von NLP kennen.

Bestandteile von NLP

Fünf Hauptkomponenten der Verarbeitung natürlicher Sprache in der KI sind:

  • Morphologische und lexikalische Analyse
  • Syntaktische Analyse
  • Semantische Analyse
  • Diskursintegration
  • Pragmatische Analyse
Bestandteile von NLP
Bestandteile von NLP

Morphologische und lexikalische Analyse

Die lexikalische Analyse ist ein Vokabular, das seine Wörter und Ausdrücke umfasst. Es zeigt die Analyse, Identifizierung und Beschreibung der Struktur von Wörtern. Dazu gehört die Unterteilung eines Textes in Absätze, Wörter und Sätze

Einzelne Wörter werden in ihre Bestandteile analysiert und Nichtwort-Token wie Satzzeichen von den Wörtern getrennt.

Semantische Analyse

Die semantische Analyse ist eine vom syntaktischen Analysator erstellte Struktur, die Bedeutungen zuweist. Diese Komponente überführt lineare Wortfolgen in Strukturen. Es zeigt, wie die Wörter miteinander verbunden sind.

Die Semantik konzentriert sich nur auf die wörtliche Bedeutung von Wörtern, Phrasen und Sätzen. Dadurch wird nur die Wörterbuchbedeutung oder die tatsächliche Bedeutung aus dem gegebenen Kontext abstrahiert. Die vom syntaktischen Analysator zugewiesenen Strukturen haben immer eine zugewiesene Bedeutung

Z.B. „farblose grüne Idee.“ Dies würde die Symantec-Analyse hier als farblos ablehnen; Grün macht keinen Sinn.

Pragmatische Analyse

Die pragmatische Analyse befasst sich mit dem gesamten kommunikativen und sozialen Inhalt und seiner Auswirkung auf die Interpretation. Es bedeutet, den sinnvollen Gebrauch von Sprache in Situationen zu abstrahieren oder abzuleiten. Bei dieser Analyse liegt das Hauptaugenmerk stets auf dem Gesagten und dessen Umdeutung auf das Gemeinte.

Mithilfe einer pragmatischen Analyse können Benutzer diesen beabsichtigten Effekt ermitteln, indem sie eine Reihe von Regeln anwenden, die kooperative Dialoge charakterisieren.

ZB: „Fenster schließen?“ sollte als Bitte und nicht als Befehl interpretiert werden.

Syntaxanalyse

Die Wörter werden allgemein als die kleinsten Einheiten der Syntax angesehen. Mit der Syntax sind die Prinzipien und Regeln gemeint, die den Satzbau der einzelnen Sprachen bestimmen.

Bei der Syntax geht es um die richtige Reihenfolge der Wörter, die ihre Bedeutung beeinflussen kann. Dabei werden die Wörter in einem Satz analysiert, indem man der grammatikalischen Struktur des Satzes folgt. Die Wörter werden in die Struktur umgewandelt, um zu zeigen, wie die Wörter miteinander in Beziehung stehen.

Diskursintegration

Es bedeutet ein Gespür für den Kontext. Die Bedeutung jedes einzelnen Satzes, die von diesen Sätzen abhängt. Es berücksichtigt auch die Bedeutung des folgenden Satzes.

Beispielsweise hängt das Wort „das“ im Satz „Er wollte das“ vom vorherigen Diskurskontext ab.

Als nächstes lernen wir in diesem NLP-Tutorial etwas über NLP und Schreibsysteme.

NLP und Schreibsysteme

Die Art des für eine Sprache verwendeten Schriftsystems ist einer der entscheidenden Faktoren bei der Bestimmung des besten Ansatzes für die Textvorverarbeitung. Schreibsysteme können sein

  1. Logografisch: Eine Vielzahl einzelner Symbole repräsentieren Wörter. Beispiel Japanisch, Mandarin
  2. Silbe: Einzelne Symbole repräsentieren Silben
  3. Alphabetisch: Einzelne Symbole repräsentieren Klang

Die meisten Schriftsysteme verwenden das Silben- oder Alphabetsystem. Sogar Englisch mit seinem relativ einfachen Schriftsystem, das auf dem römischen Alphabet basiert, verwendet logografische Symbole, darunter arabische Ziffern, Währungssymbole (S, £) und andere Sonderzeichen.

Dies stellt folgende Herausforderungen dar

  • Die Bedeutung (Semantik) aus einem Text zu extrahieren, ist eine Herausforderung
  • NLP in der KI hängt von der Qualität des Korpus ab. Wenn die Domäne umfangreich ist, ist es schwierig, den Kontext zu verstehen.
  • Es besteht eine Abhängigkeit vom Zeichensatz und der Sprache

So implementieren Sie NLP

Nachfolgend sind beliebte Methoden aufgeführt, die für den natürlichen Lernprozess verwendet werden:

Maschinelles Lernen: Die beim maschinellen Lernen verwendeten Lern-NLP-Verfahren. Es konzentriert sich automatisch auf die häufigsten Fälle. Wenn wir also Regeln von Hand schreiben, sind sie aus Angst vor menschlichen Fehlern oft überhaupt nicht korrekt.

Statistische Inferenz: NLP kann statistische Inferenzalgorithmen nutzen. Es hilft Ihnen, Modelle zu erstellen, die robust sind. Beispielsweise solche, die Wörter oder Strukturen enthalten, die jeder kennt.

NLP-Beispiele

Heutzutage ist die Technologie des natürlichen Prozesslernens eine weit verbreitete Technologie.

Hier sind gängige Techniken zur Verarbeitung natürlicher Sprache:

Informationsbeschaffung und Websuche

Google, Yahoo, Bing und andere Suchmaschinen basieren ihre maschinelle Übersetzungstechnologie auf NLP-Deep-Learning-Modellen. Sie ermöglicht es Algorithmen, Text auf einer Webseite zu lesen, seine Bedeutung zu interpretieren und ihn in eine andere Sprache zu übersetzen.

Grammatikkorrektur:

Die NLP-Technik wird häufig von Textverarbeitungsprogrammen wie MS-Word zur Rechtschreibkorrektur und Grammatikprüfung verwendet.

Grammatikkorrektur

Frage beantworten

Geben Sie Schlüsselwörter ein, um Fragen in natürlicher Sprache zu stellen.

Textzusammenfassung

Der Prozess der Zusammenfassung wichtiger Informationen aus einer Quelle, um eine verkürzte Version zu erstellen

Maschinelle Übersetzung

Verwendung von Computeranwendungen zur Übersetzung von Text oder Sprache von einer natürlichen Sprache in eine andere.

Maschinelle Übersetzung

Stimmungsanalyse

NLP hilft Unternehmen dabei, eine große Anzahl von Bewertungen zu einem Produkt zu analysieren. Es ermöglicht den Kunden außerdem, eine Bewertung des jeweiligen Produkts abzugeben.

Zukunft des NLP

  • Die Verarbeitung natürlicher Sprache, die von Menschen gelesen werden kann, ist das größte KI-Problem. Es ist fast dasselbe wie die Lösung des zentralen Problems der künstlichen Intelligenz und die Frage, ob Computer so intelligent wie Menschen werden sollen.
  • Zukünftige Computer oder Maschinen werden mit Hilfe von NLP in der Lage sein, aus den Informationen online zu lernen und diese in der realen Welt anzuwenden, allerdings ist diesbezüglich noch viel Arbeit erforderlich.
  • Das Natural Language Toolkit oder NLTK wird effektiver
  • In Kombination mit der Erzeugung natürlicher Sprache werden Computer besser in der Lage sein, nützliche und einfallsreiche Informationen oder Daten zu empfangen und weiterzugeben.

Natürliche Sprache vs. Computersprache

Nachfolgend sind die Hauptunterschiede zwischen natürlicher Sprache und Computersprache aufgeführt:

Parameter Natürliche Sprache Computer Sprache
Mehrdeutig Sie sind mehrdeutiger Natur. Sie sind auf Eindeutigkeit ausgelegt.
Redundanz Natürliche Sprachen verwenden viel Redundanz. Formale Sprachen sind weniger redundant.
Buchstäblichkeit Natürliche Sprachen bestehen aus Redewendungen und Metaphern Formale Sprachen bedeuten genau das, was sie sagen wollen

Vorteile von NLP

  • Benutzer können Fragen zu jedem Thema stellen und erhalten innerhalb von Sekunden eine direkte Antwort.
  • Das NLP-System liefert Antworten auf die Fragen in natürlicher Sprache
  • Das NLP-System bietet genaue Antworten auf die Fragen, keine unnötigen oder unerwünschten Informationen
  • Die Genauigkeit der Antworten steigt mit der Menge der in der Frage enthaltenen relevanten Informationen.
  • Der NLP-Prozess hilft Computern, mit Menschen in ihrer Sprache zu kommunizieren und andere sprachbezogene Aufgaben zu übernehmen
  • Ermöglicht Ihnen, im Vergleich zu einem Menschen ermüdungsfrei und auf unvoreingenommene und konsistente Weise mehr sprachbasierte Daten auszuführen.
  • Strukturieren einer stark unstrukturierten Datenquelle

Nachteile von NLP

  • Komplexe Abfragesprache – das System ist möglicherweise nicht in der Lage, auf eine schlecht formulierte oder mehrdeutige Frage die richtige Antwort zu geben.
  • Das System ist nur für eine einzige und spezifische Aufgabe konzipiert; Aufgrund eingeschränkter Funktionen ist es nicht in der Lage, sich an neue Domänen und Probleme anzupassen.
  • Das NLP-System verfügt nicht über eine Benutzeroberfläche, der es an Funktionen mangelt, die es Benutzern ermöglichen, weiter mit dem System zu interagieren

Zusammenfassung

  • Die Verarbeitung natürlicher Sprache ist ein Zweig der KI, der Computern hilft, menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren
  • NLP begann, als Alan Turing einen Artikel mit dem Titel „Maschine und Intelligenz“ veröffentlichte.
  • NLP konzentriert sich nie auf die Stimmmodulation; es stützt sich auf kontextuelle Muster
  • Fünf wesentliche Komponenten der Verarbeitung natürlicher Sprache in der künstlichen Intelligenz sind 1) morphologische und lexikalische Analyse, 2) syntaktische Analyse, 3) semantische Analyse, 4) Diskursintegration und 5) pragmatische Analyse
  • Drei Arten des Natural-Process-Schreibsystems sind 1) logografisch, 2) syllabisch und 3) alphabetisch
  • Maschinelles Lernen und statistische Inferenz sind zwei Methoden zur Implementierung des Natural Process Learning
  • Wesentliche Anwendungen von NLP sind Informationsabruf und Websuche, Beantwortung von Fragen zur Grammatikkorrektur, Textzusammenfassung, maschinelle Übersetzung usw.
  • Zukünftige Computer oder Maschinen mit Hilfe von NLP und Daten Wissenschaft wird in der Lage sein, aus den Online-Informationen zu lernen und diese in der realen Welt anzuwenden, allerdings muss diesbezüglich noch viel Arbeit geleistet werden
  • NLP ist mehrdeutig, während Open-Source-Computersprachen auf Eindeutigkeit ausgelegt sind
  • Der größte Vorteil des NLP-Systems für künstliche Intelligenz besteht darin, dass es genaue Antworten auf die Fragen bietet und keine unnötigen oder unerwünschten Informationen enthält
  • Der größte Nachteil des NLP-Systems besteht darin, dass es nur für eine einzelne und spezifische Aufgabe konzipiert ist und sich daher aufgrund eingeschränkter Funktionen nicht an neue Bereiche und Probleme anpassen kann