Tutorial de procesare a limbajului natural: Ce este NLP? Exemple

Ce este procesarea limbajului natural?

Procesarea limbajului natural (NLP) este o ramură a inteligenței artificiale care ajută computerele să înțeleagă, să interpreteze și să manipuleze limbi umane precum engleza sau hindi pentru a analiza și a obține semnificația acesteia. NLP îi ajută pe dezvoltatori să organizeze și să structureze cunoștințele pentru a efectua sarcini precum traducerea, rezumarea, recunoașterea entităților numite, extragerea relațiilor, recunoașterea vorbirii, segmentarea subiectelor etc.

Istoria NLP

Iată evenimente importante din istoria procesării limbajului natural:

1950- NLP a început când Alan Turing a publicat un articol numit „Mașină și inteligență”.

1950- Încercările de a automatiza traducerea între rusă și engleză

1960- Lucrările lui Chomsky și alții despre teoria limbajului formal și sintaxa generativă

1990- Modelele probabilistice și bazate pe date deveniseră destul de standard

2000- O cantitate mare de date vorbite și textuale devin disponibile

În continuare, în acest tutorial NLP, vom afla cum funcționează NLP.

Cum funcționează NLP?

Înainte de a afla cum funcționează NLP, să înțelegem cum oamenii folosesc limbajul.

În fiecare zi, spunem o mie de cuvinte pe care alți oameni le interpretează pentru a face nenumărate lucruri. Noi, o considerăm o simplă comunicare, dar știm cu toții că cuvintele sunt mult mai adânci decât atât. Există întotdeauna un anumit context pe care îl derivăm din ceea ce spunem și cum îl spunem., NLP în Inteligența artificială nu se concentrează niciodată pe modularea vocii; se bazează pe modele contextuale.

Exemplu:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Aici, ne putem corelați cu ușurință deoarece bărbatul este genul masculin și femeia este genul feminin. În același mod, regele este genul masculin, iar genul său feminin este regina.

Exemplu:

Is King to kings as the queen is to_______?
The answer is--- queens 

Aici, putem vedea două cuvinte regi și regi, unde unul este singular și celălalt este plural. Prin urmare, când vine regina lumii, ea se corelează automat cu reginele din nou la singular plural.

Aici, cea mai mare întrebare este că de unde știm ce înseamnă cuvintele? Să spunem cine îi va numi regina?

Munca NLP

Răspunsul este că învățăm că acest gândește prin experiență. Cu toate acestea, aici întrebarea principală este că cum computerul știe despre același lucru?

Trebuie să oferim suficiente date pentru ca Mașinile să învețe prin experiență. Putem furniza detalii precum

  • Majestatea Sa Regina.
  • Discursul Reginei în timpul vizitei de stat
  • Coroana Reginei Elisabeta
  • Mama Reginei
  • Regina este generoasă.

Cu exemplele de mai sus, mașina înțelege entitatea Queen.

Mașina creează vectori de cuvinte ca mai jos. Un vector de cuvinte este construit folosind cuvintele din jur.

Munca NLP

Mașina creează acești vectori

  • Pe măsură ce învață din mai multe seturi de date
  • Utilizați învățarea automată (de exemplu, algoritmi de învățare profundă)
  • Un vector de cuvinte este construit folosind cuvintele din jur.

Iată formula:

Sensul (rege) – sensul (bărbatul) + sensul (femeia)=?

Aceasta înseamnă efectuarea de operații algebrice simple pe vectori de cuvinte:

Vector (rege) – vector (barbat) + vector (femeie)= vector(?)

La care aparatul răspunde reginei.

În continuare, în acest tutorial de procesare a limbajului natural, vom afla despre Componentele NLP.

Componentele NLP

Cinci componente principale ale procesării limbajului natural în AI sunt:

  • Analiza morfologică și lexicală
  • Analiza Sintactică
  • Analiza semantică
  • Integrarea discursului
  • Analiza pragmatică
Componentele NLP
Componentele NLP

Analiza morfologică și lexicală

Analiza lexicală este un vocabular care include cuvintele și expresiile sale. Acesta descrie analiza, identificarea și descrierea structurii cuvintelor. Include împărțirea unui text în paragrafe, cuvinte și propoziții

Cuvintele individuale sunt analizate în componentele lor, iar simbolurile non-cuvinte, cum ar fi semnele de punctuație, sunt separate de cuvinte.

Analiza semantică

Analiza semantică este o structură creată de analizatorul sintactic care atribuie semnificații. Această componentă transferă secvențe liniare de cuvinte în structuri. Acesta arată cum cuvintele sunt asociate între ele.

Semantica se concentrează doar pe sensul literal al cuvintelor, frazelor și propozițiilor. Aceasta face abstracție doar a sensului dicționarului sau a sensului real din contextul dat. Structurile atribuite de analizatorul sintactic au întotdeauna un sens atribuit

De exemplu. „idee verde incoloră”. Acest lucru ar fi respins de analiza Symantec ca incolor aici; verdele nu are niciun sens.

Analiza pragmatică

Analiza pragmatică se ocupă de conținutul comunicativ și social general și de efectul acestuia asupra interpretării. Înseamnă abstracția sau derivarea utilizării semnificative a limbajului în situații. În această analiză, accentul principal este întotdeauna pus pe ceea ce s-a spus în reinterpretarea a ceea ce înseamnă.

Analiza pragmatică ajută utilizatorii să descopere acest efect dorit prin aplicarea unui set de reguli care caracterizează dialogurile de cooperare.

De exemplu, „închideți fereastra?” ar trebui interpretat ca o cerere în loc de un ordin.

Analiza sintaxei

Cuvintele sunt acceptate în mod obișnuit ca fiind cele mai mici unități de sintaxă. Sintaxa se referă la principiile și regulile care guvernează structura propoziției oricărei limbi individuale.

Sintaxă se concentrează asupra ordonării corecte a cuvintelor care îi poate afecta sensul. Aceasta implică analiza cuvintelor dintr-o propoziție urmând structura gramaticală a propoziției. Cuvintele sunt transformate în structură pentru a arăta cum sunt legate între ele cuvintele.

Integrarea discursului

Înseamnă un simț al contextului. Sensul oricărei propoziții individuale care depinde de acele propoziții. De asemenea, are în vedere sensul următoarei propoziții.

De exemplu, cuvântul „acea” din propoziția „El a vrut asta” depinde de contextul discursului anterior.

În continuare, în acest tutorial NLP, vom afla despre NLP și sistemele de scriere.

NLP și sisteme de scriere

Tipul de sistem de scriere utilizat pentru o limbă este unul dintre factorii decisivi în determinarea celei mai bune abordări pentru preprocesarea textului. Sistemele de scriere pot fi

  1. Logografic: un număr mare de simboluri individuale reprezintă cuvinte. Exemplu japoneză, mandarină
  2. Silabică: simbolurile individuale reprezintă silabe
  3. Alfabetic: simbolurile individuale reprezintă sunetul

Majoritatea sistemelor de scriere folosesc sistemul silabic sau alfabetic. Chiar și engleza, cu sistemul său de scriere relativ simplu bazat pe alfabetul roman, utilizează simboluri logografice care includ cifre arabe, simboluri valutare (S, £) și alte simboluri speciale.

Acest lucru ridică următoarele provocări

  • Extragerea sensului (semanticii) dintr-un text este o provocare
  • NLP în IA depinde de calitatea corpusului. Dacă domeniul este vast, este dificil de înțeles contextul.
  • Există o dependență de setul de caractere și de limbă

Cum se implementează NLP

Mai jos, sunt prezentate metode populare utilizate pentru procesul natural de învățare:

Învățare automată: Procedurile de învățare nlp utilizate în timpul învățării automate. Se concentrează automat pe cele mai frecvente cazuri. Deci, atunci când scriem reguli de mână, adesea nu este deloc corect preocupat de erorile umane.

Inferență statistică: NLP poate folosi algoritmi de inferență statistică. Vă ajută să produceți modele care sunt robuste. de exemplu, care conțin cuvinte sau structuri care sunt cunoscute de toată lumea.

Exemple de NLP

Astăzi, tehnologia de învățare a proceselor naturale este o tehnologie utilizată pe scară largă.

Iată tehnici comune de procesare a limbajului natural:

Găsirea informațiilor și căutarea pe Web

Google, Yahoo, Bing și altele motoarele de căutare își bazează tehnologia de traducere automată pe modele de învățare profundă NLP. Permite algoritmilor să citească text pe o pagină web, să interpreteze semnificația acestuia și să îl traducă într-o altă limbă.

Corecție gramaticală:

Tehnica NLP este utilizată pe scară largă de software-ul de procesare de text precum MS-word pentru corectarea ortografică și verificarea gramaticală.

Corecție Gramaticală

Răspuns la întrebare

Introduceți cuvinte cheie pentru a pune întrebări în limbaj natural.

Rezumarea textului

Procesul de rezumare a informațiilor importante dintr-o sursă pentru a produce o versiune prescurtată

Traducere automată

Utilizarea aplicațiilor computerizate pentru a traduce text sau vorbire dintr-o limbă naturală în alta.

Traducere automată

Analiza sentimentelor

NLP ajută companiile să analizeze un număr mare de recenzii asupra unui produs. De asemenea, le permite clienților lor să ofere o recenzie a unui anumit produs.

Viitorul NLP-ului

  • Procesarea limbajului natural care poate fi citită de om este cea mai mare problemă a Al-. Este aproape la fel ca rezolvarea problemei centrale a inteligenței artificiale și realizarea computerelor la fel de inteligente ca oamenii.
  • Viitoarele computere sau mașini cu ajutorul NLP vor putea să învețe din informațiile online și să le aplice în lumea reală, totuși, este nevoie de multă muncă în acest sens.
  • Setul de instrumente pentru limbajul natural sau nltk devin mai eficiente
  • În combinație cu generarea limbajului natural, computerele vor deveni mai capabile să primească și să ofere informații sau date utile și pline de resurse.

Limbajul natural versus limbajul computerului

Mai jos sunt principalele diferențe dintre limbajul natural și limbajul computerizat:

Parametru Limbajul natural Limbajul computerului
Ambiguu Sunt ambigue în natură. Ele sunt concepute pentru a fi fără ambiguitate.
Redundanţă Limbile naturale folosesc o mulțime de redundanță. Limbile formale sunt mai puțin redundante.
Literalitate Limbile naturale sunt făcute din idiom și metaforă Limbile formale înseamnă exact ceea ce vor să spună

Avantajele NLP

  • Utilizatorii pot pune întrebări despre orice subiect și pot obține un răspuns direct în câteva secunde.
  • Sistemul NLP oferă răspunsuri la întrebări în limbaj natural
  • Sistemul NLP oferă răspunsuri exacte la întrebări, fără informații inutile sau nedorite
  • Acuratețea răspunsurilor crește odată cu cantitatea de informații relevante furnizate în întrebare.
  • Procesul NLP ajută computerele să comunice cu oamenii în limba lor și scala alte sarcini legate de limbaj
  • Vă permite să efectuați mai multe date bazate pe limbaj în comparație cu o ființă umană fără oboseală și într-un mod imparțial și consecvent.
  • Structurarea unei surse de date foarte nestructurate

Dezavantajele NLP

  • Limbajul de interogare complex - este posibil ca sistemul să nu poată oferi răspunsul corect la întrebarea care este prost formulată sau ambiguă.
  • Sistemul este construit pentru o singură sarcină specifică; nu se poate adapta la noi domenii și probleme din cauza funcțiilor limitate.
  • Sistemul NLP nu are o interfață cu utilizatorul care nu are caracteristici care să permită utilizatorilor să interacționeze în continuare cu sistemul

Rezumat

  • Procesarea limbajului natural este o ramură a AI care ajută computerele să înțeleagă, să interpreteze și să manipuleze limbajul uman
  • NLP a început când Alan Turing a publicat un articol numit „Mașină și inteligență”.
  • NLP nu se concentrează niciodată pe modularea vocii; se bazează pe modele contextuale
  • Cinci componente esențiale ale procesării limbajului natural în inteligența artificială sunt: ​​1) Analiza morfologică și lexicală 2) Analiza sintactică 3) Analiza semantică 4) Integrarea discursului 5) Analiza pragmatică
  • Trei tipuri de sistem de scriere proces natural sunt 1) Logografic 2) Silabic 3) Alfabetic
  • Învățarea automată și inferența statistică sunt două metode de implementare a învățării proceselor naturale
  • Aplicațiile esențiale ale NLP sunt regăsirea informațiilor și căutarea pe web, răspunsul la întrebări de corecție gramaticală, rezumarea textului, traducerea automată etc.
  • Viitoarele computere sau mașini cu ajutorul NLP și Știința datelor va putea să învețe din informațiile online și să le aplice în lumea reală, totuși, este nevoie de multă muncă în acest sens
  • NLP este ambiguu, în timp ce limbajul de calculator open source este proiectat să fie lipsit de ambiguitate
  • Cel mai mare avantaj al NLP în sistemul de inteligență artificială este că oferă răspunsuri exacte la întrebări, fără informații inutile sau nedorite.
  • Cel mai mare dezavantaj al sistemului NLP este construit pentru o singură sarcină specifică, astfel încât nu se poate adapta la noi domenii și probleme din cauza funcțiilor limitate