Vodič za obradu prirodnog jezika: Što je NLP? Primjeri
Što je obrada prirodnog jezika?
Obrada prirodnog jezika (NLP) je grana umjetne inteligencije koja pomaže računalima da razumiju, interpretiraju i manipuliraju ljudskim jezicima poput engleskog ili hindskog kako bi analizirali i izveli njihovo značenje. NLP pomaže programerima da organiziraju i strukturiraju znanje za obavljanje zadataka kao što su prijevod, sažimanje, prepoznavanje imenovanih entiteta, izdvajanje odnosa, prepoznavanje govora, segmentacija teme itd.
Povijest NLP-a
Ovdje su važni događaji u povijesti obrade prirodnog jezika:
1950- NLP je započeo kada je Alan Turing objavio članak pod nazivom "Stroj i inteligencija".
1950- Pokušaji automatiziranja prijevoda između ruskog i engleskog
1960- Rad Chomskog i drugih na teoriji formalnog jezika i generativnoj sintaksi
1990- Probabilistički modeli i modeli temeljeni na podacima postali su prilično standardni
2000- Dostupna je velika količina govornih i tekstualnih podataka
Zatim ćemo u ovom NLP vodiču naučiti kako NLP funkcionira.
Kako NLP funkcionira?
Prije nego što naučimo kako NLP funkcionira, shvatimo kako ljudi koriste jezik-
Svaki dan izgovorimo tisuće riječi koje drugi ljudi tumače kao nebrojene stvari. Mi to smatramo jednostavnom komunikacijom, ali svi znamo da riječi sežu mnogo dublje od toga. Uvijek postoji neki kontekst koji izvodimo iz onoga što govorimo i kako to govorimo., NLP in Umjetna inteligencija nikad se ne fokusira na modulaciju glasa; oslanja se na kontekstualne obrasce.
Primjer:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Ovdje se lako možemo suodnositi jer muškarac je muški, a žena ženski rod. Na isti način, kralj je muški rod, a njegov ženski rod je kraljica.
Primjer:
Is King to kings as the queen is to_______? The answer is--- queens
Ovdje možemo vidjeti dvije riječi kraljevi i kraljevi gdje je jedna jednina, a druga množina. Stoga, kada dođe svjetska kraljica, ona je automatski u korelaciji s kraljicama opet jednina množina.
Ovdje je najveće pitanje kako znamo što riječi znače? Recimo, tko će to zvati kraljicom?
Odgovor je da to učimo kroz iskustvo. Međutim, ovdje je glavno pitanje kako računalo zna za isto?
Moramo osigurati dovoljno podataka kako bi strojevi mogli učiti kroz iskustvo. Možemo hraniti detalje poput
- Njezino Veličanstvo Kraljica.
- Kraljičin govor tijekom državnog posjeta
- Kruna kraljice Elizabete
- Kraljičina majka
- Kraljica je velikodušna.
S gornjim primjerima stroj razumije entitet Queen.
Stroj stvara vektore riječi kao u nastavku. Vektor riječi se gradi pomoću okolnih riječi.
Stroj stvara te vektore
- Kao što uči iz više skupova podataka
- Koristite strojno učenje (npr. algoritme dubokog učenja)
- Vektor riječi se gradi pomoću okolnih riječi.
Evo formule:
Značenje (kralj) – značenje (muškarac) + značenje (žena)=?
To je jednako izvođenju jednostavnih algebarskih operacija na vektorima riječi:
Vektor (kralj) – vektor (muškarac) + vektor (žena)= vektor(?)
Na što stroj odgovara kraljica.
Zatim ćemo u ovom vodiču za obradu prirodnog jezika učiti o komponentama NLP-a.
Komponente NLP-a
Pet glavnih komponenti obrade prirodnog jezika u umjetnoj inteligenciji su:
- Morfološka i leksička analiza
- Sintaktička analiza
- Semantička analiza
- Integracija diskursa
- Pragmatička analiza
Morfološka i leksička analiza
Leksička analiza je vokabular koji uključuje svoje riječi i izraze. Prikazuje analiziranje, prepoznavanje i opisivanje strukture riječi. Uključuje podjelu teksta na odlomke, riječi i rečenice
Pojedinačne riječi analiziraju se u svoje komponente, a neriječni tokeni poput interpunkcijskih znakova odvajaju se od riječi.
Semantička analiza
Semantička analiza je struktura koju stvara sintaktički analizator koji dodjeljuje značenja. Ova komponenta prenosi linearne nizove riječi u strukture. Pokazuje kako su riječi povezane jedna s drugom.
Semantika se fokusira samo na doslovno značenje riječi, fraza i rečenica. Ovo samo apstrahira značenje iz rječnika ili pravo značenje iz danog konteksta. Strukture koje dodjeljuje sintaktički analizator uvijek imaju dodijeljeno značenje
Npr. “bezbojna zelena ideja.” Ovo bi Symantecova analiza odbacila kao bezbojno Ovdje; zeleno nema smisla.
Pragmatička analiza
Pragmatička analiza bavi se ukupnim komunikacijskim i društvenim sadržajem i njegovim učinkom na interpretaciju. To znači apstrahiranje ili izvođenje smislene uporabe jezika u situacijama. U ovoj analizi, glavni fokus uvijek je na onome što je rečeno u reinterpretiranom na ono što se misli.
Pragmatička analiza pomaže korisnicima da otkriju željeni učinak primjenom niza pravila koja karakteriziraju kooperativne dijaloge.
Npr. "zatvoriti prozor?" treba tumačiti kao zahtjev umjesto naredbu.
Analiza sintakse
Riječi su općenito prihvaćene kao najmanje jedinice sintakse. Sintaksa se odnosi na načela i pravila koja upravljaju rečeničnom strukturom svakog pojedinačnog jezika.
Sintaksa se fokusira na pravilan redoslijed riječi što može utjecati na njihovo značenje. To uključuje analizu riječi u rečenici prateći gramatičku strukturu rečenice. Riječi se pretvaraju u strukturu kako bi se pokazalo kako su riječi međusobno povezane.
Integracija diskursa
To znači osjećaj za kontekst. Značenje svake pojedinačne rečenice koje ovisi o tim rečenicama. Također uzima u obzir značenje sljedeće rečenice.
Na primjer, riječ "to" u rečenici "Htio je to" ovisi o prethodnom kontekstu diskursa.
Zatim ćemo u ovom NLP vodiču učiti o NLP-u i sustavima pisanja.
NLP i sustavi pisanja
Vrsta sustava pisanja koji se koristi za jezik jedan je od odlučujućih čimbenika u određivanju najboljeg pristupa pretprocesiranju teksta. Sustavi pisanja mogu biti
- Logografski: veliki broj pojedinačnih simbola predstavlja riječi. Primjer japanski, mandarinski
- Slogovni: Pojedinačni simboli predstavljaju slogove
- Abecedno: Pojedinačni simboli predstavljaju zvuk
Većina sustava pisanja koristi slogovni ili abecedni sustav. Čak i engleski, sa svojim relativno jednostavnim sustavom pisanja temeljenim na latinici, koristi logografske simbole koji uključuju arapske brojeve, simbole valute (S, £) i druge posebne simbole.
Ovo predstavlja sljedeće izazove
- Izdvajanje značenja (semantike) iz teksta je izazov
- NLP u AI ovisi o kvaliteti korpusa. Ako je domena ogromna, teško je razumjeti kontekst.
- Postoji ovisnost o skupu znakova i jeziku
Kako implementirati NLP
U nastavku su navedene popularne metode koje se koriste za prirodni proces učenja:
Strojno učenje: NLP postupci učenja koji se koriste tijekom strojnog učenja. Automatski se fokusira na najčešće slučajeve. Dakle, kada pravila pišemo rukom, ona često uopće nisu točna zbog ljudskih pogrešaka.
Statistički zaključak: NLP može koristiti algoritme statističkog zaključivanja. Pomaže vam u proizvodnji modela koji su robusni. npr. sadrže riječi ili strukture koje su svima poznate.
NLP primjeri
Danas je tehnologija učenja prirodnih procesa naširoko korištena tehnologija.
Ovdje su uobičajene tehnike obrade prirodnog jezika:
Dohvaćanje informacija i pretraživanje weba
Google, Yahoo, Bing i drugi tražilice temelje svoju tehnologiju strojnog prevođenja na NLP modelima dubokog učenja. Algoritmima omogućuje čitanje teksta na web stranici, tumačenje njegovog značenja i prevođenje na drugi jezik.
Gramatički ispravak:
NLP tehnika naširoko se koristi u softveru za obradu teksta kao što je MS-word za ispravljanje pravopisa i provjeru gramatike.
Odgovaranje na pitanje
Upišite ključne riječi da biste postavili pitanja na prirodnom jeziku.
Sažimanje teksta
Proces sažimanja važnih informacija iz izvora kako bi se proizvela skraćena verzija
Strojni prijevod
Korištenje računalnih aplikacija za prevođenje teksta ili govora s jednog prirodnog jezika na drugi.
Analiza sentimenta
NLP pomaže tvrtkama da analiziraju veliki broj recenzija proizvoda. Također omogućuje svojim kupcima da daju recenziju određenog proizvoda.
Budućnost NLP-a
- Čovjeku čitljiva obrada prirodnog jezika najveći je Al- problem. Sve je to gotovo isto kao rješavanje središnjeg problema umjetne inteligencije i stvaranje računala inteligentnima poput ljudi.
- Buduća računala ili strojevi uz pomoć NLP-a moći će učiti iz informacija na internetu i primijeniti ih u stvarnom svijetu, međutim, treba puno raditi na tome.
- Alati prirodnog jezika ili nltk postaju učinkovitiji
- U kombinaciji s generiranjem prirodnog jezika, računala će postati sposobnija primati i davati korisne i snalažljive informacije ili podatke.
Prirodni jezik naspram računalnog jezika
Ispod su glavne razlike između prirodnog jezika i računalnog jezika:
Parametar | Prirodni jezik | Računalni jezik |
---|---|---|
dvosmislen | Oni su dvosmislene prirode. | Osmišljeni su tako da budu nedvosmisleni. |
redundancija | Prirodni jezici koriste mnogo suvišnosti. | Formalni jezici su manje suvišni. |
Doslovnost | Prirodni jezici sastoje se od idioma i metafora | Formalni jezici znače točno ono što žele reći |
Prednosti NLP-a
- Korisnici mogu postavljati pitanja o bilo kojoj temi i dobiti izravan odgovor u roku od nekoliko sekundi.
- NLP sustav daje odgovore na pitanja na prirodnom jeziku
- NLP sustav nudi točne odgovore na postavljena pitanja, bez nepotrebnih i neželjenih informacija
- Točnost odgovora raste s količinom relevantnih informacija navedenih u pitanju.
- NLP proces pomaže računalima da komuniciraju s ljudima na njihovom jeziku i skalira druge zadatke vezane uz jezik
- Omogućuje vam izvođenje više podataka temeljenih na jeziku u usporedbi s ljudskim bićem bez umora i na nepristran i dosljedan način.
- Strukturiranje vrlo nestrukturiranog izvora podataka
Nedostaci NLP-a
- Složeni jezik upita - sustav možda neće moći dati točan odgovor na pitanje koje je loše formulirano ili dvosmisleno.
- Sustav je izgrađen samo za jedan i specifičan zadatak; ne može se prilagoditi novim domenama i problemima zbog ograničenih funkcija.
- NLP sustav nema korisničko sučelje kojem nedostaju značajke koje korisnicima omogućuju daljnju interakciju sa sustavom
Rezime
- Obrada prirodnog jezika grana je umjetne inteligencije koja pomaže računalima da razumiju, interpretiraju i manipuliraju ljudskim jezikom
- NLP je započeo kada je Alan Turing objavio članak pod nazivom “Stroj i inteligencija”.
- NLP se nikada ne fokusira na modulaciju glasa; oslanja se na kontekstualne obrasce
- Pet bitnih komponenti obrade prirodnog jezika u umjetnoj inteligenciji su 1) Morfološka i leksička analiza 2) Sintaktička analiza 3) Semantička analiza 4) Integracija diskursa 5) Pragmatička analiza
- Tri vrste sustava pisanja prirodnog procesa su 1) logografski 2) slogovni 3) abecedni
- Strojno učenje i statističko zaključivanje dvije su metode za implementaciju prirodnog procesnog učenja
- Osnovne primjene NLP-a su pronalaženje informacija i pretraživanje weba, odgovaranje na pitanja za ispravljanje gramatike, sažimanje teksta, strojno prevođenje itd.
- Buduća računala ili strojevi uz pomoć NLP-a i Znanost podatke moći će učiti iz informacija na internetu i primijeniti ih u stvarnom svijetu, međutim, treba puno raditi na tom pitanju
- NLP je dvosmislen dok je računalni jezik otvorenog koda dizajniran za jednoznačnost
- Najveća prednost NLP-a u sustavu umjetne inteligencije je to što nudi točne odgovore na pitanja, bez nepotrebnih i neželjenih informacija.
- Najveći nedostatak NLP sustava izgrađen je samo za jedan i specifičan zadatak, tako da se ne može prilagoditi novim domenama i problemima zbog ograničenih funkcija