Loomuliku keele töötlemise õpetus: mis on NLP? Näited
Mis on loomuliku keele töötlemine?
Loodusliku keele töötlemine (NLP) on AI haru, mis aitab arvutitel mõista, tõlgendada ja manipuleerida inimkeeli, nagu inglise või hindi keel, et analüüsida ja tuletada nende tähendust. NLP aitab arendajatel teadmisi korrastada ja struktureerida, et täita selliseid ülesandeid nagu tõlkimine, kokkuvõtete tegemine, nimega olemi tuvastamine, suhete eraldamine, kõnetuvastus, teemade segmenteerimine jne.
NLP ajalugu
Siin on olulised sündmused loomuliku keele töötlemise ajaloos:
1950- NLP sai alguse, kui Alan Turing avaldas artikli pealkirjaga "Masin ja intelligentsus".
1950- Püüab automatiseerida tõlget vene ja inglise keele vahel
1960- Chomsky ja teiste tööd formaalse keeleteooria ja generatiivse süntaksi kohta
1990- Tõenäosuslikud ja andmepõhised mudelid olid muutunud üsna standardseks
2000- Saadaval on suur hulk kõne- ja tekstiandmeid
Järgmisena selles NLP õpetuses õpime, kuidas NLP töötab.
Kuidas NLP töötab?
Enne kui õpime, kuidas NLP töötab, mõistkem, kuidas inimesed keelt kasutavad.
Iga päev ütleme tuhat sõna, mida teised inimesed tõlgendavad lugematute asjade tegemiseks. Meie peame seda lihtsaks suhtluseks, kuid me kõik teame, et sõnad on palju sügavamad. Alati on mingi kontekst, mille tuletame sellest, mida me ütleme ja kuidas me seda ütleme., NLP sisse Tehisintellekt ei keskendu kunagi hääle modulatsioonile; see tugineb kontekstuaalsetele mustritele.
Näide:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Siin saame hõlpsasti suhelda, sest mees on meessoost ja naine naissoost. Samamoodi on kuningas meessugu ja tema naissugu on kuninganna.
Näide:
Is King to kings as the queen is to_______? The answer is--- queens
Siin näeme kahte sõna kuningad ja kuningad, kus üks on ainsuses ja teine mitmuses. Seega, kui maailmakuninganna tuleb, seostub see automaatselt kuningannadega ainsuses mitmuses.
Siin on suurim küsimus, et kuidas me teame, mida sõnad tähendavad? Ütleme, kes nimetab seda kuningannaks?
Vastus on see, et me õpime seda mõtlema läbi kogemuse. Peamine küsimus on aga selles, et kuidas arvuti sama kohta teab?
Peame andma piisavalt andmeid, et masinad saaksid kogemuste kaudu õppida. Saame edastada selliseid üksikasju nagu
- Tema Majesteet Kuninganna.
- Kuninganna kõne riigivisiidi ajal
- Kuninganna Elizabethi kroon
- Kuningannade ema
- Kuninganna on helde.
Ülaltoodud näidete puhul mõistab masin üksust Queen.
Masin loob sõnavektorid nagu allpool. Sõnavektor luuakse ümbritsevate sõnade abil.
Masin loob need vektorid
- Nagu see õpib mitmest andmekogumist
- Kasutage masinõpet (nt süvaõppe algoritme)
- Sõnavektor luuakse ümbritsevate sõnade abil.
Siin on valem:
Tähendus (kuningas) – tähendus (mees) + tähendus (naine)=?
See tähendab lihtsate algebraliste toimingute sooritamist sõnavektoritega:
Vektor (kuningas) – vektor (mees) + vektor (naine)= vektor(?)
Millele masin vastab kuninganna.
Järgmisena selles loomuliku keele töötlemise õpetuses õpime tundma NLP komponente.
NLP komponendid
AI loomuliku keele töötlemise viis peamist komponenti on:
- Morfoloogiline ja leksikaalne analüüs
- Süntaktiline analüüs
- Semantiline analüüs
- Diskursuste integreerimine
- Pragmaatiline analüüs
Morfoloogiline ja leksikaalne analüüs
Leksikaalne analüüs on sõnavara, mis sisaldab selle sõnu ja väljendeid. See kujutab sõnade struktuuri analüüsimist, tuvastamist ja kirjeldamist. See hõlmab teksti jagamist lõikudeks, sõnadeks ja lauseteks
Üksikuid sõnu analüüsitakse nende komponentidena ja sõnadest eraldatakse mittesõnalised märgid, näiteks kirjavahemärgid.
Semantiline analüüs
Semantiline analüüs on süntaktilise analüsaatori loodud struktuur, mis määrab tähendused. See komponent kannab lineaarsed sõnade jadad struktuuridesse. See näitab, kuidas sõnad on omavahel seotud.
Semantika keskendub ainult sõnade, fraaside ja lausete otsesele tähendusele. See ainult võtab sõnastiku tähenduse või tegeliku tähenduse antud kontekstist välja. Süntaktilise analüsaatori poolt määratud struktuuridele on alati omistatud tähendus
Nt. "Värvusetu roheline idee." Symanteci analüüs lükkab selle tagasi kui värvitu Siin; rohelisel pole mõtet.
Pragmaatiline analüüs
Pragmaatiline analüüs käsitleb üldist kommunikatiivset ja sotsiaalset sisu ning selle mõju tõlgendusele. See tähendab tähendusliku keelekasutuse abstrakteerimist või tuletamist olukordades. Selles analüüsis keskendutakse alati öeldule ja tõlgendatakse ümber sellele, mida mõeldakse.
Pragmaatiline analüüs aitab kasutajatel seda kavandatud efekti avastada, rakendades koostöödialooge iseloomustavaid reegleid.
Nt "aken kinni?" tuleks tõlgendada kui taotlust, mitte korraldust.
Süntaksi analüüs
Sõnu peetakse tavaliselt süntaksi väikseimateks ühikuteks. Süntaks viitab põhimõtetele ja reeglitele, mis reguleerivad mis tahes üksikute keelte lausestruktuuri.
Süntaks keskendub sõnade õigele järjestusele, mis võib selle tähendust mõjutada. See hõlmab lauses olevate sõnade analüüsimist, järgides lause grammatilist struktuuri. Sõnad muudetakse struktuuriks, et näidata, kuidas sõnad on üksteisega seotud.
Diskursuste integreerimine
See tähendab konteksti tunnetamist. Iga üksiku lause tähendus, mis sõltub nendest lausetest. See võtab arvesse ka järgmise lause tähendust.
Näiteks sõna "see" lauses "Ta tahtis seda" oleneb eelnevast diskursuse kontekstist.
Järgmisena selles NLP õpetuses õpime tundma NLP-d ja kirjutamissüsteeme.
NLP ja kirjutamissüsteemid
Keele jaoks kasutatav kirjutamissüsteem on üks otsustavaid tegureid teksti eeltöötluse parima lähenemisviisi määramisel. Kirjutamissüsteemid võivad olla
- Logograafiline: a Suur hulk üksikuid sümboleid esindab sõnu. Näiteks jaapani keel, mandariini keel
- Silp: üksikud sümbolid tähistavad silpe
- Tähestikuline: üksikud sümbolid tähistavad heli
Enamik kirjutamissüsteeme kasutab silbi või tähestiku süsteemi. Isegi inglise keeles, mille suhteliselt lihtne kirjutamissüsteem põhineb ladina tähestikul, kasutatakse logograafilisi sümboleid, mis hõlmavad araabia numbreid, valuutasümboleid (S, £) ja muid erisümboleid.
See seab järgmised väljakutsed
- Tekstist tähenduse (semantika) väljavõtmine on väljakutse
- NLP AI-s sõltub korpuse kvaliteedist. Kui domeen on suur, on kontekstist raske aru saada.
- Sõltub märgistikust ja keelest
Kuidas NLP-d rakendada
Allpool on toodud loodusliku õppeprotsessi jaoks kasutatavad populaarsed meetodid:
Masinõpe: Masinõppe käigus kasutatavad õppe nlp protseduurid. See keskendub automaatselt kõige tavalisematele juhtumitele. Nii et kui me kirjutame reegleid käsitsi, pole sageli inimlike vigade pärast üldse õige.
Statistiline järeldus: NLP saab kasutada statistiliste järelduste algoritme. See aitab teil toota vastupidavaid mudeleid. nt mis sisaldab sõnu või struktuure, mis on kõigile teada.
NLP näited
Tänapäeval on loodusliku protsessi õppimise tehnoloogia laialdaselt kasutatav tehnoloogia.
Siin on tavalised loomuliku keele töötlemise tehnikad:
Infootsing ja veebiotsing
Google, Yahoo, Bing ja teised otsingumootorid põhinevad oma masintõlketehnoloogial NLP süvaõppe mudelitel. See võimaldab algoritmidel lugeda veebilehel olevat teksti, tõlgendada selle tähendust ja tõlkida teise keelde.
Grammatikaparandus:
NLP-tehnikat kasutab laialdaselt tekstitöötlustarkvara, näiteks MS-word, õigekirja parandamiseks ja grammatika kontrollimiseks.
Küsimusele vastamine
Sisestage märksõnad, et esitada küsimusi loomulikus keeles.
Teksti kokkuvõte
Olulise teabe allikast kokkuvõtte tegemine lühendatud versiooni saamiseks
Masintõlge
Arvutirakenduste kasutamine teksti või kõne tõlkimiseks ühest loomulikust keelest teise.
Sentimentide analüüs
NLP aitab ettevõtetel analüüsida suurt hulka arvustusi toote kohta. Samuti võimaldab see nende klientidel anda konkreetse toote kohta ülevaate.
NLP tulevik
- Inimloetav loomuliku keele töötlemine on suurim Al-probleem. See kõik on sama, mis tehisintellekti keskse probleemi lahendamine ja arvutite muutmine sama intelligentseks kui inimesed.
- Tulevased arvutid või masinad saavad NLP abil õppida veebipõhisest teabest ja seda reaalses maailmas rakendada, kuid sellega seoses tuleb veel palju tööd teha.
- Loomuliku keele tööriistakomplekt või nltk muutuvad tõhusamaks
- Koos loomuliku keele genereerimisega muutuvad arvutid võimekamaks vastu võtma ja andma kasulikku ja leidlikku teavet või andmeid.
Loomulik keel vs arvutikeel
Allpool on toodud peamised erinevused loomuliku keele ja arvutikeele vahel:
Parameeter | Loomulik keel | Arvuti keel |
---|---|---|
Mitmetähenduslik | Nad on oma olemuselt mitmetähenduslikud. | Need on loodud ühemõtteliselt. |
Koondatavus | Loomulikud keeled kasutavad palju liiasust. | Ametlikud keeled on vähem üleliigsed. |
Sõnasõnalisus | Loomulikud keeled on valmistatud idioomist ja metafoorist | Ametlikud keeled tähendavad täpselt seda, mida nad öelda tahavad |
NLP eelised
- Kasutajad saavad esitada küsimusi mis tahes teema kohta ja saada mõne sekundi jooksul otsese vastuse.
- NLP süsteem annab küsimustele vastused loomulikus keeles
- NLP süsteem pakub küsimustele täpseid vastuseid, ei mingit tarbetut ega soovimatut infot
- Vastuste täpsus suureneb koos küsimuses esitatud asjakohase teabe hulgaga.
- NLP-protsess aitab arvutitel suhelda inimestega nende keeles ja mastaabib muid keelega seotud ülesandeid
- Võimaldab teil teha rohkem keelepõhiseid andmeid võrreldes inimesega ilma väsimuseta ning erapooletult ja järjepidevalt.
- Väga struktureerimata andmeallika struktureerimine
NLP miinused
- Keeruline päringukeel – süsteem ei pruugi anda õiget vastust küsimusele, mis on halvasti sõnastatud või mitmetähenduslik.
- Süsteem on loodud ainult ühe konkreetse ülesande jaoks; see ei suuda piiratud funktsioonide tõttu uute domeenide ja probleemidega kohaneda.
- NLP-süsteemil pole kasutajaliidest, millel puuduvad funktsioonid, mis võimaldavad kasutajatel süsteemiga edasi suhelda
kokkuvõte
- Natural Language Processing on AI haru, mis aitab arvutitel inimkeelt mõista, tõlgendada ja sellega manipuleerida
- NLP sai alguse siis, kui Alan Turing avaldas artikli “Masin ja intelligentsus”.
- NLP ei keskendu kunagi hääle modulatsioonile; see tugineb kontekstuaalsetele mustritele
- Tehisintellekti loomuliku keele töötlemise viis olulist komponenti on 1) morfoloogiline ja leksikaalne analüüs 2) süntaktiline analüüs 3) semantiline analüüs 4) diskursuse integreerimine 5) pragmaatiline analüüs.
- Loodusliku protsessi kirjutamissüsteemi kolm tüüpi on 1) logograafiline 2) silbiline 3) tähestikuline
- Masinõpe ja statistiline järeldus on loomuliku protsessi õppimise rakendamise kaks meetodit
- NLP olulised rakendused on teabeotsing ja veebiotsing, grammatikaparandusküsimustele vastamine, teksti kokkuvõte, masintõlge jne.
- Tuleviku arvutid või masinad NLP abil ja andmed Science suudab veebis saadavast teabest õppida ja seda reaalses maailmas rakendada, kuid sellega seoses tuleb veel palju tööd teha
- NLP on mitmetähenduslik, samas kui avatud lähtekoodiga arvutikeel on loodud üheselt mõistetavaks
- Tehisintellekti süsteemi NLP suurim eelis on see, et see pakub täpseid vastuseid küsimustele, ei sisalda tarbetut või soovimatut teavet
- NLP-süsteemi suurim puudus on loodud ainult ühe ja konkreetse ülesande jaoks, nii et see ei suuda piiratud funktsioonide tõttu uute domeenide ja probleemidega kohaneda