Loomuliku keele töötlemise õpetus: mis on NLP? Näited

Mis on loomuliku keele töötlemine?

Loodusliku keele töötlemine (NLP) on AI haru, mis aitab arvutitel mõista, tõlgendada ja manipuleerida inimkeeli, nagu inglise või hindi keel, et analüüsida ja tuletada nende tähendust. NLP aitab arendajatel teadmisi korrastada ja struktureerida, et täita selliseid ülesandeid nagu tõlkimine, kokkuvõtete tegemine, nimega olemi tuvastamine, suhete eraldamine, kõnetuvastus, teemade segmenteerimine jne.

NLP ajalugu

Siin on olulised sündmused loomuliku keele töötlemise ajaloos:

1950- NLP sai alguse, kui Alan Turing avaldas artikli pealkirjaga "Masin ja intelligentsus".

1950- Püüab automatiseerida tõlget vene ja inglise keele vahel

1960- Chomsky ja teiste tööd formaalse keeleteooria ja generatiivse süntaksi kohta

1990- Tõenäosuslikud ja andmepõhised mudelid olid muutunud üsna standardseks

2000- Saadaval on suur hulk kõne- ja tekstiandmeid

Järgmisena selles NLP õpetuses õpime, kuidas NLP töötab.

Kuidas NLP töötab?

Enne kui õpime, kuidas NLP töötab, mõistkem, kuidas inimesed keelt kasutavad.

Iga päev ütleme tuhat sõna, mida teised inimesed tõlgendavad lugematute asjade tegemiseks. Meie peame seda lihtsaks suhtluseks, kuid me kõik teame, et sõnad on palju sügavamad. Alati on mingi kontekst, mille tuletame sellest, mida me ütleme ja kuidas me seda ütleme., NLP sisse Tehisintellekt ei keskendu kunagi hääle modulatsioonile; see tugineb kontekstuaalsetele mustritele.

Näide:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Siin saame hõlpsasti suhelda, sest mees on meessoost ja naine naissoost. Samamoodi on kuningas meessugu ja tema naissugu on kuninganna.

Näide:

Is King to kings as the queen is to_______?
The answer is--- queens 

Siin näeme kahte sõna kuningad ja kuningad, kus üks on ainsuses ja teine ​​mitmuses. Seega, kui maailmakuninganna tuleb, seostub see automaatselt kuningannadega ainsuses mitmuses.

Siin on suurim küsimus, et kuidas me teame, mida sõnad tähendavad? Ütleme, kes nimetab seda kuningannaks?

NLP töö

Vastus on see, et me õpime seda mõtlema läbi kogemuse. Peamine küsimus on aga selles, et kuidas arvuti sama kohta teab?

Peame andma piisavalt andmeid, et masinad saaksid kogemuste kaudu õppida. Saame edastada selliseid üksikasju nagu

  • Tema Majesteet Kuninganna.
  • Kuninganna kõne riigivisiidi ajal
  • Kuninganna Elizabethi kroon
  • Kuningannade ema
  • Kuninganna on helde.

Ülaltoodud näidete puhul mõistab masin üksust Queen.

Masin loob sõnavektorid nagu allpool. Sõnavektor luuakse ümbritsevate sõnade abil.

NLP töö

Masin loob need vektorid

  • Nagu see õpib mitmest andmekogumist
  • Kasutage masinõpet (nt süvaõppe algoritme)
  • Sõnavektor luuakse ümbritsevate sõnade abil.

Siin on valem:

Tähendus (kuningas) – tähendus (mees) + tähendus (naine)=?

See tähendab lihtsate algebraliste toimingute sooritamist sõnavektoritega:

Vektor (kuningas) – vektor (mees) + vektor (naine)= vektor(?)

Millele masin vastab kuninganna.

Järgmisena selles loomuliku keele töötlemise õpetuses õpime tundma NLP komponente.

NLP komponendid

AI loomuliku keele töötlemise viis peamist komponenti on:

  • Morfoloogiline ja leksikaalne analüüs
  • Süntaktiline analüüs
  • Semantiline analüüs
  • Diskursuste integreerimine
  • Pragmaatiline analüüs
NLP komponendid
NLP komponendid

Morfoloogiline ja leksikaalne analüüs

Leksikaalne analüüs on sõnavara, mis sisaldab selle sõnu ja väljendeid. See kujutab sõnade struktuuri analüüsimist, tuvastamist ja kirjeldamist. See hõlmab teksti jagamist lõikudeks, sõnadeks ja lauseteks

Üksikuid sõnu analüüsitakse nende komponentidena ja sõnadest eraldatakse mittesõnalised märgid, näiteks kirjavahemärgid.

Semantiline analüüs

Semantiline analüüs on süntaktilise analüsaatori loodud struktuur, mis määrab tähendused. See komponent kannab lineaarsed sõnade jadad struktuuridesse. See näitab, kuidas sõnad on omavahel seotud.

Semantika keskendub ainult sõnade, fraaside ja lausete otsesele tähendusele. See ainult võtab sõnastiku tähenduse või tegeliku tähenduse antud kontekstist välja. Süntaktilise analüsaatori poolt määratud struktuuridele on alati omistatud tähendus

Nt. "Värvusetu roheline idee." Symanteci analüüs lükkab selle tagasi kui värvitu Siin; rohelisel pole mõtet.

Pragmaatiline analüüs

Pragmaatiline analüüs käsitleb üldist kommunikatiivset ja sotsiaalset sisu ning selle mõju tõlgendusele. See tähendab tähendusliku keelekasutuse abstrakteerimist või tuletamist olukordades. Selles analüüsis keskendutakse alati öeldule ja tõlgendatakse ümber sellele, mida mõeldakse.

Pragmaatiline analüüs aitab kasutajatel seda kavandatud efekti avastada, rakendades koostöödialooge iseloomustavaid reegleid.

Nt "aken kinni?" tuleks tõlgendada kui taotlust, mitte korraldust.

Süntaksi analüüs

Sõnu peetakse tavaliselt süntaksi väikseimateks ühikuteks. Süntaks viitab põhimõtetele ja reeglitele, mis reguleerivad mis tahes üksikute keelte lausestruktuuri.

Süntaks keskendub sõnade õigele järjestusele, mis võib selle tähendust mõjutada. See hõlmab lauses olevate sõnade analüüsimist, järgides lause grammatilist struktuuri. Sõnad muudetakse struktuuriks, et näidata, kuidas sõnad on üksteisega seotud.

Diskursuste integreerimine

See tähendab konteksti tunnetamist. Iga üksiku lause tähendus, mis sõltub nendest lausetest. See võtab arvesse ka järgmise lause tähendust.

Näiteks sõna "see" lauses "Ta tahtis seda" oleneb eelnevast diskursuse kontekstist.

Järgmisena selles NLP õpetuses õpime tundma NLP-d ja kirjutamissüsteeme.

NLP ja kirjutamissüsteemid

Keele jaoks kasutatav kirjutamissüsteem on üks otsustavaid tegureid teksti eeltöötluse parima lähenemisviisi määramisel. Kirjutamissüsteemid võivad olla

  1. Logograafiline: a Suur hulk üksikuid sümboleid esindab sõnu. Näiteks jaapani keel, mandariini keel
  2. Silp: üksikud sümbolid tähistavad silpe
  3. Tähestikuline: üksikud sümbolid tähistavad heli

Enamik kirjutamissüsteeme kasutab silbi või tähestiku süsteemi. Isegi inglise keeles, mille suhteliselt lihtne kirjutamissüsteem põhineb ladina tähestikul, kasutatakse logograafilisi sümboleid, mis hõlmavad araabia numbreid, valuutasümboleid (S, £) ja muid erisümboleid.

See seab järgmised väljakutsed

  • Tekstist tähenduse (semantika) väljavõtmine on väljakutse
  • NLP AI-s sõltub korpuse kvaliteedist. Kui domeen on suur, on kontekstist raske aru saada.
  • Sõltub märgistikust ja keelest

Kuidas NLP-d rakendada

Allpool on toodud loodusliku õppeprotsessi jaoks kasutatavad populaarsed meetodid:

Masinõpe: Masinõppe käigus kasutatavad õppe nlp protseduurid. See keskendub automaatselt kõige tavalisematele juhtumitele. Nii et kui me kirjutame reegleid käsitsi, pole sageli inimlike vigade pärast üldse õige.

Statistiline järeldus: NLP saab kasutada statistiliste järelduste algoritme. See aitab teil toota vastupidavaid mudeleid. nt mis sisaldab sõnu või struktuure, mis on kõigile teada.

NLP näited

Tänapäeval on loodusliku protsessi õppimise tehnoloogia laialdaselt kasutatav tehnoloogia.

Siin on tavalised loomuliku keele töötlemise tehnikad:

Infootsing ja veebiotsing

Google, Yahoo, Bing ja teised otsingumootorid põhinevad oma masintõlketehnoloogial NLP süvaõppe mudelitel. See võimaldab algoritmidel lugeda veebilehel olevat teksti, tõlgendada selle tähendust ja tõlkida teise keelde.

Grammatikaparandus:

NLP-tehnikat kasutab laialdaselt tekstitöötlustarkvara, näiteks MS-word, õigekirja parandamiseks ja grammatika kontrollimiseks.

Grammatikaparandus

Küsimusele vastamine

Sisestage märksõnad, et esitada küsimusi loomulikus keeles.

Teksti kokkuvõte

Olulise teabe allikast kokkuvõtte tegemine lühendatud versiooni saamiseks

Masintõlge

Arvutirakenduste kasutamine teksti või kõne tõlkimiseks ühest loomulikust keelest teise.

Masintõlge

Sentimentide analüüs

NLP aitab ettevõtetel analüüsida suurt hulka arvustusi toote kohta. Samuti võimaldab see nende klientidel anda konkreetse toote kohta ülevaate.

NLP tulevik

  • Inimloetav loomuliku keele töötlemine on suurim Al-probleem. See kõik on sama, mis tehisintellekti keskse probleemi lahendamine ja arvutite muutmine sama intelligentseks kui inimesed.
  • Tulevased arvutid või masinad saavad NLP abil õppida veebipõhisest teabest ja seda reaalses maailmas rakendada, kuid sellega seoses tuleb veel palju tööd teha.
  • Loomuliku keele tööriistakomplekt või nltk muutuvad tõhusamaks
  • Koos loomuliku keele genereerimisega muutuvad arvutid võimekamaks vastu võtma ja andma kasulikku ja leidlikku teavet või andmeid.

Loomulik keel vs arvutikeel

Allpool on toodud peamised erinevused loomuliku keele ja arvutikeele vahel:

Parameeter Loomulik keel Arvuti keel
Mitmetähenduslik Nad on oma olemuselt mitmetähenduslikud. Need on loodud ühemõtteliselt.
Koondatavus Loomulikud keeled kasutavad palju liiasust. Ametlikud keeled on vähem üleliigsed.
Sõnasõnalisus Loomulikud keeled on valmistatud idioomist ja metafoorist Ametlikud keeled tähendavad täpselt seda, mida nad öelda tahavad

NLP eelised

  • Kasutajad saavad esitada küsimusi mis tahes teema kohta ja saada mõne sekundi jooksul otsese vastuse.
  • NLP süsteem annab küsimustele vastused loomulikus keeles
  • NLP süsteem pakub küsimustele täpseid vastuseid, ei mingit tarbetut ega soovimatut infot
  • Vastuste täpsus suureneb koos küsimuses esitatud asjakohase teabe hulgaga.
  • NLP-protsess aitab arvutitel suhelda inimestega nende keeles ja mastaabib muid keelega seotud ülesandeid
  • Võimaldab teil teha rohkem keelepõhiseid andmeid võrreldes inimesega ilma väsimuseta ning erapooletult ja järjepidevalt.
  • Väga struktureerimata andmeallika struktureerimine

NLP miinused

  • Keeruline päringukeel – süsteem ei pruugi anda õiget vastust küsimusele, mis on halvasti sõnastatud või mitmetähenduslik.
  • Süsteem on loodud ainult ühe konkreetse ülesande jaoks; see ei suuda piiratud funktsioonide tõttu uute domeenide ja probleemidega kohaneda.
  • NLP-süsteemil pole kasutajaliidest, millel puuduvad funktsioonid, mis võimaldavad kasutajatel süsteemiga edasi suhelda

kokkuvõte

  • Natural Language Processing on AI haru, mis aitab arvutitel inimkeelt mõista, tõlgendada ja sellega manipuleerida
  • NLP sai alguse siis, kui Alan Turing avaldas artikli “Masin ja intelligentsus”.
  • NLP ei keskendu kunagi hääle modulatsioonile; see tugineb kontekstuaalsetele mustritele
  • Tehisintellekti loomuliku keele töötlemise viis olulist komponenti on 1) morfoloogiline ja leksikaalne analüüs 2) süntaktiline analüüs 3) semantiline analüüs 4) diskursuse integreerimine 5) pragmaatiline analüüs.
  • Loodusliku protsessi kirjutamissüsteemi kolm tüüpi on 1) logograafiline 2) silbiline 3) tähestikuline
  • Masinõpe ja statistiline järeldus on loomuliku protsessi õppimise rakendamise kaks meetodit
  • NLP olulised rakendused on teabeotsing ja veebiotsing, grammatikaparandusküsimustele vastamine, teksti kokkuvõte, masintõlge jne.
  • Tuleviku arvutid või masinad NLP abil ja andmed Science suudab veebis saadavast teabest õppida ja seda reaalses maailmas rakendada, kuid sellega seoses tuleb veel palju tööd teha
  • NLP on mitmetähenduslik, samas kui avatud lähtekoodiga arvutikeel on loodud üheselt mõistetavaks
  • Tehisintellekti süsteemi NLP suurim eelis on see, et see pakub täpseid vastuseid küsimustele, ei sisalda tarbetut või soovimatut teavet
  • NLP-süsteemi suurim puudus on loodud ainult ühe ja konkreetse ülesande jaoks, nii et see ei suuda piiratud funktsioonide tõttu uute domeenide ja probleemidega kohaneda