Természetes nyelvi feldolgozás oktatóanyaga: Mi az NLP? Példák

Mi az a természetes nyelvi feldolgozás?

Természetes nyelvi feldolgozás (NLP) A mesterséges intelligencia egyik ága, amely segít a számítógépeknek megérteni, értelmezni és kezelni az olyan emberi nyelveket, mint az angol vagy a hindi, hogy elemezze és kifejtse jelentését. Az NLP segít a fejlesztőknek a tudás rendszerezésében és strukturálásában olyan feladatok elvégzéséhez, mint a fordítás, összegzés, elnevezett entitás felismerés, kapcsolat kivonás, beszédfelismerés, témaszegmentálás stb.

Az NLP története

Íme, fontos események a természetes nyelvi feldolgozás történetében:

1950- Az NLP akkor kezdődött, amikor Alan Turing közzétett egy cikket „Machine and Intelligence” címmel.

1950- Megpróbálja automatizálni az orosz és angol közötti fordítást

1960- Chomsky és mások munkája a formális nyelvelméletről és a generatív szintaxisról

1990- A valószínűségi és adatvezérelt modellek meglehetősen szabványossá váltak

2000- Nagy mennyiségű szóbeli és szöveges adat válik elérhetővé

Ebben az NLP oktatóanyagban a következő lépésben megtudjuk, hogyan működik az NLP.

Hogyan működik az NLP?

Mielőtt megismernénk az NLP működését, értsük meg, hogyan használják az emberek a nyelvet.

Minden nap ezer szót mondunk, amit mások úgy értelmeznek, hogy számtalan dolgot csinálnak. Mi egyszerű kommunikációnak tekintjük, de mindannyian tudjuk, hogy a szavak ennél sokkal mélyebbek. Mindig van valamilyen kontextus, amelyet abból merítünk, amit mondunk és ahogyan mondjuk., az NLP Mesterséges Intelligencia soha nem a hangmodulációra összpontosít; valóban kontextuális mintákra támaszkodik.

Példa:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Itt könnyen összetartozhatunk, mert a férfi férfi nem, a nő pedig női nem. Ugyanígy a király férfi nem, női neme pedig királynő.

Példa:

Is King to kings as the queen is to_______?
The answer is--- queens 

Itt két szót láthatunk: királyok és királyok, ahol az egyik egyes szám, a másik pedig többes szám. Ezért, amikor eljön a világkirálynő, automatikusan együtt viszonyul a királynők ismételt egyes számú többes számához.

Itt a legnagyobb kérdés az, hogy honnan tudjuk, mit jelentenek a szavak? Mondjuk, ki fogja királynőnek nevezni?

NLP munka

A válasz az, hogy ezt tapasztalatból tanuljuk meg. Azonban itt a fő kérdés az, hogy a számítógép honnan tudja ugyanezt?

Elegendő adatot kell biztosítanunk ahhoz, hogy a Machines tapasztalatokon keresztül tanulhasson. Tudjuk táplálni részleteket, mint pl

  • Őfelsége a királynő.
  • A királynő beszéde az állami látogatás során
  • Erzsébet királynő koronája
  • A királynék anyja
  • A királynő nagylelkű.

A fenti példákkal a gép megérti a Queen entitást.

A gép szóvektorokat hoz létre az alábbiak szerint. A környező szavak felhasználásával szóvektor épül fel.

NLP munka

A gép létrehozza ezeket a vektorokat

  • Ahogy több adathalmazból tanul
  • Gépi tanulás (pl. mély tanulási algoritmusok) használata
  • A környező szavak felhasználásával szóvektor épül fel.

Itt van a képlet:

Jelentése (király) – jelentése (férfi) + jelentése (nő)=?

Ez egyszerű algebrai műveletek végrehajtását jelenti szóvektorokon:

Vektor (király) – vektor (férfi) + vektor (nő)= vektor(?)

Amire a gép válaszol királynő.

Ebben a természetes nyelvi feldolgozási oktatóanyagban ezután az NLP összetevőiről fogunk tanulni.

Az NLP összetevői

A természetes nyelv feldolgozásának öt fő összetevője az AI-ban:

  • Morfológiai és Lexikai elemzés
  • Szintaktikai elemzés
  • Szemantikai elemzés
  • Diszkurzusintegráció
  • Pragmatikai elemzés
Az NLP összetevői
Az NLP összetevői

Morfológiai és Lexikai elemzés

A lexikális elemzés egy szókincs, amely tartalmazza annak szavait és kifejezéseit. A szavak szerkezetének elemzését, azonosítását és leírását ábrázolja. Ez magában foglalja a szöveg felosztását bekezdésekre, szavakra és mondatokra

Az egyes szavakat a rendszer elemeikre bontja, és a nem szójeleket, például az írásjeleket elválasztja a szavaktól.

Szemantikai elemzés

A szemantikai elemzés a szintaktikai elemző által létrehozott struktúra, amely jelentéseket rendel hozzá. Ez a komponens a szavak lineáris sorozatait struktúrákba viszi át. Megmutatja, hogy a szavak hogyan kapcsolódnak egymáshoz.

A szemantika csak a szavak, kifejezések és mondatok szó szerinti jelentésére összpontosít. Ez csak a szótári jelentést vagy a valódi jelentést vonja ki az adott kontextusból. A szintaktikai elemző által hozzárendelt struktúráknak mindig van hozzárendelt jelentése

Például. "színtelen zöld ötlet." Ezt a Symantec elemzése színtelen Here-ként utasítja el; a zöldnek semmi értelme.

Pragmatikai elemzés

A Pragmatic Analysis az átfogó kommunikációs és társadalmi tartalommal és annak értelmezésre gyakorolt ​​hatásával foglalkozik. A nyelv értelmes használatának elvonatkoztatását vagy levezetését jelenti helyzetekben. Ebben az elemzésben a fő hangsúlyt mindig az elhangzottakra helyezzük, és újraértelmezzük azt, amit értenek.

A pragmatikus elemzés segít a felhasználóknak felfedezni ezt a szándékolt hatást azáltal, hogy alkalmazza a kooperatív párbeszédeket jellemző szabályokat.

Pl. „csukja be az ablakot?” parancs helyett kérésként kell értelmezni.

Szintaxis elemzés

A szavakat általában a szintaxis legkisebb egységeinek tekintik. A szintaxis azokra az elvekre és szabályokra utal, amelyek az egyes nyelvek mondatszerkezetét szabályozzák.

A szintaxis a szavak megfelelő sorrendjére összpontosít, ami befolyásolhatja a jelentését. Ez magában foglalja a mondatban szereplő szavak elemzését a mondat nyelvtani szerkezetének követésével. A szavak a szerkezetté alakulnak, hogy megmutassák, hogyan kapcsolódnak egymáshoz a szavak.

Diszkurzusintegráció

A kontextus érzékelését jelenti. Bármely olyan mondat jelentése, amely ezektől a mondatoktól függ. Figyelembe veszi a következő mondat jelentését is.

Például az „azt akarta” mondatban szereplő „az” szó az előző diskurzus kontextusától függ.

Az NLP oktatóanyag következő részében az NLP-ről és az írásrendszerekről fogunk tanulni.

NLP és írásrendszerek

A nyelvhez használt írásrendszer típusa az egyik döntő tényező a szöveg-előfeldolgozás legjobb megközelítésének meghatározásában. Az írásrendszerek lehetnek

  1. Logográfia: a Nagyszámú egyedi szimbólum szavakat jelöl. Példa japán, mandarin
  2. Szótag: Az egyes szimbólumok szótagokat jelölnek
  3. Alfabetikus: Az egyes szimbólumok hangot jelölnek

Az írásrendszerek többsége szótagos vagy alfabetikus rendszert használ. Még az angol is, viszonylag egyszerű, római ábécére épülő írásrendszerével, használ logográfiai szimbólumokat, amelyek magukban foglalják az arab számokat, a valutajeleket (S, £) és más speciális szimbólumokat.

Ez a következő kihívásokat jelenti

  • A jelentés (szemantika) kinyerése a szövegből kihívás
  • Az AI-ban az NLP a korpusz minőségétől függ. Ha a tartomány hatalmas, nehéz megérteni a kontextust.
  • A karakterkészlettől és a nyelvtől függ

Hogyan valósítsuk meg az NLP-t

Az alábbiakban felsoroljuk a természetes tanulási folyamatban használt népszerű módszereket:

Gépi tanulás: A gépi tanulás során használt tanulási nlp eljárások. Automatikusan a leggyakoribb esetekre fókuszál. Tehát amikor kézzel írunk szabályokat, gyakran egyáltalán nem aggasztjuk az emberi hibákat.

Statisztikai következtetés: Az NLP felhasználhatja a statisztikai következtetési algoritmusokat. Segít robusztus modellek készítésében. pl. olyan szavakat vagy szerkezeteket tartalmaz, amelyeket mindenki ismer.

NLP példák

Ma a természetes folyamatok tanulási technológiája széles körben használt technológia.

Itt vannak a természetes nyelvi feldolgozás általános technikái:

Információkeresés és webes keresés

Google, Yahoo, Bing és mások keresők gépi fordítási technológiájukat NLP mély tanulási modellekre alapozzák. Lehetővé teszi az algoritmusok számára, hogy szöveget olvassanak egy weboldalon, értelmezzék a jelentését és lefordítsák egy másik nyelvre.

Nyelvtani javítás:

Az NLP technikát széles körben használják a szövegszerkesztő szoftverek, például az MS-word helyesírás-javításra és nyelvhelyesség-ellenőrzésre.

Nyelvtani javítás

Kérdés megválaszolása

Írja be a kulcsszavakat, ha kérdéseket szeretne feltenni természetes nyelven.

Szöveg Összegzés

A fontos információk forrásból történő összegzése a rövidített változat elkészítéséhez

Gépi fordítás

Számítógépes alkalmazások használata szöveg vagy beszéd egyik természetes nyelvről a másikra történő fordítására.

Gépi fordítás

Hangulatelemzés

Az NLP segít a vállalatoknak a termékekről szóló nagyszámú vélemény elemzésében. Lehetővé teszi ügyfeleik számára, hogy véleményt adjanak az adott termékről.

Az NLP jövője

  • Az ember által olvasható természetes nyelvi feldolgozás a legnagyobb Al-probléma. Ez nagyjából megegyezik a mesterséges intelligencia központi problémájának megoldásával és a számítógépek olyan intelligenssé tételével, mint az emberek.
  • A jövő számítógépei vagy gépei az NLP segítségével képesek lesznek tanulni az online információkból, és alkalmazni tudják azt a való világban, azonban ezen a téren még sokat kell dolgozni.
  • A természetes nyelvi eszköztár vagy az nltk hatékonyabbá válnak
  • A természetes nyelv generálásával kombinálva a számítógépek alkalmasabbá válnak hasznos és találékony információk vagy adatok fogadására és adására.

Természetes nyelv kontra számítógépes nyelv

Az alábbiakban bemutatjuk a természetes nyelv és a számítógépes nyelv közötti fő különbségeket:

Vizsgált paraméter Természetes nyelv Számítógép nyelve
Kétértelmű Kétértelmű természetűek. Úgy tervezték, hogy egyértelmű legyen.
Redundancia A természetes nyelvek sok redundanciát alkalmaznak. A formális nyelvek kevésbé redundánsak.
A szó szerintiség A természetes nyelvek idiómából és metaforából állnak A formális nyelvek pontosan azt jelentik, amit mondani akarnak

Az NLP előnyei

  • A felhasználók bármilyen témával kapcsolatban kérdéseket tehetnek fel, és másodperceken belül közvetlen választ kapnak.
  • Az NLP rendszer természetes nyelven ad választ a kérdésekre
  • Az NLP rendszer pontos válaszokat ad a kérdésekre, nincs felesleges vagy nem kívánt információ
  • A válaszok pontossága a kérdésben közölt releváns információk mennyiségével nő.
  • Az NLP-folyamat segíti a számítógépeket, hogy a nyelvükön kommunikáljanak az emberekkel, és skálázzák az egyéb nyelvi feladatokat
  • Lehetővé teszi, hogy több nyelvi alapú adatot hajtson végre egy emberi lényhez képest fáradtság nélkül, elfogulatlan és következetes módon.
  • Erősen strukturálatlan adatforrás strukturálása

Az NLP hátrányai

  • Összetett lekérdezési nyelv – előfordulhat, hogy a rendszer nem tudja megadni a helyes választ a rosszul megfogalmazott vagy kétértelmű kérdésre.
  • A rendszer egyetlen és meghatározott feladatra készült; a korlátozott funkciók miatt nem tud alkalmazkodni az új tartományokhoz és problémákhoz.
  • Az NLP rendszernek nincs olyan felhasználói felülete, amelyből hiányoznak azok a funkciók, amelyek lehetővé teszik a felhasználók számára a rendszerrel való további interakciót

Összegzésként

  • A Natural Language Processing a mesterséges intelligencia egyik ága, amely segít a számítógépeknek az emberi nyelv megértésében, értelmezésében és kezelésében
  • Az NLP akkor kezdődött, amikor Alan Turing közzétett egy cikket „Machine and Intelligence” címmel.
  • Az NLP soha nem a hangmodulációra összpontosít; valóban kontextuális mintákra támaszkodik
  • A természetes nyelvi feldolgozás öt alapvető összetevője a mesterséges intelligenciában: 1) morfológiai és lexikális elemzés 2) szintaktikai elemzés 3) szemantikai elemzés 4) diskurzusintegráció 5) pragmatikai elemzés.
  • A természetes folyamat írásrendszerének három típusa: 1) logográfiai 2) szótag 3) alfabetikus
  • A gépi tanulás és a statisztikai következtetés a természetes folyamatok tanulásának két módszere
  • Az NLP alapvető alkalmazásai az információkeresés és a webes keresés, a nyelvtani korrekciós kérdések megválaszolása, a szövegösszegzés, a gépi fordítás stb.
  • Jövő számítógépei vagy gépei az NLP segítségével és Data Science képes lesz tanulni az online információkból, és alkalmazni tudja azt a valós világban, azonban sok munkára van szükség ezen a téren
  • Az NLP kétértelmű, míg a nyílt forráskódú számítógépes nyelv egyértelműen egyértelmű
  • Az NLP in Artificial Intelligence rendszer legnagyobb előnye, hogy pontos válaszokat ad a kérdésekre, nincs szükségtelen vagy nem kívánt információ
  • Az NLP rendszer legnagyobb hátránya, hogy egyetlen és konkrét feladatra épül, így a korlátozott funkciók miatt nem tud alkalmazkodni az új tartományokhoz és problémákhoz.