Výukový program pro zpracování přirozeného jazyka: Co je NLP? Příklady

Co je zpracování přirozeného jazyka?

Zpracování přirozeného jazyka (NLP) je odvětví umělé inteligence, které pomáhá počítačům porozumět, interpretovat a manipulovat s lidskými jazyky, jako je angličtina nebo hindština, analyzovat a odvodit jejich význam. NLP pomáhá vývojářům organizovat a strukturovat znalosti pro provádění úkolů, jako je překlad, sumarizace, rozpoznávání pojmenovaných entit, extrakce vztahů, rozpoznávání řeči, segmentace témat atd.

Historie NLP

Zde jsou důležité události v historii zpracování přirozeného jazyka:

1950- NLP začalo, když Alan Turing publikoval článek s názvem „Machine and Intelligence“.

1950- Pokusy o automatizaci překladu mezi ruštinou a angličtinou

1960- Práce Chomského a dalších o teorii formálního jazyka a generativní syntaxi

1990- Pravděpodobnostní modely a modely založené na datech se staly zcela standardním

2000- K dispozici je velké množství mluvených a textových dat

Dále v tomto tutoriálu NLP se naučíme, jak NLP funguje.

Jak NLP funguje?

Než se dozvíme, jak NLP funguje, pojďme pochopit, jak lidé používají jazyk –

Každý den vyslovíme tisíce slov, která si ostatní vykládají tak, aby dělali nespočet věcí. Považujeme to za jednoduchou komunikaci, ale všichni víme, že slova sahají mnohem hlouběji. Vždy existuje nějaký kontext, který odvozujeme z toho, co říkáme a jak to říkáme., NLP in Umělá inteligence nikdy se nezaměřuje na modulaci hlasu; čerpá z kontextových vzorců.

Příklad:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Zde můžeme snadno korelovat, protože muž je mužské pohlaví a žena je ženské pohlaví. Stejně tak král je mužského rodu a jeho ženský rod je královna.

Příklad:

Is King to kings as the queen is to_______?
The answer is--- queens 

Zde můžeme vidět dvě slova králové a králové, kde jedno je jednotné a druhé množné. Proto, když přijde světová královna, automaticky souvisí s královnami opět v jednotném čísle množného čísla.

Zde je největší otázkou, jak víme, co slova znamenají? Řekněme, kdo tomu bude říkat královna?

NLP práce

Odpovědí je, že se to učíme prostřednictvím zkušenosti. Zde je však hlavní otázkou, jak o tom počítač ví?

Potřebujeme poskytnout dostatek dat, aby se stroje mohly učit prostřednictvím zkušeností. Můžeme krmit detaily jako

  • Její Veličenstvo královna.
  • Královnin projev během státní návštěvy
  • Koruna královny Alžběty
  • Matka královen
  • Královna je štědrá.

S výše uvedenými příklady stroj rozumí entitě Queen.

Stroj vytváří vektory slov, jak je uvedeno níže. Slovní vektor je vytvořen pomocí okolních slov.

NLP práce

Stroj vytváří tyto vektory

  • Jak se učí z více datových sad
  • Používejte strojové učení (např. algoritmy Deep Learning)
  • Slovní vektor je vytvořen pomocí okolních slov.

Zde je vzorec:

Význam (král) – význam (muž) + význam (žena)=?

To se rovná provádění jednoduchých algebraických operací na slovních vektorech:

Vektor (král) – vektor (muž) + vektor (žena)= vektor(?)

Na což stroj odpovídá královně.

Dále v tomto tutoriálu pro zpracování přirozeného jazyka se seznámíme s komponentami NLP.

Komponenty NLP

Pět hlavních součástí zpracování přirozeného jazyka v AI je:

  • Morfologická a lexikální analýza
  • Syntaktická analýza
  • Sémantická analýza
  • Diskurzní integrace
  • Pragmatická analýza
Komponenty NLP
Komponenty NLP

Morfologická a lexikální analýza

Lexikální analýza je slovní zásoba, která zahrnuje její slova a výrazy. Popisuje analýzu, identifikaci a popis struktury slov. Zahrnuje dělení textu na odstavce, slova a věty

Jednotlivá slova jsou analyzována na jejich součásti a ze slov jsou odděleny neslovní tokeny, jako jsou interpunkce.

Sémantická analýza

Sémantická analýza je struktura vytvořená syntaktickým analyzátorem, která přiřazuje významy. Tato komponenta převádí lineární sekvence slov do struktur. Ukazuje, jak jsou slova spolu spojena.

Sémantika se zaměřuje pouze na doslovný význam slov, frází a vět. Tím se pouze abstrahuje slovníkový význam nebo skutečný význam z daného kontextu. Struktury přiřazené syntaktickým analyzátorem mají vždy přiřazený význam

Např. "bezbarvý zelený nápad." To by analýza Symantec odmítla jako bezbarvé zde; zelená nedává smysl.

Pragmatická analýza

Pragmatická analýza se zabývá celkovým komunikačním a sociálním obsahem a jeho vlivem na interpretaci. Znamená to abstrahovat nebo odvodit smysluplné použití jazyka v situacích. V této analýze je hlavní zaměření vždy na to, co bylo řečeno, reinterpretováno na to, co je míněno.

Pragmatická analýza pomáhá uživatelům objevit tento zamýšlený efekt použitím sady pravidel, která charakterizují kooperativní dialogy.

Například "zavřít okno?" by měla být interpretována jako žádost namísto příkazu.

Syntaktická analýza

Slova jsou běžně přijímána jako nejmenší jednotky syntaxe. Syntaxe odkazuje na principy a pravidla, kterými se řídí struktura vět jednotlivých jazyků.

Syntaxe se zaměřuje na správné řazení slov, které může ovlivnit jejich význam. To zahrnuje analýzu slov ve větě sledováním gramatické struktury věty. Slova jsou transformována do struktury, která ukazuje, jak spolu slovo souvisí.

Diskurzní integrace

Znamená to smysl pro kontext. Význam každé jednotlivé věty, který závisí na těchto větách. Zvažuje také význam následující věty.

Například slovo „to“ ve větě „Chtěl to“ závisí na kontextu předchozího diskurzu.

Dále v tomto tutoriálu NLP se naučíme o NLP a systémech psaní.

NLP a systémy psaní

Typ systému psaní použitého pro jazyk je jedním z rozhodujících faktorů při určování nejlepšího přístupu k předběžnému zpracování textu. Psací systémy mohou být

  1. Logographic: a Velké množství jednotlivých symbolů představuje slova. Příklad japonština, mandarínština
  2. Slabičné: Jednotlivé symboly představují slabiky
  3. Abecedně: Jednotlivé symboly představují zvuk

Většina systémů psaní používá slabičný nebo abecední systém. Dokonce i angličtina se svým relativně jednoduchým systémem psaní založeným na římské abecedě využívá logografické symboly, které zahrnují arabské číslice, symboly měn (S, £) a další speciální symboly.

Tato póza následuje výzvy

  • Vyjmutí významu (sémantiky) z textu je výzvou
  • NLP v AI závisí na kvalitě korpusu. Pokud je doména rozsáhlá, je obtížné porozumět kontextu.
  • Existuje závislost na znakové sadě a jazyku

Jak implementovat NLP

Níže jsou uvedeny oblíbené metody používané pro přirozený proces učení:

Strojové učení: Procedury učení nlp používané během strojového učení. Automaticky se zaměřuje na nejčastější případy. Když tedy píšeme pravidla ručně, často to není vůbec správné a obáváme se lidských chyb.

Statistický závěr: NLP může využívat statistické inferenční algoritmy. Pomáhá vám vytvářet modely, které jsou robustní. např. obsahující slova nebo struktury, které jsou každému známé.

Příklady NLP

Technologie učení přirozených procesů je dnes široce používanou technologií.

Zde jsou běžné techniky zpracování přirozeného jazyka:

Vyhledávání informací a vyhledávání na webu

Google, Yahoo, Bing a další vyhledávače založit svou technologii strojového překladu na modelech hlubokého učení NLP. Umožňuje algoritmům číst text na webové stránce, interpretovat jeho význam a překládat jej do jiného jazyka.

Oprava gramatiky:

Technika NLP je široce používána softwarem textových procesorů, jako je MS-word, pro opravu pravopisu a kontrolu gramatiky.

Oprava gramatiky

Odpověď na otázku

Chcete-li klást otázky v přirozeném jazyce, zadejte klíčová slova.

Shrnutí textu

Proces shrnutí důležitých informací ze zdroje za účelem vytvoření zkrácené verze

Strojový překlad

Použití počítačových aplikací k překladu textu nebo řeči z jednoho přirozeného jazyka do druhého.

Strojový překlad

Analýza sentimentu

NLP pomáhá společnostem analyzovat velké množství recenzí na produkt. Umožňuje také svým zákazníkům poskytnout recenzi konkrétního produktu.

Budoucnost NLP

  • Lidsky čitelné zpracování přirozeného jazyka je největším problémem Al. Je to úplně stejné jako vyřešit ústřední problém umělé inteligence a udělat počítače stejně inteligentní jako lidé.
  • Budoucí počítače nebo stroje s pomocí NLP se budou moci učit z informací online a aplikovat je v reálném světě, v tomto ohledu je však potřeba hodně práce.
  • Sada nástrojů přirozeného jazyka nebo nltk se stanou efektivnějšími
  • V kombinaci s generováním přirozeného jazyka budou počítače schopnější přijímat a poskytovat užitečné a vynalézavé informace nebo data.

Přirozený jazyk vs. počítačový jazyk

Níže jsou uvedeny hlavní rozdíly mezi přirozeným jazykem a počítačovým jazykem:

Parametr Přirozený jazyk Počítačový jazyk
Dvojznačný Jsou nejednoznačné povahy. Jsou navrženy tak, aby byly jednoznačné.
Nadbytek Přirozené jazyky využívají spoustu redundance. Formální jazyky jsou méně nadbytečné.
Doslovnost Přirozené jazyky jsou tvořeny idiomy a metaforami Formální jazyky znamenají přesně to, co chtějí říci

Výhody NLP

  • Uživatelé mohou klást otázky na jakékoli téma a získat přímou odpověď během několika sekund.
  • Systém NLP poskytuje odpovědi na otázky v přirozeném jazyce
  • Systém NLP nabízí přesné odpovědi na otázky, žádné zbytečné nebo nechtěné informace
  • Přesnost odpovědí se zvyšuje s množstvím relevantních informací uvedených v otázce.
  • Proces NLP pomáhá počítačům komunikovat s lidmi v jejich jazyce a škáluje další úkoly související s jazykem
  • Umožňuje vám provádět více jazykových dat ve srovnání s lidskou bytostí bez únavy a nezaujatým a konzistentním způsobem.
  • Strukturování vysoce nestrukturovaného zdroje dat

Nevýhody NLP

  • Komplexní dotazovací jazyk – systém nemusí být schopen poskytnout správnou odpověď na otázku, která je špatně formulovaná nebo nejednoznačná.
  • Systém je vytvořen pouze pro jeden a konkrétní úkol; není schopen se přizpůsobit novým doménám a problémům kvůli omezeným funkcím.
  • Systém NLP nemá uživatelské rozhraní, které postrádá funkce, které uživatelům umožňují další interakci se systémem

Shrnutí

  • Zpracování přirozeného jazyka je odvětví umělé inteligence, které pomáhá počítačům porozumět, interpretovat a manipulovat s lidským jazykem
  • NLP začalo, když Alan Turing publikoval článek s názvem „Machine and Intelligence“.
  • NLP se nikdy nezaměřuje na modulaci hlasu; čerpá z kontextuálních vzorců
  • Pět základních složek zpracování přirozeného jazyka v umělé inteligenci je 1) Morfologická a lexikální analýza 2) Syntaktická analýza 3) Sémantická analýza 4) Integrace diskurzu 5) Pragmatická analýza
  • Tři typy systému psaní přirozeného procesu jsou 1) logografický 2) slabičný 3) abecední
  • Strojové učení a statistická inference jsou dvě metody implementace učení přirozeného procesu
  • Základními aplikacemi NLP jsou získávání informací a vyhledávání na webu, odpovídání na otázky týkající se opravy gramatiky, sumarizace textu, strojový překlad atd.
  • Budoucí počítače nebo stroje s pomocí NLP a Data Science budou schopni se poučit z informací online a aplikovat je v reálném světě, v tomto ohledu je však potřeba hodně práce
  • NLP jsou nejednoznačné, zatímco počítačový jazyk s otevřeným zdrojovým kódem je navržen tak, aby byl jednoznačný
  • Největší výhodou systému NLP v systému umělé inteligence je, že nabízí přesné odpovědi na otázky, žádné zbytečné nebo nechtěné informace
  • Největší nevýhoda systému NLP je postavena pro jediný a specifický úkol, takže není schopen se přizpůsobit novým doménám a problémům kvůli omezeným funkcím.