Handledning för naturlig språkbehandling: Vad är NLP? Exempel

Vad är naturlig språkbehandling?

Naturlig språkbehandling (NLP) är en gren av AI som hjälper datorer att förstå, tolka och manipulera mänskliga språk som engelska eller hindi för att analysera och härleda dess betydelse. NLP hjälper utvecklare att organisera och strukturera kunskap för att utföra uppgifter som översättning, sammanfattning, namngiven enhetsigenkänning, relationsextraktion, taligenkänning, ämnessegmentering, etc.

NLPs historia

Här är viktiga händelser i historien om Natural Language Processing:

1950- NLP började när Alan Turing publicerade en artikel som heter "Machine and Intelligence."

1950- Försök att automatisera översättning mellan ryska och engelska

1960- Chomskys och andras arbete om formell språkteori och generativ syntax

1990- Probabilistiska och datadrivna modeller hade blivit ganska standard

2000- En stor mängd talad och textdata blir tillgänglig

Nästa i denna NLP-handledning kommer vi att lära oss hur NLP fungerar.

Hur fungerar NLP?

Innan vi lär oss hur NLP fungerar, låt oss förstå hur människor använder språk-

Varje dag säger vi tusen av ett ord som andra människor tolkar för att göra otaliga saker. Vi ser det som en enkel kommunikation, men vi vet alla att ord går mycket djupare än så. Det finns alltid något sammanhang som vi härleder från vad vi säger och hur vi säger det., NLP i Artificiell intelligens fokuserar aldrig på röstmodulering; den bygger på kontextuella mönster.

Exempelvis:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Här kan vi lätt samförhålla oss eftersom mannen är manligt kön och kvinnan är kvinnligt kön. På samma sätt är kungen maskulint kön, och dess kvinnliga kön är drottning.

Exempelvis:

Is King to kings as the queen is to_______?
The answer is--- queens 

Här kan vi se två ord kungar och kungar där det ena är singular och det andra är plural. Därför, när världsdrottningen kommer, samförhåller den sig automatiskt med drottningar igen singular plural.

Här är den största frågan hur vet vi vad ord betyder? Låt oss säga vem som kommer att kalla det drottning?

NLP arbete

Svaret är att vi lär oss detta genom erfarenhet. Men här är huvudfrågan att hur datorn vet om detsamma?

Vi måste tillhandahålla tillräckligt med data för att maskiner ska kunna lära sig genom erfarenhet. Vi kan mata detaljer som

  • Hennes Majestät Drottningen.
  • Drottningens tal under statsbesöket
  • Drottning Elizabeths krona
  • Drottningarnas mor
  • Drottningen är generös.

Med ovanstående exempel förstår maskinen entiteten Queen.

Maskinen skapar ordvektorer enligt nedan. En ordvektor är byggd med hjälp av omgivande ord.

NLP arbete

Maskinen skapar dessa vektorer

  • Som den lär sig från flera datamängder
  • Använd maskininlärning (t.ex. Deep Learning-algoritmer)
  • En ordvektor är byggd med hjälp av omgivande ord.

Här är formeln:

Mening (kung) – betydelse (man) + betydelse (kvinna)=?

Detta motsvarar att utföra enkla algebraiska operationer på ordvektorer:

Vektor (kung) – vektor (man) + vektor (kvinna)= vektor(?)

Som maskinen svarar queen.

Härnäst i denna handledning för naturlig språkbehandling kommer vi att lära oss om komponenter i NLP.

Komponenter i NLP

Fem huvudkomponenter i bearbetning av naturligt språk i AI är:

  • Morfologisk och lexikal analys
  • Syntaktisk analys
  • Semantisk analys
  • Diskursintegration
  • Pragmatisk analys
Komponenter i NLP
Komponenter i NLP

Morfologisk och lexikal analys

Lexikal analys är ett ordförråd som inkluderar dess ord och uttryck. Den skildrar analys, identifiering och beskrivning av ordens struktur. Det inkluderar att dela upp en text i stycken, ord och meningar

Enskilda ord analyseras i sina komponenter, och icke-ordssymboler som skiljetecken separeras från orden.

Semantisk analys

Semantisk analys är en struktur skapad av den syntaktiska analysatorn som tilldelar betydelser. Denna komponent överför linjära sekvenser av ord till strukturer. Den visar hur orden associeras med varandra.

Semantik fokuserar endast på den bokstavliga betydelsen av ord, fraser och meningar. Detta abstraherar endast ordbokens betydelse eller den verkliga meningen från det givna sammanhanget. Strukturerna som tilldelas av den syntaktiska analysatorn har alltid tilldelad betydelse

T.ex. "färglös grön idé." Detta skulle avvisas av Symantecs analys som färglöst här; grönt är ingen mening.

Pragmatisk analys

Pragmatisk analys behandlar det övergripande kommunikativa och sociala innehållet och dess effekt på tolkning. Det betyder att abstrahera eller härleda den meningsfulla användningen av språk i situationer. I denna analys har huvudfokus alltid på vad som sagts omtolkats på vad som menas.

Pragmatisk analys hjälper användare att upptäcka denna avsedda effekt genom att tillämpa en uppsättning regler som kännetecknar kooperativa dialoger.

T.ex. "stäng fönstret?" ska tolkas som en begäran istället för en order.

Syntaxanalys

Orden är allmänt accepterade som de minsta enheterna av syntax. Syntaxen hänvisar till de principer och regler som styr meningsstrukturen för varje enskilt språk.

Syntax fokus på rätt ordning av ord som kan påverka dess betydelse. Detta innebär analys av orden i en mening genom att följa meningens grammatiska struktur. Orden omvandlas till strukturen för att visa hur ordet är relaterat till varandra.

Diskursintegration

Det betyder en känsla av sammanhanget. Betydelsen av en enskild mening som beror på dessa meningar. Den tar också hänsyn till innebörden av följande mening.

Till exempel beror ordet "det" i meningen "Han ville ha det" på den tidigare diskurskontexten.

Nästa i denna NLP-handledning kommer vi att lära oss om NLP och skrivsystem.

NLP och skrivsystem

Den typ av skrivsystem som används för ett språk är en av de avgörande faktorerna för att bestämma den bästa metoden för textförbehandling. Skrivsystem kan vara

  1. Logografisk: ett stort antal individuella symboler representerar ord. Exempel japanska, mandarin
  2. Stavelse: Enskilda symboler representerar stavelser
  3. Alfabetisk: Enskilda symboler representerar ljud

Majoriteten av skrivsystemen använder det syllabiska eller alfabetiska systemet. Även engelska, med sitt relativt enkla skriftsystem baserat på det romerska alfabetet, använder sig av logografiska symboler som inkluderar arabiska siffror, valutasymboler (S, £) och andra specialsymboler.

Detta innebär följande utmaningar

  • Att extrahera mening(semantik) ur en text är en utmaning
  • NLP i AI är beroende av kvaliteten på korpusen. Om domänen är stor är det svårt att förstå sammanhanget.
  • Det finns ett beroende av teckenuppsättningen och språket

Hur man implementerar NLP

Nedan ges populära metoder som används för Natural Learning Process:

Maskininlärning: Inlärnings-nlp-procedurerna som används under maskininlärning. Den fokuserar automatiskt på de vanligaste fallen. Så när vi skriver regler för hand är det ofta inte korrekt alls bekymrat över mänskliga fel.

Statistisk slutsats: NLP kan använda sig av statistiska slutledningsalgoritmer. Det hjälper dig att producera modeller som är robusta. t.ex. innehåller ord eller strukturer som är kända för alla.

NLP-exempel

Idag är teknologi för naturlig processinlärning mycket använd teknik.

Här är vanliga naturliga språkbehandlingstekniker:

Informationssökning & webbsökning

Google, Yahoo, Bing och andra sökmotorer basera sin maskinöversättningsteknik på NLP-modeller för djupinlärning. Det tillåter algoritmer att läsa text på en webbsida, tolka dess betydelse och översätta den till ett annat språk.

Grammatikkorrigering:

NLP-teknik används i stor utsträckning av ordbehandlare som MS-word för stavningskorrigering och grammatikkontroll.

Grammatikkorrigering

Frågeställning

Skriv in nyckelord för att ställa frågor på naturligt språk.

Textsammanfattning

Processen att sammanfatta viktig information från en källa för att producera en förkortad version

Maskinöversättning

Användning av datorprogram för att översätta text eller tal från ett naturligt språk till ett annat.

Maskinöversättning

Sentimentanalys

NLP hjälper företag att analysera ett stort antal recensioner på en produkt. Det tillåter också sina kunder att ge en recension av den specifika produkten.

Framtiden för NLP

  • Människans läsbara naturliga språkbehandling är det största Al-problemet. Det är mest samma sak som att lösa det centrala artificiella intelligensproblemet och göra datorer lika intelligenta som människor.
  • Framtida datorer eller maskiner med hjälp av NLP kommer att kunna lära sig av informationen online och tillämpa den i den verkliga världen, men det krävs mycket arbete med detta.
  • Naturligt språk verktygslåda eller nltk blir mer effektiva
  • I kombination med naturligt språkgenerering kommer datorer att bli mer kapabla att ta emot och ge användbar och resursrik information eller data.

Naturligt språk vs. datorspråk

Nedan är de viktigaste skillnaderna mellan naturligt språk och datorspråk:

Parameter Naturligt språk Datorspråk
Tvetydig De är till sin natur tvetydiga. De är utformade för att entydiga.
redundans Naturliga språk använder massor av redundans. Formella språk är mindre överflödiga.
Bokstavlighet Naturliga språk är gjorda av idiom och metafor Formella språk betyder precis vad de vill säga

Fördelar med NLP

  • Användare kan ställa frågor om vilket ämne som helst och få ett direkt svar inom några sekunder.
  • NLP-systemet ger svar på frågorna i naturligt språk
  • NLP-systemet erbjuder exakta svar på frågorna, ingen onödig eller oönskad information
  • Noggrannheten i svaren ökar med mängden relevant information som ges i frågan.
  • NLP-processen hjälper datorer att kommunicera med människor på deras språk och skalar andra språkrelaterade uppgifter
  • Låter dig utföra mer språkbaserad data jämfört med en människa utan trötthet och på ett opartiskt och konsekvent sätt.
  • Strukturera en mycket ostrukturerad datakälla

Nackdelar med NLP

  • Komplext frågespråk - systemet kanske inte kan ge det korrekta svaret på frågan som är dåligt formulerad eller tvetydig.
  • Systemet är byggt för en enda och specifik uppgift; den kan inte anpassa sig till nya domäner och problem på grund av begränsade funktioner.
  • NLP-systemet har inte ett användargränssnitt som saknar funktioner som tillåter användare att interagera med systemet ytterligare

Sammanfattning

  • Natural Language Processing är en gren av AI som hjälper datorer att förstå, tolka och manipulera mänskligt språk
  • NLP började när Alan Turing publicerade en artikel som heter "Machine and Intelligence".
  • NLP fokuserar aldrig på röstmodulering; den bygger på kontextuella mönster
  • Fem väsentliga komponenter i naturlig språkbehandling i artificiell intelligens är 1) Morfologisk och lexikal analys 2) Syntaktisk analys 3) Semantisk analys 4) Diskursintegration 5) Pragmatisk analys
  • Tre typer av det naturliga processskrivsystemet är 1)Logografisk 2) Syllabic 3) Alfabetisk
  • Maskininlärning och statistisk slutledning är två metoder för implementering av Natural Process Learning
  • Viktiga tillämpningar av NLP är informationssökning och webbsökning, svar på frågor om grammatikkorrigering, textsammanfattning, maskinöversättning, etc.
  • Framtidens datorer eller maskiner med hjälp av NLP och Data Science kommer att kunna lära av informationen online och tillämpa den i den verkliga världen, men det krävs mycket arbete med detta
  • NLP är tvetydiga medan datorspråk med öppen källkod är utformat för att vara entydigt
  • Den största fördelen med NLP i artificiell intelligens är att det erbjuder exakta svar på frågorna, ingen onödig eller oönskad information
  • Den största nackdelen med NLP-systemet är byggt för en enda och specifik uppgift så att det inte kan anpassa sig till nya domäner och problem på grund av begränsade funktioner