Handledning för naturlig språkbehandling: Vad är NLP? Exempel
Vad är naturlig språkbehandling?
Naturlig språkbehandling (NLP) är en gren av AI som hjälper datorer att förstå, tolka och manipulera mänskliga språk som engelska eller hindi för att analysera och härleda dess betydelse. NLP hjälper utvecklare att organisera och strukturera kunskap för att utföra uppgifter som översättning, sammanfattning, namngiven enhetsigenkänning, relationsextraktion, taligenkänning, ämnessegmentering, etc.
NLPs historia
Här är viktiga händelser i historien om Natural Language Processing:
1950- NLP började när Alan Turing publicerade en artikel som heter "Machine and Intelligence."
1950- Försök att automatisera översättning mellan ryska och engelska
1960- Chomskys och andras arbete om formell språkteori och generativ syntax
1990- Probabilistiska och datadrivna modeller hade blivit ganska standard
2000- En stor mängd talad och textdata blir tillgänglig
Nästa i denna NLP-handledning kommer vi att lära oss hur NLP fungerar.
Hur fungerar NLP?
Innan vi lär oss hur NLP fungerar, låt oss förstå hur människor använder språk-
Varje dag säger vi tusen av ett ord som andra människor tolkar för att göra otaliga saker. Vi ser det som en enkel kommunikation, men vi vet alla att ord går mycket djupare än så. Det finns alltid något sammanhang som vi härleder från vad vi säger och hur vi säger det., NLP i Artificiell intelligens fokuserar aldrig på röstmodulering; den bygger på kontextuella mönster.
Exempelvis:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Här kan vi lätt samförhålla oss eftersom mannen är manligt kön och kvinnan är kvinnligt kön. På samma sätt är kungen maskulint kön, och dess kvinnliga kön är drottning.
Exempelvis:
Is King to kings as the queen is to_______? The answer is--- queens
Här kan vi se två ord kungar och kungar där det ena är singular och det andra är plural. Därför, när världsdrottningen kommer, samförhåller den sig automatiskt med drottningar igen singular plural.
Här är den största frågan hur vet vi vad ord betyder? Låt oss säga vem som kommer att kalla det drottning?
Svaret är att vi lär oss detta genom erfarenhet. Men här är huvudfrågan att hur datorn vet om detsamma?
Vi måste tillhandahålla tillräckligt med data för att maskiner ska kunna lära sig genom erfarenhet. Vi kan mata detaljer som
- Hennes Majestät Drottningen.
- Drottningens tal under statsbesöket
- Drottning Elizabeths krona
- Drottningarnas mor
- Drottningen är generös.
Med ovanstående exempel förstår maskinen entiteten Queen.
Maskinen skapar ordvektorer enligt nedan. En ordvektor är byggd med hjälp av omgivande ord.
Maskinen skapar dessa vektorer
- Som den lär sig från flera datamängder
- Använd maskininlärning (t.ex. Deep Learning-algoritmer)
- En ordvektor är byggd med hjälp av omgivande ord.
Här är formeln:
Mening (kung) – betydelse (man) + betydelse (kvinna)=?
Detta motsvarar att utföra enkla algebraiska operationer på ordvektorer:
Vektor (kung) – vektor (man) + vektor (kvinna)= vektor(?)
Som maskinen svarar queen.
Härnäst i denna handledning för naturlig språkbehandling kommer vi att lära oss om komponenter i NLP.
Komponenter i NLP
Fem huvudkomponenter i bearbetning av naturligt språk i AI är:
- Morfologisk och lexikal analys
- Syntaktisk analys
- Semantisk analys
- Diskursintegration
- Pragmatisk analys
Morfologisk och lexikal analys
Lexikal analys är ett ordförråd som inkluderar dess ord och uttryck. Den skildrar analys, identifiering och beskrivning av ordens struktur. Det inkluderar att dela upp en text i stycken, ord och meningar
Enskilda ord analyseras i sina komponenter, och icke-ordssymboler som skiljetecken separeras från orden.
Semantisk analys
Semantisk analys är en struktur skapad av den syntaktiska analysatorn som tilldelar betydelser. Denna komponent överför linjära sekvenser av ord till strukturer. Den visar hur orden associeras med varandra.
Semantik fokuserar endast på den bokstavliga betydelsen av ord, fraser och meningar. Detta abstraherar endast ordbokens betydelse eller den verkliga meningen från det givna sammanhanget. Strukturerna som tilldelas av den syntaktiska analysatorn har alltid tilldelad betydelse
T.ex. "färglös grön idé." Detta skulle avvisas av Symantecs analys som färglöst här; grönt är ingen mening.
Pragmatisk analys
Pragmatisk analys behandlar det övergripande kommunikativa och sociala innehållet och dess effekt på tolkning. Det betyder att abstrahera eller härleda den meningsfulla användningen av språk i situationer. I denna analys har huvudfokus alltid på vad som sagts omtolkats på vad som menas.
Pragmatisk analys hjälper användare att upptäcka denna avsedda effekt genom att tillämpa en uppsättning regler som kännetecknar kooperativa dialoger.
T.ex. "stäng fönstret?" ska tolkas som en begäran istället för en order.
Syntaxanalys
Orden är allmänt accepterade som de minsta enheterna av syntax. Syntaxen hänvisar till de principer och regler som styr meningsstrukturen för varje enskilt språk.
Syntax fokus på rätt ordning av ord som kan påverka dess betydelse. Detta innebär analys av orden i en mening genom att följa meningens grammatiska struktur. Orden omvandlas till strukturen för att visa hur ordet är relaterat till varandra.
Diskursintegration
Det betyder en känsla av sammanhanget. Betydelsen av en enskild mening som beror på dessa meningar. Den tar också hänsyn till innebörden av följande mening.
Till exempel beror ordet "det" i meningen "Han ville ha det" på den tidigare diskurskontexten.
Nästa i denna NLP-handledning kommer vi att lära oss om NLP och skrivsystem.
NLP och skrivsystem
Den typ av skrivsystem som används för ett språk är en av de avgörande faktorerna för att bestämma den bästa metoden för textförbehandling. Skrivsystem kan vara
- Logografisk: ett stort antal individuella symboler representerar ord. Exempel japanska, mandarin
- Stavelse: Enskilda symboler representerar stavelser
- Alfabetisk: Enskilda symboler representerar ljud
Majoriteten av skrivsystemen använder det syllabiska eller alfabetiska systemet. Även engelska, med sitt relativt enkla skriftsystem baserat på det romerska alfabetet, använder sig av logografiska symboler som inkluderar arabiska siffror, valutasymboler (S, £) och andra specialsymboler.
Detta innebär följande utmaningar
- Att extrahera mening(semantik) ur en text är en utmaning
- NLP i AI är beroende av kvaliteten på korpusen. Om domänen är stor är det svårt att förstå sammanhanget.
- Det finns ett beroende av teckenuppsättningen och språket
Hur man implementerar NLP
Nedan ges populära metoder som används för Natural Learning Process:
Maskininlärning: Inlärnings-nlp-procedurerna som används under maskininlärning. Den fokuserar automatiskt på de vanligaste fallen. Så när vi skriver regler för hand är det ofta inte korrekt alls bekymrat över mänskliga fel.
Statistisk slutsats: NLP kan använda sig av statistiska slutledningsalgoritmer. Det hjälper dig att producera modeller som är robusta. t.ex. innehåller ord eller strukturer som är kända för alla.
NLP-exempel
Idag är teknologi för naturlig processinlärning mycket använd teknik.
Här är vanliga naturliga språkbehandlingstekniker:
Informationssökning & webbsökning
Google, Yahoo, Bing och andra sökmotorer basera sin maskinöversättningsteknik på NLP-modeller för djupinlärning. Det tillåter algoritmer att läsa text på en webbsida, tolka dess betydelse och översätta den till ett annat språk.
Grammatikkorrigering:
NLP-teknik används i stor utsträckning av ordbehandlare som MS-word för stavningskorrigering och grammatikkontroll.
Frågeställning
Skriv in nyckelord för att ställa frågor på naturligt språk.
Textsammanfattning
Processen att sammanfatta viktig information från en källa för att producera en förkortad version
Maskinöversättning
Användning av datorprogram för att översätta text eller tal från ett naturligt språk till ett annat.
Sentimentanalys
NLP hjälper företag att analysera ett stort antal recensioner på en produkt. Det tillåter också sina kunder att ge en recension av den specifika produkten.
Framtiden för NLP
- Människans läsbara naturliga språkbehandling är det största Al-problemet. Det är mest samma sak som att lösa det centrala artificiella intelligensproblemet och göra datorer lika intelligenta som människor.
- Framtida datorer eller maskiner med hjälp av NLP kommer att kunna lära sig av informationen online och tillämpa den i den verkliga världen, men det krävs mycket arbete med detta.
- Naturligt språk verktygslåda eller nltk blir mer effektiva
- I kombination med naturligt språkgenerering kommer datorer att bli mer kapabla att ta emot och ge användbar och resursrik information eller data.
Naturligt språk vs. datorspråk
Nedan är de viktigaste skillnaderna mellan naturligt språk och datorspråk:
Parameter | Naturligt språk | Datorspråk |
---|---|---|
Tvetydig | De är till sin natur tvetydiga. | De är utformade för att entydiga. |
redundans | Naturliga språk använder massor av redundans. | Formella språk är mindre överflödiga. |
Bokstavlighet | Naturliga språk är gjorda av idiom och metafor | Formella språk betyder precis vad de vill säga |
Fördelar med NLP
- Användare kan ställa frågor om vilket ämne som helst och få ett direkt svar inom några sekunder.
- NLP-systemet ger svar på frågorna i naturligt språk
- NLP-systemet erbjuder exakta svar på frågorna, ingen onödig eller oönskad information
- Noggrannheten i svaren ökar med mängden relevant information som ges i frågan.
- NLP-processen hjälper datorer att kommunicera med människor på deras språk och skalar andra språkrelaterade uppgifter
- Låter dig utföra mer språkbaserad data jämfört med en människa utan trötthet och på ett opartiskt och konsekvent sätt.
- Strukturera en mycket ostrukturerad datakälla
Nackdelar med NLP
- Komplext frågespråk - systemet kanske inte kan ge det korrekta svaret på frågan som är dåligt formulerad eller tvetydig.
- Systemet är byggt för en enda och specifik uppgift; den kan inte anpassa sig till nya domäner och problem på grund av begränsade funktioner.
- NLP-systemet har inte ett användargränssnitt som saknar funktioner som tillåter användare att interagera med systemet ytterligare
Sammanfattning
- Natural Language Processing är en gren av AI som hjälper datorer att förstå, tolka och manipulera mänskligt språk
- NLP började när Alan Turing publicerade en artikel som heter "Machine and Intelligence".
- NLP fokuserar aldrig på röstmodulering; den bygger på kontextuella mönster
- Fem väsentliga komponenter i naturlig språkbehandling i artificiell intelligens är 1) Morfologisk och lexikal analys 2) Syntaktisk analys 3) Semantisk analys 4) Diskursintegration 5) Pragmatisk analys
- Tre typer av det naturliga processskrivsystemet är 1)Logografisk 2) Syllabic 3) Alfabetisk
- Maskininlärning och statistisk slutledning är två metoder för implementering av Natural Process Learning
- Viktiga tillämpningar av NLP är informationssökning och webbsökning, svar på frågor om grammatikkorrigering, textsammanfattning, maskinöversättning, etc.
- Framtidens datorer eller maskiner med hjälp av NLP och Data Science kommer att kunna lära av informationen online och tillämpa den i den verkliga världen, men det krävs mycket arbete med detta
- NLP är tvetydiga medan datorspråk med öppen källkod är utformat för att vara entydigt
- Den största fördelen med NLP i artificiell intelligens är att det erbjuder exakta svar på frågorna, ingen onödig eller oönskad information
- Den största nackdelen med NLP-systemet är byggt för en enda och specifik uppgift så att det inte kan anpassa sig till nya domäner och problem på grund av begränsade funktioner