Natural Language Processing Tutorial: Hvad er NLP? Eksempler

Hvad er naturlig sprogbehandling?

Natural Language Processing (NLP) er en gren af ​​kunstig intelligens, der hjælper computere med at forstå, fortolke og manipulere menneskelige sprog som engelsk eller hindi for at analysere og udlede dets betydning. NLP hjælper udviklere med at organisere og strukturere viden til at udføre opgaver som oversættelse, opsummering, navngivne enhedsgenkendelse, relationsudtrækning, talegenkendelse, emnesegmentering osv.

NLPs historie

Her er vigtige begivenheder i historien om naturlig sprogbehandling:

1950- NLP startede, da Alan Turing udgav en artikel kaldet "Machine and Intelligence."

1950- Forsøg på at automatisere oversættelse mellem russisk og engelsk

1960- Chomskys og andres arbejde med formel sprogteori og generativ syntaks

1990- Probabilistiske og datadrevne modeller var blevet ret standard

2000- En stor mængde tale- og tekstdata bliver tilgængelige

Næste i denne NLP-tutorial vil vi lære, hvordan NLP virker.

Hvordan virker NLP?

Før vi lærer, hvordan NLP virker, lad os forstå, hvordan mennesker bruger sprog-

Hver dag siger vi tusindvis af et ord, som andre mennesker tolker for at gøre utallige ting. Vi betragter det som en simpel kommunikation, men vi ved alle, at ord stikker meget dybere end som så. Der er altid en eller anden sammenhæng, som vi udleder af, hvad vi siger, og hvordan vi siger det., NLP i Kunstig intelligens fokuserer aldrig på stemmemodulering; det trækker på kontekstuelle mønstre.

Eksempel:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Her kan vi sagtens forholde os sammen, fordi manden er mandskøn og kvinde er kvindekøn. På samme måde er kongen maskulint køn, og dens kvindelige køn er dronning.

Eksempel:

Is King to kings as the queen is to_______?
The answer is--- queens 

Her kan vi se to ord konger og konger, hvor det ene er ental og det andet er flertal. Derfor, når verdensdronningen kommer, hænger den automatisk sammen med dronninger igen ental flertal.

Her er det største spørgsmål, hvordan ved vi, hvad ord betyder? Lad os sige, hvem vil kalde det dronning?

NLP arbejde

Svaret er, at vi lærer dette tænker gennem erfaring. Men her er hovedspørgsmålet, hvordan computeren ved om det samme?

Vi skal levere nok data til, at Maskiner kan lære gennem erfaring. Vi kan fodre detaljer som

  • Hendes Majestæt Dronningen.
  • Dronningens tale under statsbesøget
  • Dronning Elizabeths krone
  • Dronningens mor
  • Dronningen er generøs.

Med ovenstående eksempler forstår maskinen entiteten Queen.

Maskinen opretter ordvektorer som nedenfor. En ordvektor er bygget ved hjælp af omgivende ord.

NLP arbejde

Maskinen skaber disse vektorer

  • Som det lærer fra flere datasæt
  • Brug maskinlæring (f.eks. Deep Learning-algoritmer)
  • En ordvektor er bygget ved hjælp af omgivende ord.

Her er formlen:

Betydning (konge) – betydning (mand) + betydning (kvinde)=?

Dette svarer til at udføre simple algebraiske operationer på ordvektorer:

Vektor (konge) – vektor (mand) + vektor (kvinde)= vektor(?)

Hvortil maskinen svarer dronning.

Næste i denne tutorial om naturlig sprogbehandling lærer vi om komponenter i NLP.

Komponenter af NLP

Fem hovedkomponenter i naturlig sprogbehandling i AI er:

  • Morfologisk og leksikalsk analyse
  • Syntaktisk analyse
  • Semantisk analyse
  • Diskursintegration
  • Pragmatisk analyse
Komponenter af NLP
Komponenter af NLP

Morfologisk og leksikalsk analyse

Leksikalsk analyse er et ordforråd, der inkluderer dets ord og udtryk. Den skildrer analyse, identifikation og beskrivelse af ordenes struktur. Det omfatter opdeling af en tekst i afsnit, ord og sætninger

Individuelle ord analyseres i deres komponenter, og ikke-ord-tokens, såsom tegnsætning, adskilles fra ordene.

Semantisk analyse

Semantisk analyse er en struktur skabt af den syntaktiske analysator, som tildeler betydninger. Denne komponent overfører lineære sekvenser af ord til strukturer. Det viser, hvordan ordene er forbundet med hinanden.

Semantik fokuserer kun på den bogstavelige betydning af ord, sætninger og sætninger. Dette abstraherer kun ordbogens betydning eller den virkelige betydning fra den givne kontekst. De strukturer, der er tildelt af den syntaktiske analysator, har altid tildelt betydning

F.eks. "farveløs grøn idé." Dette ville blive afvist af Symantec-analysen som farveløst her; grøn giver ingen mening.

Pragmatisk analyse

Pragmatisk analyse beskæftiger sig med det overordnede kommunikative og sociale indhold og dets effekt på fortolkning. Det betyder at abstrahere eller udlede den meningsfulde brug af sprog i situationer. I denne analyse genfortolkes hovedfokus altid på, hvad der blev sagt, på hvad der menes.

Pragmatisk analyse hjælper brugerne med at opdage denne tilsigtede effekt ved at anvende et sæt regler, der karakteriserer samarbejdsdialoger.

F.eks. "luk vinduet?" skal fortolkes som en anmodning i stedet for en ordre.

Syntaksanalyse

Ordene er almindeligt accepteret som værende de mindste syntaksenheder. Syntaksen refererer til de principper og regler, der styrer sætningsstrukturen for ethvert enkelt sprog.

Syntaks fokus på den korrekte rækkefølge af ord, som kan påvirke deres betydning. Dette involverer analyse af ordene i en sætning ved at følge sætningens grammatiske struktur. Ordene omdannes til strukturen for at vise, hvordan ordet er relateret til hinanden.

Diskursintegration

Det betyder en fornemmelse af konteksten. Betydningen af ​​en enkelt sætning, der afhænger af disse sætninger. Den overvejer også betydningen af ​​den følgende sætning.

For eksempel afhænger ordet "det" i sætningen "Han ville det" af den forudgående diskurskontekst.

Næste i denne NLP-tutorial vil vi lære om NLP og skrivesystemer.

NLP og skrivesystemer

Den slags skrivesystem, der bruges til et sprog, er en af ​​de afgørende faktorer for at bestemme den bedste tilgang til tekstforbehandling. Skrivesystemer kan være

  1. Logografisk: et stort antal individuelle symboler repræsenterer ord. Eksempel japansk, mandarin
  2. Stavelse: Individuelle symboler repræsenterer stavelser
  3. Alfabetisk: Individuelle symboler repræsenterer lyd

Størstedelen af ​​skriftsystemerne bruger det syllabiske eller alfabetiske system. Selv engelsk, med sit relativt enkle skriftsystem baseret på det romerske alfabet, bruger logografiske symboler, som inkluderer arabiske tal, valutasymboler (S, £) og andre specielle symboler.

Det giver følgende udfordringer

  • Det er en udfordring at udtrække mening(semantik) fra en tekst
  • NLP i AI er afhængig af kvaliteten af ​​korpuset. Hvis domænet er stort, er det svært at forstå konteksten.
  • Der er en afhængighed af karaktersættet og sproget

Sådan implementeres NLP

Nedenfor er angivet populære metoder, der bruges til Natural Learning Process:

Maskinelæring: De lærings-nlp-procedurer, der bruges under maskinlæring. Den fokuserer automatisk på de mest almindelige sager. Så når vi skriver regler i hånden, er det ofte slet ikke korrekt bekymret for menneskelige fejl.

Statistisk slutning: NLP kan gøre brug af statistiske inferensalgoritmer. Det hjælper dig med at producere modeller, der er robuste. f.eks. indeholdende ord eller strukturer, som er kendt af alle.

NLP eksempler

I dag er Natural Process learning-teknologi meget brugt teknologi.

Her er almindelige naturlige sprogbehandlingsteknikker:

Informationssøgning og websøgning

Google, Yahoo, Bing og andre søgemaskiner basere deres maskinoversættelsesteknologi på NLP deep learning-modeller. Det giver algoritmer mulighed for at læse tekst på en webside, fortolke dens betydning og oversætte den til et andet sprog.

Grammatikkorrektion:

NLP-teknik er meget udbredt af tekstbehandlingssoftware som MS-word til stave- og grammatikkontrol.

Grammatikkorrektion

Besvarelse af spørgsmål

Indtast nøgleord for at stille spørgsmål på naturligt sprog.

Tekstopsummering

Processen med at opsummere vigtig information fra en kilde for at producere en forkortet version

Maskinoversættelse

Brug af computerapplikationer til at oversætte tekst eller tale fra et naturligt sprog til et andet.

Maskinoversættelse

Følelsesanalyse

NLP hjælper virksomheder med at analysere et stort antal anmeldelser på et produkt. Det giver også deres kunder mulighed for at give en anmeldelse af det pågældende produkt.

Fremtiden for NLP

  • Menneskelig læsbar naturlig sprogbehandling er det største Al-problem. Det er mest det samme som at løse det centrale problem med kunstig intelligens og gøre computere lige så intelligente som mennesker.
  • Fremtidige computere eller maskiner ved hjælp af NLP vil være i stand til at lære af informationen online og anvende det i den virkelige verden, men der skal meget arbejde til i denne henseende.
  • Natural language toolkit eller nltk bliver mere effektivt
  • Kombineret med generering af naturligt sprog vil computere blive mere i stand til at modtage og give nyttig og ressourcestærk information eller data.

Naturligt sprog vs. computersprog

Nedenfor er de vigtigste forskelle mellem naturligt sprog og computersprog:

Parameter Naturligt sprog Computersprog
tvetydig De er tvetydige i naturen. De er designet til at være utvetydige.
Redundans Naturlige sprog anvender masser af redundans. Formelle sprog er mindre overflødige.
Bogstavelighed Naturlige sprog er lavet af formsprog og metafor Formelle sprog betyder præcis, hvad de vil sige

Fordele ved NLP

  • Brugere kan stille spørgsmål om ethvert emne og få et direkte svar inden for få sekunder.
  • NLP-systemet giver svar på spørgsmålene i naturligt sprog
  • NLP-systemet tilbyder præcise svar på spørgsmålene, ingen unødvendig eller uønsket information
  • Nøjagtigheden af ​​svarene øges med mængden af ​​relevant information i spørgsmålet.
  • NLP-processen hjælper computere med at kommunikere med mennesker på deres sprog og skalerer andre sprogrelaterede opgaver
  • Giver dig mulighed for at udføre mere sprogbaserede data sammenlignet med et menneske uden træthed og på en upartisk og konsekvent måde.
  • Strukturering af en meget ustruktureret datakilde

Ulemper ved NLP

  • Kompleks forespørgselssprog - systemet er muligvis ikke i stand til at give det korrekte svar på spørgsmålet, der er dårligt formuleret eller tvetydigt.
  • Systemet er kun bygget til en enkelt og specifik opgave; det er ude af stand til at tilpasse sig nye domæner og problemer på grund af begrænsede funktioner.
  • NLP-systemet har ikke en brugergrænseflade, der mangler funktioner, der giver brugerne mulighed for at interagere med systemet yderligere

Resumé

  • Natural Language Processing er en gren af ​​AI, som hjælper computere med at forstå, fortolke og manipulere menneskeligt sprog
  • NLP startede, da Alan Turing udgav en artikel kaldet "Machine and Intelligence".
  • NLP fokuserer aldrig på stemmemodulering; det trækker på kontekstuelle mønstre
  • Fem væsentlige komponenter i naturlig sprogbehandling i kunstig intelligens er 1) Morfologisk og leksikalsk analyse 2) Syntaktisk analyse 3) Semantisk analyse 4) Diskursintegration 5) Pragmatisk analyse
  • Tre typer af det naturlige processkriftsystem er 1)Logografisk 2) Stavelse 3) Alfabetisk
  • Maskinlæring og statistisk inferens er to metoder til implementering af Natural Process Learning
  • Væsentlige anvendelser af NLP er informationssøgning og websøgning, besvarelse af spørgsmål til grammatikkorrektion, tekstopsummering, maskinoversættelse osv.
  • Fremtidens computere eller maskiner ved hjælp af NLP og data, Science vil være i stand til at lære af informationen online og anvende det i den virkelige verden, men der skal meget arbejde til i denne henseende
  • NLP er tvetydige, mens open source computersprog er designet til utvetydigt
  • Den største fordel ved NLP i kunstig intelligens-systemet er, at det giver nøjagtige svar på spørgsmålene, ingen unødvendig eller uønsket information
  • Den største ulempe ved NLP-systemet er kun bygget til en enkelt og specifik opgave, så det er ude af stand til at tilpasse sig nye domæner og problemer på grund af begrænsede funktioner