Luonnollisen kielen käsittelyn opetusohjelma: Mikä on NLP? Esimerkkejä

Mikä on luonnollisen kielen käsittely?

Luonnollinen kielenkäsittely (NLP) on tekoälyn haara, joka auttaa tietokoneita ymmärtämään, tulkitsemaan ja manipuloimaan ihmiskieliä, kuten englantia tai hindiä, analysoimaan ja päättämään niiden merkityksen. NLP auttaa kehittäjiä organisoimaan ja jäsentämään tietoa suorittaakseen tehtäviä, kuten käännös, yhteenveto, nimettyjen entiteettien tunnistus, suhteiden purkaminen, puheentunnistus, aiheen segmentointi jne.

NLP:n historia

Tässä on tärkeitä tapahtumia luonnollisen kielen käsittelyn historiassa:

1950- NLP alkoi, kun Alan Turing julkaisi artikkelin nimeltä "Machine and Intelligence".

1950- Yritetään automatisoida käännös venäjän ja englannin välillä

1960- Chomskyn ja muiden työ muodollisesta kieliteoriasta ja generatiivisesta syntaksista

1990- Todennäköisyyspohjaisista ja dataohjatuista malleista oli tullut melko vakioita

2000- Suuri määrä puhe- ja tekstidataa tulee saataville

Seuraavaksi tässä NLP-opetusohjelmassa opimme kuinka NLP toimii.

Miten NLP toimii?

Ennen kuin opimme kuinka NLP toimii, ymmärrämme kuinka ihmiset käyttävät kieltä.

Joka päivä sanomme tuhat sanaa, jonka muut ihmiset tulkitsevat tekevän lukemattomia asioita. Pidämme sitä yksinkertaisena viestinänä, mutta me kaikki tiedämme, että sanat ovat paljon syvemmällä. Aina on jokin konteksti, jonka johdamme siitä, mitä sanomme ja kuinka sanomme sen., NLP sisään Tekoäly ei koskaan keskity äänen modulaatioon; se hyödyntää kontekstuaalisia malleja.

Esimerkiksi:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Tässä voimme helposti samaistua, koska mies on miessukupuolta ja nainen on naissukupuolta. Samalla tavalla kuningas on maskuliininen sukupuoli ja sen naissukupuoli on kuningatar.

Esimerkiksi:

Is King to kings as the queen is to_______?
The answer is--- queens 

Täällä voimme nähdä kaksi sanaa kuninkaat ja kuninkaat, joista toinen on yksikkö ja toinen monikko. Siksi, kun maailmankuningatar tulee, se liittyy automaattisesti kuningattareiden kanssa yksikön monikkomuodossa.

Tässä suurin kysymys on, että mistä tiedämme, mitä sanat tarkoittavat? Sanotaanpa, kuka kutsuu sitä kuningattareksi?

NLP työ

Vastaus on, että opimme tämän ajattelemaan kokemuksen kautta. Kuitenkin tässä pääkysymys on, että kuinka tietokone tietää samasta?

Meidän on tarjottava riittävästi dataa, jotta Machines oppii kokemuksen kautta. Voimme syöttää tietoja mm

  • Hänen Majesteettinsa Kuningatar.
  • Kuningattaren puhe valtiovierailun aikana
  • Kuningatar Elisabetin kruunu
  • Kuningattaren äiti
  • Kuningatar on antelias.

Yllä olevilla esimerkeillä kone ymmärtää entiteetin Queen.

Kone luo sanavektorit alla kuvatulla tavalla. Sanavektori rakennetaan ympäröivistä sanoista.

NLP työ

Kone luo nämä vektorit

  • Kuten se oppii useista tietojoukoista
  • Käytä koneoppimista (esim. Deep Learning -algoritmeja)
  • Sanavektori rakennetaan ympäröivistä sanoista.

Tässä on kaava:

Merkitys (kuningas) – merkitys (mies) + merkitys (nainen)=?

Tämä tarkoittaa yksinkertaisten algebrallisten operaatioiden suorittamista sanavektoreille:

Vektori (kuningas) - vektori (mies) + vektori (nainen) = vektori (?)

Johon kone vastaa kuningatar.

Seuraavaksi tässä luonnollisen kielen käsittelyn opetusohjelmassa opimme NLP:n komponenteista.

NLP:n komponentit

Viisi pääkomponenttia luonnollisen kielen käsittelyssä tekoälyssä ovat:

  • Morfologinen ja leksikaalinen analyysi
  • Syntaktinen analyysi
  • Semanttinen analyysi
  • Diskurssin integrointi
  • Pragmaattinen analyysi
NLP:n komponentit
NLP:n komponentit

Morfologinen ja leksikaalinen analyysi

Leksinen analyysi on sanasto, joka sisältää sen sanat ja ilmaisut. Se kuvaa sanojen rakenteen analysointia, tunnistamista ja kuvausta. Se sisältää tekstin jakamisen kappaleisiin, sanoiin ja lauseisiin

Yksittäiset sanat analysoidaan osiin, ja ei-sanamerkit, kuten välimerkit, erotetaan sanoista.

Semanttinen analyysi

Semanttinen analyysi on syntaktisen analysaattorin luoma rakenne, joka antaa merkityksiä. Tämä komponentti siirtää lineaariset sanasekvenssit rakenteiksi. Se näyttää kuinka sanat liittyvät toisiinsa.

Semantiikka keskittyy vain sanojen, lauseiden ja lauseiden kirjaimelliseen merkitykseen. Tämä vain abstraktioi sanakirjan merkityksen tai todellisen merkityksen annetusta kontekstista. Syntaktisen analysaattorin antamilla rakenteilla on aina määrätty merkitys

Esim. "väritön vihreä idea." Symantecin analyysi hylkäsi tämän värittömänä Here; vihreällä ei ole mitään järkeä.

Pragmaattinen analyysi

Pragmaattinen analyysi käsittelee yleistä kommunikatiivista ja sosiaalista sisältöä ja sen vaikutusta tulkintaan. Se tarkoittaa merkityksellisen kielenkäytön abstraktiota tai johtamista tilanteissa. Tässä analyysissä pääpaino aina sanottuun tulkitaan uudelleen siihen, mitä tarkoitetaan.

Pragmaattinen analyysi auttaa käyttäjiä löytämään tämän aiotun vaikutuksen soveltamalla yhteistyöhön perustuvia vuoropuheluja luonnehtivia sääntöjä.

Esim "sulje ikkuna?" tulee tulkita pyynnöksi käskyn sijaan.

Syntaksianalyysi

Sanat hyväksytään yleisesti syntaksin pienimmiksi yksiköiksi. Syntaksi viittaa periaatteisiin ja sääntöihin, jotka hallitsevat yksittäisten kielten lauserakennetta.

Syntaksi keskittyy sanojen oikeaan järjestykseen, mikä voi vaikuttaa sen merkitykseen. Tämä sisältää lauseen sanojen analysoinnin seuraamalla lauseen kielioppirakennetta. Sanat muunnetaan rakenteeksi osoittamaan, miten sanat liittyvät toisiinsa.

Diskurssin integrointi

Se tarkoittaa kontekstin tunnetta. Minkä tahansa yksittäisen lauseen merkitys, joka riippuu näistä lauseista. Se ottaa huomioon myös seuraavan lauseen merkityksen.

Esimerkiksi sana "se" lauseessa "Hän halusi sen" riippuu aikaisemman keskustelun kontekstista.

Seuraavaksi tässä NLP-opetusohjelmassa opimme NLP:stä ja kirjoitusjärjestelmistä.

NLP ja kirjoitusjärjestelmät

Kielen kirjoitusjärjestelmä on yksi ratkaisevista tekijöistä määritettäessä paras tapa tekstin esikäsittelyyn. Kirjoitusjärjestelmät voivat olla

  1. Logografia: a Suuri määrä yksittäisiä symboleja edustaa sanoja. Esimerkki japani, mandariini
  2. Tavut: Yksittäiset symbolit edustavat tavuja
  3. Aakkosellinen: Yksittäiset symbolit edustavat ääntä

Suurin osa kirjoitusjärjestelmistä käyttää tavu- tai aakkosjärjestelmää. Jopa englannissa, jossa on suhteellisen yksinkertainen roomalaisiin aakkosiin perustuva kirjoitusjärjestelmä, käytetään logografisia symboleja, jotka sisältävät arabialaisia ​​numeroita, valuuttasymboleja (S, £) ja muita erikoismerkkejä.

Tämä asettaa seuraavat haasteet

  • Merkityksen (semantiikan) erottaminen tekstistä on haaste
  • Tekoälyn NLP riippuu korpuksen laadusta. Jos toimialue on laaja, kontekstia on vaikea ymmärtää.
  • On riippuvainen merkistöstä ja kielestä

Kuinka ottaa NLP käyttöön

Alla on esitetty suosittuja luonnollisessa oppimisprosessissa käytettyjä menetelmiä:

Koneoppiminen: Koneoppimisen aikana käytetyt oppimisen nlp-menettelyt. Se keskittyy automaattisesti yleisimpiin tapauksiin. Joten kun kirjoitamme sääntöjä käsin, se ei useinkaan ole oikein huolissaan inhimillisistä virheistä.

Tilastollinen päätelmä: NLP voi hyödyntää tilastollisia päättelyalgoritmeja. Se auttaa sinua valmistamaan kestäviä malleja. esim. sisältäen sanoja tai rakenteita, jotka ovat kaikkien tiedossa.

NLP-esimerkkejä

Nykyään luonnonprosessien oppimistekniikka on laajalti käytetty tekniikka.

Tässä on yleisiä luonnollisen kielen käsittelytekniikoita:

Tietojen haku ja verkkohaku

Google, Yahoo, Bing ja muut Hakukoneet perustavat konekäännösteknologiansa NLP-syväoppimismalleihin. Sen avulla algoritmit voivat lukea verkkosivulla olevaa tekstiä, tulkita sen merkitystä ja kääntää sen toiselle kielelle.

Kieliopin korjaus:

NLP-tekniikkaa käyttävät laajasti tekstinkäsittelyohjelmat, kuten MS-word, oikeinkirjoituksen korjaamiseen ja kieliopin tarkistamiseen.

Kieliopin korjaus

Kysymykseen vastaaminen

Kirjoita avainsanat kysyäksesi kysymyksiä luonnollisella kielellä.

Tekstin yhteenveto

Prosessi, jossa tärkeät tiedot tiivistetään lähteestä lyhennetyn version tuottamiseksi

Konekäännös

Tietokonesovellusten käyttö tekstin tai puheen kääntämiseen luonnollisesta kielestä toiseen.

Konekäännös

Sentiment-analyysi

NLP auttaa yrityksiä analysoimaan suuren määrän tuotearvioita. Sen avulla asiakkaat voivat myös antaa arvion tietystä tuotteesta.

NLP:n tulevaisuus

  • Ihmisen luettavissa olevan luonnollisen kielen prosessointi on suurin Al-ongelma. Se on aivan sama kuin keskeisen tekoälyongelman ratkaiseminen ja tietokoneiden tekeminen yhtä älykkäiksi kuin ihmiset.
  • Tulevat tietokoneet tai koneet NLP:n avulla pystyvät oppimaan tiedoista verkossa ja soveltamaan sitä todellisessa maailmassa, mutta tämän asian eteen on tehtävä paljon työtä.
  • Luonnollisen kielen työkalupakki tai nltk tehostuvat
  • Yhdessä luonnollisen kielen luomisen kanssa tietokoneet pystyvät vastaanottamaan ja antamaan hyödyllistä ja kekseliäistä tietoa tai dataa.

Luonnollinen kieli vs. tietokonekieli

Alla on tärkeimmät erot luonnollisen kielen ja tietokonekielen välillä:

Parametri Luonnollinen kieli Tietokoneen kieli
Epäselvä Ne ovat luonteeltaan moniselitteisiä. Ne on suunniteltu yksiselitteisiksi.
irtisanominen Luonnolliset kielet käyttävät paljon redundanssia. Muodolliset kielet ovat vähemmän tarpeettomia.
Kirjaimellisuus Luonnolliset kielet on tehty idioomeista ja metaforasta Viralliset kielet tarkoittavat juuri sitä, mitä he haluavat sanoa

NLP:n edut

  • Käyttäjät voivat esittää kysymyksiä mistä tahansa aiheesta ja saada suoran vastauksen muutamassa sekunnissa.
  • NLP-järjestelmä tarjoaa vastaukset kysymyksiin luonnollisella kielellä
  • NLP-järjestelmä tarjoaa tarkat vastaukset kysymyksiin, ei tarpeetonta tai ei-toivottua tietoa
  • Vastausten tarkkuus kasvaa kysymyksessä olevan olennaisen tiedon määrän myötä.
  • NLP-prosessi auttaa tietokoneita kommunikoimaan ihmisten kanssa heidän kielellään ja skaalaamaan muita kieleen liittyviä tehtäviä
  • Voit suorittaa enemmän kielipohjaisia ​​tietoja verrattuna ihmiseen väsymättä ja puolueettomasti ja johdonmukaisesti.
  • Strukturoimattoman tietolähteen jäsentäminen

NLP:n haitat

  • Monimutkainen kyselykieli – järjestelmä ei ehkä pysty antamaan oikeaa vastausta kysymykseen, joka on huonosti muotoiltu tai moniselitteinen.
  • Järjestelmä on rakennettu vain yhtä ja tiettyä tehtävää varten; se ei pysty sopeutumaan uusiin alueisiin ja ongelmiin rajallisten toimintojen vuoksi.
  • NLP-järjestelmässä ei ole käyttöliittymää, josta puuttuu ominaisuuksia, joiden avulla käyttäjät voivat olla vuorovaikutuksessa järjestelmän kanssa

Yhteenveto

  • Natural Language Processing on tekoälyn osa, joka auttaa tietokoneita ymmärtämään, tulkitsemaan ja manipuloimaan ihmisten kieltä
  • NLP alkoi, kun Alan Turing julkaisi artikkelin nimeltä "Machine and Intelligence".
  • NLP ei koskaan keskity puhemodulaatioon; se hyödyntää kontekstuaalisia malleja
  • Luonnollisen kielen prosessoinnin viisi olennaista komponenttia tekoälyssä ovat 1) morfologinen ja leksinen analyysi 2) syntaktinen analyysi 3) semanttinen analyysi 4) keskustelun integrointi 5) pragmaattinen analyysi.
  • Luonnollisen prosessin kirjoitusjärjestelmän kolme tyyppiä ovat 1) Logografinen 2) Tavu 3) Aakkosellinen
  • Koneoppiminen ja tilastollinen päättely ovat kaksi tapaa toteuttaa Natural Process Learning
  • NLP:n tärkeimmät sovellukset ovat tiedonhaku ja verkkohaku, kielioppikorjauskysymyksiin vastaaminen, tekstin yhteenveto, konekääntäminen jne.
  • Tulevaisuuden tietokoneet tai koneet NLP:n ja data Science pystyy oppimaan verkossa olevista tiedoista ja soveltamaan sitä todellisessa maailmassa, mutta tässä asiassa on tehtävä paljon työtä
  • NLP on moniselitteinen, kun taas avoimen lähdekoodin tietokonekieli on suunniteltu yksiselitteiseksi
  • NLP in Artificial Intelligence -järjestelmän suurin etu on, että se tarjoaa tarkat vastaukset kysymyksiin, ei tarpeetonta tai ei-toivottua tietoa
  • NLP-järjestelmän suurin haittapuoli on rakennettu vain yhteen ja tiettyyn tehtävään, joten se ei pysty mukautumaan uusiin toimialueisiin ja ongelmiin rajallisten toimintojen vuoksi