Luonnollisen kielen käsittelyn opetusohjelma: Mikä on NLP? Esimerkkejä
Mikä on luonnollisen kielen käsittely?
Luonnollinen kielenkäsittely (NLP) on tekoälyn haara, joka auttaa tietokoneita ymmärtämään, tulkitsemaan ja manipuloimaan ihmiskieliä, kuten englantia tai hindiä, analysoimaan ja päättämään niiden merkityksen. NLP auttaa kehittäjiä organisoimaan ja jäsentämään tietoa suorittaakseen tehtäviä, kuten käännös, yhteenveto, nimettyjen entiteettien tunnistus, suhteiden purkaminen, puheentunnistus, aiheen segmentointi jne.
NLP:n historia
Tässä on tärkeitä tapahtumia luonnollisen kielen käsittelyn historiassa:
1950- NLP alkoi, kun Alan Turing julkaisi artikkelin nimeltä "Machine and Intelligence".
1950- Yritetään automatisoida käännös venäjän ja englannin välillä
1960- Chomskyn ja muiden työ muodollisesta kieliteoriasta ja generatiivisesta syntaksista
1990- Todennäköisyyspohjaisista ja dataohjatuista malleista oli tullut melko vakioita
2000- Suuri määrä puhe- ja tekstidataa tulee saataville
Seuraavaksi tässä NLP-opetusohjelmassa opimme kuinka NLP toimii.
Miten NLP toimii?
Ennen kuin opimme kuinka NLP toimii, ymmärrämme kuinka ihmiset käyttävät kieltä.
Joka päivä sanomme tuhat sanaa, jonka muut ihmiset tulkitsevat tekevän lukemattomia asioita. Pidämme sitä yksinkertaisena viestinänä, mutta me kaikki tiedämme, että sanat ovat paljon syvemmällä. Aina on jokin konteksti, jonka johdamme siitä, mitä sanomme ja kuinka sanomme sen., NLP sisään Tekoäly ei koskaan keskity äänen modulaatioon; se hyödyntää kontekstuaalisia malleja.
Esimerkiksi:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Tässä voimme helposti samaistua, koska mies on miessukupuolta ja nainen on naissukupuolta. Samalla tavalla kuningas on maskuliininen sukupuoli ja sen naissukupuoli on kuningatar.
Esimerkiksi:
Is King to kings as the queen is to_______? The answer is--- queens
Täällä voimme nähdä kaksi sanaa kuninkaat ja kuninkaat, joista toinen on yksikkö ja toinen monikko. Siksi, kun maailmankuningatar tulee, se liittyy automaattisesti kuningattareiden kanssa yksikön monikkomuodossa.
Tässä suurin kysymys on, että mistä tiedämme, mitä sanat tarkoittavat? Sanotaanpa, kuka kutsuu sitä kuningattareksi?
Vastaus on, että opimme tämän ajattelemaan kokemuksen kautta. Kuitenkin tässä pääkysymys on, että kuinka tietokone tietää samasta?
Meidän on tarjottava riittävästi dataa, jotta Machines oppii kokemuksen kautta. Voimme syöttää tietoja mm
- Hänen Majesteettinsa Kuningatar.
- Kuningattaren puhe valtiovierailun aikana
- Kuningatar Elisabetin kruunu
- Kuningattaren äiti
- Kuningatar on antelias.
Yllä olevilla esimerkeillä kone ymmärtää entiteetin Queen.
Kone luo sanavektorit alla kuvatulla tavalla. Sanavektori rakennetaan ympäröivistä sanoista.
Kone luo nämä vektorit
- Kuten se oppii useista tietojoukoista
- Käytä koneoppimista (esim. Deep Learning -algoritmeja)
- Sanavektori rakennetaan ympäröivistä sanoista.
Tässä on kaava:
Merkitys (kuningas) – merkitys (mies) + merkitys (nainen)=?
Tämä tarkoittaa yksinkertaisten algebrallisten operaatioiden suorittamista sanavektoreille:
Vektori (kuningas) - vektori (mies) + vektori (nainen) = vektori (?)
Johon kone vastaa kuningatar.
Seuraavaksi tässä luonnollisen kielen käsittelyn opetusohjelmassa opimme NLP:n komponenteista.
NLP:n komponentit
Viisi pääkomponenttia luonnollisen kielen käsittelyssä tekoälyssä ovat:
- Morfologinen ja leksikaalinen analyysi
- Syntaktinen analyysi
- Semanttinen analyysi
- Diskurssin integrointi
- Pragmaattinen analyysi
Morfologinen ja leksikaalinen analyysi
Leksinen analyysi on sanasto, joka sisältää sen sanat ja ilmaisut. Se kuvaa sanojen rakenteen analysointia, tunnistamista ja kuvausta. Se sisältää tekstin jakamisen kappaleisiin, sanoiin ja lauseisiin
Yksittäiset sanat analysoidaan osiin, ja ei-sanamerkit, kuten välimerkit, erotetaan sanoista.
Semanttinen analyysi
Semanttinen analyysi on syntaktisen analysaattorin luoma rakenne, joka antaa merkityksiä. Tämä komponentti siirtää lineaariset sanasekvenssit rakenteiksi. Se näyttää kuinka sanat liittyvät toisiinsa.
Semantiikka keskittyy vain sanojen, lauseiden ja lauseiden kirjaimelliseen merkitykseen. Tämä vain abstraktioi sanakirjan merkityksen tai todellisen merkityksen annetusta kontekstista. Syntaktisen analysaattorin antamilla rakenteilla on aina määrätty merkitys
Esim. "väritön vihreä idea." Symantecin analyysi hylkäsi tämän värittömänä Here; vihreällä ei ole mitään järkeä.
Pragmaattinen analyysi
Pragmaattinen analyysi käsittelee yleistä kommunikatiivista ja sosiaalista sisältöä ja sen vaikutusta tulkintaan. Se tarkoittaa merkityksellisen kielenkäytön abstraktiota tai johtamista tilanteissa. Tässä analyysissä pääpaino aina sanottuun tulkitaan uudelleen siihen, mitä tarkoitetaan.
Pragmaattinen analyysi auttaa käyttäjiä löytämään tämän aiotun vaikutuksen soveltamalla yhteistyöhön perustuvia vuoropuheluja luonnehtivia sääntöjä.
Esim "sulje ikkuna?" tulee tulkita pyynnöksi käskyn sijaan.
Syntaksianalyysi
Sanat hyväksytään yleisesti syntaksin pienimmiksi yksiköiksi. Syntaksi viittaa periaatteisiin ja sääntöihin, jotka hallitsevat yksittäisten kielten lauserakennetta.
Syntaksi keskittyy sanojen oikeaan järjestykseen, mikä voi vaikuttaa sen merkitykseen. Tämä sisältää lauseen sanojen analysoinnin seuraamalla lauseen kielioppirakennetta. Sanat muunnetaan rakenteeksi osoittamaan, miten sanat liittyvät toisiinsa.
Diskurssin integrointi
Se tarkoittaa kontekstin tunnetta. Minkä tahansa yksittäisen lauseen merkitys, joka riippuu näistä lauseista. Se ottaa huomioon myös seuraavan lauseen merkityksen.
Esimerkiksi sana "se" lauseessa "Hän halusi sen" riippuu aikaisemman keskustelun kontekstista.
Seuraavaksi tässä NLP-opetusohjelmassa opimme NLP:stä ja kirjoitusjärjestelmistä.
NLP ja kirjoitusjärjestelmät
Kielen kirjoitusjärjestelmä on yksi ratkaisevista tekijöistä määritettäessä paras tapa tekstin esikäsittelyyn. Kirjoitusjärjestelmät voivat olla
- Logografia: a Suuri määrä yksittäisiä symboleja edustaa sanoja. Esimerkki japani, mandariini
- Tavut: Yksittäiset symbolit edustavat tavuja
- Aakkosellinen: Yksittäiset symbolit edustavat ääntä
Suurin osa kirjoitusjärjestelmistä käyttää tavu- tai aakkosjärjestelmää. Jopa englannissa, jossa on suhteellisen yksinkertainen roomalaisiin aakkosiin perustuva kirjoitusjärjestelmä, käytetään logografisia symboleja, jotka sisältävät arabialaisia numeroita, valuuttasymboleja (S, £) ja muita erikoismerkkejä.
Tämä asettaa seuraavat haasteet
- Merkityksen (semantiikan) erottaminen tekstistä on haaste
- Tekoälyn NLP riippuu korpuksen laadusta. Jos toimialue on laaja, kontekstia on vaikea ymmärtää.
- On riippuvainen merkistöstä ja kielestä
Kuinka ottaa NLP käyttöön
Alla on esitetty suosittuja luonnollisessa oppimisprosessissa käytettyjä menetelmiä:
Koneoppiminen: Koneoppimisen aikana käytetyt oppimisen nlp-menettelyt. Se keskittyy automaattisesti yleisimpiin tapauksiin. Joten kun kirjoitamme sääntöjä käsin, se ei useinkaan ole oikein huolissaan inhimillisistä virheistä.
Tilastollinen päätelmä: NLP voi hyödyntää tilastollisia päättelyalgoritmeja. Se auttaa sinua valmistamaan kestäviä malleja. esim. sisältäen sanoja tai rakenteita, jotka ovat kaikkien tiedossa.
NLP-esimerkkejä
Nykyään luonnonprosessien oppimistekniikka on laajalti käytetty tekniikka.
Tässä on yleisiä luonnollisen kielen käsittelytekniikoita:
Tietojen haku ja verkkohaku
Google, Yahoo, Bing ja muut Hakukoneet perustavat konekäännösteknologiansa NLP-syväoppimismalleihin. Sen avulla algoritmit voivat lukea verkkosivulla olevaa tekstiä, tulkita sen merkitystä ja kääntää sen toiselle kielelle.
Kieliopin korjaus:
NLP-tekniikkaa käyttävät laajasti tekstinkäsittelyohjelmat, kuten MS-word, oikeinkirjoituksen korjaamiseen ja kieliopin tarkistamiseen.
Kysymykseen vastaaminen
Kirjoita avainsanat kysyäksesi kysymyksiä luonnollisella kielellä.
Tekstin yhteenveto
Prosessi, jossa tärkeät tiedot tiivistetään lähteestä lyhennetyn version tuottamiseksi
Konekäännös
Tietokonesovellusten käyttö tekstin tai puheen kääntämiseen luonnollisesta kielestä toiseen.
Sentiment-analyysi
NLP auttaa yrityksiä analysoimaan suuren määrän tuotearvioita. Sen avulla asiakkaat voivat myös antaa arvion tietystä tuotteesta.
NLP:n tulevaisuus
- Ihmisen luettavissa olevan luonnollisen kielen prosessointi on suurin Al-ongelma. Se on aivan sama kuin keskeisen tekoälyongelman ratkaiseminen ja tietokoneiden tekeminen yhtä älykkäiksi kuin ihmiset.
- Tulevat tietokoneet tai koneet NLP:n avulla pystyvät oppimaan tiedoista verkossa ja soveltamaan sitä todellisessa maailmassa, mutta tämän asian eteen on tehtävä paljon työtä.
- Luonnollisen kielen työkalupakki tai nltk tehostuvat
- Yhdessä luonnollisen kielen luomisen kanssa tietokoneet pystyvät vastaanottamaan ja antamaan hyödyllistä ja kekseliäistä tietoa tai dataa.
Luonnollinen kieli vs. tietokonekieli
Alla on tärkeimmät erot luonnollisen kielen ja tietokonekielen välillä:
Parametri | Luonnollinen kieli | Tietokoneen kieli |
---|---|---|
Epäselvä | Ne ovat luonteeltaan moniselitteisiä. | Ne on suunniteltu yksiselitteisiksi. |
irtisanominen | Luonnolliset kielet käyttävät paljon redundanssia. | Muodolliset kielet ovat vähemmän tarpeettomia. |
Kirjaimellisuus | Luonnolliset kielet on tehty idioomeista ja metaforasta | Viralliset kielet tarkoittavat juuri sitä, mitä he haluavat sanoa |
NLP:n edut
- Käyttäjät voivat esittää kysymyksiä mistä tahansa aiheesta ja saada suoran vastauksen muutamassa sekunnissa.
- NLP-järjestelmä tarjoaa vastaukset kysymyksiin luonnollisella kielellä
- NLP-järjestelmä tarjoaa tarkat vastaukset kysymyksiin, ei tarpeetonta tai ei-toivottua tietoa
- Vastausten tarkkuus kasvaa kysymyksessä olevan olennaisen tiedon määrän myötä.
- NLP-prosessi auttaa tietokoneita kommunikoimaan ihmisten kanssa heidän kielellään ja skaalaamaan muita kieleen liittyviä tehtäviä
- Voit suorittaa enemmän kielipohjaisia tietoja verrattuna ihmiseen väsymättä ja puolueettomasti ja johdonmukaisesti.
- Strukturoimattoman tietolähteen jäsentäminen
NLP:n haitat
- Monimutkainen kyselykieli – järjestelmä ei ehkä pysty antamaan oikeaa vastausta kysymykseen, joka on huonosti muotoiltu tai moniselitteinen.
- Järjestelmä on rakennettu vain yhtä ja tiettyä tehtävää varten; se ei pysty sopeutumaan uusiin alueisiin ja ongelmiin rajallisten toimintojen vuoksi.
- NLP-järjestelmässä ei ole käyttöliittymää, josta puuttuu ominaisuuksia, joiden avulla käyttäjät voivat olla vuorovaikutuksessa järjestelmän kanssa
Yhteenveto
- Natural Language Processing on tekoälyn osa, joka auttaa tietokoneita ymmärtämään, tulkitsemaan ja manipuloimaan ihmisten kieltä
- NLP alkoi, kun Alan Turing julkaisi artikkelin nimeltä "Machine and Intelligence".
- NLP ei koskaan keskity puhemodulaatioon; se hyödyntää kontekstuaalisia malleja
- Luonnollisen kielen prosessoinnin viisi olennaista komponenttia tekoälyssä ovat 1) morfologinen ja leksinen analyysi 2) syntaktinen analyysi 3) semanttinen analyysi 4) keskustelun integrointi 5) pragmaattinen analyysi.
- Luonnollisen prosessin kirjoitusjärjestelmän kolme tyyppiä ovat 1) Logografinen 2) Tavu 3) Aakkosellinen
- Koneoppiminen ja tilastollinen päättely ovat kaksi tapaa toteuttaa Natural Process Learning
- NLP:n tärkeimmät sovellukset ovat tiedonhaku ja verkkohaku, kielioppikorjauskysymyksiin vastaaminen, tekstin yhteenveto, konekääntäminen jne.
- Tulevaisuuden tietokoneet tai koneet NLP:n ja data Science pystyy oppimaan verkossa olevista tiedoista ja soveltamaan sitä todellisessa maailmassa, mutta tässä asiassa on tehtävä paljon työtä
- NLP on moniselitteinen, kun taas avoimen lähdekoodin tietokonekieli on suunniteltu yksiselitteiseksi
- NLP in Artificial Intelligence -järjestelmän suurin etu on, että se tarjoaa tarkat vastaukset kysymyksiin, ei tarpeetonta tai ei-toivottua tietoa
- NLP-järjestelmän suurin haittapuoli on rakennettu vain yhteen ja tiettyyn tehtävään, joten se ei pysty mukautumaan uusiin toimialueisiin ja ongelmiin rajallisten toimintojen vuoksi