Tutorial sull'elaborazione del linguaggio naturale: cos'è la PNL? Esempi
Che cos'è l'elaborazione del linguaggio naturale?
Natural Language Processing (NLP) è un ramo dell'intelligenza artificiale che aiuta i computer a comprendere, interpretare e manipolare i linguaggi umani come l'inglese o l'hindi per analizzarne e ricavarne il significato. La PNL aiuta gli sviluppatori a organizzare e strutturare la conoscenza per eseguire attività come traduzione, riepilogo, riconoscimento di entità denominate, estrazione di relazioni, riconoscimento vocale, segmentazione di argomenti, ecc.
Storia della PNL
Ecco gli eventi importanti nella storia dell'elaborazione del linguaggio naturale:
1950- La PNL iniziò quando Alan Turing pubblicò un articolo intitolato “Machine and Intelligence”.
1950- Tentativi di automatizzare la traduzione tra russo e inglese
1960- Il lavoro di Chomsky e altri sulla teoria del linguaggio formale e sulla sintassi generativa
1990- I modelli probabilistici e basati sui dati erano diventati abbastanza standard
2000- Diventa disponibile una grande quantità di dati parlati e testuali
Successivamente in questo tutorial sulla PNL, impareremo come funziona la PNL.
Come funziona la PNL?
Prima di imparare come funziona la PNL, capiamo come gli esseri umani usano il linguaggio:
Ogni giorno diciamo migliaia di parole che altre persone interpretano per fare innumerevoli cose. Noi la consideriamo una semplice comunicazione, ma sappiamo tutti che le parole sono molto più profonde di così. C'è sempre un contesto che deriviamo da ciò che diciamo e da come lo diciamo., PNL in Intelligenza Artificiale non si concentra mai sulla modulazione della voce; si basa su modelli contestuali.
Esempio:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Qui possiamo facilmente correlarci perché l’uomo è di genere maschile e la donna è di genere femminile. Allo stesso modo, il re è di genere maschile e il suo genere femminile è la regina.
Esempio:
Is King to kings as the queen is to_______? The answer is--- queens
Qui possiamo vedere due parole kings e kings dove una è singolare e l'altra è plurale. Pertanto, quando arriva la regina del mondo, si relaziona automaticamente con le regine di nuovo al singolare plurale.
Qui, la domanda più grande è: come facciamo a sapere cosa significano le parole? Diciamo chi la chiamerà regina?
La risposta è che impariamo questo pensiero attraverso l'esperienza. Tuttavia, qui la domanda principale è: come fa il computer a sapere la stessa cosa?
Dobbiamo fornire dati sufficienti affinché le Macchine possano apprendere attraverso l’esperienza. Possiamo fornire dettagli come
- Sua Maestà la Regina.
- Il discorso della Regina durante la visita di Stato
- La corona della regina Elisabetta
- La madre della regina
- La regina è generosa.
Con gli esempi precedenti la macchina capisce l'entità Regina.
La macchina crea vettori di parole come di seguito. Un vettore di parole viene costruito utilizzando le parole circostanti.
La macchina crea questi vettori
- Poiché apprende da più set di dati
- Utilizzare l'apprendimento automatico (ad esempio, algoritmi di Deep Learning)
- Un vettore di parole viene costruito utilizzando le parole circostanti.
Ecco la formula:
Significato (re) – significato (uomo) + significato (donna)=?
Ciò equivale a eseguire semplici operazioni algebriche sui vettori di parole:
Vettore (re) – vettore (uomo) + vettore (donna)= vettore(?)
Al che la macchina risponde regina.
Successivamente in questo tutorial sull'elaborazione del linguaggio naturale, impareremo i componenti della PNL.
Componenti della PNL
I cinque componenti principali dell'elaborazione del linguaggio naturale nell'intelligenza artificiale sono:
- Analisi morfologica e lessicale
- Analisi sintattica
- Analisi semantica
- Integrazione del discorso
- Analisi pragmatica
Analisi morfologica e lessicale
L'analisi lessicale è un vocabolario che include le sue parole ed espressioni. Descrive l'analisi, l'identificazione e la descrizione della struttura delle parole. Comprende la divisione di un testo in paragrafi, parole e frasi
Le singole parole vengono analizzate nei loro componenti e i token non verbali come i segni di punteggiatura vengono separati dalle parole.
Analisi semantica
L'analisi semantica è una struttura creata dall'analizzatore sintattico che assegna significati. Questo componente trasferisce sequenze lineari di parole in strutture. Mostra come le parole sono associate tra loro.
La semantica si concentra solo sul significato letterale di parole, frasi ed enunciati. Questo astrae solo il significato del dizionario o il significato reale dal contesto dato. Le strutture assegnate dall'analizzatore sintattico hanno sempre un significato assegnato
Per esempio. “idea verde incolore”. Questo verrebbe rifiutato dall'analisi Symantec come incolore Qui; il verde non ha alcun senso.
Analisi pragmatica
L'analisi pragmatica si occupa del contenuto comunicativo e sociale complessivo e del suo effetto sull'interpretazione. Significa astrarre o derivare l'uso significativo del linguaggio nelle situazioni. In questa analisi, l'attenzione principale è sempre su ciò che è stato detto, reinterpretato su ciò che si intende.
L'analisi pragmatica aiuta gli utenti a scoprire questo effetto desiderato applicando una serie di regole che caratterizzano i dialoghi cooperativi.
Ad esempio, "chiudere la finestra?" dovrebbe essere interpretato come una richiesta anziché come un ordine.
Analisi della sintassi
Le parole sono comunemente accettate come le più piccole unità di sintassi. La sintassi si riferisce ai principi e alle regole che governano la struttura della frase di ogni singola lingua.
La sintassi si concentra sul corretto ordinamento delle parole che può influenzarne il significato. Ciò comporta l'analisi delle parole in una frase seguendo la struttura grammaticale della frase. Le parole vengono trasformate nella struttura per mostrare come le parole sono correlate tra loro.
Integrazione del discorso
Significa il senso del contesto. Il significato di ogni singola frase che dipende da quella frase. Considera anche il significato della frase seguente.
Ad esempio, la parola “quello” nella frase “Lui voleva quello” dipende dal contesto del discorso precedente.
Successivamente in questo tutorial sulla PNL, impareremo la PNL e i sistemi di scrittura.
PNL e sistemi di scrittura
Il tipo di sistema di scrittura utilizzato per una lingua è uno dei fattori decisivi nel determinare l'approccio migliore per la pre-elaborazione del testo. I sistemi di scrittura possono esserlo
- Logografico: un gran numero di singoli simboli rappresentano parole. Esempio giapponese, mandarino
- Sillabico: i singoli simboli rappresentano le sillabe
- Alfabetico: i singoli simboli rappresentano il suono
La maggior parte dei sistemi di scrittura utilizza il sistema sillabico o alfabetico. Anche l'inglese, con il suo sistema di scrittura relativamente semplice basato sull'alfabeto romano, utilizza simboli logografici che includono numeri arabi, simboli di valuta (S, £) e altri simboli speciali.
Ciò pone le seguenti sfide
- Estrarre il significato (semantica) da un testo è una sfida
- La PNL nell'intelligenza artificiale dipende dalla qualità del corpus. Se il dominio è vasto, è difficile comprendere il contesto.
- Esiste una dipendenza dal set di caratteri e dalla lingua
Come implementare la PNL
Di seguito sono riportati i metodi più diffusi utilizzati per il processo di apprendimento naturale:
Apprendimento automatico: Le procedure di apprendimento nlp utilizzate durante il machine learning. Si concentra automaticamente sui casi più comuni. Quindi quando scriviamo le regole a mano, spesso non è affatto corretto preoccuparci degli errori umani.
Inferenza statistica: La PNL può utilizzare algoritmi di inferenza statistica. Ti aiuta a produrre modelli robusti. ad esempio, contenente parole o strutture conosciute da tutti.
Esempi di PNL
Oggigiorno, la tecnologia di apprendimento dei processi naturali è una tecnologia ampiamente utilizzata.
Ecco le tecniche comuni di elaborazione del linguaggio naturale:
Recupero di informazioni e ricerca sul Web
Google, Yahoo, Bing e altri motori di ricerca basano la loro tecnologia di traduzione automatica su modelli di deep learning della PNL. Consente agli algoritmi di leggere il testo su una pagina web, interpretarne il significato e tradurlo in un'altra lingua.
Correzione grammaticale:
La tecnica PNL è ampiamente utilizzata dai software di elaborazione testi come MS-word per la correzione ortografica e il controllo grammaticale.
Risposta alla domanda
Digita le parole chiave per porre domande in linguaggio naturale.
Riepilogo del testo
Il processo di riepilogo di informazioni importanti da una fonte per produrre una versione abbreviata
Traduzione automatica
Utilizzo di applicazioni informatiche per tradurre testi o discorsi da una lingua naturale a un'altra.
Analisi del sentimento
La PNL aiuta le aziende ad analizzare un gran numero di recensioni su un prodotto. Consente inoltre ai propri clienti di fornire una recensione del particolare prodotto.
Futuro della PNL
- L’elaborazione del linguaggio naturale leggibile dall’uomo è il più grande problema dell’intelligenza artificiale. È quasi come risolvere il problema centrale dell’intelligenza artificiale e rendere i computer intelligenti quanto le persone.
- I futuri computer o macchine con l'aiuto della PNL saranno in grado di apprendere dalle informazioni online e di applicarle nel mondo reale, tuttavia, è necessario molto lavoro a questo riguardo.
- Il toolkit del linguaggio naturale o nltk diventa più efficace
- In combinazione con la generazione del linguaggio naturale, i computer diventeranno più capaci di ricevere e fornire informazioni o dati utili e ricchi di risorse.
Linguaggio naturale contro linguaggio informatico
Di seguito sono elencate le principali differenze tra linguaggio naturale e linguaggio informatico:
Parametro | Linguaggio naturale | Linguaggio informatico |
---|---|---|
Ambiguo | Sono di natura ambigua. | Sono progettati per essere inequivocabili. |
Ridondanza | I linguaggi naturali utilizzano molta ridondanza. | I linguaggi formali sono meno ridondanti. |
Letteralità | I linguaggi naturali sono fatti di idioma e metafora | I linguaggi formali significano esattamente quello che vogliono dire |
Vantaggi della PNL
- Gli utenti possono porre domande su qualsiasi argomento e ottenere una risposta diretta in pochi secondi.
- Il sistema PNL fornisce risposte alle domande in linguaggio naturale
- Il sistema PNL offre risposte esatte alle domande, nessuna informazione non necessaria o indesiderata
- La precisione delle risposte aumenta con la quantità di informazioni pertinenti fornite nella domanda.
- Il processo di PNL aiuta i computer a comunicare con gli esseri umani nella loro lingua e adatta altre attività legate alla lingua
- Consente di eseguire più dati basati sulla lingua rispetto a un essere umano senza fatica e in modo imparziale e coerente.
- Strutturare un'origine dati altamente non strutturata
Svantaggi della PNL
- Linguaggio di query complesso: il sistema potrebbe non essere in grado di fornire la risposta corretta a una domanda mal formulata o ambigua.
- Il sistema è costruito solo per un compito singolo e specifico; non è in grado di adattarsi a nuovi ambiti e problemi a causa delle funzioni limitate.
- Il sistema NLP non dispone di un'interfaccia utente priva di funzionalità che consentano agli utenti di interagire ulteriormente con il sistema
Sintesi
- L'elaborazione del linguaggio naturale è una branca dell'intelligenza artificiale che aiuta i computer a comprendere, interpretare e manipolare il linguaggio umano
- La PNL iniziò quando Alan Turing pubblicò un articolo intitolato “Machine and Intelligence”.
- La PNL non si concentra mai sulla modulazione della voce; si basa su modelli contestuali
- Cinque componenti essenziali dell'elaborazione del linguaggio naturale nell'intelligenza artificiale sono 1) analisi morfologica e lessicale 2) analisi sintattica 3) analisi semantica 4) integrazione del discorso 5) analisi pragmatica
- Tre tipi del sistema di scrittura del processo naturale sono 1) logografico 2) sillabico 3) alfabetico
- L'apprendimento automatico e l'inferenza statistica sono due metodi per l'implementazione del Natural Process Learning
- Le applicazioni essenziali della PNL sono il recupero di informazioni e la ricerca sul Web, la risposta alle domande sulla correzione grammaticale, il riepilogo del testo, la traduzione automatica, ecc.
- Futuri computer o macchine con l'aiuto della PNL e Science Data saranno in grado di apprendere dalle informazioni online e di applicarle nel mondo reale, tuttavia, è necessario molto lavoro a questo riguardo
- La PNL è ambigua mentre il linguaggio informatico open source è progettato per essere inequivocabile
- Il più grande vantaggio della PNL nel sistema di Intelligenza Artificiale è che offre risposte esatte alle domande, senza informazioni non necessarie o indesiderate
- Il più grande svantaggio del sistema PNL è che è costruito solo per un compito singolo e specifico, quindi non è in grado di adattarsi a nuovi ambiti e problemi a causa delle funzioni limitate