Cum să descărcați și să instalați NLTK pe Windows/Mac

Instalarea NLTK în Windows

În această parte, vom învăța cum să facem configurarea NLTK prin terminal (prompt de comandă în Windows).

Instrucțiunile de mai jos se bazează pe presupunerea că nu aveți instalat python. Deci, primul pas este să instalați python.

Instalarea Python in Windows

Pas 1) Accesați linkul https://www.python.org/downloads/, și selectați cea mai recentă versiune pentru Windows.

notițe: Dacă nu doriți să descărcați cea mai recentă versiune, puteți accesa fila de descărcare și puteți vedea toate versiunile.

Pas 2) Faceți clic pe fișierul descărcat

Pas 3)Selectați Personalizați instalarea

Pas 4) Faceți clic pe NEXT

Pas 5) În ecranul următor

Selectați opțiunile avansate
Dați o locație de instalare personalizată. În cazul meu, un folder pe unitatea C este ales pentru ușurință în funcționare
Faceți clic pe Instalare

Pas 6) Faceți clic pe butonul Închidere odată ce instalarea este finalizată.

Pas 7) Copiați calea folderului Scripturi.

Pas 8) În linia de comandă Windows

Navigați la locația folderului pip
Introdu comanda pentru a instala NLTK
```
pip3 install nltk
```
Instalarea trebuie făcută cu succes

NOTĂ: Pentru Python2 utilizați comandapip2 install nltk

Pas 9) In Windows Meniu Start, caută și deschide PythonCoajă

Pas 10) Puteți verifica dacă instalarea este corectă furnizând comanda de mai jos

import nltk

Dacă nu vedeți nicio eroare, instalarea este finalizată.

Instalarea NLTK în Mac/Linux

Instalarea NLTK în Mac/Unix necesită managerul de pachete python pip pentru a instala nltk. Dacă pip nu este instalat, vă rugăm să urmați instrucțiunile de mai jos pentru a finaliza procesul

Pasul 1) Actualizați indexul pachetului tastând comanda de mai jos

sudo apt update

Pasul 2) Instalarea pip pentru Python 3:

sudo apt install python3-pip

De asemenea, puteți instala pip folosind easy_install.

sudo apt-get install python-setuptools  python-dev build-essential

Acum easy_install este instalat. Rulați comanda de mai jos pentru a instala pip

sudo easy_install pip

Pasul 3)Utilizați următoarea comandă pentru a instala NLTK

sudo pip install -U nltk
sudo pip3 install -U nltk

Instalarea NLTK prin Anaconda

Pasul 1) Vă rugăm să instalați anaconda (care poate fi folosit și pentru a instala diferite pachete) vizitând https://www.anaconda.com/products/individual și selectați ce versiune de python trebuie să instalați pentru anaconda.

Notă: Consultați acest tutorial pentru pașii detaliați instalați anaconda

Pas 2)În promptul Anaconda,

Introduceți comanda
```
conda install -c anaconda nltk
```
Revvizualizați upgrade-ul pachetului, downgrade, informații de instalare și introduceți da
NLTK este descărcat și instalat

Setul de date NLTK

Modulul NLTK are multe seturi de date disponibile pe care trebuie să le descărcați pentru a le utiliza. Mai tehnic se numește corp. Unele dintre exemple sunt cuvinte de oprire, Gutenberg, framenet_v15, gramatici_marişi aşa mai departe.

Cum să descărcați toate pachetele NLTK

Pas 1)Pornește Python interpret in Windows sau Linux

Pas 2)

Introduceți comenzile

import nltk
nltk.download ()

Se deschide fereastra descărcată NLTK. Faceți clic pe butonul Descărcare pentru a descărca setul de date. Acest proces va dura timp, în funcție de conexiunea dvs. la internet

NOTĂ: Puteți schimba locația de descărcare făcând clic pe Fișier> Modificare director de descărcare

Pas 3) Pentru a testa datele instalate utilizați următorul cod

>>> from nltk.corpus import brown
>>>brown.words()

[„The”, „Fulton”, „County”, „Grand”, „Jury”, „said”, …]

Rularea scriptului NLP

Vom discuta despre cum va fi executat scriptul NLP pe computerul nostru local. Există multe biblioteci pentru procesarea limbajului natural prezente pe piață. Deci, alegerea unei biblioteci depinde de potrivirea cerințelor dvs. Iată lista cu biblioteci NLP.

Cum să rulați scriptul NLTK

Pasul 1) În editorul de cod preferat, copiați codul și salvați fișierul ca NLTKsample.py

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Explicația codului:

În acest program, obiectivul a fost eliminarea tuturor tipurilor de punctuație din textul dat. Am importat „RegexpTokenizer”, care este un modul al NLTK. Îndepărtează toate expresiile, simbolurile, caracterele, cifrele sau orice altceva doriți.
Tocmai ați transmis expresia obișnuită la modulul „RegexpTokenizer”.
În plus, am tokenizat cuvântul folosind modulul „tokenize”. Ieșirea este stocată în variabila „filterdText”.
Și le-am imprimat folosind „print().”

Pasul 2) În promptul de comandă

Navigați la locația în care ați salvat fișierul
Rulați comanda Python NLTKsample.py

Aceasta va afișa rezultatul ca:

[„Bună ziua”, „Guru99”, „Tu”, „ai”, „construiește”, „a”, „foarte”, „bine”, „site”, „și”, „eu”, „dragoste”, „ vizitând”, „al tău”, „site-ul”]