Cum să descărcați și să instalați NLTK pe Windows/Mac
Instalarea NLTK în Windows
În această parte, vom învăța cum să facem configurarea NLTK prin terminal (prompt de comandă în Windows).
Instrucțiunile de mai jos se bazează pe presupunerea că nu aveți instalat python. Deci, primul pas este să instalați python.
Instalarea Python in Windows
Pas 1) Accesați linkul https://www.python.org/downloads/, și selectați cea mai recentă versiune pentru Windows.
notițe: Dacă nu doriți să descărcați cea mai recentă versiune, puteți accesa fila de descărcare și puteți vedea toate versiunile.
Pas 2) Faceți clic pe fișierul descărcat
Pas 3)Selectați Personalizați instalarea
Pas 4) Faceți clic pe NEXT
Pas 5) În ecranul următor
- Selectați opțiunile avansate
- Dați o locație de instalare personalizată. În cazul meu, un folder pe unitatea C este ales pentru ușurință în funcționare
- Faceți clic pe Instalare
Pas 6) Faceți clic pe butonul Închidere odată ce instalarea este finalizată.
Pas 7) Copiați calea folderului Scripturi.
Pas 8) În linia de comandă Windows
- Navigați la locația folderului pip
- Introdu comanda pentru a instala NLTK
pip3 install nltk
- Instalarea trebuie făcută cu succes
NOTĂ: Pentru Python2 utilizați comandapip2 install nltk
Pas 9) In Windows Meniu Start, caută și deschide PythonCoajă
Pas 10) Puteți verifica dacă instalarea este corectă furnizând comanda de mai jos
import nltk
Dacă nu vedeți nicio eroare, instalarea este finalizată.
Instalarea NLTK în Mac/Linux
Instalarea NLTK în Mac/Unix necesită managerul de pachete python pip pentru a instala nltk. Dacă pip nu este instalat, vă rugăm să urmați instrucțiunile de mai jos pentru a finaliza procesul
Pasul 1) Actualizați indexul pachetului tastând comanda de mai jos
sudo apt update
Pasul 2) Instalarea pip pentru Python 3:
sudo apt install python3-pip
De asemenea, puteți instala pip folosind easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Acum easy_install este instalat. Rulați comanda de mai jos pentru a instala pip
sudo easy_install pip
Pasul 3)Utilizați următoarea comandă pentru a instala NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Instalarea NLTK prin Anaconda
Pasul 1) Vă rugăm să instalați anaconda (care poate fi folosit și pentru a instala diferite pachete) vizitând https://www.anaconda.com/products/individual și selectați ce versiune de python trebuie să instalați pentru anaconda.
Notă: Consultați acest tutorial pentru pașii detaliați instalați anaconda
Pas 2)În promptul Anaconda,
- Introduceți comanda
conda install -c anaconda nltk
- Revvizualizați upgrade-ul pachetului, downgrade, informații de instalare și introduceți da
- NLTK este descărcat și instalat
Setul de date NLTK
Modulul NLTK are multe seturi de date disponibile pe care trebuie să le descărcați pentru a le utiliza. Mai tehnic se numește corp. Unele dintre exemple sunt cuvinte de oprire, Gutenberg, framenet_v15, gramatici_marişi aşa mai departe.
Cum să descărcați toate pachetele NLTK
Pas 1)Pornește Python interpret in Windows sau Linux
Pas 2)
- Introduceți comenzile
import nltk nltk.download ()
- Se deschide fereastra descărcată NLTK. Faceți clic pe butonul Descărcare pentru a descărca setul de date. Acest proces va dura timp, în funcție de conexiunea dvs. la internet
NOTĂ: Puteți schimba locația de descărcare făcând clic pe Fișier> Modificare director de descărcare
Pas 3) Pentru a testa datele instalate utilizați următorul cod
>>> from nltk.corpus import brown >>>brown.words()
[„The”, „Fulton”, „County”, „Grand”, „Jury”, „said”, …]
Rularea scriptului NLP
Vom discuta despre cum va fi executat scriptul NLP pe computerul nostru local. Există multe biblioteci pentru procesarea limbajului natural prezente pe piață. Deci, alegerea unei biblioteci depinde de potrivirea cerințelor dvs. Iată lista cu biblioteci NLP.
Cum să rulați scriptul NLTK
Pasul 1) În editorul de cod preferat, copiați codul și salvați fișierul ca NLTKsample.py
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Explicația codului:
- În acest program, obiectivul a fost eliminarea tuturor tipurilor de punctuație din textul dat. Am importat „RegexpTokenizer”, care este un modul al NLTK. Îndepărtează toate expresiile, simbolurile, caracterele, cifrele sau orice altceva doriți.
- Tocmai ați transmis expresia obișnuită la modulul „RegexpTokenizer”.
- În plus, am tokenizat cuvântul folosind modulul „tokenize”. Ieșirea este stocată în variabila „filterdText”.
- Și le-am imprimat folosind „print().”
Pasul 2) În promptul de comandă
- Navigați la locația în care ați salvat fișierul
- Rulați comanda Python NLTKsample.py
Aceasta va afișa rezultatul ca:
[„Bună ziua”, „Guru99”, „Tu”, „ai”, „construiește”, „a”, „foarte”, „bine”, „site”, „și”, „eu”, „dragoste”, „ vizitând”, „al tău”, „site-ul”]