Cum se descarcă și se instalează NLTK

⚡ Rezumat inteligent

Descărcați și instalați NLTK pe Windows, Mac sau Linux prin instalarea Python mai întâi, apoi adăugând Natural Language Toolkit prin pip sau Anaconda și descărcarea seturilor de date corpus.

  • Cerinţă: Instalare Python înainte de adăugarea NLTK.
  • ⚙️ Instalați: Folosește pip, easy_install sau Anaconda.
  • 📚 Seturi de date: Rulați nltk.download() pentru a prelua corpora.
  • 🐍 Verifica: importă nltk în Python coajă.
  • 🤖 Utilizare AI: Tokenizare și etichetare pentru conducte NLP.

Descărcați și instalați NLTK

Instalarea NLTK în Windows

Aflați cum să configurați NLTK pe Windows din promptul de comandă. Instrucțiunile de mai jos presupun Python nu este încă instalat, așa că primul pas este instalarea Python.

Instalarea Python in Windows

Pas 1) Deschideți linkul https://www.python.org/downloads/, și selectați cele mai recente Windows eliberare.

Instalarea Python in Windows

notițePentru o versiune mai veche, accesați fila Descărcări pentru a vedea toate lansările.

Instalarea Python in Windows

Pas 2) Faceți clic pe fișierul de instalare descărcat.

Instalarea Python in Windows

Pas 3) Selectați Personalizare instalare.

Instalarea Python in Windows

Pas 4) Faceți clic pe NEXT.

Instalarea Python in Windows

Pas 5) Pe ecranul următor:

  1. Selectați opțiunile avansate.
  2. Furnizați o locație de instalare personalizată. În acest exemplu, este ales un folder de pe unitatea C pentru acces mai ușor.
  3. Faceți clic pe Instalare.

Instalarea Python in Windows

Pas 6) Faceți clic pe butonul Închidere după ce instalarea s-a terminat.

Instalarea Python in Windows

Pas 7) Copiați calea folderului Scripturi.

Instalarea Python in Windows

Pas 8) În Windows prompt de comandă:

  • Navigați la locația folderului pip.
  • Introduceți comanda pentru a instala NLTK:
    pip3 install nltk
  • Instalarea ar trebui să se finalizeze cu succes.

Instalarea Python in Windows

NOTĂ: Pentru Python 2, utilizați comanda pip2 install nltk.

Pas 9) De la Windows Meniul Start, căutați și deschideți Python Coajă.

Instalarea Python in Windows

Pas 10) Verificați dacă instalarea funcționează executând comanda de mai jos:

import nltk

Instalarea Python in Windows

Dacă nu apare nicio eroare, instalarea este completă.

Instalarea NLTK în Mac/Linux

Instalarea NLTK pe Mac sau Linux necesită Python managerul de pachete pip. Dacă pip nu este instalat, urmați instrucțiunile de mai jos pentru a finaliza procesul.

Pas 1) Actualizați indexul pachetului de către typing comanda de mai jos:

sudo apt update

Pas 2) Instalați pip pentru Python 3:

sudo apt install python3-pip

De asemenea, puteți instala pip prin easy_install:

sudo apt-get install python-setuptools  python-dev build-essential

După ce easy_install este instalat, executați comanda de mai jos pentru a instala pip:

sudo easy_install pip

Pas 3) Folosiți următoarea comandă pentru a instala NLTK:

sudo pip install -U nltk
sudo pip3 install -U nltk

Instalarea NLTK prin Anaconda

Pas 1) Instalați Anaconda vizitând https://www.anaconda.com/products/individual și selectarea Python versiunea de care aveți nevoie.

Instalarea NLTK prin Anaconda

Notă: Consultați acest tutorial pentru pașii detaliați instalează Anaconda.

Pas 2) În promptul Anaconda:

  1. Introdu comanda:
    conda install -c anaconda nltk
  2. RevVizualizați informațiile despre actualizarea, downgrade-ul și instalarea pachetului, apoi introduceți da.
  3. NLTK este descărcat și instalat.

Instalarea NLTK prin Anaconda

Setul de date NLTK

Modulul NLTK este livrat cu multe seturi de date pe care trebuie să le descărcați înainte de utilizare. Din punct de vedere tehnic, fiecare set de date se numește corpExemple comune includ cuvinte de oprire, Gutenberg, framenet_v15, gramatici_mari, maro și wordnet.

Cum să descărcați toate pachetele NLTK

Pas 1) Pornește Python interpret in Windows sau Linux.

Pas 2)

  1. Introduceți comenzile:
import nltk
nltk.download ()
  1. Se deschide fereastra NLTK Downloader. Faceți clic pe butonul Descărcare pentru a prelua setul de date. Acest proces durează timp, în funcție de conexiunea dvs. la internet.

Descărcați toate pachetele NLTK

NOTĂ: Puteți schimba locația de descărcare făcând clic pe Fișier > Schimbare director de descărcare.

Descărcați toate pachetele NLTK

Pas 3) Pentru a testa datele instalate, utilizați următorul cod:

>>> from nltk.corpus import brown
>>>brown.words()

[„The”, „Fulton”, „County”, „Grand”, „Jury”, „said”, …]

Descărcați toate pachetele NLTK

Rularea scriptului NLP

Această secțiune explică modul în care rulează un script NLP pe un PC local. Alegerea bibliotecii potrivite depinde de cerințele dumneavoastră. Consultați lista oficială a biblioteci NLP pentru alternative precum spaCy, gensim și TextBlob.

Cum să rulați scriptul NLTK

Pas 1) În editorul de cod preferat, copiați codul și salvați fișierul ca NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Rulați Scriptul NLTK

Code Explicaţie:

  1. Obiectivul acestui program este de a elimina orice fel de punctuație dintr-un text dat. Am importat „RegexpTokenizer”, un modul al NLTK care elimină orice expresie, simbol, caracter sau valoare numerică pe care o alegeți.
  2. O expresie regulată este transmisă modulului „RegexpTokenizer”.
  3. Textul este tokenizat folosind metoda „tokenize”, iar rezultatul este stocat în variabila „filterdText”.
  4. Rezultatul este afișat folosind „print()”.

Pas 2) În promptul de comandă:

  • Navigați la locația unde ați salvat fișierul.
  • Rulați comanda python NLTKsample.py.

Rulați Scriptul NLTK

Rezultatul este:

['Buna ziua', 'Guru99', 'Dumneavoastră', 'aveți', 'construiți', 'un', 'foarte', 'bun', 'site', 'și', 'îmi place', 'vizitez', 'al dumneavoastră', 'site-ul']

Întrebări frecvente

Comanda pip instalează biblioteca în sine, în timp ce nltk.download() preia corpora și modele antrenate, cum ar fi stopwords, punkt și wordnet. Ambii pași sunt necesari înainte de tokenizarea sau etichetarea textului.

Da. NLTK rămâne popular pentru preprocesarea textului care alimentează LLM-urile, inclusiv tokenizarea, eliminarea cuvintelor stop-word, stemming-ul și etichetarea POS. De asemenea, este utilizat pe scară largă în predare și cercetare datorită API-ului său clar și corpora-urilor clasice.

NLTK este cel mai potrivit pentru învățarea fundamentelor NLP. spaCy este mai rapid pentru producție, în timp ce Hugging Face Transformers oferă modele de deep-learning pre-antrenate. Multe proiecte de inteligență artificială combină preprocesarea NLTK cu inferența transformatoarelor.

Rezumați această postare cu: