Kako preuzeti i instalirati NLTK na Windows/Mac
Instaliranje NLTK-a u Windows
U ovom ćemo dijelu naučiti kako postaviti NLTK putem terminala (Command prompt u Windowsima).
Dolje navedene upute temelje se na pretpostavci da nemate instaliran python. Dakle, prvi korak je instalirati python.
Instaliranje Python in Windows
Korak 1) Idi na vezu https://www.python.org/downloads/, i odaberite najnoviju verziju za Windows.
bilješke: Ako ne želite preuzeti najnoviju verziju, možete posjetiti karticu za preuzimanje i vidjeti sva izdanja.
Korak 2) Kliknite na Preuzetu datoteku
Korak 3)Odaberite Prilagodi instalaciju
Korak 4) Pritisnite DALJE
Korak 5) Na sljedećem ekranu
- Odaberite napredne opcije
- Dajte prilagođenu lokaciju za instalaciju. U mom slučaju, mapa na pogonu C odabrana je radi lakšeg rada
- Kliknite Instaliraj
Korak 6) Kliknite gumb Zatvori kada instalacija završi.
Korak 7) Kopirajte putanju svoje mape Skripte.
Korak 8) U Windows naredbenom retku
- Dođite do lokacije mape pip
- Unesite naredbu za instalaciju NLTK-a
pip3 install nltk
- Instalacija bi trebala biti uspješno obavljena
BILJEŠKA: Za Python2 koristite naredbu pip2 install nltk
Korak 9) In Windows Izbornik Start, pretražite i otvorite PythonLjuska
Korak 10) Možete provjeriti je li instalacija točna uvođenjem donje naredbe
import nltk
Ako ne vidite nikakvu grešku, instalacija je dovršena.
Instaliranje NLTK-a u Mac/Linux
Instaliranje NLTK-a u Mac/Unix zahtijeva python upravitelj paketa pip za instaliranje nltk-a. Ako pip nije instaliran, slijedite upute u nastavku da biste dovršili postupak
Korak 1) Ažurirajte indeks paketa upisivanjem donje naredbe
sudo apt update
Korak 2) Instalacija pip za Python 3:
sudo apt install python3-pip
Također možete instalirati pip koristeći easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Sada je easy_install instaliran. Pokrenite naredbu u nastavku da biste instalirali pip
sudo easy_install pip
Korak 3)Koristite sljedeću naredbu za instalaciju NLTK-a
sudo pip install -U nltk sudo pip3 install -U nltk
Instaliranje NLTK-a kroz Anacondu
Korak 1) Molimo instalirajte anacondu (koja se također može koristiti za instaliranje različitih paketa) posjetom https://www.anaconda.com/products/individual i odaberite koju verziju pythona trebate instalirati za anacondu.
Napomena: Pogledajte ovaj vodič za detaljne korake za instaliraj anacondu
Korak 2)U odzivniku Anaconda,
- Unesite naredbu
conda install -c anaconda nltk
- Revtj. pogledajte paket nadogradite, vratite na nižu verziju, informacije o instalaciji i unesite yes
- NLTK je preuzet i instaliran
Skup podataka NLTK
NLTK modul ima mnogo dostupnih skupova podataka koje morate preuzeti da biste ih koristili. Tehnički se to zove zbirka. Neki od primjera su zaustavne riječi, Gutenberg, framenet_v15, velike_gramatikei tako dalje.
Kako preuzeti sve pakete NLTK-a
Korak 1)Pokreni Python tumač in Windows ili Linux
Korak 2)
- Unesite naredbe
import nltk nltk.download ()
- Otvara se prozor za preuzimanje NLTK-a. Kliknite gumb Preuzmi za preuzimanje skupa podataka. Ovaj će postupak potrajati, ovisno o vašoj internetskoj vezi
NAPOMENA: Možete promijeniti lokaciju preuzimanja klikom na Datoteka> Promjena direktorija preuzimanja
Korak 3) Za testiranje instaliranih podataka koristite sljedeći kod
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', …]
Pokretanje NLP skripte
Razgovarat ćemo o tome kako će se NLP skripta izvršavati na našem lokalnom računalu. Na tržištu postoje mnoge knjižnice za obradu prirodnog jezika. Dakle, odabir knjižnice ovisi o vašim zahtjevima. Ovdje je popis NLP knjižnice.
Kako pokrenuti NLTK skriptu
Korak 1) U svom omiljenom uređivaču koda kopirajte kod i spremite datoteku kao "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Objašnjenje koda:
- U ovom programu cilj je bio ukloniti sve vrste interpunkcijskih znakova iz zadanog teksta. Uvezli smo "RegexpTokenizer" koji je modul NLTK. Uklanja sve izraze, simbole, znakove, brojeve ili bilo što što god želite.
- Upravo ste proslijedili regularni izraz u modul “RegexpTokenizer”.
- Nadalje, tokenizirali smo riječ pomoću modula "tokenize". Izlaz je pohranjen u varijabli "filterdText".
- I ispisao ih pomoću "print()."
Korak 2) U naredbenom retku
- Dođite do mjesta gdje ste spremili datoteku
- Pokrenite naredbu Python NLTKsample.py
Ovo će prikazati izlaz kao:
['Zdravo', 'Guru99', 'Vi', 'imate', 'gradite', 'a', 'vrlo', 'dobro', 'stranica', 'i', 'ja', 'ljubav', ' posjećivanje', 'vaša', 'stranica']