Sådan downloades og installeres NLTK på Windows/Mac
Installerer NLTK i Windows
I denne del vil vi lære, hvordan man laver opsætning af NLTK via terminal (kommandoprompt i windows).
Instruktionen nedenfor er baseret på den antagelse, at du ikke har python installeret. Så det første trin er at installere python.
Installation Python in Windows
Trin 1) Gå til linket https://www.python.org/downloads/, og vælg den nyeste version til Windows.
Bemærk: Hvis du ikke vil downloade den nyeste version, kan du besøge downloadfanen og se alle udgivelser.
Trin 2) Klik på den downloadede fil
Trin 3)Vælg Tilpas installation
Trin 4) Klik på NÆSTE
Trin 5) I næste skærmbillede
- Vælg de avancerede indstillinger
- Angiv en brugerdefineret installationsplacering. I mit tilfælde er en mappe på C-drevet valgt for at lette betjeningen
- Klik på Installer
Trin 6) Klik på knappen Luk, når installationen er udført.
Trin 7) Kopier stien til din Scripts-mappe.
Trin 8) I windows kommandoprompt
- Naviger til placeringen af pip-mappen
- Indtast kommandoen for at installere NLTK
pip3 install nltk
- Installationen skal udføres med succes
BEMÆRK: Til Python2 brug kommandopip2 install nltk
Trin 9) In Windows Startmenu, søg og åbn PythonShell
Trin 10) Du kan kontrollere, om installationen er korrekt, ved at levere nedenstående kommando
import nltk
Hvis du ikke ser nogen fejl, er installationen fuldført.
Installation af NLTK i Mac/Linux
Installation af NLTK i Mac/Unix kræver python package manager pip for at installere nltk. Hvis pip ikke er installeret, skal du følge nedenstående instruktioner for at fuldføre processen
Trin 1) Opdater pakkeindekset ved at skrive nedenstående kommando
sudo apt update
Trin 2) Installation af pip til Python 3:
sudo apt install python3-pip
Du kan også installere pip ved hjælp af easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nu er easy_install installeret. Kør nedenstående kommando for at installere pip
sudo easy_install pip
Trin 3)Brug følgende kommando til at installere NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Installation af NLTK gennem Anaconda
Trin 1) Installer venligst anaconda (som også kan bruges til at installere forskellige pakker) ved at besøge https://www.anaconda.com/products/individual og vælg hvilken version af python du skal installere til anaconda.
Bemærk: Se denne vejledning for detaljerede trin til installere anaconda
Trin 2)I Anaconda-prompten,
- Indtast kommando
conda install -c anaconda nltk
- Revse pakkeopgraderingen, nedgrader, installer oplysninger og indtast ja
- NLTK downloades og installeres
NLTK datasæt
NLTK-modulet har mange tilgængelige datasæt, som du skal downloade for at bruge. Mere teknisk hedder det corpus. Nogle af eksemplerne er stopord, Gutenberg, rammenet_v15, store_grammatikkerog så videre.
Sådan downloader du alle NLTK-pakker
Trin 1)Kør Python tolk in Windows eller Linux
Trin 2)
- Indtast kommandoerne
import nltk nltk.download ()
- NLTK-downloadet vindue åbnes. Klik på knappen Download for at downloade datasættet. Denne proces vil tage tid baseret på din internetforbindelse
BEMÆRK VENLIGST: Du kan ændre downloadplaceringen ved at klikke på Filer> Skift downloadkatalog
Trin 3) Brug følgende kode for at teste de installerede data
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'sagde', …]
Kørsel af NLP-scriptet
Vi skal diskutere, hvordan NLP-script vil blive udført på vores lokale pc. Der er mange biblioteker til Natural Language Processing på markedet. Så valget af et bibliotek afhænger af, om det passer til dine krav. Her er listen over NLP biblioteker.
Sådan kører du NLTK-script
Trin 1) Kopier koden i dit yndlingskodeeditor, og gem filen som "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Kodeforklaring:
- I dette program var målet at fjerne alle typer tegnsætninger fra en given tekst. Vi importerede "RegexpTokenizer", som er et modul af NLTK. Det fjerner alle udtryk, symboler, tegn, numeriske eller andre ting, du ønsker.
- Du har netop videregivet det almindelige udtryk til modulet "RegexpTokenizer".
- Yderligere tokeniserede vi ordet ved at bruge "tokenize"-modulet. Outputtet gemmes i "filterdText"-variablen.
- Og udskrev dem ved hjælp af "print()."
Trin 2) I kommandoprompten
- Naviger til det sted, hvor du har gemt filen
- Kør kommandoen Python NLTKsample.py
Dette vil vise output som:
['Hej', 'Guru99', 'Du', 'har', 'bygge', 'en', 'meget', 'god', 'site', 'og', 'jeg', 'elsker', ' besøger', 'dit', 'websted']