Hvordan laste ned og installere NLTK på Windows/Mac
Installerer NLTK i Windows
I denne delen vil vi lære hvordan du setter opp NLTK via terminal (kommandoprompt i Windows).
Instruksjonene nedenfor er basert på antakelsen om at du ikke har installert python. Så det første trinnet er å installere python.
Installere Python in Windows
Trinn 1) Gå til linken https://www.python.org/downloads/, og velg den nyeste versjonen for Windows.
Merknader: Hvis du ikke vil laste ned den nyeste versjonen, kan du gå til nedlastingsfanen og se alle utgivelsene.
Trinn 2) Klikk på den nedlastede filen
Trinn 3)Velg Tilpass installasjon
Trinn 4) Klikk på NESTE
Trinn 5) I neste skjermbilde
- Velg de avanserte alternativene
- Oppgi en tilpasset installasjonsplassering. I mitt tilfelle er en mappe på C-stasjonen valgt for enkel bruk
- Klikk Installer
Trinn 6) Klikk Lukk-knappen når installasjonen er fullført.
Trinn 7) Kopier banen til Scripts-mappen.
Trinn 8) I windows ledetekst
- Naviger til plasseringen av pip-mappen
- Skriv inn kommandoen for å installere NLTK
pip3 install nltk
- Installasjonen skal gjøres vellykket
MERKNADER: For Python2 bruk commandpip2 install nltk
Trinn 9) In Windows Startmeny, søk og åpne PythonShell
Trinn 10) Du kan verifisere om installasjonen er nøyaktig ved å gi kommandoen nedenfor
import nltk
Hvis du ikke ser noen feil, er installasjonen fullført.
Installere NLTK i Mac/Linux
Installering av NLTK i Mac/Unix krever python package manager pip for å installere nltk. Hvis pip ikke er installert, følg instruksjonene nedenfor for å fullføre prosessen
Trinn 1) Oppdater pakkeindeksen ved å skrive kommandoen nedenfor
sudo apt update
Trinn 2) Installere pip for Python 3:
sudo apt install python3-pip
Du kan også installere pip ved å bruke easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nå er easy_install installert. Kjør kommandoen nedenfor for å installere pip
sudo easy_install pip
Trinn 3)Bruk følgende kommando for å installere NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Installerer NLTK gjennom Anaconda
Trinn 1) Vennligst installer anaconda (som også kan brukes til å installere forskjellige pakker) ved å gå til https://www.anaconda.com/products/individual og velg hvilken versjon av python du må installere for anaconda.
Merk: Se denne opplæringen for detaljerte trinn til installer anaconda
Trinn 2)I Anaconda-ledeteksten,
- Skriv inn kommando
conda install -c anaconda nltk
- Revse pakkeoppgraderingen, nedgrader, installer informasjon og skriv ja
- NLTK lastes ned og installeres
NLTK-datasett
NLTK-modulen har mange datasett tilgjengelig som du må laste ned for å bruke. Mer teknisk heter det corpus. Noen av eksemplene er stoppord, Gutenberg, framenet_v15, store_grammatikkog så videre.
Hvordan laste ned alle pakker med NLTK
Trinn 1)Kjør Python tolk in Windows eller Linux
Trinn 2)
- Skriv inn kommandoene
import nltk nltk.download ()
- NLTK-nedlastet vindu åpnes. Klikk på Last ned-knappen for å laste ned datasettet. Denne prosessen vil ta tid, basert på internettforbindelsen din
NOTAT: Du kan endre nedlastingsplasseringen ved å klikke Fil> Endre nedlastingskatalog
Trinn 3) For å teste de installerte dataene, bruk følgende kode
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', …]
Kjøre NLP-skriptet
Vi skal diskutere hvordan NLP-skriptet vil bli utført på vår lokale PC. Det er mange biblioteker for naturlig språkbehandling på markedet. Så valg av bibliotek avhenger av å passe dine behov. Her er listen over NLP biblioteker.
Hvordan kjøre NLTK-skript
Trinn 1) I favorittkoderedigeringsprogrammet ditt, kopier koden og lagre filen som "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Kodeforklaring:
- I dette programmet var målet å fjerne alle typer tegnsettinger fra gitt tekst. Vi importerte "RegexpTokenizer" som er en modul av NLTK. Den fjerner alle uttrykk, symboler, tegn, numeriske eller hva du måtte ønske.
- Du har nettopp sendt det vanlige uttrykket til "RegexpTokenizer"-modulen.
- Videre tokeniserte vi ordet ved å bruke "tokenize"-modulen. Utdataene lagres i variabelen "filterdText".
- Og skrev dem ut med "print()."
Trinn 2) I ledeteksten
- Naviger til stedet der du har lagret filen
- Kjør kommandoen Python NLTKsample.py
Dette vil vise utdata som:
['Hei', 'Guru99', 'Du', 'har', 'bygge', 'a', 'veldig', 'bra', 'side', 'og', 'jeg', 'elsker', ' besøker', 'ditt', 'nettsted']