NLTK downloaden en installeren op Windows/Mac
NLTK installeren Windows
In dit onderdeel leren we hoe u NLTK kunt instellen via de terminal (opdrachtprompt in Windows).
De onderstaande instructies zijn gebaseerd op de veronderstelling dat Python niet is geïnstalleerd. De eerste stap is dus het installeren van Python.
Installatie van het Python in Windows
Stap 1) Ga naar link https://www.python.org/downloads/, en selecteer de nieuwste versie voor Windows.
Note: Als u de nieuwste versie niet wilt downloaden, kunt u naar het downloadtabblad gaan en alle releases bekijken.
Stap 2) Klik op het gedownloade bestand
Stap 3)Selecteer Installatie aanpassen
Stap 4) Klik volgende
Stap 5) In het volgende scherm
- Selecteer de geavanceerde opties
- Geef een aangepaste installatielocatie. In mijn geval is een map op schijf C gekozen voor gebruiksgemak
- Klik op Installeren
Stap 6) Klik op de knop Sluiten zodra de installatie is voltooid.
Stap 7) Kopieer het pad van uw map Scripts.
Stap 8) In de opdrachtprompt van Windows
- Navigeer naar de locatie van de pip-map
- Voer de opdracht in om NLTK te installeren
pip3 install nltk
- De installatie zou met succes moeten worden uitgevoerd
NOTITIE: Voor Python2 gebruik de commandpip2 install nltk
Stap 9) In Windows Startmenu, zoeken en openen PythonShell
Stap 10) U kunt controleren of de installatie correct is door het onderstaande commando op te geven
import nltk
Als u geen fout ziet, is de installatie voltooid.
NLTK installeren op Mac/Linux
Voor het installeren van NLTK op Mac/Unix is Python Package Manager PIP vereist om nltk te installeren. Als pip niet is geïnstalleerd, volg dan de onderstaande instructies om het proces te voltooien
Stap 1) Werk de pakketindex bij door de onderstaande opdracht te typen
sudo apt update
Stap 2) Pip installeren voor Python 3:
sudo apt install python3-pip
Je kunt pip ook installeren met easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nu is easy_install geïnstalleerd. Voer de onderstaande opdracht uit om pip te installeren
sudo easy_install pip
Stap 3)Gebruik de volgende opdracht om NLTK te installeren
sudo pip install -U nltk sudo pip3 install -U nltk
NLTK installeren via Anaconda
Stap 1) Installeer anaconda (die ook kan worden gebruikt om verschillende pakketten te installeren) door naar te gaan https://www.anaconda.com/products/individual en selecteer welke versie van Python je moet installeren voor anaconda.
Opmerking: Raadpleeg deze tutorial voor gedetailleerde stappen anaconda installeren
Stap 2)In de Anaconda-prompt:
- Voer het commando in
conda install -c anaconda nltk
- RevBekijk de pakketupgrade, downgrade, installatie-informatie en voer ja in
- NLTK wordt gedownload en geïnstalleerd
NLTK-gegevensset
De NLTK-module heeft veel datasets beschikbaar die u moet downloaden om te gebruiken. Meer technisch heet het corpus. Enkele voorbeelden zijn stopwoorden, gutenberg, framenet_v15, grote_grammatica'senzovoort.
Hoe alle pakketten van NLTK te downloaden
Stap 1)Voer de ... uit Python tolk in Windows of Linux
Stap 2)
- Voer de opdrachten in
import nltk nltk.download ()
- NLTK gedownload venster wordt geopend. Klik op de downloadknop om de dataset te downloaden. Dit proces zal enige tijd duren, afhankelijk van uw internetverbinding
NOTITIE: U kunt de downloadlocatie wijzigen door op Bestand> Downloadmap wijzigen te klikken
Stap 3) Om de geïnstalleerde gegevens te testen, gebruikt u de volgende code
>>> from nltk.corpus import brown >>>brown.words()
['De', 'Fulton', 'County', 'Grand', 'Jury', 'zei', …]
Het NLP-script uitvoeren
We gaan bespreken hoe het NLP-script op onze lokale pc zal worden uitgevoerd. Er zijn veel bibliotheken voor natuurlijke taalverwerking op de markt aanwezig. Het kiezen van een bibliotheek hangt dus af van het voldoen aan uw vereisten. Hier is de lijst van NLP-bibliotheken.
Hoe NLTK-script uit te voeren
Stap 1) Kopieer de code in uw favoriete code-editor en sla het bestand op als "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Code Verklaring:
- In dit programma was het doel om alle soorten leestekens uit bepaalde tekst te verwijderen. We hebben “RegexTokenizer” geïmporteerd, een module van NLTK. Het verwijdert alle uitdrukkingen, symbolen, tekens, cijfers of wat u maar wilt.
- U heeft zojuist de reguliere expressie doorgegeven aan de module “RegexTokenizer”.
- Verder hebben we het woord getokeniseerd met behulp van de module "tokenize". De uitvoer wordt opgeslagen in de variabele "filterdText".
- En printte ze uit met “print().”
Stap 2) In de opdrachtprompt
- Navigeer naar de locatie waar u het bestand hebt opgeslagen
- Voer het commando uit Python NLTKsample.py
Dit toont de uitvoer als:
['Hallo', 'Guru99', 'Jij', 'hebt', 'bouwen', 'een', 'zeer', 'goed', 'site', 'en', 'ik', 'liefde', ' bezoeken', 'uw', 'site']