Jak stáhnout a nainstalovat NLTK
⚡ Chytré shrnutí
Stáhněte a nainstalujte NLTK na Windows, Mac nebo Linux instalací Python nejprve a poté přidáním přírodního Language Toolsadu přes PIP nebo Anacondu a stažení korpusových datových sad.

Instalace NLTK do Windows
Naučte se, jak nastavit NLTK na Windows z příkazového řádku. Následující pokyny předpokládají Python ještě není nainstalován, takže prvním krokem je instalace Python.
Instalace Python in Windows
Krok 1) Otevřete odkaz https://www.python.org/downloads/, a vyberte nejnovější Windows uvolnění.
Hodnocení: Starší verzi naleznete na kartě Ke stažení, kde najdete všechna vydání.
Krok 2) Klikněte na stažený instalační soubor.
Krok 3) Vyberte možnost Přizpůsobit instalaci.
Krok 4) Klikněte na DALŠÍ.
Krok 5) Na další obrazovce:
- Vyberte pokročilé možnosti.
- Zadejte vlastní umístění instalace. V tomto příkladu je pro snazší přístup vybrána složka na disku C.
- Klepněte na tlačítko Instalovat.
Krok 6) Po dokončení instalace klikněte na tlačítko Zavřít.
Krok 7) Zkopírujte cestu ke složce Scripts.
Krok 8) v Windows příkazový řádek:
- Přejděte do umístění složky pip.
- Zadejte příkaz pro instalaci NLTK:
pip3 install nltk
- Instalace by měla být úspěšně dokončena.
POZNÁMKA: Pro Python 2, použijte příkaz pip2 install nltk.
Krok 9) z Windows V nabídce Start vyhledejte a otevřete Python Shell.
Krok 10) Ověřte, zda instalace funguje, spuštěním níže uvedeného příkazu:
import nltk
Pokud se neobjeví žádná chyba, instalace je dokončena.
Instalace NLTK v Mac/Linux
Instalace NLTK na Mac nebo Linux vyžaduje Python správce balíčků pip. Pokud pip není nainstalován, dokončete proces podle níže uvedených pokynů.
Krok 1) Aktualizovat index balíčků pomocí typing níže uvedený příkaz:
sudo apt update
Krok 2) Nainstalujte pip pro Python 3:
sudo apt install python3-pip
Pip můžete také nainstalovat pomocí easy_install:
sudo apt-get install python-setuptools python-dev build-essential
Jakmile je easy_install nainstalován, spusťte níže uvedený příkaz pro instalaci pip:
sudo easy_install pip
Krok 3) Pro instalaci NLTK použijte následující příkaz:
sudo pip install -U nltk sudo pip3 install -U nltk
Instalace NLTK přes Anaconda
Krok 1) Nainstalujte si Anacondu návštěvou https://www.anaconda.com/products/individual a výběrem položky Python verzi, kterou potřebujete.
Poznámka: Podrobné kroky naleznete v tomto návodu nainstalujte Anacondu.
Krok 2) V příkazovém řádku Anaconda:
- Zadejte příkaz:
conda install -c anaconda nltk
- Revzobrazte informace o upgradu, downgradu a instalaci balíčku a poté zadejte Ano.
- NLTK je stažen a nainstalován.
Dataset NLTK
Modul NLTK je dodáván s mnoha datovými sadami, které je třeba před použitím stáhnout. Technicky se každá datová sada nazývá korpusMezi běžné příklady patří stopwords, gutenberg, framenet_v15, velké_gramatiky, hnědý, a wordnet.
Jak stáhnout všechny balíčky NLTK
Krok 1) Spusťte Python tlumočník in Windows nebo Linux.
Krok 2)
- Zadejte příkazy:
import nltk nltk.download ()
- Otevře se okno NLTK Downloader. Kliknutím na tlačítko Stáhnout načtěte datovou sadu. Tento proces může chvíli trvat v závislosti na vašem internetovém připojení.
POZNÁMKA: Umístění stahování můžete změnit kliknutím na Soubor > Změnit adresář pro stahování.
Krok 3) Pro otestování nainstalovaných dat použijte následující kód:
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', …]
Spuštění skriptu NLP
Tato část vysvětluje, jak se skript NLP spouští na lokálním počítači. Výběr správné knihovny závisí na vašich požadavcích. Viz oficiální seznam NLP knihovny pro alternativy jako spaCy, gensim a TextBlob.
Jak spustit skript NLTK
Krok 1) Ve svém oblíbeném editoru kódu zkopírujte kód a uložte soubor jako NLTKsample.py:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)
Code Vysvětlení:
- Cílem tohoto programu je odstranit všechny druhy interpunkce z daného textu. Importovali jsme „RegexpTokenizer“, modul od NLTK který odstraní jakýkoli výraz, symbol, znak nebo číselnou hodnotu, kterou si vyberete.
- Regulární výraz je předáván modulu „RegexpTokenizer“.
- Text je tokenizován pomocí metody „tokenize“ a výstup je uložen v proměnné „filterdText“.
- Výsledek se vytiskne pomocí funkce „print()“.
Krok 2) V příkazovém řádku:
- Přejděte do umístění, kam jste soubor uložili.
- Spusťte příkaz
python NLTKsample.py.
Výstup je:
['Ahoj', 'Guru99', 'Vy', 'máte', 'postavit', 'a', 'velmi', 'dobrý', 'místo', 'a', 'já', 'miluju', 'navštěvuji', 'váš', 'místo']


















