Jak stáhnout a nainstalovat NLTK na Windows/ Mac
Instalace NLTK do Windows
V této části se naučíme, jak provést nastavení NLTK pomocí terminálu (Příkazový řádek ve Windows).
Pokyny uvedené níže jsou založeny na předpokladu, že nemáte nainstalovaný python. Takže prvním krokem je instalace pythonu.
Instalace Python in Windows
Krok 1) Přejít na odkaz https://www.python.org/downloads/, a vyberte nejnovější verzi pro Windows.
Hodnocení: Pokud nechcete stahovat nejnovější verzi, můžete navštívit kartu stahování a zobrazit všechna vydání.
Krok 2) Klikněte na Stažený soubor
Krok 3)Vyberte Přizpůsobit instalaci
Krok 4) Klikněte na DALŠÍ
Krok 5) Na další obrazovce
- Vyberte pokročilé možnosti
- Zadejte vlastní umístění instalace. V mém případě je složka na jednotce C vybrána pro snadné ovládání
- Klikněte na tlačítko Instalovat
Krok 6) Po dokončení instalace klikněte na tlačítko Zavřít.
Krok 7) Zkopírujte cestu ke složce Scripts.
Krok 8) V příkazovém řádku systému Windows
- Přejděte do umístění složky pip
- Zadejte příkaz pro instalaci NLTK
pip3 install nltk
- Instalace by měla být úspěšně provedena
POZNÁMKA: Pro Python2 použijte commandpip2 install nltk
Krok 9) In Windows Nabídka Start, vyhledejte a otevřete PythonSkořápka
Krok 10) Zda je instalace přesná, můžete ověřit zadáním níže uvedeného příkazu
import nltk
Pokud nevidíte žádnou chybu, instalace je dokončena.
Instalace NLTK v Mac/Linux
Instalace NLTK v Mac/Unix vyžaduje k instalaci nltk pip správce balíčků pythonu. Pokud pip není nainstalován, dokončete proces podle níže uvedených pokynů
Krok 1) Aktualizujte index balíčku zadáním níže uvedeného příkazu
sudo apt update
Krok 2) Instalace pipu pro Python 3:
sudo apt install python3-pip
Pip můžete také nainstalovat pomocí easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nyní je nainstalována easy_install. Spusťte níže uvedený příkaz a nainstalujte pip
sudo easy_install pip
Krok 3)K instalaci NLTK použijte následující příkaz
sudo pip install -U nltk sudo pip3 install -U nltk
Instalace NLTK přes Anaconda
Krok 1) Nainstalujte si anacondu (kterou lze také použít k instalaci různých balíčků) návštěvou https://www.anaconda.com/products/individual a vyberte, kterou verzi pythonu potřebujete nainstalovat pro anacondu.
Poznámka: Podrobné kroky naleznete v tomto návodu nainstalovat anakondu
Krok 2)Ve výzvě Anaconda
- Zadejte příkaz
conda install -c anaconda nltk
- Revzobrazte aktualizaci balíčku, přejděte na nižší verzi, informace o instalaci a zadejte ano
- NLTK je stažen a nainstalován
Dataset NLTK
Modul NLTK má k dispozici mnoho datových sad, které si musíte stáhnout, abyste je mohli používat. Odborněji se tomu říká korpus. Některé z příkladů jsou stopwords, gutenberg, framenet_v15, velké_gramatikya tak dále.
Jak stáhnout všechny balíčky NLTK
Krok 1)Spusťte Python tlumočník in Windows nebo Linux
Krok 2)
- Zadejte příkazy
import nltk nltk.download ()
- Otevře se okno stahování NLTK. Kliknutím na tlačítko Stáhnout stáhněte datovou sadu. Tento proces bude nějakou dobu trvat, v závislosti na vašem připojení k internetu
POZNÁMKA: Umístění stahování můžete změnit kliknutím na Soubor > Změnit adresář pro stahování
Krok 3) Chcete-li otestovat nainstalovaná data, použijte následující kód
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', …]
Spuštění skriptu NLP
Budeme diskutovat o tom, jak bude skript NLP spuštěn na našem místním počítači. Na trhu existuje mnoho knihoven pro zpracování přirozeného jazyka. Výběr knihovny tedy závisí na vašich požadavcích. Zde je seznam NLP knihovny.
Jak spustit skript NLTK
Krok 1) Ve svém oblíbeném editoru kódu zkopírujte kód a uložte soubor jako "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Vysvětlení kódu:
- V tomto programu bylo cílem odstranit všechny typy interpunkce z daného textu. Importovali jsme „RegexpTokenizer“, což je modul NLTK. Odstraňuje všechny výrazy, symboly, znaky, číslice nebo jakékoli věci, které chcete.
- Právě jste předali regulární výraz do modulu „RegexpTokenizer“.
- Dále jsme slovo tokenizovali pomocí modulu „tokenizace“. Výstup je uložen v proměnné „filterdText“.
- A vytiskl je pomocí „print().“
Krok 2) V příkazovém řádku
- Přejděte do umístění, kam jste soubor uložili
- Spusťte příkaz Python NLTKsample.py
Toto zobrazí výstup jako:
['Dobrý den', 'Guru99', 'You', 'have', 'build', 'a', 'velmi', 'good', 'site', 'and', 'I', 'love', ' návštěva', 'vaše', 'stránka']