Jak stáhnout a nainstalovat NLTK

⚡ Chytré shrnutí

Stáhněte a nainstalujte NLTK na Windows, Mac nebo Linux instalací Python nejprve a poté přidáním přírodního Language Toolsadu přes PIP nebo Anacondu a stažení korpusových datových sad.

  • (Tj. Požadavek: instalovat Python před přidáním NLTK.
  • ⚙️ Instalace: Použijte pip, easy_install nebo Anacondu.
  • ???? datové sady: Spuštěním funkce nltk.download() načtete korpusy.
  • 🐍 Ověřit: importovat nltk do Python skořápky.
  • 🤖 Použití umělé inteligence: Tokenizace a označování pro NLP kanály.

Stáhněte a nainstalujte NLTK

Instalace NLTK do Windows

Naučte se, jak nastavit NLTK na Windows z příkazového řádku. Následující pokyny předpokládají Python ještě není nainstalován, takže prvním krokem je instalace Python.

Instalace Python in Windows

Krok 1) Otevřete odkaz https://www.python.org/downloads/, a vyberte nejnovější Windows uvolnění.

Instalace Python in Windows

Hodnocení: Starší verzi naleznete na kartě Ke stažení, kde najdete všechna vydání.

Instalace Python in Windows

Krok 2) Klikněte na stažený instalační soubor.

Instalace Python in Windows

Krok 3) Vyberte možnost Přizpůsobit instalaci.

Instalace Python in Windows

Krok 4) Klikněte na DALŠÍ.

Instalace Python in Windows

Krok 5) Na další obrazovce:

  1. Vyberte pokročilé možnosti.
  2. Zadejte vlastní umístění instalace. V tomto příkladu je pro snazší přístup vybrána složka na disku C.
  3. Klepněte na tlačítko Instalovat.

Instalace Python in Windows

Krok 6) Po dokončení instalace klikněte na tlačítko Zavřít.

Instalace Python in Windows

Krok 7) Zkopírujte cestu ke složce Scripts.

Instalace Python in Windows

Krok 8) v Windows příkazový řádek:

  • Přejděte do umístění složky pip.
  • Zadejte příkaz pro instalaci NLTK:
    pip3 install nltk
  • Instalace by měla být úspěšně dokončena.

Instalace Python in Windows

POZNÁMKA: Pro Python 2, použijte příkaz pip2 install nltk.

Krok 9) z Windows V nabídce Start vyhledejte a otevřete Python Shell.

Instalace Python in Windows

Krok 10) Ověřte, zda instalace funguje, spuštěním níže uvedeného příkazu:

import nltk

Instalace Python in Windows

Pokud se neobjeví žádná chyba, instalace je dokončena.

Instalace NLTK v Mac/Linux

Instalace NLTK na Mac nebo Linux vyžaduje Python správce balíčků pip. Pokud pip není nainstalován, dokončete proces podle níže uvedených pokynů.

Krok 1) Aktualizovat index balíčků pomocí typing níže uvedený příkaz:

sudo apt update

Krok 2) Nainstalujte pip pro Python 3:

sudo apt install python3-pip

Pip můžete také nainstalovat pomocí easy_install:

sudo apt-get install python-setuptools  python-dev build-essential

Jakmile je easy_install nainstalován, spusťte níže uvedený příkaz pro instalaci pip:

sudo easy_install pip

Krok 3) Pro instalaci NLTK použijte následující příkaz:

sudo pip install -U nltk
sudo pip3 install -U nltk

Instalace NLTK přes Anaconda

Krok 1) Nainstalujte si Anacondu návštěvou https://www.anaconda.com/products/individual a výběrem položky Python verzi, kterou potřebujete.

Instalace NLTK přes Anaconda

Poznámka: Podrobné kroky naleznete v tomto návodu nainstalujte Anacondu.

Krok 2) V příkazovém řádku Anaconda:

  1. Zadejte příkaz:
    conda install -c anaconda nltk
  2. Revzobrazte informace o upgradu, downgradu a instalaci balíčku a poté zadejte Ano.
  3. NLTK je stažen a nainstalován.

Instalace NLTK přes Anaconda

Dataset NLTK

Modul NLTK je dodáván s mnoha datovými sadami, které je třeba před použitím stáhnout. Technicky se každá datová sada nazývá korpusMezi běžné příklady patří stopwords, gutenberg, framenet_v15, velké_gramatiky, hnědý, a wordnet.

Jak stáhnout všechny balíčky NLTK

Krok 1) Spusťte Python tlumočník in Windows nebo Linux.

Krok 2)

  1. Zadejte příkazy:
import nltk
nltk.download ()
  1. Otevře se okno NLTK Downloader. Kliknutím na tlačítko Stáhnout načtěte datovou sadu. Tento proces může chvíli trvat v závislosti na vašem internetovém připojení.

Stáhněte si všechny balíčky NLTK

POZNÁMKA: Umístění stahování můžete změnit kliknutím na Soubor > Změnit adresář pro stahování.

Stáhněte si všechny balíčky NLTK

Krok 3) Pro otestování nainstalovaných dat použijte následující kód:

>>> from nltk.corpus import brown
>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', …]

Stáhněte si všechny balíčky NLTK

Spuštění skriptu NLP

Tato část vysvětluje, jak se skript NLP spouští na lokálním počítači. Výběr správné knihovny závisí na vašich požadavcích. Viz oficiální seznam NLP knihovny pro alternativy jako spaCy, gensim a TextBlob.

Jak spustit skript NLTK

Krok 1) Ve svém oblíbeném editoru kódu zkopírujte kód a uložte soubor jako NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Spusťte skript NLTK

Code Vysvětlení:

  1. Cílem tohoto programu je odstranit všechny druhy interpunkce z daného textu. Importovali jsme „RegexpTokenizer“, modul od NLTK který odstraní jakýkoli výraz, symbol, znak nebo číselnou hodnotu, kterou si vyberete.
  2. Regulární výraz je předáván modulu „RegexpTokenizer“.
  3. Text je tokenizován pomocí metody „tokenize“ a výstup je uložen v proměnné „filterdText“.
  4. Výsledek se vytiskne pomocí funkce „print()“.

Krok 2) V příkazovém řádku:

  • Přejděte do umístění, kam jste soubor uložili.
  • Spusťte příkaz python NLTKsample.py.

Spusťte skript NLTK

Výstup je:

['Ahoj', 'Guru99', 'Vy', 'máte', 'postavit', 'a', 'velmi', 'dobrý', 'místo', 'a', 'já', 'miluju', 'navštěvuji', 'váš', 'místo']

Nejčastější dotazy

Příkaz pip nainstaluje samotnou knihovnu, zatímco nltk.download() načte korpusy a trénované modely, jako jsou stopwords, punkt a wordnet. Oba kroky jsou nutné před tokenizací nebo tagováním textu.

Ano. NLTK zůstává populární pro předzpracování textu, který slouží k LLM, včetně tokenizace, odstraňování stop wordů, stemmingu a POS tagování. Díky přehlednému API a klasickým korpusům je také široce používán ve výuce a výzkumu.

NLTK je nejlepší pro učení základů NLP. spaCy je rychlejší pro produkci, zatímco Objímání obličejových transformátorů nabízí předtrénované modely hlubokého učení. Mnoho projektů umělé inteligence kombinuje předzpracování NLTK s transformační inferencí.

Shrňte tento příspěvek takto: