NLTK:n lataaminen ja asentaminen

โšก ร„lykรคs yhteenveto

Lataa ja asenna NLTK laitteellesi Windows, Macilla tai Linuxilla asentamalla Python ensin ja sitten lisรครค luonnonmukaiset Language Toolkitin pipin tai Anacondan kautta ja korpusdatajoukkojen lataamisen.

  • โœ… Vaatimus: install Python ennen NLTK:n lisรครคmistรค.
  • โš™๏ธ Asenna: Kรคytรค pip-, easy_install- tai Anaconda-komentosarjaa.
  • ๐Ÿ“š Aineistot: Nouda korpus ajamalla nltk.download().
  • ๐Ÿ Vahvista: tuo nltk sisรครคn Python kuori.
  • ๐Ÿค– Tekoรคlyn kรคyttรถ: NLP-putkien tokenisointi ja taggaus.

Lataa ja asenna NLTK

NLTK:n asentaminen sisรครคn Windows

Opi mรครคrittรคmรครคn NLTK laitteella Windows komentokehotteesta. Alla olevat ohjeet olettavat Python ei ole vielรค asennettu, joten ensimmรคinen vaihe on asentaa Python.

asentaminen Python in Windows

Vaihe 1) Avaa linkki https://www.python.org/downloads/, ja valitse uusin Windows vapauta.

asentaminen Python in Windows

HuomautuksiaVanhemman version kaikki julkaisut lรถytyvรคt Lataukset-vรคlilehdeltรค.

asentaminen Python in Windows

Vaihe 2) Napsauta ladattua asennustiedostoa.

asentaminen Python in Windows

Vaihe 3) Valitse Mukauta asennusta.

asentaminen Python in Windows

Vaihe 4) Napsauta SEURAAVA.

asentaminen Python in Windows

Vaihe 5) Seuraavassa nรคytรถssรค:

  1. Valitse lisรคasetukset.
  2. Anna mukautettu asennussijainti. Tรคssรค esimerkissรค C-aseman kansio on valittu helpomman kรคytรถn takaamiseksi.
  3. Valitse Asenna.

asentaminen Python in Windows

Vaihe 6) Napsauta Sulje-painiketta, kun asennus on valmis.

asentaminen Python in Windows

Vaihe 7) Kopioi Skriptit-kansion polku.

asentaminen Python in Windows

Vaihe 8) In Windows komentokehote:

  • Siirry pip-kansion sijaintiin.
  • Kirjoita komento asentaaksesi NLTK:n:
    pip3 install nltk
  • Asennuksen pitรคisi valmistua onnistuneesti.

asentaminen Python in Windows

HUOMAUTUS: For Python 2, kรคytรค komentoa pip2 install nltk.

Vaihe 9) Vuodesta Windows Kรคynnistรค-valikosta etsi ja avaa Python Kuori.

asentaminen Python in Windows

Vaihe 10) Varmista asennuksen toimivuus suorittamalla alla oleva komento:

import nltk

asentaminen Python in Windows

Jos virheitรค ei tule nรคkyviin, asennus on valmis.

NLTK:n asentaminen Maciin/Linuxiin

NLTK:n asentaminen Maciin tai Linuxiin vaatii Python paketinhallinta pip. Jos pip ei ole asennettu, suorita prosessi loppuun noudattamalla alla olevia ohjeita.

Vaihe 1) Pรคivitรค paketti-indeksi ty:llรคping alla oleva komento:

sudo apt update

Vaihe 2) Asenna pip kohteelle Python 3:

sudo apt install python3-pip

Voit asentaa pipin myรถs komennolla easy_install:

sudo apt-get install python-setuptools  python-dev build-essential

Kun easy_install on asennettu, asenna pip suorittamalla alla oleva komento:

sudo easy_install pip

Vaihe 3) Asenna NLTK seuraavalla komennolla:

sudo pip install -U nltk
sudo pip3 install -U nltk

NLTK:n asennus Anacondan kautta

Vaihe 1) Asenna Anaconda kรคymรคllรค osoitteessa https://www.anaconda.com/products/individual ja valitsemalla Python tarvitsemasi versio.

NLTK:n asennus Anacondan kautta

Huomautus: Katso tรคstรค opetusohjelmasta yksityiskohtaiset vaiheet asenna Anaconda.

Vaihe 2) Anaconda-kehotteessa:

  1. Kirjoita komento:
    conda install -c anaconda nltk
  2. RevKatso paketin pรคivitys-, alennettuun versioon pรคivittรคminen ja asennustiedot ja kirjoita sitten kyllรค.
  3. NLTK ladataan ja asennetaan.

NLTK:n asennus Anacondan kautta

NLTK Dataset

NLTK-moduuli sisรคltรครค useita datasettejรค, jotka sinun on ladattava ennen kรคyttรถรค. Teknisesti ottaen kutakin datasettiรค kutsutaan corpusYleisiรค esimerkkejรค ovat mm. ohitettavien sanojen, Gutenberg, framenet_v15, isot_kieliopit, ruskeaja wordnet.

Kuinka ladata kaikki NLTK-paketit

Vaihe 1) Suorita Python tulkki in Windows tai Linux.

Vaihe 2)

  1. Syรถtรค komennot:
import nltk
nltk.download ()
  1. NLTK Downloader -ikkuna avautuu. Lataa tietojoukko napsauttamalla Lataa-painiketta. Tรคmรค prosessi vie aikaa internet-yhteydestรคsi riippuen.

Lataa kaikki NLTK-paketit

HUOMAUTUS: Voit muuttaa lataussijaintia napsauttamalla Tiedosto > Muuta lataushakemistoa.

Lataa kaikki NLTK-paketit

Vaihe 3) Testaa asennettuja tietoja kรคyttรคmรคllรค seuraavaa koodia:

>>> from nltk.corpus import brown
>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',โ€ฆ]

Lataa kaikki NLTK-paketit

NLP-skriptin suorittaminen

Tรคssรค osiossa selitetรครคn, miten NLP-skripti suoritetaan paikallisella tietokoneella. Oikean kirjaston valinta riippuu tarpeistasi. Katso virallinen luettelo NLP-kirjastot vaihtoehtoja, kuten spaCy, gensim ja TextBlob.

Kuinka suorittaa NLTK-skripti

Vaihe 1) Kopioi koodi suosikkikoodieditorissasi ja tallenna tiedosto nimellรค NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Suorita NLTK-skripti

Code Selitys:

  1. Tรคmรคn ohjelman tavoitteena on poistaa kaikenlaiset vรคlimerkit annetusta tekstistรค. Toimme jรคrjestelmรครคn โ€RegexpTokenizerโ€ -moduulin, joka on NLTK joka poistaa valitsemasi lausekkeen, symbolin, merkin tai numeerisen arvon.
  2. Sรครคnnรถllinen lauseke vรคlitetรครคn โ€RegexpTokenizerโ€-moduulille.
  3. Teksti tokenisoidaan โ€tokenizeโ€-metodilla, ja tuloste tallennetaan โ€filterdTextโ€-muuttujaan.
  4. Tulos tulostetaan kรคyttรคmรคllรค funktiota โ€print():โ€.

Vaihe 2) Komentokehotteessa:

  • Siirry sijaintiin, johon tallensit tiedoston.
  • Suorita komento python NLTKsample.py.

Suorita NLTK-skripti

Tuotos on:

['Hei', 'Guru99', 'sinรค', 'on', 'rakentaa', 'erittรคin', 'hyvรค', 'sivusto', 'ja', 'minรค', 'rakastan', 'vierailemassa', 'sinun', 'sivusto']

UKK

pip-komento asentaa itse kirjaston, kun taas nltk.download() noutaa korpusaineistoa ja koulutettuja malleja, kuten stopwords-, punkt- ja wordnet-objekteja. Molemmat vaiheet on suoritettava ennen tekstin tokenisointia tai taggausta.

Kyllรค. NLTK on edelleen suosittu LLM-oppiaineita ruokkivan tekstin esikรคsittelyssรค, mukaan lukien tokenisointi, stop-sanan poisto, stemmaus ja POS-tunnisteet. Sitรค kรคytetรครคn myรถs laajalti opetuksessa ja tutkimuksessa selkeรคn API:n ja klassisten korpusten ansiosta.

NLTK on paras NLP:n perusteiden oppimiseen. spaCy on nopeampi tuotannolliseen tyรถskentelyyn, kun taas Halaa kasvomuuntajia tarjoaa esikoulutettuja syvรคoppimismalleja. Monet tekoรคlyprojektit yhdistรคvรคt NLTK-esikรคsittelyn transformer-pรครคttelyyn.

Tiivistรค tรคmรค viesti seuraavasti: