Jak pobrać i zainstalować NLTK na Windows/Prochowiec
Instalowanie NLTK w Windows
W tej części nauczymy się, jak skonfigurować NLTK za pomocą terminala (wiersza poleceń w systemie Windows).
Instrukcje podane poniżej opierają się na założeniu, że nie masz zainstalowanego Pythona. Zatem pierwszym krokiem jest instalacja Pythona.
Instalacja Python in Windows
Krok 1) Przejdź do łącza https://www.python.org/downloads/, i wybierz najnowszą wersję dla systemu Windows.
Note: Jeśli nie chcesz pobierać najnowszej wersji, możesz odwiedzić kartę pobierania i zobaczyć wszystkie wydania.
Krok 2) Kliknij pobrany plik
Krok 3)Wybierz opcję Dostosuj instalację
Krok 4) Kliknij Następny
Krok 5) Na następnym ekranie
- Wybierz opcje zaawansowane
- Podaj niestandardową lokalizację instalacji. W moim przypadku wybrano folder na dysku C ze względu na łatwość obsługi
- Kliknij przycisk Zainstaluj
Krok 6) Kliknij przycisk Zamknij po zakończeniu instalacji.
Krok 7) Skopiuj ścieżkę do folderu Skrypty.
Krok 8) W wierszu poleceń systemu Windows
- Przejdź do lokalizacji folderu pip
- Wprowadź polecenie, aby zainstalować NLTK
pip3 install nltk
- Instalacja powinna zakończyć się pomyślnie
UWAGA: Dla Python2 użyj poleceniapip2 install nltk
Krok 9) In Windows Menu Start, wyszukaj i otwórz PythonPowłoka
Krok 10) Możesz sprawdzić, czy instalacja jest prawidłowa, wydając poniższe polecenie
import nltk
Jeśli nie widzisz żadnego błędu, instalacja została zakończona.
Instalowanie NLTK w systemie Mac/Linux
Instalacja NLTK na Mac/Unix wymaga pip menedżera pakietów Pythona, aby zainstalować nltk. Jeśli pip nie jest zainstalowany, postępuj zgodnie z poniższymi instrukcjami, aby zakończyć proces
Krok 1) Zaktualizuj indeks pakietu, wpisując poniższe polecenie
sudo apt update
Krok 2) Instalowanie pipa dla Python 3:
sudo apt install python3-pip
Możesz także zainstalować pip za pomocą easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Teraz zainstalowany jest easy_install. Uruchom poniższe polecenie, aby zainstalować pip
sudo easy_install pip
Krok 3)Użyj następującego polecenia, aby zainstalować NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Instalowanie NLTK przez Anacondę
Krok 1) Zainstaluj anacondę (którą można również wykorzystać do zainstalowania różnych pakietów), odwiedzając stronę https://www.anaconda.com/products/individual i wybierz wersję Pythona, którą chcesz zainstalować dla anacondy.
Uwaga: szczegółowe instrukcje można znaleźć w tym samouczku zainstaluj anacondę
Krok 2)W wierszu polecenia Anaconda
- Wpisz polecenie
conda install -c anaconda nltk
- RevWyświetl informacje o aktualizacji, obniżeniu wersji pakietu, instalacji i wpisz „tak”
- NLTK zostanie pobrany i zainstalowany
Zbiór danych NLTK
Moduł NLTK udostępnia wiele zestawów danych, które należy pobrać, aby móc z nich korzystać. Bardziej technicznie nazywa się to ciało. Niektóre przykłady są pomijane słowa, Gutenberg, ramka_v15, duża_gramatykai tak dalej.
Jak pobrać wszystkie pakiety NLTK
Krok 1)Uruchom Python interpretator in Windows lub Linuksa
Krok 2)
- Wprowadź polecenia
import nltk nltk.download ()
- Otwiera się okno Pobrane NLTK. Kliknij przycisk Pobierz, aby pobrać zbiór danych. Ten proces może zająć trochę czasu, w zależności od Twojego połączenia internetowego
UWAGA: Możesz zmienić lokalizację pobierania, klikając Plik> Zmień katalog pobierania
Krok 3) Aby przetestować zainstalowane dane użyj następującego kodu
>>> from nltk.corpus import brown >>>brown.words()
[„The”, „Fulton”, „Hrabstwo”, „Wielki”, „Jury”, „powiedział”, …]
Uruchamianie skryptu NLP
Omówimy sposób wykonania skryptu NLP na naszym lokalnym komputerze. Na rynku dostępnych jest wiele bibliotek do przetwarzania języka naturalnego. Zatem wybór biblioteki zależy od dopasowania do Twoich wymagań. Oto lista Biblioteki NLP.
Jak uruchomić skrypt NLTK
Krok 1) W swoim ulubionym edytorze kodu skopiuj kod i zapisz plik jako "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Wyjaśnienie kodu:
- W tym programie celem było usunięcie wszelkiego rodzaju znaków interpunkcyjnych z podanego tekstu. Zaimportowaliśmy „RegexpTokenizer”, który jest modułem NLTK. Usuwa całe wyrażenie, symbol, znak, cyfrę lub dowolne inne rzeczy, które chcesz.
- Właśnie przekazałeś wyrażenie regularne do modułu „RegexpTokenizer”.
- Co więcej, tokenizowaliśmy słowo za pomocą modułu „tokenize”. Dane wyjściowe są przechowywane w zmiennej „filterdText”.
- I wydrukowałem je za pomocą „print().”
Krok 2) W wierszu poleceń
- Przejdź do lokalizacji, w której zapisałeś plik
- Uruchom polecenie Python NLTKsample.py
To pokaże dane wyjściowe jako:
[„Witam”, „Guru99”, „Ty”, „masz”, „kompilacja”, „a”, „bardzo”, „dobrze”, „strona”, „i”, „ja”, „kocham”, „ odwiedzanie”, „Twoja”, „strona”]