Как да изтеглите и инсталирате NLTK на Windows/ Mac
Инсталиране на NLTK в Windows
В тази част ще научим как да направим настройка на NLTK чрез терминал (Команден ред в Windows).
Инструкциите, дадени по-долу, се основават на предположението, че нямате инсталиран python. И така, първата стъпка е да инсталирате python.
Инсталиране Python in Windows
Стъпка 1) Отидете на връзката https://www.python.org/downloads/, и изберете най-новата версия за windows.
Забележка: Ако не искате да изтеглите най-новата версия, можете да посетите раздела за изтегляне и да видите всички версии.
Стъпка 2) Кликнете върху изтегления файл
Стъпка 3)Изберете Персонализиране на инсталацията
Стъпка 4) Щракнете НАПРЕД
Стъпка 5) В следващия екран
- Изберете разширените опции
- Дайте персонализирано място за инсталиране. В моя случай е избрана папка на C устройство за по-лесна работа
- Кликнете върху Инсталиране
Стъпка 6) Щракнете върху бутона Затвори, след като инсталацията приключи.
Стъпка 7) Копирайте пътя на вашата папка Scripts.
Стъпка 8) В командния ред на Windows
- Отидете до местоположението на папката pip
- Въведете команда за инсталиране на NLTK
pip3 install nltk
- Инсталацията трябва да бъде извършена успешно
ЗАБЕЛЕЖКА: За Python2 използвайте командата pip2 install nltk
Стъпка 9) In Windows Старт меню, търсене и отваряне PythonЧерупка
Стъпка 10) Можете да проверите дали инсталацията е точна, като предоставите командата по-долу
import nltk
Ако не виждате грешка, инсталацията е завършена.
Инсталиране на NLTK в Mac/Linux
Инсталирането на NLTK в Mac/Unix изисква Python Package Manager pip за инсталиране на nltk. Ако pip не е инсталиран, моля, следвайте инструкциите по-долу, за да завършите процеса
Етап 1) Актуализирайте индекса на пакета, като въведете командата по-долу
sudo apt update
Етап 2) Инсталиране на pip за Python 3:
sudo apt install python3-pip
Можете също да инсталирате pip с помощта на easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Сега easy_install е инсталиран. Изпълнете командата по-долу, за да инсталирате pip
sudo easy_install pip
Етап 3)Използвайте следната команда, за да инсталирате NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Инсталиране на NLTK чрез Anaconda
Етап 1) Моля, инсталирайте anaconda (която може да се използва и за инсталиране на различни пакети), като посетите https://www.anaconda.com/products/individual и изберете коя версия на Python трябва да инсталирате за anaconda.
Забележка: Вижте този урок за подробни стъпки за инсталирайте анаконда
Стъпка 2)В подканата на Anaconda,
- Въведете команда
conda install -c anaconda nltk
- Revт.е. прегледайте информацията за надграждане, понижаване на пакета, инсталиране и въведете да
- NLTK се изтегля и инсталира
Набор от данни NLTK
Модулът NLTK има много налични набори от данни, които трябва да изтеглите, за да използвате. По-технически се нарича сборник. Някои от примерите са стоп думи, Гутенберг, framenet_v15, големи_граматикии така нататък.
Как да изтеглите всички пакети на NLTK
Стъпка 1)Стартирайте Python преводач in Windows или Linux
Стъпка 2)
- Въведете командите
import nltk nltk.download ()
- Отваря се прозорец за изтеглено NLTK. Щракнете върху бутона за изтегляне, за да изтеглите набора от данни. Този процес ще отнеме време в зависимост от вашата интернет връзка
ЗАБЕЛЕЖКА: Можете да промените местоположението за изтегляне, като щракнете върху Файл> Промяна на директорията за изтегляне
Стъпка 3) За да тествате инсталираните данни, използвайте следния код
>>> from nltk.corpus import brown >>>brown.words()
[„The“, „Fulton“, „County“, „Grand“, „Jury“, „said“, …]
Изпълнение на НЛП скрипта
Ще обсъдим как NLP скриптът ще бъде изпълнен на нашия локален компютър. На пазара има много библиотеки за обработка на естествен език. Така че изборът на библиотека зависи от това да отговаряте на вашите изисквания. Ето списъка на НЛП библиотеки.
Как да стартирате NLTK скрипт
Етап 1) В любимия си редактор на код копирайте кода и запазете файла като "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Обяснение на кода:
- В тази програма целта беше да се премахнат всички видове препинателни знаци от даден текст. Импортирахме „RegexpTokenizer“, който е модул на NLTK. Той премахва всички изрази, символи, знаци, цифри или всякакви неща, които искате.
- Току-що сте предали регулярния израз към модула „RegexpTokenizer“.
- Освен това токенизирахме думата с помощта на модула „токенизиране“. Резултатът се съхранява в променливата "filterdText".
- И ги отпечата с помощта на „print().“
Етап 2) В командния ред
- Отидете до мястото, където сте запазили файла
- Стартирайте командата Python NLTKsample.py
Това ще покаже резултата като:
['Здравей', 'Guru99', 'Ти', 'имаш', 'строиш', 'a', 'много', 'добър', 'сайт', 'и', 'Аз', 'обичам', ' посещение", "ваш", "сайт"]