Как загрузить и установить NLTK на Windows/Мак
Установка NLTK в Windows
В этой части мы узнаем, как настроить NLTK через терминал (командная строка в Windows).
Инструкции, приведенные ниже, основаны на предположении, что у вас не установлен Python. Итак, первый шаг — установка Python.
Установка Python in Windows
Шаг 1) Перейти по ссылке https://www.python.org/downloads/, и выберите последнюю версию для Windows.
Внимание: Если вы не хотите загружать последнюю версию, вы можете посетить вкладку загрузки и просмотреть все выпуски.
Шаг 2) Нажмите на загруженный файл
Шаг 3)Выберите Настроить установку.
Шаг 4) Нажмите кнопку "Далее
Шаг 5) На следующем экране
- Выберите дополнительные параметры
- Укажите место выборочной установки. В моем случае папка на диске С выбрана для удобства работы.
- Нажмите «Установить».
Шаг 6) Нажмите кнопку «Закрыть» после завершения установки.
Шаг 7) Скопируйте путь к папке «Сценарии».
Шаг 8) В командной строке Windows
- Перейдите к местоположению папки pip.
- Введите команду для установки NLTK
pip3 install nltk
- Установка должна пройти успешно
ЗАМЕТКА: За Python2 используйте команду pip2 install nltk
Шаг 9) In Windows Меню «Пуск», поиск и открытие PythonОболочка
Шаг 10) Вы можете проверить правильность установки, введя приведенную ниже команду.
import nltk
Если вы не видите ошибок, установка завершена.
Установка NLTK в Mac/Linux
Для установки NLTK в Mac/Unix требуется pip менеджера пакетов Python для установки nltk. Если pip не установлен, следуйте инструкциям ниже, чтобы завершить процесс.
Шаг 1) Обновите индекс пакета, введя приведенную ниже команду.
sudo apt update
Шаг 2) Установка пипа для Python 3:
sudo apt install python3-pip
Вы также можете установить pip с помощью easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Теперь easy_install установлен. Запустите команду ниже, чтобы установить pip
sudo easy_install pip
Шаг 3)Используйте следующую команду для установки NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Установка NLTK через Anaconda
Шаг 1) Пожалуйста, установите anaconda (которую также можно использовать для установки различных пакетов), посетив https://www.anaconda.com/products/individual и выберите, какую версию Python вам нужно установить для анаконды.
Примечание. Обратитесь к этому руководству для получения подробных инструкций по установить анаконду
Шаг 2)В командной строке Анаконды
- Введите команду
conda install -c anaconda nltk
- Revпросмотрите информацию об обновлении, понижении и установке пакета и введите «да»
- NLTK скачан и установлен.
Набор данных НЛТК
Модуль NLTK имеет множество доступных наборов данных, которые вам необходимо загрузить для использования. Технически это называется тело. Некоторые из примеров игнорируемые слова, Гутенберг, Framenet_v15, big_grammarsи т. д.
Как скачать все пакеты NLTK
Шаг 1)Запустите Python переводчик in Windows или Linux
Шаг 2)
- Введите команды
import nltk nltk.download ()
- Откроется окно загрузки NLTK. Нажмите кнопку «Загрузить», чтобы загрузить набор данных. Этот процесс займет время, в зависимости от вашего интернет-соединения.
ПРИМЕЧАНИЕ: Вы можете изменить место загрузки, нажав «Файл» > «Изменить каталог загрузки».
Шаг 3) Для проверки установленных данных используйте следующий код
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Фултон', 'Каунти', 'Гранд', 'Присяжные', 'Сказал',…]
Запуск сценария НЛП
Мы собираемся обсудить, как сценарий НЛП будет выполняться на нашем локальном компьютере. На рынке представлено множество библиотек для обработки естественного языка. Поэтому выбор библиотеки зависит от ваших требований. Вот список библиотеки НЛП.
Как запустить сценарий NLTK
Шаг 1) В вашем любимом редакторе кода скопируйте код и сохраните файл как NLTKsample.py
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Пояснение к коду:
- В этой программе целью было удалить все типы знаков препинания из данного текста. Мы импортировали RegexpTokenizer, который является модулем НЛТК. Он удаляет все выражения, символы, символы, цифры или любые другие вещи, которые вы хотите.
- Вы только что передали регулярное выражение в модуль RegexpTokenizer.
- Далее мы токенизировали слово с помощью модуля «tokenize». Вывод сохраняется в переменной «filterdText».
- И распечатал их с помощью print().
Шаг 2) В командной строке
- Перейдите к месту, где вы сохранили файл.
- Запустите команду Python NLTKsample.py
Это покажет вывод как:
['Привет', 'Guru99', 'Ты', 'есть', 'сборка', 'а', 'очень', 'хорошо', 'сайт', 'и', 'Я', 'люблю', ' посещение», «ваш», «сайт»]