Як завантажити та встановити NLTK на Windows/Мак
Встановлення NLTK в Windows
У цій частині ми дізнаємося, як налаштувати NLTK через термінал (командний рядок у Windows).
Наведені нижче інструкції базуються на припущенні, що у вас не встановлено python. Отже, першим кроком є встановлення python.
Установка Python in Windows
Крок 1) Перейти за посиланням https://www.python.org/downloads/, і виберіть останню версію для Windows.
Примітка:: якщо ви не хочете завантажувати останню версію, ви можете перейти на вкладку завантаження та переглянути всі випуски.
Крок 2) Натисніть на завантажений файл
Крок 3)Виберіть Налаштувати встановлення
Крок 4) Натисніть ДАЛІ
Крок 5) На наступному екрані
- Виберіть розширені параметри
- Укажіть спеціальне місце встановлення. У моєму випадку для зручності роботи обрана папка на диску C
- Натисніть "Встановити"
Крок 6) Після завершення встановлення натисніть кнопку «Закрити».
Крок 7) Скопіюйте шлях до вашої папки Scripts.
Крок 8) У командному рядку Windows
- Перейдіть до розташування папки pip
- Введіть команду для встановлення NLTK
pip3 install nltk
- Встановлення має бути виконано успішно
ПРИМІТКА: Для Python2 скористайтеся командою pip2 install nltk
Крок 9) In Windows Меню «Пуск», знайдіть і відкрийте PythonСклад
Крок 10) Ви можете перевірити правильність інсталяції за допомогою наведеної нижче команди
import nltk
Якщо ви не бачите помилок, встановлення завершено.
Встановлення NLTK у Mac/Linux
Для встановлення NLTK у Mac/Unix потрібен менеджер пакунків python pip для встановлення nltk. Якщо pip не встановлено, виконайте наведені нижче інструкції, щоб завершити процес
Крок 1) Оновіть індекс пакета, ввівши команду нижче
sudo apt update
Крок 2) Установка pip для Python 3:
sudo apt install python3-pip
Ви також можете встановити pip за допомогою easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Тепер easy_install встановлено. Виконайте наведену нижче команду, щоб установити pip
sudo easy_install pip
Крок 3)Використовуйте наступну команду для встановлення NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Встановлення NLTK через Anaconda
Крок 1) Будь ласка, встановіть anaconda (яку також можна використовувати для встановлення різних пакетів), відвідавши https://www.anaconda.com/products/individual і виберіть, яку версію python потрібно встановити для anaconda.
Примітка. Зверніться до цього підручника, щоб отримати докладні кроки встановити анаконду
Крок 2)У підказці Anaconda
- Введіть команду
conda install -c anaconda nltk
- Revтобто перегляньте інформацію про оновлення пакета, пониження версії, інформацію про встановлення та введіть «так».
- NLTK завантажено та встановлено
Набір даних NLTK
Модуль NLTK має багато доступних наборів даних, які потрібно завантажити, щоб використовувати. Більш технічно це називається тіло. Ось деякі з прикладів стоп-слова, Гутенберг, framenet_v15, великі_граматикиі так далі.
Як завантажити всі пакети NLTK
Крок 1)Запустіть Python Перекладач in Windows або Linux
Крок 2)
- Введіть команди
import nltk nltk.download ()
- Відкриється вікно завантажених NLTK. Натисніть кнопку Завантажити, щоб завантажити набір даних. Цей процес займе час залежно від вашого інтернет-з’єднання
ПРИМІТКА: Ви можете змінити місце завантаження, натиснувши Файл> Змінити каталог завантажень
Крок 3) Щоб перевірити встановлені дані, використовуйте наступний код
>>> from nltk.corpus import brown >>>brown.words()
["The", "Fulton", "County", "Grand", "Jury", "said", …]
Запуск сценарію НЛП
Ми збираємося обговорити, як скрипт NLP буде виконуватися на нашому локальному ПК. На ринку існує багато бібліотек для обробки природної мови. Тому вибір бібліотеки залежить від того, чи вона відповідає вашим вимогам. Ось список Бібліотеки НЛП.
Як запустити сценарій NLTK
Крок 1) У вашому улюбленому редакторі коду скопіюйте код і збережіть файл як "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Пояснення коду:
- У цій програмі метою було видалити всі типи розділових знаків із заданого тексту. Ми імпортували «RegexpTokenizer», який є модулем НЛТК. Він видаляє всі вирази, символи, символи, цифри або будь-які речі, які ви хочете.
- Ви щойно передали регулярний вираз до модуля “RegexpTokenizer”.
- Крім того, ми токенізували слово за допомогою модуля «tokenize». Вихідні дані зберігаються у змінній “filterdText”.
- І надрукував їх за допомогою «print().»
Крок 2) У командному рядку
- Перейдіть до місця, де ви зберегли файл
- Запустіть команду Python NLTKsample.py
Це покаже результат як:
['Привіт', 'Guru99', 'Ти', 'єш', 'збірка', 'а', 'дуже', 'добре', 'сайт', 'і', 'Я', 'люблю', ' відвідування', 'ваш', 'сайт']