Cách tải xuống và cài đặt NLTK trên Windows/Mac
Cài đặt NLTK trong Windows
Trong phần này, chúng ta sẽ tìm hiểu cách thiết lập NLTK thông qua terminal (Dấu nhắc lệnh trong Windows).
Hướng dẫn đưa ra bên dưới dựa trên giả định rằng bạn chưa cài đặt python. Vì vậy, bước đầu tiên là cài đặt python.
Cài đặt Python in Windows
Bước 1) Đi đến liên kết https://www.python.org/downloads/, và chọn phiên bản mới nhất cho Windows.
Chú thích: Nếu bạn không muốn tải xuống phiên bản mới nhất, bạn có thể truy cập tab tải xuống và xem tất cả các bản phát hành.
Bước 2) Bấm vào tập tin đã tải xuống
Bước 3)Chọn Tùy chỉnh cài đặt
Bước 4) Nhấn tiếp
Bước 5) Ở màn hình tiếp theo
- Chọn các tùy chọn nâng cao
- Cung cấp một vị trí cài đặt tùy chỉnh. Trong trường hợp của tôi, một thư mục trên ổ C được chọn để dễ thao tác
- Nhấp vào Cài đặt
Bước 6) Nhấp vào nút Đóng sau khi cài đặt xong.
Bước 7) Sao chép đường dẫn của thư mục Tập lệnh của bạn.
Bước 8) Trong dấu nhắc lệnh của Windows
- Điều hướng đến vị trí của thư mục pip
- Nhập lệnh cài đặt NLTK
pip3 install nltk
- Việc cài đặt phải được thực hiện thành công
LƯU ÝCó mặt Python2 sử dụng commandpip2 cài đặt nltk
Bước 9) In Windows Menu Bắt đầu, tìm kiếm và mở PythonShell
Bước 10) Bạn có thể xác minh xem cài đặt có chính xác hay không bằng cách cung cấp lệnh bên dưới
import nltk
Nếu không thấy lỗi nghĩa là quá trình cài đặt đã hoàn tất.
Cài đặt NLTK trên Mac/Linux
Cài đặt NLTK trong Mac/Unix yêu cầu pip quản lý gói python để cài đặt nltk. Nếu pip chưa được cài đặt, vui lòng làm theo hướng dẫn bên dưới để hoàn tất quy trình
Bước 1) Cập nhật chỉ mục gói bằng cách gõ lệnh bên dưới
sudo apt update
Bước 2) Cài đặt pip cho Python 3:
sudo apt install python3-pip
Bạn cũng có thể cài đặt pip bằng easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Bây giờ easy_install đã được cài đặt. Chạy lệnh dưới đây để cài đặt pip
sudo easy_install pip
Bước 3)Sử dụng lệnh sau để cài đặt NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Cài đặt NLTK qua Anaconda
Bước 1) Vui lòng cài đặt anaconda (cũng có thể được sử dụng để cài đặt các gói khác nhau) bằng cách truy cập https://www.anaconda.com/products/individual và chọn phiên bản python nào bạn cần cài đặt cho anaconda.
Lưu ý: Tham khảo hướng dẫn này để biết các bước chi tiết cài đặt anaconda
Bước 2)Trong dấu nhắc Anaconda,
- Nhập lệnh
conda install -c anaconda nltk
- Review gói nâng cấp, hạ cấp, cài đặt thông tin và nhập yes
- NLTK được tải xuống và cài đặt
Bộ dữ liệu NLTK
Mô-đun NLTK có sẵn nhiều bộ dữ liệu mà bạn cần tải xuống để sử dụng. Về mặt kỹ thuật hơn nó được gọi là văn thể. Một số ví dụ là ngưng từ, Gutenberg, framenet_v15, lớn_ngữ phápvà như vậy.
Cách tải xuống tất cả các gói của NLTK
Bước 1)Chạy Python thông dịch viên in Windows hoặc Linux
Bước 2)
- Nhập các lệnh
import nltk nltk.download ()
- Cửa sổ tải xuống NLTK mở ra. Nhấp vào nút Tải xuống để tải xuống tập dữ liệu. Quá trình này sẽ mất thời gian, tùy thuộc vào kết nối internet của bạn
LƯU Ý: Bạn có thể thay đổi vị trí tải xuống bằng cách nhấp vào Tệp> Thay đổi thư mục tải xuống
Bước 3) Để kiểm tra dữ liệu đã cài đặt, hãy sử dụng mã sau
>>> from nltk.corpus import brown >>>brown.words()
['The', 'Fulton', 'Quận', 'Grand', 'Ban giám khảo', 'đã nói', …]
Chạy tập lệnh NLP
Chúng ta sẽ thảo luận về cách tập lệnh NLP sẽ được thực thi trên PC cục bộ của chúng ta. Có rất nhiều thư viện xử lý ngôn ngữ tự nhiên hiện có trên thị trường. Vì vậy việc lựa chọn thư viện phụ thuộc vào việc phù hợp với yêu cầu của bạn. Đây là danh sách thư viện NLP.
Cách chạy tập lệnh NLTK
Bước 1) Trong trình soạn thảo mã yêu thích của bạn, sao chép mã và lưu tệp dưới dạng "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
Giải thích mã:
- Trong chương trình này, mục tiêu là loại bỏ tất cả các loại dấu câu khỏi văn bản nhất định. Chúng tôi đã nhập “RegexpTokenizer” là một mô-đun của NLTK. Nó loại bỏ tất cả các biểu thức, ký hiệu, ký tự, số hoặc bất kỳ thứ gì bạn muốn.
- Bạn vừa chuyển Biểu thức chính quy sang mô-đun “RegexpTokenizer”.
- Hơn nữa, chúng tôi đã mã hóa từ này bằng cách sử dụng mô-đun “mã thông báo”. Đầu ra được lưu trữ trong biến “filterdText”.
- Và in chúng bằng cách sử dụng “print().”
Bước 2) Trong dấu nhắc lệnh
- Điều hướng đến vị trí bạn đã lưu tệp
- Chạy lệnh Python NLTKsample.py
Điều này sẽ hiển thị đầu ra là:
['Xin chào', 'Guru99', 'Bạn', 'có', 'xây dựng', 'a', 'rất', 'tốt', 'trang web', 'và', 'tôi', 'yêu', ' đang truy cập', 'của bạn', 'trang web']