Cách tải xuống và cài đặt NLTK trên Windows/Mac

Cài đặt NLTK trong Windows

Trong phần này, chúng ta sẽ tìm hiểu cách thiết lập NLTK thông qua terminal (Dấu nhắc lệnh trong Windows).

Hướng dẫn đưa ra bên dưới dựa trên giả định rằng bạn chưa cài đặt python. Vì vậy, bước đầu tiên là cài đặt python.

Cài đặt Python in Windows

Bước 1) Đi đến liên kết https://www.python.org/downloads/, và chọn phiên bản mới nhất cho Windows.

Cài đặt Python in Windows

Chú thích: Nếu bạn không muốn tải xuống phiên bản mới nhất, bạn có thể truy cập tab tải xuống và xem tất cả các bản phát hành.

Cài đặt Python in Windows

Bước 2) Bấm vào tập tin đã tải xuống

Cài đặt Python in Windows

Bước 3)Chọn Tùy chỉnh cài đặt

Cài đặt Python in Windows

Bước 4) Nhấn tiếp

Cài đặt Python in Windows

Bước 5) Ở màn hình tiếp theo

  1. Chọn các tùy chọn nâng cao
  2. Cung cấp một vị trí cài đặt tùy chỉnh. Trong trường hợp của tôi, một thư mục trên ổ C được chọn để dễ thao tác
  3. Nhấp vào Cài đặt

Cài đặt Python in Windows

Bước 6) Nhấp vào nút Đóng sau khi cài đặt xong.

Cài đặt Python in Windows

Bước 7) Sao chép đường dẫn của thư mục Tập lệnh của bạn.

Cài đặt Python in Windows

Bước 8) Trong dấu nhắc lệnh của Windows

  • Điều hướng đến vị trí của thư mục pip
  • Nhập lệnh cài đặt NLTK
    pip3 install nltk
  • Việc cài đặt phải được thực hiện thành công

Cài đặt Python in Windows

LƯU ÝCó mặt Python2 sử dụng commandpip2 cài đặt nltk

Bước 9) In Windows Menu Bắt đầu, tìm kiếm và mở PythonShell

Cài đặt Python in Windows

Bước 10) Bạn có thể xác minh xem cài đặt có chính xác hay không bằng cách cung cấp lệnh bên dưới

import nltk

Cài đặt Python in Windows

Nếu không thấy lỗi nghĩa là quá trình cài đặt đã hoàn tất.

Cài đặt NLTK trên Mac/Linux

Cài đặt NLTK trong Mac/Unix yêu cầu pip quản lý gói python để cài đặt nltk. Nếu pip chưa được cài đặt, vui lòng làm theo hướng dẫn bên dưới để hoàn tất quy trình

Bước 1) Cập nhật chỉ mục gói bằng cách gõ lệnh bên dưới

sudo apt update

Bước 2) Cài đặt pip cho Python 3:

sudo apt install python3-pip

Bạn cũng có thể cài đặt pip bằng easy_install.

sudo apt-get install python-setuptools  python-dev build-essential

Bây giờ easy_install đã được cài đặt. Chạy lệnh dưới đây để cài đặt pip

sudo easy_install pip

Bước 3)Sử dụng lệnh sau để cài đặt NLTK

sudo pip install -U nltk
sudo pip3 install -U nltk

Cài đặt NLTK qua Anaconda

Bước 1) Vui lòng cài đặt anaconda (cũng có thể được sử dụng để cài đặt các gói khác nhau) bằng cách truy cập https://www.anaconda.com/products/individual và chọn phiên bản python nào bạn cần cài đặt cho anaconda.

Cài đặt NLTK qua Anaconda

Lưu ý: Tham khảo hướng dẫn này để biết các bước chi tiết cài đặt anaconda

Bước 2)Trong dấu nhắc Anaconda,

  1. Nhập lệnh
    conda install -c anaconda nltk
  2. Review gói nâng cấp, hạ cấp, cài đặt thông tin và nhập yes
  3. NLTK được tải xuống và cài đặt

Cài đặt NLTK qua Anaconda

Bộ dữ liệu NLTK

Mô-đun NLTK có sẵn nhiều bộ dữ liệu mà bạn cần tải xuống để sử dụng. Về mặt kỹ thuật hơn nó được gọi là văn thể. Một số ví dụ là ngưng từ, Gutenberg, framenet_v15, lớn_ngữ phápvà như vậy.

Cách tải xuống tất cả các gói của NLTK

Bước 1)Chạy Python thông dịch viên in Windows hoặc Linux

Bước 2)

  1. Nhập các lệnh
import nltk
nltk.download ()
  1. Cửa sổ tải xuống NLTK mở ra. Nhấp vào nút Tải xuống để tải xuống tập dữ liệu. Quá trình này sẽ mất thời gian, tùy thuộc vào kết nối internet của bạn

Tải xuống tất cả các gói của NLTK

LƯU Ý: Bạn có thể thay đổi vị trí tải xuống bằng cách nhấp vào Tệp> Thay đổi thư mục tải xuống

Tải xuống tất cả các gói của NLTK

Bước 3) Để kiểm tra dữ liệu đã cài đặt, hãy sử dụng mã sau

>>> from nltk.corpus import brown
>>>brown.words()

['The', 'Fulton', 'Quận', 'Grand', 'Ban giám khảo', 'đã nói', …]

Tải xuống tất cả các gói của NLTK

Chạy tập lệnh NLP

Chúng ta sẽ thảo luận về cách tập lệnh NLP sẽ được thực thi trên PC cục bộ của chúng ta. Có rất nhiều thư viện xử lý ngôn ngữ tự nhiên hiện có trên thị trường. Vì vậy việc lựa chọn thư viện phụ thuộc vào việc phù hợp với yêu cầu của bạn. Đây là danh sách thư viện NLP.

Cách chạy tập lệnh NLTK

Bước 1) Trong trình soạn thảo mã yêu thích của bạn, sao chép mã và lưu tệp dưới dạng "NLTKsample.py "

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Chạy tập lệnh NLTK

Giải thích mã:

  1. Trong chương trình này, mục tiêu là loại bỏ tất cả các loại dấu câu khỏi văn bản nhất định. Chúng tôi đã nhập “RegexpTokenizer” là một mô-đun của NLTK. Nó loại bỏ tất cả các biểu thức, ký hiệu, ký tự, số hoặc bất kỳ thứ gì bạn muốn.
  2. Bạn vừa chuyển Biểu thức chính quy sang mô-đun “RegexpTokenizer”.
  3. Hơn nữa, chúng tôi đã mã hóa từ này bằng cách sử dụng mô-đun “mã thông báo”. Đầu ra được lưu trữ trong biến “filterdText”.
  4. Và in chúng bằng cách sử dụng “print().”

Bước 2) Trong dấu nhắc lệnh

  • Điều hướng đến vị trí bạn đã lưu tệp
  • Chạy lệnh Python NLTKsample.py

Chạy tập lệnh NLTK

Điều này sẽ hiển thị đầu ra là:

['Xin chào', 'Guru99', 'Bạn', 'có', 'xây dựng', 'a', 'rất', 'tốt', 'trang web', 'và', 'tôi', 'yêu', ' đang truy cập', 'của bạn', 'trang web']