วิธีการดาวน์โหลดและติดตั้ง NLTK

⚡ สรุปอย่างชาญฉลาด

ดาวน์โหลดและติดตั้ง NLTK บน WindowsMac หรือ Linux โดยการติดตั้ง Python อันดับแรก จากนั้นจึงเติมส่วนผสมจากธรรมชาติ Language Toolใช้ชุดเครื่องมือผ่าน pip หรือ Anaconda และดาวน์โหลดชุดข้อมูลคอร์ปัส

  • ต้องการ: การติดตั้ง Python ก่อนที่จะเพิ่ม NLTK
  • ⚙️ ติดตั้ง: ใช้ pip, easy_install หรือ Anaconda ก็ได้
  • 📚 ชุดข้อมูล: เรียกใช้ nltk.download() เพื่อดึงข้อมูลคอร์ปัส
  • 🐍 ตรวจสอบ: นำเข้า nltk ใน Python เปลือก.
  • 🤖 การใช้งาน AI: การแบ่งคำและการติดแท็กสำหรับกระบวนการประมวลผลภาษาธรรมชาติ (NLP)

ดาวน์โหลดและติดตั้ง NLTK

การติดตั้ง NLTK ใน Windows

เรียนรู้วิธีการตั้งค่า NLTK บน Windows จากพรอมต์คำสั่ง คำแนะนำด้านล่างนี้สมมติว่า Python ยังไม่ได้ติดตั้ง ดังนั้นขั้นตอนแรกคือการติดตั้ง Python.

การติดตั้ง Python in Windows

ขั้นตอน 1) เปิดลิงก์ https://www.python.org/downloads/, และเลือกเวอร์ชันล่าสุด Windows ปล่อย

การติดตั้ง Python in Windows

หมายเหตุ: สำหรับเวอร์ชันเก่ากว่า โปรดไปที่แท็บดาวน์โหลดเพื่อดูเวอร์ชันทั้งหมด

การติดตั้ง Python in Windows

ขั้นตอน 2) คลิกไฟล์ติดตั้งที่ดาวน์โหลดมา

การติดตั้ง Python in Windows

ขั้นตอน 3) เลือก ปรับแต่งการติดตั้ง

การติดตั้ง Python in Windows

ขั้นตอน 4) คลิกถัดไป

การติดตั้ง Python in Windows

ขั้นตอน 5) ในหน้าจอถัดไป:

  1. เลือกตัวเลือกขั้นสูง
  2. ระบุตำแหน่งการติดตั้งที่กำหนดเอง ในตัวอย่างนี้ เลือกโฟลเดอร์ในไดรฟ์ C เพื่อความสะดวกในการเข้าถึง
  3. คลิกติดตั้ง

การติดตั้ง Python in Windows

ขั้นตอน 6) เมื่อการติดตั้งเสร็จสิ้นแล้ว ให้คลิกปุ่มปิด

การติดตั้ง Python in Windows

ขั้นตอน 7) คัดลอกเส้นทางของโฟลเดอร์สคริปต์ของคุณ

การติดตั้ง Python in Windows

ขั้นตอน 8) ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร Windows พร้อมท์คำสั่ง:

  • ไปยังตำแหน่งที่ตั้งของโฟลเดอร์ pip
  • ป้อนคำสั่งเพื่อติดตั้ง NLTK:
    pip3 install nltk
  • การติดตั้งน่าจะเสร็จสมบูรณ์โดยไม่มีปัญหา

การติดตั้ง Python in Windows

หมายเหตุ: สำหรับ Python 2. ใช้คำสั่ง pip2 install nltk.

ขั้นตอน 9) จาก Windows เมนูเริ่มต้น ค้นหาและเปิด Python เปลือก.

การติดตั้ง Python in Windows

ขั้นตอน 10) ตรวจสอบว่าการติดตั้งทำงานได้อย่างถูกต้องโดยเรียกใช้คำสั่งด้านล่าง:

import nltk

การติดตั้ง Python in Windows

หากไม่มีข้อผิดพลาดใดๆ เกิดขึ้น การติดตั้งก็เสร็จสมบูรณ์แล้ว

การติดตั้ง NLTK ใน Mac/Linux

การติดตั้ง NLTK บน Mac หรือ Linux ต้องใช้... Python ตัวจัดการแพ็กเกจ pip หากไม่ได้ติดตั้ง pip โปรดทำตามคำแนะนำด้านล่างเพื่อดำเนินการให้เสร็จสมบูรณ์

ขั้นตอน 1) อัปเดตดัชนีแพ็กเกจโดย typing คำสั่งด้านล่างนี้:

sudo apt update

ขั้นตอน 2) ติดตั้ง pip สำหรับ Python 3:

sudo apt install python3-pip

คุณสามารถติดตั้ง pip ผ่าน easy_install ได้เช่นกัน:

sudo apt-get install python-setuptools  python-dev build-essential

เมื่อติดตั้ง easy_install เสร็จแล้ว ให้รันคำสั่งด้านล่างเพื่อติดตั้ง pip:

sudo easy_install pip

ขั้นตอน 3) ใช้คำสั่งต่อไปนี้เพื่อติดตั้ง NLTK:

sudo pip install -U nltk
sudo pip3 install -U nltk

การติดตั้ง NLTK ผ่าน Anaconda

ขั้นตอน 1) ติดตั้ง Anaconda โดยไปที่ https://www.anaconda.com/products/individual และเลือก Python เวอร์ชันที่คุณต้องการ

การติดตั้ง NLTK ผ่าน Anaconda

หมายเหตุ: โปรดดูบทช่วยสอนนี้สำหรับขั้นตอนโดยละเอียด ติดตั้ง Anaconda.

ขั้นตอน 2) ในข้อความแจ้งเตือนของ Anaconda:

  1. ป้อนคำสั่ง:
    conda install -c anaconda nltk
  2. Revดูข้อมูลการอัปเกรด ดาวน์เกรด และการติดตั้งแพ็กเกจ จากนั้นป้อน "ใช่"
  3. NLTK ถูกดาวน์โหลดและติดตั้งเรียบร้อยแล้ว

การติดตั้ง NLTK ผ่าน Anaconda

ชุดข้อมูล NLTK

โมดูล NLTK มาพร้อมกับชุดข้อมูลจำนวนมากที่คุณต้องดาวน์โหลดก่อนใช้งาน ในทางเทคนิคแล้ว ชุดข้อมูลแต่ละชุดเรียกว่า `dataset` คลังตัวอย่างทั่วไปได้แก่ คำหยุด, กูเทนเบิร์ก, framenet_v15, large_grammars, สีน้ำตาลและ เวิร์ดเน็ต.

วิธีดาวน์โหลดแพ็คเกจทั้งหมดของ NLTK

ขั้นตอน 1) เรียกใช้ Python ล่าม in Windows หรือลินุกซ์

ขั้นตอน 2)

  1. ป้อนคำสั่ง:
import nltk
nltk.download ()
  1. หน้าต่าง NLTK Downloader จะเปิดขึ้น คลิกปุ่ม Download เพื่อดาวน์โหลดชุดข้อมูล กระบวนการนี้ใช้เวลาขึ้นอยู่กับความเร็วอินเทอร์เน็ตของคุณ

ดาวน์โหลดแพ็คเกจทั้งหมดของ NLTK

หมายเหตุ: คุณสามารถเปลี่ยนตำแหน่งที่ดาวน์โหลดได้โดยคลิกที่ ไฟล์ > เปลี่ยนไดเร็กทอรีดาวน์โหลด

ดาวน์โหลดแพ็คเกจทั้งหมดของ NLTK

ขั้นตอน 3) หากต้องการทดสอบข้อมูลที่ติดตั้ง ให้ใช้โค้ดต่อไปนี้:

>>> from nltk.corpus import brown
>>>brown.words()

['เดอะ', 'ฟุลตัน', 'เคาน์ตี', 'แกรนด์', 'คณะลูกขุน', 'พูด', …]

ดาวน์โหลดแพ็คเกจทั้งหมดของ NLTK

การรันสคริปต์ NLP

ส่วนนี้อธิบายวิธีการทำงานของสคริปต์ NLP บนพีซีในเครื่อง การเลือกไลบรารีที่เหมาะสมนั้นขึ้นอยู่กับความต้องการของคุณ ดูรายการอย่างเป็นทางการได้ที่นี่ ห้องสมุด NLP สำหรับทางเลือกอื่นๆ เช่น spaCy, gensim และ TextBlob

วิธีเรียกใช้สคริปต์ NLTK

ขั้นตอน 1) ในโปรแกรมแก้ไขโค้ดที่คุณชื่นชอบ ให้คัดลอกโค้ดและบันทึกไฟล์เป็น NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

เรียกใช้สคริปต์ NLTK

Code คำอธิบาย:

  1. จุดประสงค์ของโปรแกรมนี้คือการลบเครื่องหมายวรรคตอนทุกชนิดออกจากข้อความที่กำหนด เราได้นำเข้าโมดูล “RegexpTokenizer” จากไลบรารีหนึ่ง เอ็นแอลทีเค ซึ่งจะลบนิพจน์ สัญลักษณ์ อักขระ หรือค่าตัวเลขใดๆ ที่คุณเลือกออกไป
  2. มีการส่งนิพจน์ปกติไปยังโมดูล “RegexpTokenizer”
  3. ข้อความจะถูกแยกเป็นโทเค็นโดยใช้วิธี "tokenize" และผลลัพธ์จะถูกเก็บไว้ในตัวแปร "filterdText"
  4. ผลลัพธ์จะถูกพิมพ์โดยใช้ฟังก์ชัน “print()”

ขั้นตอน 2) ในหน้าต่างคำสั่ง:

  • ไปยังตำแหน่งที่คุณบันทึกไฟล์ไว้
  • เรียกใช้คำสั่ง python NLTKsample.py.

เรียกใช้สคริปต์ NLTK

ผลลัพธ์คือ:

['สวัสดี', 'Guru[99', 'คุณ', 'มี', 'สร้าง', 'เว็บไซต์', 'ดีมาก', 'และ', 'ฉัน', 'ชอบ', 'เยี่ยมชม', 'เว็บไซต์ของคุณ']

คำถามที่พบบ่อย

คำสั่ง pip จะติดตั้งไลบรารี ในขณะที่ nltk.download() จะดาวน์โหลดคลังข้อมูลและโมเดลที่ฝึกฝนแล้ว เช่น stopwords, punkt และ wordnet ทั้งสองขั้นตอนจำเป็นต้องทำก่อนที่จะทำการแยกคำหรือติดแท็กข้อความ

ใช่แล้ว NLTK ยังคงได้รับความนิยมสำหรับการประมวลผลข้อความเบื้องต้นที่ใช้เป็นข้อมูลป้อนเข้าสำหรับแบบจำลองภาษาพูด (LLM) ซึ่งรวมถึงการแบ่งคำ การลบคำที่ไม่สำคัญ การตัดคำลงท้าย และการติดแท็กส่วนของคำพูด นอกจากนี้ยังมีการใช้งานอย่างแพร่หลายในการสอนและการวิจัยเนื่องจากมี API ที่ใช้งานง่ายและคลังข้อมูลคลาสสิก

NLTK เหมาะที่สุดสำหรับการเรียนรู้พื้นฐานของ NLP ส่วน spaCy นั้นเร็วกว่าสำหรับการใช้งานจริง กอดใบหน้า Transformers มีโมเดลการเรียนรู้เชิงลึกที่ผ่านการฝึกฝนล่วงหน้าให้เลือกใช้ โครงการ AI หลายโครงการจึงผสานการประมวลผลล่วงหน้าของ NLTK เข้ากับการอนุมานด้วย Transformer

สรุปโพสต์นี้ด้วย: