บทช่วยสอนการประมวลผลภาษาธรรมชาติ: NLP คืออะไร ตัวอย่าง

การประมวลผลภาษาธรรมชาติคืออะไร?

การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาหนึ่งของ AI ที่ช่วยให้คอมพิวเตอร์เข้าใจ ตีความ และจัดการภาษาของมนุษย์ เช่น ภาษาอังกฤษหรือภาษาฮินดี เพื่อวิเคราะห์และหาความหมาย NLP ช่วยให้นักพัฒนาจัดระเบียบและจัดโครงสร้างความรู้เพื่อดำเนินการต่างๆ เช่น การแปล การสรุป การจดจำเอนทิตีที่มีชื่อ การสกัดความสัมพันธ์ การจดจำเสียง การแบ่งหัวข้อ เป็นต้น

ประวัติ NLP

นี่คือเหตุการณ์สำคัญในประวัติศาสตร์ของการประมวลผลภาษาธรรมชาติ:

1950- NLP เริ่มต้นเมื่อ Alan Turing ตีพิมพ์บทความชื่อ "Machine and Intelligence"

1950- พยายามแปลระหว่างภาษารัสเซียและภาษาอังกฤษโดยอัตโนมัติ

1960- งานของชอมสกีและคนอื่นๆ เกี่ยวกับทฤษฎีภาษาทางการและไวยากรณ์เชิงกำเนิด

1990- โมเดลความน่าจะเป็นและแบบจำลองที่ขับเคลื่อนด้วยข้อมูลได้กลายเป็นมาตรฐานไปแล้ว

2000- มีข้อมูลเสียงพูดและข้อความจำนวนมาก

ต่อไปในบทช่วยสอน NLP นี้ เราจะเรียนรู้วิธีการทำงานของ NLP

NLP ทำงานอย่างไร?

ก่อนที่เราจะเรียนรู้วิธีการทำงานของ NLP เรามาทำความเข้าใจว่ามนุษย์ใช้ภาษาอย่างไร

ทุกวันเราพูดพันคำที่คนอื่นตีความเพื่อทำสิ่งนับไม่ถ้วน เราคิดว่ามันเป็นการสื่อสารที่เรียบง่าย แต่เราทุกคนรู้ดีว่าคำพูดนั้นลึกซึ้งกว่านั้นมาก มีบริบทบางอย่างที่เราได้รับมาจากสิ่งที่เราพูดและวิธีที่เราพูดอยู่เสมอ NLP ใน ปัญญาประดิษฐ์ ไม่เคยมุ่งเน้นไปที่การปรับเสียง มันใช้รูปแบบตามบริบท

ตัวอย่าง:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

ที่นี่เราสามารถเชื่อมโยงกันได้อย่างง่ายดายเพราะผู้ชายเป็นเพศชายและผู้หญิงเป็นเพศหญิง ในทำนองเดียวกัน กษัตริย์เป็นเพศชาย และเพศหญิงเป็นราชินี

ตัวอย่าง:

Is King to kings as the queen is to_______?
The answer is--- queens 

ตรงนี้ เราจะเห็นคำสองคำว่า kings และ kings โดยคำหนึ่งเป็นเอกพจน์ และอีกคำหนึ่งเป็นพหูพจน์ ดังนั้นเมื่อราชินีโลกเสด็จมา มันจะสัมพันธ์กับราชินีพหูพจน์เอกพจน์อีกครั้งโดยอัตโนมัติ

คำถามที่ใหญ่ที่สุดคือเราจะรู้ได้อย่างไรว่าคำต่างๆ หมายถึงอะไร เอาล่ะใครจะเรียกว่าราชินี?

งานเอ็นแอลพี

คำตอบคือเราเรียนรู้สิ่งนี้ผ่านประสบการณ์ อย่างไรก็ตาม คำถามหลักคือคอมพิวเตอร์รู้เรื่องนี้ได้อย่างไร

เราจำเป็นต้องจัดเตรียมข้อมูลเพียงพอเพื่อให้เครื่องจักรสามารถเรียนรู้ผ่านประสบการณ์ เราสามารถป้อนรายละเอียด เช่น

  • สมเด็จพระนางเจ้าฯ พระบรมราชินีนาถ.
  • พระราชดำรัสของสมเด็จพระนางเจ้าฯ พระบรมราชินีนาถในการเสด็จเยือน
  • มงกุฎของควีนอลิซาเบธ
  • แม่ของราชินี
  • ราชินีเป็นผู้มีน้ำใจมาก

ด้วยตัวอย่างข้างต้น เครื่องจักรจะเข้าใจเอนทิตี Queen

เครื่องสร้างเวกเตอร์คำดังต่อไปนี้ เวกเตอร์คำถูกสร้างขึ้นโดยใช้คำที่อยู่รอบๆ

งานเอ็นแอลพี

เครื่องจักรสร้างเวกเตอร์เหล่านี้

  • เมื่อเรียนรู้จากชุดข้อมูลหลายชุด
  • ใช้การเรียนรู้ของเครื่องจักร (เช่น อัลกอริธึมการเรียนรู้เชิงลึก)
  • เวกเตอร์คำถูกสร้างขึ้นโดยใช้คำที่อยู่รอบๆ

นี่คือสูตร:

ความหมาย (ราชา) – ความหมาย (ชาย) + ความหมาย (หญิง)=?

นี่เท่ากับการดำเนินการพีชคณิตง่ายๆ กับเวกเตอร์คำ:

เวกเตอร์ ( ราชา) – เวกเตอร์ (ชาย) + เวกเตอร์ (หญิง)= เวกเตอร์(?)

ซึ่งเครื่องตอบรับราชินี

ต่อไปในบทช่วยสอนการประมวลผลภาษาธรรมชาตินี้ เราจะเรียนรู้เกี่ยวกับส่วนประกอบของ NLP

ส่วนประกอบของเอ็นแอลพี

องค์ประกอบหลักห้าประการของการประมวลผลภาษาธรรมชาติใน AI ได้แก่:

  • การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์
  • การวิเคราะห์วากยสัมพันธ์
  • การวิเคราะห์ความหมาย
  • บูรณาการวาทกรรม
  • การวิเคราะห์เชิงปฏิบัติ
ส่วนประกอบของเอ็นแอลพี
ส่วนประกอบของเอ็นแอลพี

การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์

การวิเคราะห์คำศัพท์คือคำศัพท์ที่ประกอบด้วยคำและสำนวน แสดงถึงการวิเคราะห์ การระบุ และการอธิบายโครงสร้างของคำ รวมถึงการแบ่งข้อความออกเป็นย่อหน้า คำ และประโยค

คำแต่ละคำจะได้รับการวิเคราะห์เป็นส่วนประกอบ และโทเค็นที่ไม่ใช่คำ เช่น เครื่องหมายวรรคตอนจะถูกแยกออกจากคำ

การวิเคราะห์ความหมาย

การวิเคราะห์เชิงความหมายเป็นโครงสร้างที่สร้างขึ้นโดยตัววิเคราะห์วากยสัมพันธ์ซึ่งกำหนดความหมาย องค์ประกอบนี้จะถ่ายโอนลำดับเชิงเส้นของคำลงในโครงสร้าง มันแสดงให้เห็นว่าคำต่างๆเชื่อมโยงกันอย่างไร

ความหมายมุ่งเน้นไปที่ความหมายที่แท้จริงของคำ วลี และประโยคเท่านั้น นี่เป็นเพียงนามธรรมความหมายพจนานุกรมหรือความหมายที่แท้จริงจากบริบทที่กำหนดเท่านั้น โครงสร้างที่กำหนดโดยตัววิเคราะห์วากยสัมพันธ์จะมีความหมายที่กำหนดเสมอ

เช่น. “ไอเดียสีเขียวไร้สี” สิ่งนี้จะถูกปฏิเสธโดยการวิเคราะห์ของไซแมนเทคว่าไม่มีสีที่นี่ สีเขียวไม่สมเหตุสมผลเลย

การวิเคราะห์เชิงปฏิบัติ

การวิเคราะห์เชิงปฏิบัติเกี่ยวข้องกับเนื้อหาการสื่อสารและสังคมโดยรวมและผลกระทบต่อการตีความ มันหมายถึงนามธรรมหรือได้มาซึ่งการใช้ภาษาที่มีความหมายในสถานการณ์ ในการวิเคราะห์นี้ จุดเน้นหลักเสมอคือสิ่งที่กล่าวและตีความใหม่ว่าหมายถึงอะไร

การวิเคราะห์เชิงปฏิบัติช่วยให้ผู้ใช้ค้นพบผลลัพธ์ที่ตั้งใจได้โดยการใช้กฎชุดหนึ่งที่กำหนดลักษณะการสนทนาเชิงความร่วมมือ

เช่น “ปิดหน้าต่าง?” ควรตีความว่าเป็นคำขอแทนคำสั่ง

การวิเคราะห์ไวยากรณ์

คำต่างๆ เป็นที่ยอมรับกันโดยทั่วไปว่าเป็นหน่วยไวยากรณ์ที่เล็กที่สุด ไวยากรณ์หมายถึงหลักการและกฎเกณฑ์ที่ควบคุมโครงสร้างประโยคของแต่ละภาษา

ไวยากรณ์เน้นที่การจัดลำดับคำที่ถูกต้องซึ่งอาจส่งผลต่อความหมายได้ ซึ่งเกี่ยวข้องกับการวิเคราะห์คำในประโยคโดยปฏิบัติตามโครงสร้างไวยากรณ์ของประโยค คำต่างๆ จะถูกแปลงเป็นโครงสร้างเพื่อแสดงให้เห็นว่าคำต่างๆ เกี่ยวข้องกันอย่างไร

บูรณาการวาทกรรม

หมายถึง ความหมายของบริบท ความหมายของประโยคใดประโยคหนึ่งซึ่งขึ้นอยู่กับประโยคนั้นๆ นอกจากนี้ยังพิจารณาความหมายของประโยคถัดไปด้วย

ตัวอย่างเช่น คำว่า "นั้น" ในประโยค "เขาต้องการสิ่งนั้น" ขึ้นอยู่กับบริบทของวาทกรรมก่อนหน้า

ต่อไปในบทช่วยสอน NLP นี้ เราจะเรียนรู้เกี่ยวกับ NLP และระบบการเขียน

NLP และระบบการเขียน

ประเภทของระบบการเขียนที่ใช้สำหรับภาษาเป็นหนึ่งในปัจจัยในการตัดสินใจในการกำหนดแนวทางที่ดีที่สุดสำหรับการประมวลผลข้อความล่วงหน้า ระบบการเขียนสามารถทำได้

  1. โลโก้กราฟิก: สัญลักษณ์แต่ละตัวจำนวนมากแสดงถึงคำต่างๆ ตัวอย่างภาษาญี่ปุ่นภาษาจีนกลาง
  2. พยางค์: สัญลักษณ์ส่วนบุคคลแสดงถึงพยางค์
  3. ตัวอักษร: สัญลักษณ์ส่วนบุคคลแสดงถึงเสียง

ระบบการเขียนส่วนใหญ่ใช้ระบบพยางค์หรือตัวอักษร แม้แต่ภาษาอังกฤษซึ่งมีระบบการเขียนที่ค่อนข้างเรียบง่ายโดยใช้อักษรโรมัน ก็ยังใช้สัญลักษณ์โลโก้ซึ่งรวมถึงเลขอารบิค สัญลักษณ์สกุลเงิน (S, £) และสัญลักษณ์พิเศษอื่นๆ

ท่านี้ทำตามความท้าทาย

  • การแยกความหมาย (อรรถศาสตร์) ออกจากข้อความถือเป็นความท้าทาย
  • NLP ใน AI ขึ้นอยู่กับคุณภาพของคลังข้อมูล หากโดเมนกว้างใหญ่ ก็ยากที่จะเข้าใจบริบท
  • ขึ้นอยู่กับชุดอักขระและภาษา

วิธีนำ NLP ไปใช้

ด้านล่างนี้เป็นวิธียอดนิยมที่ใช้สำหรับกระบวนการเรียนรู้ตามธรรมชาติ:

การเรียนรู้ของเครื่อง: ขั้นตอนการเรียนรู้ nlp ที่ใช้ระหว่างการเรียนรู้ของเครื่อง โดยจะเน้นไปที่กรณีที่พบบ่อยที่สุดโดยอัตโนมัติ ดังนั้นเมื่อเราเขียนกฎด้วยมือ มันมักจะไม่ถูกต้องเลยเกี่ยวกับข้อผิดพลาดของมนุษย์

อนุมานทางสถิติ: NLP สามารถใช้ขั้นตอนวิธีการอนุมานทางสถิติได้ ช่วยให้คุณสร้างแบบจำลองที่มีความมั่นคง เช่น มีคำหรือโครงสร้างที่ทุกคนทราบ

ตัวอย่าง NLP

ในปัจจุบันเทคโนโลยีการเรียนรู้กระบวนการทางธรรมชาติเป็นเทคโนโลยีที่ใช้กันอย่างแพร่หลาย

ต่อไปนี้เป็นเทคนิคการประมวลผลภาษาธรรมชาติทั่วไป:

การดึงข้อมูลและการค้นหาเว็บ

Google, Yahoo, Bing และอื่นๆ เครื่องมือค้นหา เทคโนโลยีการแปลด้วยเครื่องของพวกเขานั้นอิงตามโมเดลการเรียนรู้เชิงลึกของ NLP ซึ่งช่วยให้อัลกอริทึมสามารถอ่านข้อความบนเว็บเพจ ตีความความหมาย และแปลเป็นภาษาอื่นได้

การแก้ไขไวยากรณ์:

เทคนิค NLP ถูกนำมาใช้กันอย่างแพร่หลายในซอฟต์แวร์ประมวลผลคำ เช่น MS-word สำหรับการแก้ไขการสะกดและการตรวจสอบไวยากรณ์

การแก้ไขไวยากรณ์

ตอบคำถาม

พิมพ์คำสำคัญเพื่อถามคำถามในภาษาธรรมชาติ

สรุปข้อความ

กระบวนการสรุปข้อมูลสำคัญจากแหล่งที่มาเพื่อสร้างเป็นเวอร์ชันย่อ

การแปลด้วยเครื่อง

การใช้แอปพลิเคชันคอมพิวเตอร์เพื่อแปลข้อความหรือคำพูดจากภาษาธรรมชาติหนึ่งเป็นอีกภาษาหนึ่ง

การแปลด้วยเครื่อง

การวิเคราะห์ความเชื่อมั่น

NLP ช่วยให้บริษัทต่างๆ วิเคราะห์บทวิจารณ์จำนวนมากเกี่ยวกับผลิตภัณฑ์ได้ นอกจากนี้ยังช่วยให้ลูกค้าสามารถวิจารณ์ผลิตภัณฑ์นั้นๆ ได้

อนาคตของ NLP

  • การประมวลผลภาษาธรรมชาติที่มนุษย์สามารถอ่านได้เป็นปัญหาที่ใหญ่ที่สุดของปัญญาประดิษฐ์ ซึ่งส่วนใหญ่ก็เหมือนกับการแก้ปัญหาปัญญาประดิษฐ์กลางและทำให้คอมพิวเตอร์มีความฉลาดเท่ากับมนุษย์
  • คอมพิวเตอร์หรือเครื่องจักรในอนาคตที่ได้รับความช่วยเหลือจาก NLP จะสามารถเรียนรู้จากข้อมูลออนไลน์และนำไปใช้ในโลกแห่งความเป็นจริงได้ อย่างไรก็ตาม ยังมีงานที่ต้องทำอีกมากในเรื่องนี้
  • ชุดเครื่องมือภาษาธรรมชาติหรือ nltk มีประสิทธิภาพมากขึ้น
  • เมื่อรวมกับการสร้างภาษาธรรมชาติ คอมพิวเตอร์จะสามารถรับและให้ข้อมูลหรือข้อมูลที่เป็นประโยชน์และมีทรัพยากรมากขึ้น

ภาษาธรรมชาติกับภาษาคอมพิวเตอร์

ด้านล่างนี้คือข้อแตกต่างที่สำคัญระหว่างภาษาธรรมชาติและภาษาคอมพิวเตอร์:

พารามิเตอร์ ภาษาธรรมชาติ ภาษาคอมพิวเตอร์
คลุมเครือ พวกมันมีความคลุมเครือในธรรมชาติ ได้รับการออกแบบมาให้ไม่คลุมเครือ
ความฟุ่มเฟือย ภาษาธรรมชาติมีการใช้ความซ้ำซ้อนอย่างมาก ภาษาทางการมีความซ้ำซ้อนน้อยกว่า
ความเป็นมา ภาษาธรรมชาติประกอบด้วยสำนวนและอุปมาอุปมัย ภาษาทางการหมายถึงสิ่งที่พวกเขาต้องการจะพูดอย่างแน่นอน

ข้อดีของเอ็นแอลพี

  • ผู้ใช้สามารถถามคำถามเกี่ยวกับเรื่องใดก็ได้และรับการตอบกลับโดยตรงภายในไม่กี่วินาที
  • ระบบ NLP ให้คำตอบสำหรับคำถามในภาษาธรรมชาติ
  • ระบบ NLP ให้คำตอบที่ตรงประเด็น ไม่มีข้อมูลที่ไม่จำเป็นหรือไม่พึงประสงค์
  • ความแม่นยำของคำตอบจะเพิ่มขึ้นตามจำนวนข้อมูลที่เกี่ยวข้องที่ให้ไว้ในคำถาม
  • กระบวนการ NLP ช่วยให้คอมพิวเตอร์สื่อสารกับมนุษย์ในภาษาของพวกเขาและปรับขนาดงานอื่นๆ ที่เกี่ยวข้องกับภาษาได้
  • ช่วยให้คุณสามารถดำเนินการข้อมูลเชิงภาษาได้มากขึ้นเมื่อเปรียบเทียบกับมนุษย์โดยไม่เหนื่อยล้าและในรูปแบบที่เป็นกลางและสอดคล้องกัน
  • การจัดโครงสร้างแหล่งข้อมูลที่ไม่มีโครงสร้างสูง

ข้อเสียของเอ็นแอลพี

  • ภาษาสอบถามที่ซับซ้อน - ระบบอาจไม่สามารถให้คำตอบที่ถูกต้องได้หากคำถามมีการใช้คำไม่ถูกต้องหรือคลุมเครือ
  • ระบบถูกสร้างขึ้นสำหรับงานเดียวและเฉพาะเจาะจงเท่านั้น ไม่สามารถปรับตัวเข้ากับโดเมนและปัญหาใหม่ๆ ได้เนื่องจากมีฟังก์ชันที่จำกัด
  • ระบบ NLP ไม่มีอินเทอร์เฟซผู้ใช้ซึ่งขาดคุณสมบัติที่ช่วยให้ผู้ใช้สามารถโต้ตอบกับระบบเพิ่มเติมได้

สรุป

  • การประมวลผลภาษาธรรมชาติเป็นสาขาหนึ่งของ AI ซึ่งช่วยให้คอมพิวเตอร์เข้าใจ ตีความ และจัดการภาษาของมนุษย์
  • NLP เริ่มต้นเมื่อ Alan Turing ตีพิมพ์บทความชื่อ “Machine and Intelligence”
  • NLP ไม่เคยมุ่งเน้นไปที่การปรับเสียง มันใช้รูปแบบตามบริบท
  • องค์ประกอบที่สำคัญห้าประการของการประมวลผลภาษาธรรมชาติในปัญญาประดิษฐ์ ได้แก่ 1) การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์ 2) การวิเคราะห์เชิงวากยสัมพันธ์ 3) การวิเคราะห์ความหมาย 4) การรวมวาทกรรม 5) การวิเคราะห์เชิงปฏิบัติ
  • ระบบการเขียนกระบวนการทางธรรมชาติมี 1 ประเภท ได้แก่ 2) โลโกกราฟิก 3) พยางค์ XNUMX) ตัวอักษร
  • การเรียนรู้ของเครื่องและการอนุมานทางสถิติเป็นสองวิธีในการดำเนินการเรียนรู้กระบวนการทางธรรมชาติ
  • การประยุกต์ใช้ NLP ที่จำเป็น ได้แก่ การค้นหาข้อมูลและการค้นหาบนเว็บ การแก้ไขไวยากรณ์ การตอบคำถาม การสรุปข้อความ การแปลโดยเครื่อง ฯลฯ
  • คอมพิวเตอร์หรือเครื่องจักรในอนาคตด้วยความช่วยเหลือของ NLP และ ข้อมูลวิทยาศาสตร์ จะสามารถเรียนรู้จากข้อมูลออนไลน์และนำไปใช้ได้จริง อย่างไรก็ตาม ยังมีงานที่ต้องทำอีกมากในเรื่องนี้
  • NLP มีความคลุมเครือ ในขณะที่ภาษาคอมพิวเตอร์โอเพ่นซอร์สได้รับการออกแบบให้ไม่คลุมเครือ
  • ข้อได้เปรียบที่ใหญ่ที่สุดของ NLP ในระบบปัญญาประดิษฐ์คือ ให้คำตอบที่ถูกต้องสำหรับคำถาม ไม่มีข้อมูลที่ไม่จำเป็นหรือไม่พึงประสงค์
  • ข้อเสียเปรียบที่ใหญ่ที่สุดของระบบ NLP ถูกสร้างขึ้นสำหรับงานเดียวและเฉพาะเจาะจงเท่านั้น ดังนั้นจึงไม่สามารถปรับให้เข้ากับโดเมนและปัญหาใหม่ได้เนื่องจากฟังก์ชันที่จำกัด