บทช่วยสอนการประมวลผลภาษาธรรมชาติ: NLP คืออะไร ตัวอย่าง
การประมวลผลภาษาธรรมชาติคืออะไร?
การประมวลผลภาษาธรรมชาติ (NLP) เป็นสาขาหนึ่งของ AI ที่ช่วยให้คอมพิวเตอร์เข้าใจ ตีความ และจัดการภาษาของมนุษย์ เช่น ภาษาอังกฤษหรือภาษาฮินดี เพื่อวิเคราะห์และหาความหมาย NLP ช่วยให้นักพัฒนาจัดระเบียบและจัดโครงสร้างความรู้เพื่อดำเนินการต่างๆ เช่น การแปล การสรุป การจดจำเอนทิตีที่มีชื่อ การสกัดความสัมพันธ์ การจดจำเสียง การแบ่งหัวข้อ เป็นต้น
ประวัติ NLP
นี่คือเหตุการณ์สำคัญในประวัติศาสตร์ของการประมวลผลภาษาธรรมชาติ:
1950- NLP เริ่มต้นเมื่อ Alan Turing ตีพิมพ์บทความชื่อ "Machine and Intelligence"
1950- พยายามแปลระหว่างภาษารัสเซียและภาษาอังกฤษโดยอัตโนมัติ
1960- งานของชอมสกีและคนอื่นๆ เกี่ยวกับทฤษฎีภาษาทางการและไวยากรณ์เชิงกำเนิด
1990- โมเดลความน่าจะเป็นและแบบจำลองที่ขับเคลื่อนด้วยข้อมูลได้กลายเป็นมาตรฐานไปแล้ว
2000- มีข้อมูลเสียงพูดและข้อความจำนวนมาก
ต่อไปในบทช่วยสอน NLP นี้ เราจะเรียนรู้วิธีการทำงานของ NLP
NLP ทำงานอย่างไร?
ก่อนที่เราจะเรียนรู้วิธีการทำงานของ NLP เรามาทำความเข้าใจว่ามนุษย์ใช้ภาษาอย่างไร
ทุกวันเราพูดพันคำที่คนอื่นตีความเพื่อทำสิ่งนับไม่ถ้วน เราคิดว่ามันเป็นการสื่อสารที่เรียบง่าย แต่เราทุกคนรู้ดีว่าคำพูดนั้นลึกซึ้งกว่านั้นมาก มีบริบทบางอย่างที่เราได้รับมาจากสิ่งที่เราพูดและวิธีที่เราพูดอยู่เสมอ NLP ใน ปัญญาประดิษฐ์ ไม่เคยมุ่งเน้นไปที่การปรับเสียง มันใช้รูปแบบตามบริบท
ตัวอย่าง:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
ที่นี่เราสามารถเชื่อมโยงกันได้อย่างง่ายดายเพราะผู้ชายเป็นเพศชายและผู้หญิงเป็นเพศหญิง ในทำนองเดียวกัน กษัตริย์เป็นเพศชาย และเพศหญิงเป็นราชินี
ตัวอย่าง:
Is King to kings as the queen is to_______? The answer is--- queens
ตรงนี้ เราจะเห็นคำสองคำว่า kings และ kings โดยคำหนึ่งเป็นเอกพจน์ และอีกคำหนึ่งเป็นพหูพจน์ ดังนั้นเมื่อราชินีโลกเสด็จมา มันจะสัมพันธ์กับราชินีพหูพจน์เอกพจน์อีกครั้งโดยอัตโนมัติ
คำถามที่ใหญ่ที่สุดคือเราจะรู้ได้อย่างไรว่าคำต่างๆ หมายถึงอะไร เอาล่ะใครจะเรียกว่าราชินี?
คำตอบคือเราเรียนรู้สิ่งนี้ผ่านประสบการณ์ อย่างไรก็ตาม คำถามหลักคือคอมพิวเตอร์รู้เรื่องนี้ได้อย่างไร
เราจำเป็นต้องจัดเตรียมข้อมูลเพียงพอเพื่อให้เครื่องจักรสามารถเรียนรู้ผ่านประสบการณ์ เราสามารถป้อนรายละเอียด เช่น
- สมเด็จพระนางเจ้าฯ พระบรมราชินีนาถ.
- พระราชดำรัสของสมเด็จพระนางเจ้าฯ พระบรมราชินีนาถในการเสด็จเยือน
- มงกุฎของควีนอลิซาเบธ
- แม่ของราชินี
- ราชินีเป็นผู้มีน้ำใจมาก
ด้วยตัวอย่างข้างต้น เครื่องจักรจะเข้าใจเอนทิตี Queen
เครื่องสร้างเวกเตอร์คำดังต่อไปนี้ เวกเตอร์คำถูกสร้างขึ้นโดยใช้คำที่อยู่รอบๆ
เครื่องจักรสร้างเวกเตอร์เหล่านี้
- เมื่อเรียนรู้จากชุดข้อมูลหลายชุด
- ใช้การเรียนรู้ของเครื่องจักร (เช่น อัลกอริธึมการเรียนรู้เชิงลึก)
- เวกเตอร์คำถูกสร้างขึ้นโดยใช้คำที่อยู่รอบๆ
นี่คือสูตร:
ความหมาย (ราชา) – ความหมาย (ชาย) + ความหมาย (หญิง)=?
นี่เท่ากับการดำเนินการพีชคณิตง่ายๆ กับเวกเตอร์คำ:
เวกเตอร์ ( ราชา) – เวกเตอร์ (ชาย) + เวกเตอร์ (หญิง)= เวกเตอร์(?)
ซึ่งเครื่องตอบรับราชินี
ต่อไปในบทช่วยสอนการประมวลผลภาษาธรรมชาตินี้ เราจะเรียนรู้เกี่ยวกับส่วนประกอบของ NLP
ส่วนประกอบของเอ็นแอลพี
องค์ประกอบหลักห้าประการของการประมวลผลภาษาธรรมชาติใน AI ได้แก่:
- การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์
- การวิเคราะห์วากยสัมพันธ์
- การวิเคราะห์ความหมาย
- บูรณาการวาทกรรม
- การวิเคราะห์เชิงปฏิบัติ
การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์
การวิเคราะห์คำศัพท์คือคำศัพท์ที่ประกอบด้วยคำและสำนวน แสดงถึงการวิเคราะห์ การระบุ และการอธิบายโครงสร้างของคำ รวมถึงการแบ่งข้อความออกเป็นย่อหน้า คำ และประโยค
คำแต่ละคำจะได้รับการวิเคราะห์เป็นส่วนประกอบ และโทเค็นที่ไม่ใช่คำ เช่น เครื่องหมายวรรคตอนจะถูกแยกออกจากคำ
การวิเคราะห์ความหมาย
การวิเคราะห์เชิงความหมายเป็นโครงสร้างที่สร้างขึ้นโดยตัววิเคราะห์วากยสัมพันธ์ซึ่งกำหนดความหมาย องค์ประกอบนี้จะถ่ายโอนลำดับเชิงเส้นของคำลงในโครงสร้าง มันแสดงให้เห็นว่าคำต่างๆเชื่อมโยงกันอย่างไร
ความหมายมุ่งเน้นไปที่ความหมายที่แท้จริงของคำ วลี และประโยคเท่านั้น นี่เป็นเพียงนามธรรมความหมายพจนานุกรมหรือความหมายที่แท้จริงจากบริบทที่กำหนดเท่านั้น โครงสร้างที่กำหนดโดยตัววิเคราะห์วากยสัมพันธ์จะมีความหมายที่กำหนดเสมอ
เช่น. “ไอเดียสีเขียวไร้สี” สิ่งนี้จะถูกปฏิเสธโดยการวิเคราะห์ของไซแมนเทคว่าไม่มีสีที่นี่ สีเขียวไม่สมเหตุสมผลเลย
การวิเคราะห์เชิงปฏิบัติ
การวิเคราะห์เชิงปฏิบัติเกี่ยวข้องกับเนื้อหาการสื่อสารและสังคมโดยรวมและผลกระทบต่อการตีความ มันหมายถึงนามธรรมหรือได้มาซึ่งการใช้ภาษาที่มีความหมายในสถานการณ์ ในการวิเคราะห์นี้ จุดเน้นหลักเสมอคือสิ่งที่กล่าวและตีความใหม่ว่าหมายถึงอะไร
การวิเคราะห์เชิงปฏิบัติช่วยให้ผู้ใช้ค้นพบผลลัพธ์ที่ตั้งใจได้โดยการใช้กฎชุดหนึ่งที่กำหนดลักษณะการสนทนาเชิงความร่วมมือ
เช่น “ปิดหน้าต่าง?” ควรตีความว่าเป็นคำขอแทนคำสั่ง
การวิเคราะห์ไวยากรณ์
คำต่างๆ เป็นที่ยอมรับกันโดยทั่วไปว่าเป็นหน่วยไวยากรณ์ที่เล็กที่สุด ไวยากรณ์หมายถึงหลักการและกฎเกณฑ์ที่ควบคุมโครงสร้างประโยคของแต่ละภาษา
ไวยากรณ์เน้นที่การจัดลำดับคำที่ถูกต้องซึ่งอาจส่งผลต่อความหมายได้ ซึ่งเกี่ยวข้องกับการวิเคราะห์คำในประโยคโดยปฏิบัติตามโครงสร้างไวยากรณ์ของประโยค คำต่างๆ จะถูกแปลงเป็นโครงสร้างเพื่อแสดงให้เห็นว่าคำต่างๆ เกี่ยวข้องกันอย่างไร
บูรณาการวาทกรรม
หมายถึง ความหมายของบริบท ความหมายของประโยคใดประโยคหนึ่งซึ่งขึ้นอยู่กับประโยคนั้นๆ นอกจากนี้ยังพิจารณาความหมายของประโยคถัดไปด้วย
ตัวอย่างเช่น คำว่า "นั้น" ในประโยค "เขาต้องการสิ่งนั้น" ขึ้นอยู่กับบริบทของวาทกรรมก่อนหน้า
ต่อไปในบทช่วยสอน NLP นี้ เราจะเรียนรู้เกี่ยวกับ NLP และระบบการเขียน
NLP และระบบการเขียน
ประเภทของระบบการเขียนที่ใช้สำหรับภาษาเป็นหนึ่งในปัจจัยในการตัดสินใจในการกำหนดแนวทางที่ดีที่สุดสำหรับการประมวลผลข้อความล่วงหน้า ระบบการเขียนสามารถทำได้
- โลโก้กราฟิก: สัญลักษณ์แต่ละตัวจำนวนมากแสดงถึงคำต่างๆ ตัวอย่างภาษาญี่ปุ่นภาษาจีนกลาง
- พยางค์: สัญลักษณ์ส่วนบุคคลแสดงถึงพยางค์
- ตัวอักษร: สัญลักษณ์ส่วนบุคคลแสดงถึงเสียง
ระบบการเขียนส่วนใหญ่ใช้ระบบพยางค์หรือตัวอักษร แม้แต่ภาษาอังกฤษซึ่งมีระบบการเขียนที่ค่อนข้างเรียบง่ายโดยใช้อักษรโรมัน ก็ยังใช้สัญลักษณ์โลโก้ซึ่งรวมถึงเลขอารบิค สัญลักษณ์สกุลเงิน (S, £) และสัญลักษณ์พิเศษอื่นๆ
ท่านี้ทำตามความท้าทาย
- การแยกความหมาย (อรรถศาสตร์) ออกจากข้อความถือเป็นความท้าทาย
- NLP ใน AI ขึ้นอยู่กับคุณภาพของคลังข้อมูล หากโดเมนกว้างใหญ่ ก็ยากที่จะเข้าใจบริบท
- ขึ้นอยู่กับชุดอักขระและภาษา
วิธีนำ NLP ไปใช้
ด้านล่างนี้เป็นวิธียอดนิยมที่ใช้สำหรับกระบวนการเรียนรู้ตามธรรมชาติ:
การเรียนรู้ของเครื่อง: ขั้นตอนการเรียนรู้ nlp ที่ใช้ระหว่างการเรียนรู้ของเครื่อง โดยจะเน้นไปที่กรณีที่พบบ่อยที่สุดโดยอัตโนมัติ ดังนั้นเมื่อเราเขียนกฎด้วยมือ มันมักจะไม่ถูกต้องเลยเกี่ยวกับข้อผิดพลาดของมนุษย์
อนุมานทางสถิติ: NLP สามารถใช้ขั้นตอนวิธีการอนุมานทางสถิติได้ ช่วยให้คุณสร้างแบบจำลองที่มีความมั่นคง เช่น มีคำหรือโครงสร้างที่ทุกคนทราบ
ตัวอย่าง NLP
ในปัจจุบันเทคโนโลยีการเรียนรู้กระบวนการทางธรรมชาติเป็นเทคโนโลยีที่ใช้กันอย่างแพร่หลาย
ต่อไปนี้เป็นเทคนิคการประมวลผลภาษาธรรมชาติทั่วไป:
การดึงข้อมูลและการค้นหาเว็บ
Google, Yahoo, Bing และอื่นๆ เครื่องมือค้นหา เทคโนโลยีการแปลด้วยเครื่องของพวกเขานั้นอิงตามโมเดลการเรียนรู้เชิงลึกของ NLP ซึ่งช่วยให้อัลกอริทึมสามารถอ่านข้อความบนเว็บเพจ ตีความความหมาย และแปลเป็นภาษาอื่นได้
การแก้ไขไวยากรณ์:
เทคนิค NLP ถูกนำมาใช้กันอย่างแพร่หลายในซอฟต์แวร์ประมวลผลคำ เช่น MS-word สำหรับการแก้ไขการสะกดและการตรวจสอบไวยากรณ์
ตอบคำถาม
พิมพ์คำสำคัญเพื่อถามคำถามในภาษาธรรมชาติ
สรุปข้อความ
กระบวนการสรุปข้อมูลสำคัญจากแหล่งที่มาเพื่อสร้างเป็นเวอร์ชันย่อ
การแปลด้วยเครื่อง
การใช้แอปพลิเคชันคอมพิวเตอร์เพื่อแปลข้อความหรือคำพูดจากภาษาธรรมชาติหนึ่งเป็นอีกภาษาหนึ่ง
การวิเคราะห์ความเชื่อมั่น
NLP ช่วยให้บริษัทต่างๆ วิเคราะห์บทวิจารณ์จำนวนมากเกี่ยวกับผลิตภัณฑ์ได้ นอกจากนี้ยังช่วยให้ลูกค้าสามารถวิจารณ์ผลิตภัณฑ์นั้นๆ ได้
อนาคตของ NLP
- การประมวลผลภาษาธรรมชาติที่มนุษย์สามารถอ่านได้เป็นปัญหาที่ใหญ่ที่สุดของปัญญาประดิษฐ์ ซึ่งส่วนใหญ่ก็เหมือนกับการแก้ปัญหาปัญญาประดิษฐ์กลางและทำให้คอมพิวเตอร์มีความฉลาดเท่ากับมนุษย์
- คอมพิวเตอร์หรือเครื่องจักรในอนาคตที่ได้รับความช่วยเหลือจาก NLP จะสามารถเรียนรู้จากข้อมูลออนไลน์และนำไปใช้ในโลกแห่งความเป็นจริงได้ อย่างไรก็ตาม ยังมีงานที่ต้องทำอีกมากในเรื่องนี้
- ชุดเครื่องมือภาษาธรรมชาติหรือ nltk มีประสิทธิภาพมากขึ้น
- เมื่อรวมกับการสร้างภาษาธรรมชาติ คอมพิวเตอร์จะสามารถรับและให้ข้อมูลหรือข้อมูลที่เป็นประโยชน์และมีทรัพยากรมากขึ้น
ภาษาธรรมชาติกับภาษาคอมพิวเตอร์
ด้านล่างนี้คือข้อแตกต่างที่สำคัญระหว่างภาษาธรรมชาติและภาษาคอมพิวเตอร์:
พารามิเตอร์ | ภาษาธรรมชาติ | ภาษาคอมพิวเตอร์ |
---|---|---|
คลุมเครือ | พวกมันมีความคลุมเครือในธรรมชาติ | ได้รับการออกแบบมาให้ไม่คลุมเครือ |
ความฟุ่มเฟือย | ภาษาธรรมชาติมีการใช้ความซ้ำซ้อนอย่างมาก | ภาษาทางการมีความซ้ำซ้อนน้อยกว่า |
ความเป็นมา | ภาษาธรรมชาติประกอบด้วยสำนวนและอุปมาอุปมัย | ภาษาทางการหมายถึงสิ่งที่พวกเขาต้องการจะพูดอย่างแน่นอน |
ข้อดีของเอ็นแอลพี
- ผู้ใช้สามารถถามคำถามเกี่ยวกับเรื่องใดก็ได้และรับการตอบกลับโดยตรงภายในไม่กี่วินาที
- ระบบ NLP ให้คำตอบสำหรับคำถามในภาษาธรรมชาติ
- ระบบ NLP ให้คำตอบที่ตรงประเด็น ไม่มีข้อมูลที่ไม่จำเป็นหรือไม่พึงประสงค์
- ความแม่นยำของคำตอบจะเพิ่มขึ้นตามจำนวนข้อมูลที่เกี่ยวข้องที่ให้ไว้ในคำถาม
- กระบวนการ NLP ช่วยให้คอมพิวเตอร์สื่อสารกับมนุษย์ในภาษาของพวกเขาและปรับขนาดงานอื่นๆ ที่เกี่ยวข้องกับภาษาได้
- ช่วยให้คุณสามารถดำเนินการข้อมูลเชิงภาษาได้มากขึ้นเมื่อเปรียบเทียบกับมนุษย์โดยไม่เหนื่อยล้าและในรูปแบบที่เป็นกลางและสอดคล้องกัน
- การจัดโครงสร้างแหล่งข้อมูลที่ไม่มีโครงสร้างสูง
ข้อเสียของเอ็นแอลพี
- ภาษาสอบถามที่ซับซ้อน - ระบบอาจไม่สามารถให้คำตอบที่ถูกต้องได้หากคำถามมีการใช้คำไม่ถูกต้องหรือคลุมเครือ
- ระบบถูกสร้างขึ้นสำหรับงานเดียวและเฉพาะเจาะจงเท่านั้น ไม่สามารถปรับตัวเข้ากับโดเมนและปัญหาใหม่ๆ ได้เนื่องจากมีฟังก์ชันที่จำกัด
- ระบบ NLP ไม่มีอินเทอร์เฟซผู้ใช้ซึ่งขาดคุณสมบัติที่ช่วยให้ผู้ใช้สามารถโต้ตอบกับระบบเพิ่มเติมได้
สรุป
- การประมวลผลภาษาธรรมชาติเป็นสาขาหนึ่งของ AI ซึ่งช่วยให้คอมพิวเตอร์เข้าใจ ตีความ และจัดการภาษาของมนุษย์
- NLP เริ่มต้นเมื่อ Alan Turing ตีพิมพ์บทความชื่อ “Machine and Intelligence”
- NLP ไม่เคยมุ่งเน้นไปที่การปรับเสียง มันใช้รูปแบบตามบริบท
- องค์ประกอบที่สำคัญห้าประการของการประมวลผลภาษาธรรมชาติในปัญญาประดิษฐ์ ได้แก่ 1) การวิเคราะห์ทางสัณฐานวิทยาและคำศัพท์ 2) การวิเคราะห์เชิงวากยสัมพันธ์ 3) การวิเคราะห์ความหมาย 4) การรวมวาทกรรม 5) การวิเคราะห์เชิงปฏิบัติ
- ระบบการเขียนกระบวนการทางธรรมชาติมี 1 ประเภท ได้แก่ 2) โลโกกราฟิก 3) พยางค์ XNUMX) ตัวอักษร
- การเรียนรู้ของเครื่องและการอนุมานทางสถิติเป็นสองวิธีในการดำเนินการเรียนรู้กระบวนการทางธรรมชาติ
- การประยุกต์ใช้ NLP ที่จำเป็น ได้แก่ การค้นหาข้อมูลและการค้นหาบนเว็บ การแก้ไขไวยากรณ์ การตอบคำถาม การสรุปข้อความ การแปลโดยเครื่อง ฯลฯ
- คอมพิวเตอร์หรือเครื่องจักรในอนาคตด้วยความช่วยเหลือของ NLP และ ข้อมูลวิทยาศาสตร์ จะสามารถเรียนรู้จากข้อมูลออนไลน์และนำไปใช้ได้จริง อย่างไรก็ตาม ยังมีงานที่ต้องทำอีกมากในเรื่องนี้
- NLP มีความคลุมเครือ ในขณะที่ภาษาคอมพิวเตอร์โอเพ่นซอร์สได้รับการออกแบบให้ไม่คลุมเครือ
- ข้อได้เปรียบที่ใหญ่ที่สุดของ NLP ในระบบปัญญาประดิษฐ์คือ ให้คำตอบที่ถูกต้องสำหรับคำถาม ไม่มีข้อมูลที่ไม่จำเป็นหรือไม่พึงประสงค์
- ข้อเสียเปรียบที่ใหญ่ที่สุดของระบบ NLP ถูกสร้างขึ้นสำหรับงานเดียวและเฉพาะเจาะจงเท่านั้น ดังนั้นจึงไม่สามารถปรับให้เข้ากับโดเมนและปัญหาใหม่ได้เนื่องจากฟังก์ชันที่จำกัด