प्राकृतिक भाषा प्रसंस्करण ट्यूटोरियल: NLP क्या है? उदाहरण
प्राकृतिक भाषा प्रसंस्करण क्या है?
प्राकृतिक भाषा प्रसंस्करण (एनएलपी) यह एआई की एक शाखा है जो कंप्यूटर को अंग्रेजी या हिंदी जैसी मानवीय भाषाओं को समझने, व्याख्या करने और उनका विश्लेषण करने और उनका अर्थ निकालने में मदद करती है। एनएलपी डेवलपर्स को अनुवाद, सारांशीकरण, नामित इकाई पहचान, संबंध निष्कर्षण, भाषण पहचान, विषय विभाजन आदि जैसे कार्यों को करने के लिए ज्ञान को व्यवस्थित और संरचित करने में मदद करता है।
एनएलपी का इतिहास
प्राकृतिक भाषा प्रसंस्करण के इतिहास में महत्वपूर्ण घटनाएँ इस प्रकार हैं:
1950 - एनएलपी की शुरुआत तब हुई जब एलन ट्यूरिंग ने "मशीन और इंटेलिजेंस" नामक एक लेख प्रकाशित किया।
1950 - रूसी और अंग्रेजी के बीच अनुवाद को स्वचालित करने का प्रयास
1960 - औपचारिक भाषा सिद्धांत और जनरेटिव वाक्यविन्यास पर चोम्स्की और अन्य का कार्य
1990 - संभाव्यतावादी और डेटा-संचालित मॉडल काफी मानक बन गए थे
2000 - बड़ी मात्रा में मौखिक और पाठ्य डेटा उपलब्ध हो जाता है
इस एनएलपी ट्यूटोरियल में आगे हम सीखेंगे कि एनएलपी कैसे काम करता है।
एनएलपी कैसे काम करता है?
इससे पहले कि हम जानें कि एनएलपी कैसे काम करता है, आइए समझते हैं कि मनुष्य भाषा का उपयोग कैसे करते हैं-
हर दिन हम हज़ारों शब्द बोलते हैं, जिनका दूसरे लोग अनगिनत अर्थ निकालते हैं। हम इसे एक सरल संचार के रूप में देखते हैं, लेकिन हम सभी जानते हैं कि शब्द उससे कहीं ज़्यादा गहरे होते हैं। हम जो कहते हैं और जिस तरह से कहते हैं, उससे हमेशा कुछ संदर्भ निकलता है। Artificial Intelligence यह कभी भी आवाज के उतार-चढ़ाव पर ध्यान केंद्रित नहीं करता है; यह केवल संदर्भगत पैटर्न पर आधारित होता है।
उदाहरण:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
यहाँ हम आसानी से सह-संबंध स्थापित कर सकते हैं क्योंकि पुरुष पुरुष लिंग है और महिला स्त्री लिंग है। इसी तरह, राजा पुल्लिंग है और रानी स्त्री लिंग है।
उदाहरण:
Is King to kings as the queen is to_______? The answer is--- queens
यहाँ हम दो शब्द देख सकते हैं किंग्स और किंग्स जहाँ एक एकवचन है और दूसरा बहुवचन है। इसलिए, जब शब्द क्वीन आता है, तो यह स्वचालित रूप से क्वीन्स के साथ फिर से एकवचन बहुवचन में सह-संबंधित होता है।
यहाँ सबसे बड़ा सवाल यह है कि हम शब्दों का मतलब कैसे जानें? चलिए, बताइए इसे रानी कौन कहेगा?
इसका उत्तर यह है कि हम यह सब अनुभव से सीखते हैं। हालाँकि, यहाँ मुख्य प्रश्न यह है कि कंप्यूटर को इसके बारे में कैसे पता चलता है?
हमें मशीनों को अनुभव के माध्यम से सीखने के लिए पर्याप्त डेटा प्रदान करने की आवश्यकता है। हम इस तरह के विवरण दे सकते हैं
- महामहिम महारानी.
- राजकीय यात्रा के दौरान रानी का भाषण
- महारानी एलिजाबेथ का मुकुट
- रानियों की माँ
- रानी उदार है.
उपरोक्त उदाहरणों से मशीन रानी नामक इकाई को समझती है।
मशीन नीचे दिए अनुसार शब्द वेक्टर बनाती है। एक शब्द वेक्टर आस-पास के शब्दों का उपयोग करके बनाया जाता है।
मशीन इन वेक्टरों का निर्माण करती है
- चूंकि यह कई डेटासेट से सीखता है
- मशीन लर्निंग का उपयोग करें (जैसे, डीप लर्निंग एल्गोरिदम)
- एक शब्द वेक्टर आसपास के शब्दों का उपयोग करके बनाया जाता है।
यहाँ सूत्र है:
अर्थ (राजा) – अर्थ (पुरुष) + अर्थ (स्त्री) = ?
यह शब्द सदिशों पर सरल बीजीय संक्रिया करने के समान है:
वेक्टर (राजा) – वेक्टर (पुरुष) + वेक्टर (महिला) = वेक्टर(?)
जिस पर मशीन जवाब देती है रानी।
इस प्राकृतिक भाषा प्रसंस्करण ट्यूटोरियल में आगे, हम एनएलपी के घटकों के बारे में जानेंगे।
एनएलपी के घटक
एआई में प्राकृतिक भाषा प्रसंस्करण के पांच मुख्य घटक हैं:
- रूपात्मक और शाब्दिक विश्लेषण
- वाक्यविन्यास विश्लेषण
- शब्दार्थ विश्लेषण
- प्रवचन एकीकरण
- व्यावहारिक विश्लेषण
रूपात्मक और शाब्दिक विश्लेषण
लेक्सिकल विश्लेषण एक शब्दावली है जिसमें उसके शब्द और भाव शामिल होते हैं। यह शब्दों की संरचना का विश्लेषण, पहचान और वर्णन दर्शाता है। इसमें एक पाठ को पैराग्राफ, शब्दों और वाक्यों में विभाजित करना शामिल है
अलग-अलग शब्दों का उनके घटकों के आधार पर विश्लेषण किया जाता है, तथा विराम चिह्नों जैसे गैर-शब्द चिह्नों को शब्दों से अलग कर दिया जाता है।
शब्दार्थ विश्लेषण
अर्थ विश्लेषण वाक्यविन्यास विश्लेषक द्वारा बनाई गई एक संरचना है जो अर्थ निर्दिष्ट करती है। यह घटक शब्दों के रैखिक अनुक्रमों को संरचनाओं में स्थानांतरित करता है। यह दिखाता है कि शब्द एक दूसरे से कैसे जुड़े हैं।
शब्दार्थ विज्ञान केवल शब्दों, वाक्यांशों और वाक्यों के शाब्दिक अर्थ पर ध्यान केंद्रित करता है। यह केवल शब्दकोश अर्थ या दिए गए संदर्भ से वास्तविक अर्थ को अलग करता है। वाक्यविन्यास विश्लेषक द्वारा निर्दिष्ट संरचनाओं में हमेशा निर्दिष्ट अर्थ होता है
उदाहरण के लिए, "रंगहीन हरा विचार।" इसे सिमेंटेक विश्लेषण द्वारा रंगहीन मानकर खारिज कर दिया जाएगा; यहाँ हरे रंग का कोई मतलब नहीं है।
व्यावहारिक विश्लेषण
व्यावहारिक विश्लेषण समग्र संचार और सामाजिक सामग्री और व्याख्या पर इसके प्रभाव से संबंधित है। इसका अर्थ है स्थितियों में भाषा के सार्थक उपयोग को अमूर्त करना या प्राप्त करना। इस विश्लेषण में, मुख्य ध्यान हमेशा इस बात पर होता है कि क्या कहा गया था और इसका क्या मतलब था।
व्यावहारिक विश्लेषण, सहकारी संवादों की विशेषता बताने वाले नियमों के एक सेट को लागू करके उपयोगकर्ताओं को इस इच्छित प्रभाव को खोजने में मदद करता है।
उदाहरण के लिए, “खिड़की बंद करो?” को आदेश के बजाय अनुरोध के रूप में समझा जाना चाहिए।
सिंटेक्स विश्लेषण
शब्दों को आमतौर पर वाक्यविन्यास की सबसे छोटी इकाई के रूप में स्वीकार किया जाता है। वाक्यविन्यास उन सिद्धांतों और नियमों को संदर्भित करता है जो किसी भी व्यक्तिगत भाषा की वाक्य संरचना को नियंत्रित करते हैं।
वाक्यविन्यास शब्दों के उचित क्रम पर ध्यान केंद्रित करता है जो इसके अर्थ को प्रभावित कर सकता है। इसमें वाक्य की व्याकरणिक संरचना का पालन करके वाक्य में शब्दों का विश्लेषण शामिल है। शब्दों को संरचना में बदल दिया जाता है ताकि यह दिखाया जा सके कि शब्द एक दूसरे से कैसे संबंधित हैं।
प्रवचन एकीकरण
इसका मतलब संदर्भ की भावना है। किसी भी एक वाक्य का अर्थ जो उस वाक्य पर निर्भर करता है। यह अगले वाक्य के अर्थ पर भी विचार करता है।
उदाहरण के लिए, वाक्य “वह ऐसा चाहता था” में “वह” शब्द पूर्ववर्ती प्रवचन के संदर्भ पर निर्भर करता है।
इस एनएलपी ट्यूटोरियल में आगे हम एनएलपी और लेखन प्रणालियों के बारे में जानेंगे।
एनएलपी और लेखन प्रणालियाँ
किसी भाषा के लिए इस्तेमाल की जाने वाली लेखन प्रणाली पाठ पूर्व-प्रसंस्करण के लिए सर्वोत्तम दृष्टिकोण निर्धारित करने में निर्णायक कारकों में से एक है। लेखन प्रणालियाँ हो सकती हैं
- लॉगोग्राफ़िक: बड़ी संख्या में व्यक्तिगत प्रतीक शब्दों का प्रतिनिधित्व करते हैं। उदाहरण: जापानी, मंदारिन
- शब्दांश: व्यक्तिगत प्रतीक शब्दांशों का प्रतिनिधित्व करते हैं
- वर्णानुक्रम: अलग-अलग प्रतीक ध्वनि का प्रतिनिधित्व करते हैं
अधिकांश लेखन प्रणालियाँ शब्दांश या वर्णानुक्रमिक प्रणाली का उपयोग करती हैं। यहाँ तक कि अंग्रेजी, जो रोमन वर्णमाला पर आधारित अपनी अपेक्षाकृत सरल लेखन प्रणाली के साथ, लॉगोग्राफ़िक प्रतीकों का उपयोग करती है जिसमें अरबी अंक, मुद्रा चिह्न (S, £) और अन्य विशेष प्रतीक शामिल हैं।
इससे निम्नलिखित चुनौतियाँ उत्पन्न होंगी
- किसी पाठ से अर्थ निकालना एक चुनौती है
- एआई में एनएलपी कॉर्पस की गुणवत्ता पर निर्भर है। यदि डोमेन विशाल है, तो संदर्भ को समझना मुश्किल है।
- इसमें वर्ण सेट और भाषा पर निर्भरता होती है
एनएलपी को कैसे लागू करें
नीचे प्राकृतिक शिक्षण प्रक्रिया के लिए प्रयुक्त लोकप्रिय विधियाँ दी गई हैं:
यंत्र अधिगम: मशीन लर्निंग के दौरान इस्तेमाल की जाने वाली लर्निंग एनएलपी प्रक्रियाएँ। यह स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करता है। इसलिए जब हम हाथ से नियम लिखते हैं, तो यह अक्सर मानवीय त्रुटियों के बारे में चिंतित होकर बिल्कुल भी सही नहीं होता है।
सांख्यिकीय निष्कर्ष: एनएलपी सांख्यिकीय अनुमान एल्गोरिदम का उपयोग कर सकता है। यह आपको ऐसे मॉडल बनाने में मदद करता है जो मज़बूत हों। उदाहरण के लिए, ऐसे शब्द या संरचनाएँ जो सभी को पता हों।
एनएलपी उदाहरण
आज, प्राकृतिक प्रक्रिया सीखने की तकनीक व्यापक रूप से प्रयोग की जाने वाली तकनीक है।
यहां सामान्य प्राकृतिक भाषा प्रसंस्करण तकनीकें दी गई हैं:
सूचना पुनर्प्राप्ति और वेब खोज
गूगल, याहू, बिंग, और अन्य खोज इंजन एनएलपी डीप लर्निंग मॉडल पर आधारित उनकी मशीन ट्रांसलेशन तकनीक। यह एल्गोरिदम को वेबपेज पर टेक्स्ट पढ़ने, उसका अर्थ समझने और उसे दूसरी भाषा में अनुवाद करने की अनुमति देता है।
व्याकरण सुधार:
एनएलपी तकनीक का उपयोग एमएस-वर्ड जैसे वर्ड प्रोसेसर सॉफ्टवेयर द्वारा वर्तनी सुधार और व्याकरण जांच के लिए व्यापक रूप से किया जाता है।
प्रश्न उत्तर देना
प्राकृतिक भाषा में प्रश्न पूछने के लिए कीवर्ड टाइप करें।
पाठ का सारांश
किसी स्रोत से महत्वपूर्ण जानकारी को संक्षिप्त रूप में प्रस्तुत करने की प्रक्रिया
यंत्र अनुवाद
एक प्राकृतिक भाषा से दूसरी प्राकृतिक भाषा में पाठ या भाषण का अनुवाद करने के लिए कंप्यूटर अनुप्रयोगों का उपयोग।
भावनाओं का विश्लेषण
एनएलपी कंपनियों को किसी उत्पाद पर बड़ी संख्या में समीक्षाओं का विश्लेषण करने में मदद करता है। यह उनके ग्राहकों को किसी विशेष उत्पाद की समीक्षा देने की भी अनुमति देता है।
एनएलपी का भविष्य
- मानव पठनीय प्राकृतिक भाषा प्रसंस्करण सबसे बड़ी एआई समस्या है। यह केंद्रीय कृत्रिम बुद्धिमत्ता समस्या को हल करने और कंप्यूटर को लोगों जितना बुद्धिमान बनाने के समान ही है।
- भविष्य के कंप्यूटर या मशीनें एनएलपी की मदद से ऑनलाइन जानकारी से सीख सकेंगी और उसे वास्तविक दुनिया में लागू कर सकेंगी, हालांकि, इस संबंध में अभी बहुत काम करने की आवश्यकता है।
- प्राकृतिक भाषा टूलकिट या एनएलटीके अधिक प्रभावी हो गया है
- प्राकृतिक भाषा निर्माण के साथ मिलकर, कंप्यूटर उपयोगी और संसाधनपूर्ण सूचना या डेटा प्राप्त करने और देने में अधिक सक्षम हो जाएंगे।
प्राकृतिक भाषा बनाम कंप्यूटर भाषा
प्राकृतिक भाषा और कंप्यूटर भाषा के बीच मुख्य अंतर नीचे दिए गए हैं:
प्राचल | प्राकृतिक भाषा | कंप्यूटर भाषा |
---|---|---|
अस्पष्ट | वे स्वभाव से अस्पष्ट हैं। | वे स्पष्ट करने के लिए डिज़ाइन किए गए हैं। |
फालतूपन | प्राकृतिक भाषाएं बहुत अधिक अतिरेकता का प्रयोग करती हैं। | औपचारिक भाषाएँ कम निरर्थक होती हैं। |
साहित्यिकता | प्राकृतिक भाषाएँ मुहावरे और रूपक से बनी होती हैं | औपचारिक भाषा का मतलब वही होता है जो वे कहना चाहते हैं |
एनएलपी के लाभ
- उपयोगकर्ता किसी भी विषय पर प्रश्न पूछ सकते हैं और कुछ ही सेकंड में सीधा उत्तर प्राप्त कर सकते हैं।
- एनएलपी प्रणाली प्राकृतिक भाषा में प्रश्नों के उत्तर प्रदान करती है
- एनएलपी प्रणाली प्रश्नों के सटीक उत्तर प्रदान करती है, कोई अनावश्यक या अवांछित जानकारी नहीं
- प्रश्न में दी गई प्रासंगिक जानकारी की मात्रा के साथ उत्तरों की सटीकता बढ़ जाती है।
- एनएलपी प्रक्रिया कंप्यूटरों को मनुष्यों के साथ उनकी भाषा में संवाद करने में मदद करती है और अन्य भाषा-संबंधी कार्यों को भी आगे बढ़ाती है
- आपको बिना थके और निष्पक्ष और सुसंगत तरीके से मानव की तुलना में अधिक भाषा-आधारित डेटा प्रदर्शन करने की अनुमति देता है।
- अत्यधिक असंरचित डेटा स्रोत की संरचना करना
एनएलपी के नुकसान
- जटिल क्वेरी भाषा - यदि प्रश्न गलत शब्दों में लिखा गया हो या अस्पष्ट हो तो सिस्टम सही उत्तर देने में सक्षम नहीं हो सकता।
- यह प्रणाली केवल एकल और विशिष्ट कार्य के लिए बनाई गई है; सीमित कार्यों के कारण यह नए डोमेन और समस्याओं के अनुकूल ढलने में असमर्थ है।
- एनएलपी प्रणाली में उपयोगकर्ता इंटरफ़ेस नहीं है, जिसमें उन सुविधाओं का अभाव है जो उपयोगकर्ताओं को सिस्टम के साथ आगे बातचीत करने की अनुमति देते हैं
सारांश
- प्राकृतिक भाषा प्रसंस्करण (नेचुरल लैंग्वेज प्रोसेसिंग) एआई की एक शाखा है जो कंप्यूटर को मानव भाषा को समझने, व्याख्या करने और उसमें हेरफेर करने में मदद करती है
- एनएलपी की शुरुआत तब हुई जब एलन ट्यूरिंग ने “मशीन और इंटेलिजेंस” नामक एक लेख प्रकाशित किया।
- एनएलपी कभी भी आवाज के उतार-चढ़ाव पर ध्यान केंद्रित नहीं करता है; यह संदर्भगत पैटर्न पर आधारित होता है
- आर्टिफिशियल इंटेलिजेंस में प्राकृतिक भाषा प्रसंस्करण के पांच आवश्यक घटक हैं 1) रूपात्मक और शाब्दिक विश्लेषण 2) वाक्यात्मक विश्लेषण 3) अर्थ विश्लेषण 4) प्रवचन एकीकरण 5) व्यावहारिक विश्लेषण
- प्राकृतिक प्रक्रिया लेखन प्रणाली के तीन प्रकार हैं 1) लॉगोग्राफिक 2) सिलेबिक 3) वर्णानुक्रमिक
- मशीन लर्निंग और सांख्यिकीय अनुमान प्राकृतिक प्रक्रिया सीखने के कार्यान्वयन के दो तरीके हैं
- एनएलपी के आवश्यक अनुप्रयोग हैं सूचना पुनर्प्राप्ति और वेब खोज, व्याकरण सुधार प्रश्न उत्तर, पाठ संक्षेपण, मशीन अनुवाद, आदि।
- एनएलपी और प्रोग्रामिंग भाषाओं की मदद से भविष्य के कंप्यूटर या मशीनें डाटा विज्ञान ऑनलाइन जानकारी से सीखने और वास्तविक दुनिया में इसे लागू करने में सक्षम होंगे, हालांकि, इस संबंध में बहुत काम करने की आवश्यकता है
- एनएलपी अस्पष्ट है जबकि ओपन सोर्स कंप्यूटर भाषा को अस्पष्टता के लिए डिज़ाइन किया गया है
- आर्टिफिशियल इंटेलिजेंस सिस्टम में एनएलपी का सबसे बड़ा फायदा यह है कि यह सवालों के सटीक जवाब देता है, कोई अनावश्यक या अवांछित जानकारी नहीं देता
- एनएलपी प्रणाली का सबसे बड़ा दोष यह है कि इसे केवल एक ही विशिष्ट कार्य के लिए बनाया गया है, इसलिए सीमित कार्यों के कारण यह नए डोमेन और समस्याओं के अनुकूल नहीं हो पाती है।