एनएलटीके टोकनाइज़: उदाहरण के साथ शब्द और वाक्य टोकनाइज़र

टोकनेशन क्या है?

tokenization वह प्रक्रिया है जिसके द्वारा बड़ी मात्रा में पाठ को छोटे भागों में विभाजित किया जाता है जिन्हें टोकन कहा जाता है। ये टोकन पैटर्न खोजने के लिए बहुत उपयोगी होते हैं और इन्हें स्टेमिंग और लेमेटाइजेशन के लिए आधार चरण के रूप में माना जाता है। टोकनाइजेशन संवेदनशील डेटा तत्वों को गैर-संवेदनशील डेटा तत्वों से बदलने में भी मदद करता है।

प्राकृतिक भाषा प्रसंस्करण का उपयोग पाठ वर्गीकरण जैसे अनुप्रयोगों के निर्माण के लिए किया जाता है। बुद्धिमान चैटबॉट, भावुक विश्लेषण, भाषा अनुवाद, आदि। उपर्युक्त उद्देश्य को प्राप्त करने के लिए पाठ में पैटर्न को समझना महत्वपूर्ण हो जाता है।

फिलहाल, स्टेमिंग और लेमेटाइजेशन के बारे में चिंता न करें, बल्कि उन्हें NLP (नेचुरल लैंग्वेज प्रोसेसिंग) का उपयोग करके टेक्स्टुअल डेटा क्लीनिंग के चरणों के रूप में मानें। हम ट्यूटोरियल में बाद में स्टेमिंग और लेमेटाइजेशन पर चर्चा करेंगे। जैसे कार्य पाठ वर्गीकरण या स्पैम फ़िल्टरिंग केरास और जैसे गहन शिक्षण पुस्तकालयों के साथ एनएलपी का उपयोग करता है टेन्सलफ्लो.

प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल NLTK है tokenize वाक्य जिसमें आगे उप-मॉड्यूल शामिल हैं

  1. शब्द टोकनाइज़
  2. वाक्य टोकनाइज़

शब्दों का टोकनीकरण

हम विधि का उपयोग करते हैं शब्द_टोकनाइज़() वाक्य को शब्दों में विभाजित करने के लिए। मशीन लर्निंग अनुप्रयोगों में बेहतर टेक्स्ट समझ के लिए वर्ड टोकेनाइजेशन के आउटपुट को डेटा फ़्रेम में बदला जा सकता है। इसे विराम चिह्न हटाने, संख्यात्मक वर्ण हटाने या स्टेमिंग जैसे आगे के टेक्स्ट क्लीनिंग चरणों के लिए इनपुट के रूप में भी प्रदान किया जा सकता है। मशीन लर्निंग मॉडल को प्रशिक्षित होने और भविष्यवाणी करने के लिए संख्यात्मक डेटा की आवश्यकता होती है। वर्ड टोकेनाइजेशन टेक्स्ट (स्ट्रिंग) से संख्यात्मक डेटा रूपांतरण का एक महत्वपूर्ण हिस्सा बन जाता है। कृपया इसके बारे में पढ़ें शब्दों का थैला या काउंटवेक्टराइज़रसिद्धांत को बेहतर ढंग से समझने के लिए कृपया नीचे दिए गए शब्द टोकनाइज़ एनएलटीके उदाहरण देखें।

from nltk.tokenize import word_tokenize
text = "God is Great! I won a lottery."
print(word_tokenize(text))

Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']

शब्दों का टोकनीकरण

कोड स्पष्टीकरण

  1. word_tokenize मॉड्यूल NLTK लाइब्रेरी से आयात किया गया है।
  2. एक चर “text” को दो वाक्यों के साथ आरंभ किया जाता है।
  3. टेक्स्ट वैरिएबल को word_tokenize मॉड्यूल में पास किया जाता है और परिणाम प्रिंट किया जाता है। यह मॉड्यूल प्रत्येक शब्द को विराम चिह्नों के साथ तोड़ता है जिसे आप आउटपुट में देख सकते हैं।

वाक्यों का टोकनीकरण

उपरोक्त के लिए उपलब्ध उप-मॉड्यूल sent_tokenize है। आपके मन में एक स्पष्ट प्रश्न होगा जब हमारे पास शब्द टोकेनाइजेशन का विकल्प मौजूद है तो वाक्य टोकेनाइजेशन की आवश्यकता क्यों हैकल्पना करें कि आपको प्रति वाक्य औसत शब्दों की गणना करने की आवश्यकता है, आप इसकी गणना कैसे करेंगे? इस तरह के कार्य को पूरा करने के लिए, आपको अनुपात की गणना करने के लिए NLTK वाक्य टोकनाइज़र के साथ-साथ NLTK शब्द टोकनाइज़र दोनों की आवश्यकता होती है। ऐसा आउटपुट मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता के रूप में कार्य करता है क्योंकि उत्तर संख्यात्मक होगा।

वाक्य टोकेनाइजेशन शब्द टोकेनाइजेशन से किस प्रकार भिन्न है, यह जानने के लिए नीचे दिए गए NLTK टोकेनाइजर उदाहरण को देखें।

from nltk.tokenize import sent_tokenize
text = "God is Great! I won a lottery."
print(sent_tokenize(text))

Output: ['God is Great!', 'I won a lottery ']

हमारे पास है 12 शब्द और दो वाक्य समान इनपुट के लिए.

वाक्यों का टोकनीकरण

कार्यक्रम का स्पष्टीकरण

  1. पिछले प्रोग्राम की तरह, sent_tokenize मॉड्यूल को आयात किया गया।
  2. हमने वही वाक्य लिया है। NLTK मॉड्यूल में आगे वाक्य टोकनाइज़र उस वाक्य को पार्स करता है और आउटपुट दिखाता है। यह स्पष्ट है कि यह फ़ंक्शन प्रत्येक वाक्य को तोड़ता है।

उपरोक्त शब्द टोकनाइज़र Python उदाहरण शब्द और वाक्य टोकेनाइजेशन की क्रियाविधि को समझने के लिए अच्छे आधार हैं।

सारांश

  • टोकनीकरण एनएलपी यह वह प्रक्रिया है जिसके द्वारा पाठ की एक बड़ी मात्रा को छोटे भागों में विभाजित किया जाता है, जिन्हें टोकन्स कहा जाता है।
  • प्राकृतिक भाषा प्रसंस्करण का उपयोग पाठ वर्गीकरण, बुद्धिमान चैटबॉट, भावनात्मक विश्लेषण, भाषा अनुवाद आदि जैसे अनुप्रयोगों के निर्माण के लिए किया जाता है।
  • प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल NLTK टोकनाइज़ वाक्य है जिसमें आगे उप-मॉड्यूल शामिल हैं
  • हम वाक्य को शब्दों में विभाजित करने के लिए word_tokenize() विधि का उपयोग करते हैं। NLTK में वर्ड टोकेनाइज़र के आउटपुट को मशीन लर्निंग अनुप्रयोगों में बेहतर टेक्स्ट समझ के लिए डेटा फ़्रेम में परिवर्तित किया जा सकता है।
  • उपरोक्त के लिए उपलब्ध उप-मॉड्यूल sent_tokenize है। Python एनएलटीके मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता है।