एनएलटीके टोकनाइज़: उदाहरण के साथ शब्द और वाक्य टोकनाइज़र
टोकनेशन क्या है?
tokenization वह प्रक्रिया है जिसके द्वारा बड़ी मात्रा में पाठ को छोटे भागों में विभाजित किया जाता है जिन्हें टोकन कहा जाता है। ये टोकन पैटर्न खोजने के लिए बहुत उपयोगी होते हैं और इन्हें स्टेमिंग और लेमेटाइजेशन के लिए आधार चरण के रूप में माना जाता है। टोकनाइजेशन संवेदनशील डेटा तत्वों को गैर-संवेदनशील डेटा तत्वों से बदलने में भी मदद करता है।
प्राकृतिक भाषा प्रसंस्करण का उपयोग पाठ वर्गीकरण जैसे अनुप्रयोगों के निर्माण के लिए किया जाता है। बुद्धिमान चैटबॉट, भावुक विश्लेषण, भाषा अनुवाद, आदि। उपर्युक्त उद्देश्य को प्राप्त करने के लिए पाठ में पैटर्न को समझना महत्वपूर्ण हो जाता है।
फिलहाल, स्टेमिंग और लेमेटाइजेशन के बारे में चिंता न करें, बल्कि उन्हें NLP (नेचुरल लैंग्वेज प्रोसेसिंग) का उपयोग करके टेक्स्टुअल डेटा क्लीनिंग के चरणों के रूप में मानें। हम ट्यूटोरियल में बाद में स्टेमिंग और लेमेटाइजेशन पर चर्चा करेंगे। जैसे कार्य पाठ वर्गीकरण या स्पैम फ़िल्टरिंग केरास और जैसे गहन शिक्षण पुस्तकालयों के साथ एनएलपी का उपयोग करता है टेन्सलफ्लो.
प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल NLTK है tokenize वाक्य जिसमें आगे उप-मॉड्यूल शामिल हैं
- शब्द टोकनाइज़
- वाक्य टोकनाइज़
शब्दों का टोकनीकरण
हम विधि का उपयोग करते हैं शब्द_टोकनाइज़() वाक्य को शब्दों में विभाजित करने के लिए। मशीन लर्निंग अनुप्रयोगों में बेहतर टेक्स्ट समझ के लिए वर्ड टोकेनाइजेशन के आउटपुट को डेटा फ़्रेम में बदला जा सकता है। इसे विराम चिह्न हटाने, संख्यात्मक वर्ण हटाने या स्टेमिंग जैसे आगे के टेक्स्ट क्लीनिंग चरणों के लिए इनपुट के रूप में भी प्रदान किया जा सकता है। मशीन लर्निंग मॉडल को प्रशिक्षित होने और भविष्यवाणी करने के लिए संख्यात्मक डेटा की आवश्यकता होती है। वर्ड टोकेनाइजेशन टेक्स्ट (स्ट्रिंग) से संख्यात्मक डेटा रूपांतरण का एक महत्वपूर्ण हिस्सा बन जाता है। कृपया इसके बारे में पढ़ें शब्दों का थैला या काउंटवेक्टराइज़रसिद्धांत को बेहतर ढंग से समझने के लिए कृपया नीचे दिए गए शब्द टोकनाइज़ एनएलटीके उदाहरण देखें।
from nltk.tokenize import word_tokenize text = "God is Great! I won a lottery." print(word_tokenize(text)) Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']
कोड स्पष्टीकरण
- word_tokenize मॉड्यूल NLTK लाइब्रेरी से आयात किया गया है।
- एक चर “text” को दो वाक्यों के साथ आरंभ किया जाता है।
- टेक्स्ट वैरिएबल को word_tokenize मॉड्यूल में पास किया जाता है और परिणाम प्रिंट किया जाता है। यह मॉड्यूल प्रत्येक शब्द को विराम चिह्नों के साथ तोड़ता है जिसे आप आउटपुट में देख सकते हैं।
वाक्यों का टोकनीकरण
उपरोक्त के लिए उपलब्ध उप-मॉड्यूल sent_tokenize है। आपके मन में एक स्पष्ट प्रश्न होगा जब हमारे पास शब्द टोकेनाइजेशन का विकल्प मौजूद है तो वाक्य टोकेनाइजेशन की आवश्यकता क्यों हैकल्पना करें कि आपको प्रति वाक्य औसत शब्दों की गणना करने की आवश्यकता है, आप इसकी गणना कैसे करेंगे? इस तरह के कार्य को पूरा करने के लिए, आपको अनुपात की गणना करने के लिए NLTK वाक्य टोकनाइज़र के साथ-साथ NLTK शब्द टोकनाइज़र दोनों की आवश्यकता होती है। ऐसा आउटपुट मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता के रूप में कार्य करता है क्योंकि उत्तर संख्यात्मक होगा।
वाक्य टोकेनाइजेशन शब्द टोकेनाइजेशन से किस प्रकार भिन्न है, यह जानने के लिए नीचे दिए गए NLTK टोकेनाइजर उदाहरण को देखें।
from nltk.tokenize import sent_tokenize text = "God is Great! I won a lottery." print(sent_tokenize(text)) Output: ['God is Great!', 'I won a lottery ']
हमारे पास है 12 शब्द और दो वाक्य समान इनपुट के लिए.
कार्यक्रम का स्पष्टीकरण
- पिछले प्रोग्राम की तरह, sent_tokenize मॉड्यूल को आयात किया गया।
- हमने वही वाक्य लिया है। NLTK मॉड्यूल में आगे वाक्य टोकनाइज़र उस वाक्य को पार्स करता है और आउटपुट दिखाता है। यह स्पष्ट है कि यह फ़ंक्शन प्रत्येक वाक्य को तोड़ता है।
उपरोक्त शब्द टोकनाइज़र Python उदाहरण शब्द और वाक्य टोकेनाइजेशन की क्रियाविधि को समझने के लिए अच्छे आधार हैं।
सारांश
- टोकनीकरण एनएलपी यह वह प्रक्रिया है जिसके द्वारा पाठ की एक बड़ी मात्रा को छोटे भागों में विभाजित किया जाता है, जिन्हें टोकन्स कहा जाता है।
- प्राकृतिक भाषा प्रसंस्करण का उपयोग पाठ वर्गीकरण, बुद्धिमान चैटबॉट, भावनात्मक विश्लेषण, भाषा अनुवाद आदि जैसे अनुप्रयोगों के निर्माण के लिए किया जाता है।
- प्राकृतिक भाषा टूलकिट में बहुत महत्वपूर्ण मॉड्यूल NLTK टोकनाइज़ वाक्य है जिसमें आगे उप-मॉड्यूल शामिल हैं
- हम वाक्य को शब्दों में विभाजित करने के लिए word_tokenize() विधि का उपयोग करते हैं। NLTK में वर्ड टोकेनाइज़र के आउटपुट को मशीन लर्निंग अनुप्रयोगों में बेहतर टेक्स्ट समझ के लिए डेटा फ़्रेम में परिवर्तित किया जा सकता है।
- उपरोक्त के लिए उपलब्ध उप-मॉड्यूल sent_tokenize है। Python एनएलटीके मशीन प्रशिक्षण के लिए एक महत्वपूर्ण विशेषता है।