अपर्यवेक्षित मशीन लर्निंग: Algorithms, उदाहरण सहित प्रकार
अनसुपरवाइज्ड लर्निंग क्या है?
अनसुनी हुई पढ़ाई यह एक मशीन लर्निंग तकनीक है जिसमें उपयोगकर्ताओं को मॉडल की निगरानी करने की आवश्यकता नहीं होती है। इसके बजाय, यह मॉडल को अपने आप काम करने की अनुमति देता है ताकि पहले से पता न चल पाने वाले पैटर्न और जानकारी की खोज की जा सके। यह मुख्य रूप से बिना लेबल वाले डेटा से संबंधित है।
अनसुनी हुई पढ़ाई Algorithms
अनसुनी हुई पढ़ाई Algorithms उपयोगकर्ताओं को पर्यवेक्षित शिक्षण की तुलना में अधिक जटिल प्रसंस्करण कार्य करने की अनुमति देता है। हालाँकि, अन्य प्राकृतिक शिक्षण विधियों की तुलना में अपर्यवेक्षित शिक्षण अधिक अप्रत्याशित हो सकता है। अपर्यवेक्षित शिक्षण एल्गोरिदम में क्लस्टरिंग, विसंगति का पता लगाना, तंत्रिका नेटवर्क आदि शामिल हैं।
अनसुपरवाइज्ड मशीन लर्निंग का उदाहरण
आइये, एक शिशु और उसके परिवार के कुत्ते के लिए अप्रशिक्षित शिक्षण का उदाहरण लें।
वह इस कुत्ते को जानती है और पहचानती है। कुछ सप्ताह बाद एक पारिवारिक मित्र एक कुत्ते को साथ लेकर आता है और बच्चे के साथ खेलने की कोशिश करता है।
बेबी ने इस कुत्ते को पहले कभी नहीं देखा है। लेकिन वह कई विशेषताओं (2 कान, आंखें, 4 पैरों पर चलना) को पहचानती है जो उसके पालतू कुत्ते जैसी हैं। वह नए जानवर को कुत्ते के रूप में पहचानती है। यह अप्रशिक्षित सीखना है, जहाँ आपको सिखाया नहीं जाता है लेकिन आप डेटा से सीखते हैं (इस मामले में कुत्ते के बारे में डेटा।) अगर ऐसा होता पर्यवेक्षित अध्ययन, तो परिवार के मित्र ने बच्चे को बताया होगा कि यह एक कुत्ता है, जैसा कि ऊपर दिए गए अप्रशिक्षित शिक्षण उदाहरण में दिखाया गया है।
अप्रशिक्षित शिक्षण क्यों?
यहाँ, अप्रशिक्षित शिक्षण का उपयोग करने के प्रमुख कारण दिए गए हैं मशीन लर्निंग:
- अपर्यवेक्षित मशीन लर्निंग डेटा में सभी प्रकार के अज्ञात पैटर्न का पता लगाती है।
- अपर्यवेक्षित विधियां आपको ऐसी विशेषताएं ढूंढने में मदद करती हैं जो वर्गीकरण के लिए उपयोगी हो सकती हैं।
- यह वास्तविक समय में किया जाता है, इसलिए सभी इनपुट डेटा का विश्लेषण और लेबलिंग शिक्षार्थियों की उपस्थिति में किया जाता है।
- लेबलयुक्त डेटा की तुलना में कंप्यूटर से लेबल रहित डेटा प्राप्त करना अधिक आसान है, क्योंकि इसके लिए मैन्युअल हस्तक्षेप की आवश्यकता होती है।
Clusterअपर्यवेक्षित शिक्षा के प्रकार Algorithms
नीचे अनसुपरवाइज्ड मशीन लर्निंग एल्गोरिदम के क्लस्टरिंग प्रकार दिए गए हैं:
अपर्यवेक्षित शिक्षण समस्याओं को आगे क्लस्टरिंग और एसोसिएशन समस्याओं में वर्गीकृत किया गया।
Clusterआईएनजी
Clusterजब बात अनसुपरवाइज्ड लर्निंग की आती है तो ing एक महत्वपूर्ण अवधारणा है। यह मुख्य रूप से अवर्गीकृत डेटा के संग्रह में एक संरचना या पैटर्न खोजने से संबंधित है। अनसुपरवाइज्ड लर्निंग Clusterएल्गोरिदम आपके डेटा को प्रोसेस करेंगे और अगर डेटा में प्राकृतिक क्लस्टर (समूह) मौजूद हैं, तो उन्हें खोज लेंगे। आप यह भी संशोधित कर सकते हैं कि आपके एल्गोरिदम को कितने क्लस्टर की पहचान करनी चाहिए। यह आपको इन समूहों की ग्रैन्युलैरिटी को समायोजित करने की अनुमति देता है।
आप विभिन्न प्रकार के क्लस्टरिंग का उपयोग कर सकते हैं:
अनन्य (विभाजन)
इस क्लस्टरिंग विधि में, डेटा को इस तरह से समूहीकृत किया जाता है कि एक डेटा केवल एक क्लस्टर से संबंधित हो सकता है।
उदाहरण: K-मीन्स
एग्लोमेरेटिव
इस क्लस्टरिंग तकनीक में, हर डेटा एक क्लस्टर होता है। दो निकटतम क्लस्टरों के बीच पुनरावृत्त संघ क्लस्टरों की संख्या को कम करता है।
उदाहरण: पदानुक्रमिक क्लस्टरिंग
ओवरलैपिंग
इस तकनीक में, फ़ज़ी सेट का उपयोग डेटा को क्लस्टर करने के लिए किया जाता है। प्रत्येक बिंदु सदस्यता की अलग-अलग डिग्री वाले दो या अधिक क्लस्टर से संबंधित हो सकता है।
यहाँ, डेटा को उचित सदस्यता मान के साथ संबद्ध किया जाएगा। उदाहरण: फ़ज़ी सी-मीन्स
संभाव्य
यह तकनीक क्लस्टर बनाने के लिए संभाव्यता वितरण का उपयोग करती है
उदाहरण: निम्नलिखित कीवर्ड
- “आदमी का जूता।”
- “महिलाओं का जूता।”
- “महिलाओं का दस्ताना।”
- “पुरुष का दस्ताना।”
इन्हें दो श्रेणियों में बांटा जा सकता है “जूता” और “दस्ताने” या “पुरुष” और “महिला।”
Clusterप्रकार
मशीन लर्निंग के क्लस्टरिंग प्रकार निम्नलिखित हैं:
- पदानुक्रमित क्लस्टरिंग
- K- का अर्थ है क्लस्टरिंग
- K-NN (k निकटतम पड़ोसी)
- प्रमुख कंपोनेंट विश्लेषण
- विलक्षण मान अपघटन
- स्वतंत्र घटक विश्लेषण
श्रेणीबद्ध Clusterआईएनजी
पदानुक्रमिक क्लस्टरिंग एक एल्गोरिथ्म है जो क्लस्टरों का पदानुक्रम बनाता है। यह उन सभी डेटा से शुरू होता है जो अपने स्वयं के क्लस्टर को सौंपे जाते हैं। यहाँ, दो करीबी क्लस्टर एक ही क्लस्टर में होने जा रहे हैं। यह एल्गोरिथ्म तब समाप्त होता है जब केवल एक क्लस्टर बचा होता है।
कश्मीर साधन Clusterआईएनजी
K का मतलब है कि यह एक पुनरावृत्त क्लस्टरिंग एल्गोरिदम है जो आपको हर पुनरावृत्ति के लिए उच्चतम मान खोजने में मदद करता है। प्रारंभ में, वांछित संख्या में क्लस्टर चुने जाते हैं। इस क्लस्टरिंग विधि में, आपको डेटा बिंदुओं को k समूहों में क्लस्टर करना होगा। एक बड़ा k का मतलब है उसी तरह अधिक ग्रैन्युलैरिटी वाले छोटे समूह। एक कम k का मतलब है कम ग्रैन्युलैरिटी वाले बड़े समूह।
एल्गोरिथ्म का आउटपुट "लेबल" का एक समूह है। यह k समूहों में से किसी एक को डेटा बिंदु प्रदान करता है। k-मीन्स क्लस्टरिंग में, प्रत्येक समूह को प्रत्येक समूह के लिए एक सेंट्रोइड बनाकर परिभाषित किया जाता है। सेंट्रोइड क्लस्टर के दिल की तरह होते हैं, जो उनके सबसे नज़दीकी बिंदुओं को पकड़ते हैं और उन्हें क्लस्टर में जोड़ते हैं।
K-मीन क्लस्टरिंग आगे दो उपसमूहों को परिभाषित करता है:
- एग्लोमेरेटिव क्लस्टरिंग
- डेंड्रोग्राम
एग्लोमेरेटिव क्लस्टरिंग
इस प्रकार का K-मीन्स क्लस्टरिंग एक निश्चित संख्या में क्लस्टर से शुरू होता है। यह सभी डेटा को सटीक संख्या में क्लस्टर में आवंटित करता है। इस क्लस्टरिंग विधि में इनपुट के रूप में क्लस्टर K की संख्या की आवश्यकता नहीं होती है। एग्लोमरेशन प्रक्रिया प्रत्येक डेटा को एक एकल क्लस्टर के रूप में बनाकर शुरू होती है।
यह विधि कुछ दूरी माप का उपयोग करती है, विलय प्रक्रिया द्वारा क्लस्टर की संख्या (प्रत्येक पुनरावृत्ति में एक) को कम करती है। अंत में, हमारे पास एक बड़ा क्लस्टर होता है जिसमें सभी ऑब्जेक्ट होते हैं।
डेंड्रोग्राम
डेंड्रोग्राम क्लस्टरिंग विधि में, प्रत्येक स्तर एक संभावित क्लस्टर का प्रतिनिधित्व करेगा। डेंड्रोग्राम की ऊंचाई दो जुड़े हुए क्लस्टरों के बीच समानता के स्तर को दर्शाती है। प्रक्रिया के निचले भाग के जितना करीब वे होते हैं, उतने ही समान क्लस्टर होते हैं जो डेंड्रोग्राम से समूह का पता लगाना है जो प्राकृतिक नहीं है और अधिकतर व्यक्तिपरक है।
K- निकटतम पड़ोसी
K- निकटतम पड़ोसी सभी मशीन लर्निंग क्लासिफायर में सबसे सरल है। यह अन्य मशीन लर्निंग तकनीकों से अलग है, क्योंकि यह कोई मॉडल नहीं बनाता है। यह एक सरल एल्गोरिथ्म है जो सभी उपलब्ध मामलों को संग्रहीत करता है और समानता माप के आधार पर नए उदाहरणों को वर्गीकृत करता है।
जब उदाहरणों के बीच दूरी होती है तो यह बहुत अच्छी तरह से काम करता है। जब प्रशिक्षण सेट बड़ा होता है तो सीखने की गति धीमी होती है, और दूरी की गणना करना आसान नहीं होता है।
प्रमुख घटक विश्लेषण
यदि आप उच्च-आयामी स्थान चाहते हैं। आपको उस स्थान के लिए एक आधार और उस आधार के केवल 200 सबसे महत्वपूर्ण स्कोर चुनने की आवश्यकता है। इस आधार को एक प्रमुख घटक के रूप में जाना जाता है। आपके द्वारा चुना गया उपसमूह एक नया स्थान है जो मूल स्थान की तुलना में आकार में छोटा है। यह डेटा की जटिलता को यथासंभव बनाए रखता है।
संघ
एसोसिएशन नियम आपको बड़े डेटाबेस के अंदर डेटा ऑब्जेक्ट्स के बीच एसोसिएशन स्थापित करने की अनुमति देते हैं। यह अप्रशिक्षित तकनीक बड़े डेटाबेस में चर के बीच दिलचस्प संबंधों की खोज करने के बारे में है। उदाहरण के लिए, जो लोग नया घर खरीदते हैं, वे नए फर्नीचर खरीदने की सबसे अधिक संभावना रखते हैं।
अन्य उदाहरण:
- कैंसर रोगियों का एक उपसमूह, उनके जीन अभिव्यक्ति माप के आधार पर वर्गीकृत किया गया
- ब्राउज़िंग और खरीदारी इतिहास के आधार पर खरीदारों के समूह
- फिल्म दर्शकों द्वारा दी गई रेटिंग के आधार पर फिल्म समूह
पर्यवेक्षित बनाम अपर्यवेक्षित मशीन लर्निंग
यहाँ मुख्य अंतर है पर्यवेक्षित बनाम अपर्यवेक्षित शिक्षण:
पैरामीटर्स | पर्यवेक्षित मशीन लर्निंग तकनीक | अप्रशिक्षित मशीन लर्निंग तकनीक |
---|---|---|
इनपुट डेटा | Algorithms लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है। | Algorithms उन डेटा के विरुद्ध उपयोग किया जाता है जिन्हें लेबल नहीं किया गया है |
अभिकलनात्मक जटिलता | पर्यवेक्षित शिक्षण एक सरल विधि है। | अपर्यवेक्षित शिक्षण कम्प्यूटेशनल रूप से जटिल है |
शुद्धता | अत्यंत सटीक एवं विश्वसनीय विधि. | Less सटीक और विश्वसनीय विधि. |
अनसुपरवाइज्ड मशीन लर्निंग के अनुप्रयोग
अप्रशिक्षित शिक्षण तकनीकों के कुछ अनुप्रयोग इस प्रकार हैं:
- Clusterडेटासेट को उनकी समानताओं के आधार पर स्वचालित रूप से समूहों में विभाजित करना
- विसंगति का पता लगाने से आपके डेटासेट में असामान्य डेटा बिंदुओं का पता लगाया जा सकता है। यह धोखाधड़ी वाले लेनदेन का पता लगाने के लिए उपयोगी है
- एसोसिएशन माइनिंग उन वस्तुओं के सेट की पहचान करता है जो अक्सर आपके डेटासेट में एक साथ होते हैं
- लेटेंट वेरिएबल मॉडल का इस्तेमाल डेटा प्रीप्रोसेसिंग के लिए व्यापक रूप से किया जाता है। जैसे डेटासेट में फ़ीचर की संख्या कम करना या डेटासेट को कई घटकों में विघटित करना
अपर्यवेक्षित शिक्षा के नुकसान
- आप डेटा सॉर्टिंग के बारे में सटीक जानकारी प्राप्त नहीं कर सकते हैं, और आउटपुट के रूप में अप्रशिक्षित सीखने में उपयोग किए जाने वाले डेटा को लेबल किया जाता है और ज्ञात नहीं होता है
- Less परिणामों की सटीकता इसलिए नहीं होती क्योंकि इनपुट डेटा लोगों द्वारा पहले से ज्ञात नहीं होता और लेबल नहीं किया जाता। इसका मतलब है कि मशीन को यह काम खुद ही करना पड़ता है।
- वर्णक्रमीय वर्ग सदैव सूचनात्मक वर्गों के अनुरूप नहीं होते।
- उपयोगकर्ता को उस वर्गीकरण के अनुरूप आने वाली कक्षाओं की व्याख्या करने और उन्हें लेबल करने में समय लगाना पड़ता है।
- कक्षाओं के वर्णक्रमीय गुण भी समय के साथ बदल सकते हैं, इसलिए एक छवि से दूसरी छवि पर जाते समय आपको समान वर्ग की जानकारी नहीं मिल सकती।
सारांश
- अप्रशिक्षित शिक्षण एक मशीन लर्निंग तकनीक है, जिसमें आपको मॉडल का पर्यवेक्षण करने की आवश्यकता नहीं होती है।
- अप्रशिक्षित मशीन लर्निंग आपको डेटा में सभी प्रकार के अज्ञात पैटर्न खोजने में मदद करती है।
- Clusterसीखना और संबद्धता, अपर्यवेक्षित सीखने के दो प्रकार हैं।
- क्लस्टरिंग विधि के चार प्रकार हैं: 1) एक्सक्लूसिव 2) एग्लोमेरेटिव 3) ओवरलैपिंग 4) प्रोबेबिलिस्टिक।
- महत्वपूर्ण क्लस्टरिंग प्रकार हैं: 1) पदानुक्रमित क्लस्टरिंग 2) के-मीन्स क्लस्टरिंग 3) के-एनएन 4) प्रमुख घटक विश्लेषण 5) एकवचन मूल्य अपघटन 6) स्वतंत्र घटक विश्लेषण।
- एसोसिएशन नियम आपको बड़े डेटाबेस के अंदर डेटा ऑब्जेक्ट्स के बीच एसोसिएशन स्थापित करने की अनुमति देते हैं।
- पर्यवेक्षित शिक्षण में, Algorithms अप्रशिक्षित शिक्षण के दौरान लेबल किए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है Algorithms उन डेटा के विरुद्ध उपयोग किया जाता है जिन्हें लेबल नहीं किया गया है।
- विसंगति का पता लगाने से आपके डेटासेट में महत्वपूर्ण डेटा बिंदुओं का पता लगाया जा सकता है जो धोखाधड़ी वाले लेनदेन का पता लगाने के लिए उपयोगी है।
- अप्रशिक्षित शिक्षण का सबसे बड़ा दोष यह है कि आप डेटा सॉर्टिंग के संबंध में सटीक जानकारी प्राप्त नहीं कर सकते।