การเรียนรู้ของเครื่องแบบไม่มีผู้ดูแล: Algorithms, ประเภทพร้อมตัวอย่าง
Unsupervised Learning คืออะไร?
การเรียนรู้ที่ไม่มีผู้ดูแล เป็นเทคนิคการเรียนรู้ของเครื่องซึ่งผู้ใช้ไม่จำเป็นต้องดูแลโมเดล แต่จะช่วยให้โมเดลทำงานด้วยตัวเองเพื่อค้นหารูปแบบและข้อมูลที่ไม่เคยตรวจพบมาก่อน โดยส่วนใหญ่จะเกี่ยวข้องกับข้อมูลที่ไม่มีป้ายกำกับ
การเรียนรู้ที่ไม่มีผู้ดูแล Algorithms
การเรียนรู้ที่ไม่มีผู้ดูแล Algorithms ช่วยให้ผู้ใช้ดำเนินการประมวลผลงานที่ซับซ้อนกว่าเมื่อเทียบกับการเรียนรู้แบบมีผู้ดูแล แม้ว่าการเรียนรู้แบบไม่มีผู้ดูแลอาจคาดเดาได้ยากกว่าเมื่อเปรียบเทียบกับวิธีการเรียนรู้ตามธรรมชาติอื่นๆ อัลกอริทึมการเรียนรู้แบบไม่มีผู้ดูแลประกอบด้วยการจัดกลุ่ม การตรวจจับความผิดปกติ เครือข่ายประสาทเทียม เป็นต้น
ตัวอย่างการเรียนรู้ของเครื่องแบบไม่มีผู้ดูแล
มาดูตัวอย่างการเรียนรู้แบบไม่มีผู้ดูแลสำหรับเด็กทารกและสุนัขในครอบครัวกันดีกว่า
เธอรู้จักและระบุตัวตนของสุนัขตัวนี้ได้ ไม่กี่สัปดาห์ต่อมา เพื่อนของครอบครัวก็พาสุนัขมาและพยายามเล่นกับเด็กทารก
ที่รักไม่เคยเห็นสุนัขตัวนี้มาก่อน แต่รับรู้ถึงลักษณะหลายอย่าง (2 หู ตา เดิน 4 ขา) เหมือนสุนัขเลี้ยงของเธอ เธอระบุว่าสัตว์ตัวใหม่นั้นเป็นสุนัข นี่คือการเรียนรู้แบบไม่มีผู้ดูแล ซึ่งคุณไม่ได้รับการสอน แต่คุณเรียนรู้จากข้อมูล (ในกรณีนี้คือข้อมูลเกี่ยวกับสุนัข) หากเป็นเช่นนั้น การเรียนรู้ภายใต้การดูแลเพื่อนในครอบครัวคงจะบอกทารกว่ามันเป็นสุนัขดังที่แสดงในตัวอย่าง Unsupervised Learning ข้างต้น
ทำไมต้องเรียนรู้แบบไม่มีผู้ดูแล?
นี่คือเหตุผลสำคัญสำหรับการใช้ Unsupervised Learning เครื่องเรียนรู้:
- การเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลจะค้นหารูปแบบที่ไม่รู้จักทุกประเภทในข้อมูล
- วิธีการที่ไม่มีผู้ดูแลช่วยให้คุณค้นหาคุณลักษณะที่เป็นประโยชน์สำหรับการจัดหมวดหมู่
- มันเกิดขึ้นแบบเรียลไทม์ ดังนั้นข้อมูลที่ป้อนทั้งหมดจะถูกวิเคราะห์และติดป้ายกำกับต่อหน้าผู้เรียน
- การได้รับข้อมูลที่ไม่มีป้ายกำกับจากคอมพิวเตอร์นั้นง่ายกว่าข้อมูลที่ติดป้ายกำกับซึ่งจำเป็นต้องมีการแทรกแซงด้วยตนเอง
Clusterประเภทของการเรียนรู้แบบไม่มีผู้ดูแล Algorithms
ด้านล่างนี้เป็นประเภทการจัดคลัสเตอร์ของอัลกอริทึมการเรียนรู้ของเครื่องที่ไม่มีการดูแล:
ปัญหาการเรียนรู้โดยไม่มีผู้ดูแลจะถูกจัดกลุ่มเพิ่มเติมเป็นปัญหาด้านการจัดกลุ่มและการเชื่อมโยง
Clusterไอเอ็นจี
Clustering เป็นแนวคิดที่สำคัญเมื่อพูดถึงการเรียนรู้แบบไม่มีผู้ดูแล ส่วนใหญ่จะเกี่ยวข้องกับการค้นหาโครงสร้างหรือรูปแบบในการรวบรวมข้อมูลที่ไม่มีการจัดหมวดหมู่ การเรียนรู้แบบไม่มีผู้ดูแล Clusterอัลกอริธึมจะประมวลผลข้อมูลของคุณและค้นหาคลัสเตอร์ธรรมชาติ (กลุ่ม) หากมีอยู่ในข้อมูล คุณยังสามารถปรับเปลี่ยนจำนวนคลัสเตอร์ที่อัลกอริธึมของคุณควรระบุได้ ซึ่งจะช่วยให้คุณปรับความละเอียดของกลุ่มเหล่านี้ได้
มีการจัดกลุ่มหลายประเภทที่คุณสามารถใช้ได้:
พิเศษ (การแบ่งพาร์ติชัน)
ในวิธีการจัดคลัสเตอร์นี้ ข้อมูลจะถูกจัดกลุ่มในลักษณะที่ข้อมูลหนึ่งๆ สามารถอยู่ในคลัสเตอร์เดียวเท่านั้น
ตัวอย่าง: K-mean
รวมตัวกัน
ในเทคนิคการจัดกลุ่มข้อมูลนี้ ข้อมูลทั้งหมดจะเป็นกลุ่มข้อมูล การรวมกลุ่มแบบวนซ้ำระหว่างกลุ่มข้อมูลที่อยู่ใกล้ที่สุดสองกลุ่มจะช่วยลดจำนวนกลุ่มข้อมูลลง
ตัวอย่าง: การจัดกลุ่มตามลำดับชั้น
การซ้อน
ในเทคนิคนี้ จะใช้ชุดฟัซซีเพื่อจัดกลุ่มข้อมูล แต่ละจุดสามารถอยู่ในคลัสเตอร์สองคลัสเตอร์หรือมากกว่านั้นโดยมีระดับความเป็นสมาชิกแยกจากกัน
ที่นี่ข้อมูลจะเชื่อมโยงกับค่าสมาชิกที่เหมาะสม ตัวอย่าง: Fuzzy C-Means
น่าจะเป็น
เทคนิคนี้ใช้การแจกแจงความน่าจะเป็นในการสร้างคลัสเตอร์
ตัวอย่าง: ทำตามคำสำคัญ
- “รองเท้าของผู้ชาย”
- “รองเท้าผู้หญิง”
- “ถุงมือผู้หญิง”
- “ถุงมือของมนุษย์”
สามารถแบ่งได้เป็น 2 ประเภท คือ “รองเท้า” และ “ถุงมือ” หรือ “ผู้ชาย” และ “ผู้หญิง”
Clusterประเภทต่างๆ
ต่อไปนี้คือประเภทการจัดคลัสเตอร์ของการเรียนรู้ของเครื่อง:
- การจัดกลุ่มตามลำดับชั้น
- K-หมายถึงการจัดกลุ่ม
- K-NN (k เพื่อนบ้านที่ใกล้ที่สุด)
- การวิเคราะห์องค์ประกอบหลัก
- การสลายตัวของค่าเอกพจน์
- การวิเคราะห์ส่วนประกอบอิสระ
ตามลำดับชั้น Clusterไอเอ็นจี
การจัดกลุ่มตามลำดับชั้นเป็นอัลกอริทึมที่สร้างลำดับชั้นของคลัสเตอร์ โดยเริ่มต้นด้วยข้อมูลทั้งหมดที่ได้รับมอบหมายให้กับคลัสเตอร์ของตนเอง โดยคลัสเตอร์ที่อยู่ใกล้กันสองคลัสเตอร์จะอยู่ในคลัสเตอร์เดียวกัน อัลกอริทึมนี้จะสิ้นสุดลงเมื่อเหลือคลัสเตอร์เพียงคลัสเตอร์เดียว
K หมายถึง Clusterไอเอ็นจี
K หมายถึงเป็นอัลกอริทึมการจัดกลุ่มแบบวนซ้ำซึ่งช่วยให้คุณค้นหาค่าสูงสุดสำหรับการวนซ้ำแต่ละครั้ง ขั้นแรก จะเลือกจำนวนคลัสเตอร์ที่ต้องการ ในวิธีการจัดกลุ่มนี้ คุณต้องจัดกลุ่มจุดข้อมูลเป็นกลุ่ม k กลุ่ม ค่า k ที่มากขึ้นหมายถึงกลุ่มที่เล็กกว่าซึ่งมีรายละเอียดมากขึ้นในลักษณะเดียวกัน ค่า k ที่น้อยลงหมายถึงกลุ่มที่ใหญ่กว่าและมีรายละเอียดน้อยลง
ผลลัพธ์ของอัลกอริทึมคือกลุ่มของ "ป้ายกำกับ" ซึ่งจะกำหนดจุดข้อมูลให้กับกลุ่มใดกลุ่มหนึ่งจากทั้งหมด k กลุ่ม ในระบบคลัสเตอร์ k-means แต่ละกลุ่มจะถูกกำหนดโดยการสร้างจุดศูนย์กลางสำหรับแต่ละกลุ่ม จุดศูนย์กลางเปรียบเสมือนหัวใจของคลัสเตอร์ ซึ่งจะจับจุดที่อยู่ใกล้ที่สุดและเพิ่มจุดเหล่านี้ลงในคลัสเตอร์
การจัดกลุ่มแบบ K-mean ยังกำหนดกลุ่มย่อยอีกสองกลุ่ม:
- การรวมกลุ่มแบบรวมกลุ่ม
- เดนโดรแกรม
การรวมกลุ่มแบบรวมกลุ่ม
การจัดกลุ่ม K-means ประเภทนี้เริ่มต้นด้วยจำนวนคลัสเตอร์คงที่ โดยจะจัดสรรข้อมูลทั้งหมดลงในจำนวนคลัสเตอร์ที่แน่นอน วิธีการจัดกลุ่มนี้ไม่ต้องการจำนวนคลัสเตอร์ K เป็นอินพุต กระบวนการรวมกลุ่มเริ่มต้นด้วยการสร้างแต่ละข้อมูลเป็นคลัสเตอร์เดียว
วิธีนี้ใช้การวัดระยะทางบางอย่าง ลดจำนวนคลัสเตอร์ (หนึ่งคลัสเตอร์ในแต่ละรอบ) ด้วยการรวมกระบวนการ สุดท้าย เราจะมีคลัสเตอร์ขนาดใหญ่หนึ่งคลัสเตอร์ที่ประกอบด้วยวัตถุทั้งหมด
เดนโดรแกรม
ในวิธีการจัดกลุ่มแบบเดนโดรแกรม แต่ละระดับจะแสดงถึงกลุ่มที่เป็นไปได้ ความสูงของเดนโดรแกรมแสดงระดับความคล้ายคลึงกันระหว่างกลุ่มที่เชื่อมต่อกันสองกลุ่ม ยิ่งใกล้ส่วนล่างของกระบวนการมากเท่าไร ก็ยิ่งมีความคล้ายคลึงกันมากขึ้นเท่านั้น ซึ่งเป็นการค้นพบกลุ่มจากเดนโดรแกรม ซึ่งไม่ใช่เรื่องธรรมชาติและส่วนใหญ่เป็นเรื่องของอัตนัย
K- เพื่อนบ้านที่ใกล้ที่สุด
K- เพื่อนบ้านที่ใกล้ที่สุดเป็นตัวจำแนกประเภทการเรียนรู้ของเครื่องที่ง่ายที่สุด ซึ่งแตกต่างจากเทคนิคการเรียนรู้ของเครื่องอื่นๆ ตรงที่มันไม่สร้างแบบจำลอง มันเป็นอัลกอริทึมที่เรียบง่ายซึ่งจัดเก็บกรณีที่มีอยู่ทั้งหมดและจำแนกประเภทอินสแตนซ์ใหม่ตามการวัดความคล้ายคลึงกัน
มันทำงานได้ดีมากเมื่อมีระยะห่างระหว่างตัวอย่าง ความเร็วในการเรียนรู้จะช้าเมื่อชุดการฝึกมีขนาดใหญ่ และการคำนวณระยะทางก็ไม่สำคัญ
การวิเคราะห์องค์ประกอบหลัก
หากคุณต้องการพื้นที่ที่มีมิติสูงกว่า คุณต้องเลือกฐานสำหรับพื้นที่นั้นและเลือกเฉพาะคะแนนที่สำคัญที่สุด 200 คะแนนของฐานนั้น ฐานนี้เรียกว่าส่วนประกอบหลัก เซ็ตย่อยที่คุณเลือกประกอบขึ้นเป็นพื้นที่ใหม่ซึ่งมีขนาดเล็กเมื่อเทียบกับพื้นที่เดิม โดยจะรักษาความซับซ้อนของข้อมูลให้ได้มากที่สุด
สมาคม
กฎการเชื่อมโยงช่วยให้คุณสามารถสร้างการเชื่อมโยงระหว่างวัตถุข้อมูลภายในฐานข้อมูลขนาดใหญ่ได้ เทคนิคที่ไม่ได้รับการดูแลนี้เป็นการค้นหาความสัมพันธ์ที่น่าสนใจระหว่างตัวแปรในฐานข้อมูลขนาดใหญ่ ตัวอย่างเช่น คนที่ซื้อบ้านใหม่มักจะซื้อเฟอร์นิเจอร์ใหม่
ตัวอย่างอื่น ๆ :
- กลุ่มย่อยของผู้ป่วยโรคมะเร็งที่จัดกลุ่มตามการวัดการแสดงออกของยีน
- กลุ่มนักช้อปตามประวัติการเข้าชมและการซื้อ
- กลุ่มภาพยนตร์ตามเรตติ้งที่กำหนดโดยผู้ชมภาพยนตร์
การเรียนรู้ของเครื่องแบบมีผู้ดูแลและแบบไม่มีผู้ดูแล
นี่คือความแตกต่างที่สำคัญระหว่าง การเรียนรู้แบบมีผู้ดูแลและแบบไม่มีผู้ดูแล:
พารามิเตอร์ | เทคนิคการเรียนรู้ของเครื่องภายใต้การดูแล | เทคนิคการเรียนรู้ของเครื่องที่ไม่ได้รับการดูแล |
---|---|---|
ป้อนข้อมูล | Algorithms ได้รับการฝึกอบรมโดยใช้ข้อมูลที่ติดป้ายกำกับ | Algorithms ใช้กับข้อมูลที่ไม่มีป้ายกำกับ |
ความซับซ้อนในการคำนวณ | การเรียนรู้แบบมีผู้สอนเป็นวิธีที่ง่ายกว่า | การเรียนรู้แบบไม่มีผู้ดูแลมีความซับซ้อนในการคำนวณ |
ความถูกต้อง | วิธีการที่แม่นยำและเชื่อถือได้สูง | Less วิธีการที่แม่นยำและเชื่อถือได้ |
การประยุกต์ใช้การเรียนรู้ของเครื่องแบบไม่มีผู้ดูแล
การประยุกต์ใช้เทคนิคการเรียนรู้แบบไม่มีผู้ดูแลบางส่วนได้แก่:
- Clusterโดยจะแบ่งชุดข้อมูลออกเป็นกลุ่มโดยอัตโนมัติตามความคล้ายคลึงกัน
- การตรวจจับความผิดปกติสามารถค้นพบจุดข้อมูลที่ผิดปกติในชุดข้อมูลของคุณได้ มีประโยชน์ในการค้นหาธุรกรรมที่เป็นการฉ้อโกง
- การขุดแบบเชื่อมโยงจะระบุชุดของรายการที่มักเกิดขึ้นร่วมกันในชุดข้อมูลของคุณ
- แบบจำลองตัวแปรแฝงถูกนำมาใช้กันอย่างแพร่หลายสำหรับการประมวลผลข้อมูลล่วงหน้า เช่นการลดจำนวนคุณลักษณะในชุดข้อมูลหรือการแยกชุดข้อมูลออกเป็นหลายองค์ประกอบ
ข้อเสียของการเรียนรู้แบบไม่มีผู้ดูแล
- คุณไม่สามารถรับข้อมูลที่แม่นยำเกี่ยวกับการเรียงลำดับข้อมูลได้ และผลลัพธ์เป็นข้อมูลที่ใช้ในการเรียนรู้แบบไม่มีผู้ดูแลจะมีป้ายกำกับและไม่ทราบ
- Less ความถูกต้องของผลลัพธ์เนื่องจากข้อมูลอินพุตไม่เป็นที่รู้จักและไม่ได้ระบุโดยบุคคลล่วงหน้า ซึ่งหมายความว่าเครื่องจำเป็นต้องทำเช่นนี้เอง
- คลาสสเปกตรัมไม่สอดคล้องกับคลาสข้อมูลเสมอไป
- ผู้ใช้ต้องใช้เวลาในการตีความและติดป้ายกำกับคลาสที่เป็นไปตามหมวดหมู่นั้น
- คุณสมบัติสเปกตรัมของคลาสยังสามารถเปลี่ยนแปลงได้เมื่อเวลาผ่านไป ดังนั้นคุณจึงไม่สามารถมีข้อมูลคลาสเดียวกันในขณะที่ย้ายจากรูปภาพหนึ่งไปยังอีกรูปภาพหนึ่งได้
สรุป
- การเรียนรู้แบบไม่มีผู้ดูแลเป็นเทคนิคการเรียนรู้ของเครื่อง ซึ่งคุณไม่จำเป็นต้องควบคุมโมเดล
- การเรียนรู้ของเครื่องที่ไม่ได้รับการดูแลช่วยให้คุณค้นหารูปแบบที่ไม่รู้จักทุกประเภทในข้อมูล
- Clusterไอเอ็นจีและสมาคมเป็นการเรียนรู้แบบไม่มีผู้ดูแลสองประเภท
- วิธีการจัดกลุ่มมี 1 ประเภท คือ 2) แบบเอกสิทธิ์ 3) แบบรวม 4) แบบทับซ้อน XNUMX) แบบความน่าจะเป็น
- ประเภทการจัดกลุ่มที่สำคัญ ได้แก่: 1) การจัดกลุ่มแบบลำดับชั้น 2) การจัดกลุ่มแบบ K-means 3) K-NN 4) การวิเคราะห์องค์ประกอบหลัก 5) การแยกย่อยค่าเอกพจน์ 6) การวิเคราะห์องค์ประกอบอิสระ
- กฎการเชื่อมโยงช่วยให้คุณสามารถสร้างการเชื่อมโยงระหว่างวัตถุข้อมูลภายในฐานข้อมูลขนาดใหญ่ได้
- ในการเรียนรู้แบบมีผู้สอน Algorithms ได้รับการฝึกอบรมโดยใช้ข้อมูลที่ติดป้ายกำกับขณะอยู่ในการเรียนรู้แบบไม่มีผู้ดูแล Algorithms ใช้กับข้อมูลที่ไม่มีป้ายกำกับ
- การตรวจจับความผิดปกติสามารถค้นพบจุดข้อมูลที่สำคัญในชุดข้อมูลของคุณ ซึ่งมีประโยชน์ในการค้นหาธุรกรรมที่ฉ้อโกง
- ข้อเสียเปรียบที่ใหญ่ที่สุดของการเรียนรู้แบบไม่มีผู้ดูแลคือคุณไม่สามารถรับข้อมูลที่แม่นยำเกี่ยวกับการเรียงลำดับข้อมูลได้