Машинно обучение без надзор: Algorithms, Типове с пример
Какво е обучение без надзор?
Неуправляемо обучение е техника за машинно обучение, при която потребителите не трябва да контролират модела. Вместо това позволява на модела да работи сам, за да открие модели и информация, които преди това не са били открити. Той се занимава главно с немаркирани данни.
Неуправляемо обучение Algorithms
Неуправляемо обучение Algorithms позволяват на потребителите да изпълняват по-сложни задачи за обработка в сравнение с контролираното обучение. Въпреки това, обучението без надзор може да бъде по-непредвидимо в сравнение с други естествени методи на обучение. Алгоритмите за неконтролирано обучение включват групиране, откриване на аномалии, невронни мрежи и др.
Пример за неконтролирано машинно обучение
Нека вземем пример за безконтролно обучение за бебе и нейното семейно куче.
Тя познава и идентифицира това куче. Няколко седмици по-късно приятел на семейството води със себе си куче и се опитва да си играе с бебето.
Бейби не е виждал това куче по-рано. Но разпознава много характеристики (2 уши, очи, ходене на 4 крака) като нейното домашно куче. Тя идентифицира новото животно като куче. Това е обучение без надзор, при което не ви обучават, а вие учите от данните (в този случай данни за куче.) Ако това беше контролирано обучение, семейният приятел би казал на бебето, че е куче, както е показано в горния пример за обучение без надзор.
Защо обучение без надзор?
Ето основните причини за използването на неконтролирано обучение Machine Learning:
- Машинното обучение без надзор открива всякакви неизвестни модели в данните.
- Неконтролираните методи ви помагат да намерите функции, които могат да бъдат полезни за категоризиране.
- Провежда се в реално време, така че всички входни данни да бъдат анализирани и етикетирани в присъствието на обучаемите.
- По-лесно е да получите немаркирани данни от компютър, отколкото етикетирани данни, които се нуждаят от ръчна намеса.
Clustering Видове неконтролирано обучение Algorithms
По-долу са типовете клъстери на алгоритми за неконтролирано машинно обучение:
Проблеми с обучението без надзор, допълнително групирани в проблеми с групиране и асоцииране.
ClusterING

Clustering е важна концепция, когато става дума за учене без надзор. Основно се занимава с намиране на структура или модел в колекция от некатегоризирани данни. Учене без надзор Clusterалгоритмите ще обработят вашите данни и ще намерят естествени клъстери (групи), ако съществуват в данните. Можете също да промените колко клъстера трябва да идентифицират вашите алгоритми. Тя ви позволява да регулирате детайлността на тези групи.
Има различни видове групиране, които можете да използвате:
Изключително (разделяне)
При този метод на клъстериране данните се групират по такъв начин, че едни данни могат да принадлежат само на един клъстер.
Пример: K-означава
Агломеративен
При тази техника на клъстериране всяка информация е клъстер. Итеративните обединения между двата най-близки клъстера намаляват броя на клъстерите.
Пример: Йерархично групиране
Припокриване
В тази техника размитите набори се използват за групиране на данни. Всяка точка може да принадлежи към два или повече клъстера с отделни степени на членство.
Тук данните ще бъдат свързани с подходяща стойност за членство. Пример: Размити C-средни
Вероятностна
Тази техника използва вероятностно разпределение за създаване на клъстери
Пример: Следващи ключови думи
- "мъжка обувка."
- "дамска обувка."
- "дамска ръкавица."
- „мъжка ръкавица“.
могат да бъдат групирани в две категории „обувка“ и „ръкавица“ или „мъж“ и „жена“.
Clustering типове
Следват типовете групиране на машинно обучение:
- Йерархично групиране
- K-означава групиране
- K-NN (k най-близки съседи)
- Анализ на главния компонент
- Разлагане на единичната стойност
- Независим анализ на компонентите
йерархически ClusterING
Йерархичното клъстериране е алгоритъм, който изгражда йерархия от клъстери. Започва с всички данни, които са присвоени на собствен клъстер. Тук два близки клъстера ще бъдат в един и същи клъстер. Този алгоритъм приключва, когато остане само един клъстер.
К-означава ClusterING
K означава, че това е итеративен алгоритъм за групиране, който ви помага да намерите най-високата стойност за всяка итерация. Първоначално се избира желаният брой клъстери. При този метод на клъстериране трябва да групирате точките от данни в k групи. По-голямо k означава по-малки групи с повече детайлност по същия начин. По-ниско k означава по-големи групи с по-малка детайлност.
Резултатът от алгоритъма е група от „етикети“. Той присвоява точка от данни на една от k групите. При клъстерирането на k-средства всяка група се дефинира чрез създаване на центроид за всяка група. Центроидите са като сърцето на клъстера, което улавя най-близките до тях точки и ги добавя към клъстера.
K-средното групиране допълнително дефинира две подгрупи:
- Агломеративно групиране
- Дендрограма
Агломеративно групиране
Този тип групиране на K-означава започва с фиксиран брой клъстери. Той разпределя всички данни в точния брой клъстери. Този метод на клъстериране не изисква броя на клъстерите K като вход. Процесът на агломериране започва с формирането на всяка информация като единичен клъстер.
Този метод използва някаква мярка за разстояние, намалява броя на клъстерите (по един във всяка итерация) чрез процес на сливане. И накрая, имаме един голям клъстер, който съдържа всички обекти.
Дендрограма
В метода за клъстериране на Dendrogram всяко ниво ще представлява възможен клъстер. Височината на дендрограмата показва нивото на сходство между два свързани клъстера. Колкото по-близо до дъното на процеса, те са по-сходен клъстер, което е находка на групата от дендрограма, която не е естествена и най-вече субективна.
К- Най-близки съседи
K-най-близкият съсед е най-простият от всички класификатори за машинно обучение. Тя се различава от другите техники за машинно обучение по това, че не създава модел. Това е прост алгоритъм, който съхранява всички налични случаи и класифицира нови случаи въз основа на мярка за сходство.
Работи много добре, когато има разстояние между примерите. Скоростта на обучение е бавна, когато наборът за обучение е голям и изчисляването на разстоянието е нетривиално.
Анализ на основните компоненти
В случай, че искате пространство с по-високо измерение. Трябва да изберете основа за това пространство и само 200-те най-важни резултата от тази база. Тази база е известна като основен компонент. Избраното от вас подмножество представлява ново пространство, което е малко по размер в сравнение с оригиналното пространство. Той поддържа възможно най-голяма част от сложността на данните.
Асоциация
Правилата за асоцииране ви позволяват да установявате асоциации между обекти с данни в големи бази данни. Тази техника без надзор е за откриване на интересни връзки между променливи в големи бази данни. Например, хората, които купуват нов дом, най-вероятно ще купуват нови мебели.
Други примери:
- Подгрупа пациенти с рак, групирани според техните измервания на генната експресия
- Групи от купувачи въз основа на тяхната история на сърфиране и покупки
- Групиране на филми по оценка, дадена от зрителите на филми
Контролирано срещу неконтролирано машинно обучение
Тук е основната разлика между Контролирано срещу неконтролирано обучение:
параметри | Техника за контролирано машинно обучение | Техника за машинно обучение без надзор |
---|---|---|
Входни данни | Algorithms се обучават с помощта на етикетирани данни. | Algorithms се използват срещу данни, които не са етикетирани |
Изчислителна сложност | Обучението под наблюдение е по-прост метод. | Ученето без надзор е сложно изчислително |
Точност | Много точен и надежден метод. | Less точен и надежден метод. |
Приложения на неконтролирано машинно обучение
Някои приложения на техниките за неконтролирано обучение са:
- Clusterавтоматично разделя набора от данни на групи въз основа на техните прилики
- Откриването на аномалии може да открие необичайни точки от данни във вашия набор от данни. Полезно е за намиране на измамни транзакции
- Извличането на асоциации идентифицира набори от елементи, които често се срещат заедно във вашия набор от данни
- Моделите на латентни променливи се използват широко за предварителна обработка на данни. Като намаляване на броя на характеристиките в набор от данни или разлагане на набора от данни на множество компоненти
Недостатъци на неконтролираното обучение
- Не можете да получите точна информация относно сортирането на данни и изходът като данни, използвани в неконтролирано обучение, е етикетиран и неизвестен
- Less точността на резултатите е, защото входните данни не са известни и не са етикетирани от хората предварително. Това означава, че машината трябва да направи това сама.
- Спектралните класове не винаги съответстват на информационните класове.
- Потребителят трябва да отдели време за тълкуване и етикетиране на класовете, които следват тази класификация.
- Спектралните свойства на класовете също могат да се променят с течение на времето, така че не можете да имате една и съща информация за класа, докато преминавате от едно изображение към друго.
Oбобщение
- Неконтролираното обучение е техника за машинно обучение, при която не е необходимо да контролирате модела.
- Машинното обучение без надзор ви помага да намирате всякакви неизвестни модели в данните.
- Clusterобучението и асоциирането са два вида неконтролирано учене.
- Четири вида методи за клъстериране са 1) Изключителни 2) Агломеративни 3) Припокриващи се 4) Вероятностни.
- Важни типове групиране са: 1) Йерархично групиране 2) K-означава групиране 3) K-NN 4) Анализ на основните компоненти 5) Декомпозиция на единична стойност 6) Анализ на независими компоненти.
- Правилата за асоцииране ви позволяват да установявате асоциации между обекти с данни в големи бази данни.
- В контролираното обучение, Algorithms се обучават с помощта на етикетирани данни, докато са в неконтролирано обучение Algorithms се използват срещу данни, които не са етикетирани.
- Откриването на аномалии може да открие важни точки от данни във вашия набор от данни, което е полезно за намиране на измамни транзакции.
- Най-големият недостатък на неконтролираното обучение е, че не можете да получите точна информация относно сортирането на данни.