Машинне навчання без нагляду: Algorithms, Типи з прикладом

Що таке неконтрольоване навчання?

Навчання без нагляду це техніка машинного навчання, у якій користувачам не потрібно контролювати модель. Натомість це дозволяє моделі працювати самостійно, щоб виявити шаблони та інформацію, які раніше не були виявлені. В основному він стосується немаркованих даних.

Навчання без нагляду Algorithms

Навчання без нагляду Algorithms дозволяють користувачам виконувати більш складні завдання обробки порівняно з навчанням під наглядом. Хоча навчання без контролю може бути більш непередбачуваним порівняно з іншими природними методами навчання. Алгоритми неконтрольованого навчання включають кластеризацію, виявлення аномалій, нейронні мережі тощо.

Приклад неконтрольованого машинного навчання

Давайте візьмемо приклад навчання дитини та її собаки без нагляду.

Приклад неконтрольованого машинного навчання

Вона знає і впізнає цю собаку. Через кілька тижнів друг сім'ї бере з собою собаку і намагається пограти з дитиною.

Приклад неконтрольованого машинного навчання

Малюк раніше не бачив цю собаку. Але вона розпізнає багато рис (2 вуха, очі, ходьба на 4 ногах) схожі на її собаку. Вона ідентифікує нову тварину як собаку. Це навчання без нагляду, де вас не навчають, а ви вчитеся на даних (у цьому випадку даних про собаку). Якби це було контрольоване навчання, друг сім’ї сказав би дитині, що це собака, як показано у наведеному вище прикладі навчання без нагляду.

Чому навчання без нагляду?

Ось головні причини для використання неконтрольованого навчання машинне навчання:

  • Машинне навчання без нагляду знаходить усі види невідомих шаблонів у даних.
  • Неконтрольовані методи допомагають вам знайти функції, які можуть бути корисними для категоризації.
  • Це відбувається в режимі реального часу, тому всі вхідні дані аналізуються та маркуються у присутності учнів.
  • Нерозмічені дані легше отримати з комп’ютера, ніж розмічені дані, які потребують ручного втручання.

Clusterтипи неконтрольованого навчання Algorithms

Нижче наведено типи кластеризації алгоритмів неконтрольованого машинного навчання:

Проблеми з навчанням без контролю, далі згруповані в проблеми кластеризації та асоціації.

ClusterІНГ

ClusterІНГ
ClusterІНГ

Clustering є важливою концепцією, коли йдеться про навчання без нагляду. В основному це стосується пошуку структури або шаблону в колекції некатегоризованих даних. Навчання без контролю ClusterАлгоритми оброблятимуть ваші дані та знайдуть природні кластери (групи), якщо вони існують у даних. Ви також можете змінити кількість кластерів, які мають ідентифікувати ваші алгоритми. Це дозволяє регулювати деталізацію цих груп.

Існують різні типи кластеризації, які можна використовувати:

Ексклюзив (перегородка)

У цьому методі кластеризації Дані групуються таким чином, що одні дані можуть належати лише одному кластеру.

Приклад: K-середнє

Агломеративна

У цій техніці кластеризації всі дані є кластером. Ітераційні об'єднання між двома найближчими кластерами зменшують кількість кластерів.

Приклад: ієрархічна кластеризація

Перекриття

У цій техніці нечіткі набори використовуються для кластеризації даних. Кожна точка може належати до двох або більше кластерів з окремими ступенями приналежності.

Тут дані будуть пов’язані з відповідним значенням членства. Приклад: нечіткі C-середні

Імовірнісний

Цей метод використовує розподіл ймовірностей для створення кластерів

Приклад: наступні ключові слова

  • «чоловіче взуття».
  • «Жіноче взуття».
  • «жіноча рукавичка».
  • «чоловіча рукавичка».

можна згрупувати за двома категоріями: «взуття» та «рукавички» або «чоловіки» та «жінки».

Clusterтипи

Нижче наведено типи кластеризації машинного навчання:

  • Ієрархічна кластеризація
  • K-означає кластеризацію
  • K-NN (k найближчих сусідів)
  • Аналіз основних компонентів
  • Розкладання сингулярних значень
  • Незалежний компонентний аналіз

Ієрархічна ClusterІНГ

Ієрархічна кластеризація — це алгоритм, який створює ієрархію кластерів. Він починається з усіх даних, призначених власному кластеру. Тут два близьких кластера будуть в одному кластері. Цей алгоритм закінчується, коли залишається тільки один кластер.

K-означає ClusterІНГ

K означає, що це ітеративний алгоритм кластеризації, який допомагає вам знайти найвище значення для кожної ітерації. Спочатку вибирається необхідна кількість кластерів. У цьому методі кластеризації вам потрібно кластеризувати точки даних у k груп. Більше k означає менші групи з більшою гранулярністю таким же чином. Менше значення k означає більші групи з меншою деталізацію.

Результатом роботи алгоритму є група «міток». Він призначає точку даних одній із k груп. У кластеризації k-середніх кожна група визначається шляхом створення центроїда для кожної групи. Центроїди схожі на серце кластера, яке захоплює найближчі до них точки та додає їх до кластера.

К-середнє кластеризування далі визначає дві підгрупи:

  • Агломеративна кластеризація
  • Дендрограма

Агломеративна кластеризація

Цей тип кластеризації K-середніх починається з фіксованої кількості кластерів. Він розподіляє всі дані в точну кількість кластерів. Цей метод кластеризації не вимагає кількості кластерів K як вхідних даних. Процес агломерації починається з формування кожних даних як єдиного кластера.

Цей метод використовує деяку міру відстані, зменшує кількість кластерів (по одному в кожній ітерації) за допомогою процесу злиття. Нарешті, ми маємо один великий кластер, який містить усі об’єкти.

Дендрограма

У методі кластеризації Dendrogram кожен рівень представлятиме можливий кластер. Висота дендрограми показує рівень подібності між двома об'єднаними кластерами. Чим ближче до дна процесу, вони більше схожі на кластер, який є виявленням групи з дендрограми, що є неприродним і переважно суб'єктивним.

К- Найближчі сусіди

K-найближчий сусід є найпростішим з усіх класифікаторів машинного навчання. Він відрізняється від інших методів машинного навчання тим, що не створює моделі. Це простий алгоритм, який зберігає всі доступні випадки та класифікує нові випадки на основі міри подібності.

Це дуже добре працює, коли між прикладами є відстань. Швидкість навчання низька, коли навчальний набір великий, а розрахунок відстані нетривіальний.

Аналіз основних компонентів

Якщо вам потрібен більш просторий простір. Вам потрібно вибрати основу для цієї області та лише 200 найважливіших балів цієї основи. Ця база відома як головний компонент. Підмножина, яку ви вибрали, становить новий простір, який має невеликий розмір порівняно з вихідним простором. Він підтримує якомога більше складності даних.

Асоціація

Правила асоціації дозволяють вам встановлювати асоціації між об’єктами даних у великих базах даних. Цей неконтрольований метод спрямований на виявлення цікавих зв’язків між змінними у великих базах даних. Наприклад, люди, які купують новий будинок, швидше за все, купуватимуть нові меблі.

Інші приклади:

  • Підгрупа хворих на рак, згрупованих за результатами вимірювань експресії генів
  • Групи покупців на основі їхніх історій перегляду та покупок
  • Група фільмів за рейтингом глядачів

Контрольоване та неконтрольоване машинне навчання

Ось головна відмінність між Навчання під контролем проти неконтрольованого:

Параметри Керована техніка машинного навчання Техніка машинного навчання без нагляду
Вхідні дані Algorithms навчаються з використанням позначених даних. Algorithms використовуються проти даних, які не позначені
Обчислювальна складність Навчання під наглядом є простішим методом. Навчання без контролю є обчислювально складним
Точність Дуже точний і надійний метод. Less точний і надійний метод.

Застосування неконтрольованого машинного навчання

Деякі способи застосування методів неконтрольованого навчання:

  • Clusterавтоматично розбиває набір даних на групи на основі їх подібності
  • Виявлення аномалій може виявити незвичайні точки даних у вашому наборі даних. Це корисно для пошуку шахрайських операцій
  • Інтелектуальний аналіз асоціацій визначає набори елементів, які часто зустрічаються разом у вашому наборі даних
  • Моделі латентних змінних широко використовуються для попередньої обробки даних. Як зменшення кількості функцій у наборі даних або розкладання набору даних на кілька компонентів

Недоліки неконтрольованого навчання

  • Ви не можете отримати точну інформацію щодо сортування даних, а вихідні дані, які використовуються в неконтрольованому навчанні, позначено та невідомі
  • Less точність результатів полягає в тому, що вхідні дані не відомі та не позначені людьми заздалегідь. Це означає, що машина повинна зробити це сама.
  • Спектральні класи не завжди відповідають інформаційним класам.
  • Користувачеві потрібно витратити час на інтерпретацію та позначення класів, які відповідають цій класифікації.
  • Спектральні властивості класів також можуть змінюватися з часом, тому ви не можете мати ту саму інформацію про клас під час переходу від одного зображення до іншого.

Резюме

  • Навчання без нагляду — це техніка машинного навчання, де вам не потрібно контролювати модель.
  • Машинне навчання без нагляду допомагає вам знаходити всі види невідомих шаблонів у даних.
  • Clusterнавчання та асоціація — це два типи неконтрольованого навчання.
  • Чотири типи методів кластеризації: 1) Ексклюзивний 2) Агломеративний 3) Перекриваючий 4) Імовірнісний.
  • Важливими типами кластеризації є: 1) Ієрархічна кластеризація 2) Кластеризація K-середніх 3) K-NN 4) Аналіз головних компонентів 5) Декомпозиція сингулярного значення 6) Аналіз незалежних компонентів.
  • Правила асоціації дозволяють вам встановлювати асоціації між об’єктами даних у великих базах даних.
  • У контрольованому навчанні, Algorithms навчаються, використовуючи позначені дані під час неконтрольованого навчання Algorithms використовуються проти даних, які не позначені.
  • Виявлення аномалій може виявити важливі точки даних у вашому наборі даних, що корисно для пошуку шахрайських транзакцій.
  • Найбільшим недоліком неконтрольованого навчання є те, що ви не можете отримати точну інформацію щодо сортування даних.

Підсумуйте цей пост за допомогою: