Неконтролируемое машинное обучение: Algorithms, Типы с примером

Что такое неконтролируемое обучение?

Обучение без учителя — это метод машинного обучения, при котором пользователям не нужно контролировать модель. Вместо этого он позволяет модели работать самостоятельно, обнаруживая закономерности и информацию, которые ранее не были обнаружены. В основном это касается немаркированных данных.

Обучение без учителя Algorithms

Обучение без учителя Algorithms позволяют пользователям выполнять более сложные задачи обработки по сравнению с контролируемым обучением. Однако обучение без присмотра может быть более непредсказуемым по сравнению с другими естественными методами обучения. Алгоритмы неконтролируемого обучения включают кластеризацию, обнаружение аномалий, нейронные сети и т. д.

Пример машинного обучения без учителя

Давайте возьмем пример обучения без присмотра для ребенка и его домашней собаки.

Пример машинного обучения без учителя

Она знает и идентифицирует эту собаку. Несколько недель спустя друг семьи приводит с собой собаку и пытается поиграть с малышом.

Пример машинного обучения без учителя

Малыш не видел эту собаку раньше. Но она признает, что многие черты (2 уха, глаза, хождение на 4 ногах) похожи на ее домашнюю собаку. Она идентифицирует новое животное как собаку. Это обучение без присмотра, когда вас не учат, а вы учитесь на основе данных (в данном случае данных о собаке). контролируемое обучение, друг семьи сказал бы ребенку, что это собака, как показано в приведенном выше примере обучения без присмотра.

Почему обучение без учителя?

Вот основные причины использования обучения без учителя в Машинное обучение:

  • Машинное обучение без учителя находит в данных всевозможные неизвестные закономерности.
  • Неконтролируемые методы помогают найти функции, которые могут быть полезны для категоризации.
  • Оно происходит в режиме реального времени, поэтому все входные данные анализируются и маркируются в присутствии обучающихся.
  • Легче получить неразмеченные данные с компьютера, чем помеченные данные, которые требуют ручного вмешательства.

ClusterТипы обучения без учителя Algorithms

Ниже приведены типы кластеризации алгоритмов неконтролируемого машинного обучения:

Проблемы обучения без учителя далее группируются в проблемы кластеризации и ассоциации.

ClusterИНГ

ClusterИНГ
ClusterИНГ

ClusterОбучение является важной концепцией, когда речь идет об обучении без присмотра. В основном он занимается поиском структуры или шаблона в коллекции неклассифицированных данных. Обучение без присмотра Clustering алгоритмы обработают ваши данные и найдут естественные кластеры (группы), если они существуют в данных. Вы также можете изменить количество кластеров, которые должны идентифицировать ваши алгоритмы. Это позволяет вам настроить гранулярность этих групп.

Вы можете использовать различные типы кластеризации:

Эксклюзивный (разделение)

В этом методе кластеризации данные группируются таким образом, что одни данные могут принадлежать только одному кластеру.

Пример: K-средние

агломерационных

В этом методе кластеризации все данные представляют собой кластер. Итеративные объединения двух ближайших кластеров уменьшают количество кластеров.

Пример: Иерархическая кластеризация

Перекрытие

В этом методе для кластеризации данных используются нечеткие множества. Каждая точка может принадлежать двум и более кластерам с разными степенями принадлежности.

Здесь данные будут связаны с соответствующим значением членства. Пример: нечеткие C-средства

вероятностный

Этот метод использует распределение вероятностей для создания кластеров.

Пример: следующие ключевые слова

  • «мужская обувь».
  • «женская обувь».
  • «женская перчатка».
  • «мужская перчатка».

можно разделить на две категории: «обувь» и «перчатки» или «мужчины» и «женщины».

ClusterТипы

Ниже приведены типы кластеризации машинного обучения:

  • Иерархическая кластеризация
  • K-означает кластеризацию
  • K-NN (k ближайших соседей)
  • Анализ главных компонентов
  • Разложение по единственному значению
  • Независимый анализ компонентов

иерархическая ClusterИНГ

Иерархическая кластеризация — это алгоритм, который строит иерархию кластеров. Все начинается со всех данных, которые назначаются собственному кластеру. Здесь два близких кластера будут находиться в одном кластере. Этот алгоритм заканчивается, когда остается только один кластер.

K-средних ClusterИНГ

K означает, что это алгоритм итеративной кластеризации, который помогает вам найти наибольшее значение для каждой итерации. Изначально выбирается желаемое количество кластеров. В этом методе кластеризации вам необходимо сгруппировать точки данных в k групп. Таким же образом большее значение k означает меньшие группы с большей степенью детализации. Меньшее значение k означает более крупные группы с меньшей степенью детализации.

Результатом работы алгоритма является группа «меток». Он присваивает точку данных одной из k групп. При кластеризации k-средних каждая группа определяется путем создания центроида для каждой группы. Центроиды подобны сердцу кластера, которое захватывает ближайшие к ним точки и добавляет их в кластер.

Кластеризация K-средних дополнительно определяет две подгруппы:

  • Агломеративная кластеризация
  • Дендрограмма

Агломеративная кластеризация

Этот тип кластеризации K-средних начинается с фиксированного количества кластеров. Он распределяет все данные по точному количеству кластеров. Этот метод кластеризации не требует количества кластеров K в качестве входных данных. Процесс агломерации начинается с формирования каждых данных в виде единого кластера.

Этот метод использует некоторую меру расстояния, уменьшает количество кластеров (по одному на каждой итерации) путем слияния. Наконец, у нас есть один большой кластер, содержащий все объекты.

Дендрограмма

В методе кластеризации дендрограммы каждый уровень будет представлять собой возможный кластер. Высота дендрограммы показывает уровень сходства между двумя объединенными кластерами. Чем ближе к низу процесса, тем больше схожих кластеров, что является нахождением группы по дендрограмме, что не естественно и по большей части субъективно.

К- Ближайшие соседи

K-ближайший сосед — самый простой из всех классификаторов машинного обучения. Он отличается от других методов машинного обучения тем, что не создает модель. Это простой алгоритм, который сохраняет все доступные случаи и классифицирует новые экземпляры на основе меры сходства.

Это очень хорошо работает, когда между примерами есть расстояние. Скорость обучения низкая, когда обучающая выборка велика, а расчет расстояния нетривиален.

Анализ основных компонентов

На случай, если вам нужно пространство более высокого измерения. Вам нужно выбрать основу для этого пространства и только 200 наиболее важных оценок этой основы. Эта база известна как главный компонент. Выбранное вами подмножество представляет собой новое пространство, которое меньше по размеру по сравнению с исходным пространством. Он сохраняет как можно большую сложность данных.

Фонды и ассоциации

Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных. Этот неконтролируемый метод предназначен для обнаружения интересных взаимосвязей между переменными в больших базах данных. Например, люди, покупающие новый дом, скорее всего, купят новую мебель.

Другие примеры:

  • Подгруппа больных раком, сгруппированная по показателям экспрессии генов.
  • Группы покупателей на основе их истории посещений и покупок.
  • Группа фильмов по рейтингу зрителей

Контролируемое и неконтролируемое машинное обучение

Вот основная разница между Контролируемое и неконтролируемое обучение:

параметры Метод контролируемого машинного обучения Техника машинного обучения без учителя
Входные данные Algorithms обучаются с использованием размеченных данных. Algorithms используются для данных, которые не помечены
Вычислительная сложность Обучение под присмотром – более простой метод. Обучение без учителя является вычислительно сложным
точность Очень точный и надежный метод. Less точный и надежный метод.

Применение машинного обучения без учителя

Некоторые применения методов обучения без учителя:

  • Clusterавтоматическое разделение набора данных на группы на основе их сходства
  • Обнаружение аномалий может обнаружить необычные точки данных в вашем наборе данных. Это полезно для обнаружения мошеннических транзакций.
  • Анализ ассоциаций идентифицирует наборы элементов, которые часто встречаются вместе в вашем наборе данных.
  • Модели со скрытыми переменными широко используются для предварительной обработки данных. Например, уменьшение количества объектов в наборе данных или разложение набора данных на несколько компонентов.

Недостатки обучения без учителя

  • Вы не можете получить точную информацию о сортировке данных, а выходные данные, используемые в обучении без учителя, помечены и неизвестны.
  • Less точность результатов обусловлена ​​тем, что входные данные заранее неизвестны и не промаркированы людьми. Это означает, что машина требует сделать это сама.
  • Спектральные классы не всегда соответствуют информационным классам.
  • Пользователю необходимо потратить время на интерпретацию и маркировку классов, соответствующих этой классификации.
  • Спектральные свойства классов также могут меняться со временем, поэтому вы не можете иметь одну и ту же информацию о классе при переходе от одного изображения к другому.

Итого

  • Обучение без учителя — это метод машинного обучения, при котором вам не нужно контролировать модель.
  • Машинное обучение без учителя помогает вам находить в данных всевозможные неизвестные закономерности.
  • ClusterОбучение и ассоциация — это два типа обучения без учителя.
  • Четыре типа методов кластеризации: 1) Исключительный 2) Агломеративный 3) Перекрывающийся 4) Вероятностный.
  • Важными типами кластеризации являются: 1) Иерархическая кластеризация 2) Кластеризация K-средних 3) K-NN 4) Анализ главных компонентов 5) Разложение по сингулярным значениям 6) Анализ независимых компонентов.
  • Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных.
  • В контролируемом обучении, Algorithms обучаются с использованием размеченных данных во время обучения без учителя Algorithms используются для данных, которые не помечены.
  • Обнаружение аномалий может обнаружить важные точки данных в вашем наборе данных, что полезно для обнаружения мошеннических транзакций.
  • Самый большой недостаток обучения без учителя заключается в том, что вы не можете получить точную информацию о сортировке данных.