Неконтролируемое машинное обучение: Algorithms, Типы с примером
Что такое неконтролируемое обучение?
Обучение без учителя — это метод машинного обучения, при котором пользователям не нужно контролировать модель. Вместо этого он позволяет модели работать самостоятельно, обнаруживая закономерности и информацию, которые ранее не были обнаружены. В основном это касается немаркированных данных.
Обучение без учителя Algorithms
Обучение без учителя Algorithms позволяют пользователям выполнять более сложные задачи обработки по сравнению с контролируемым обучением. Однако обучение без присмотра может быть более непредсказуемым по сравнению с другими естественными методами обучения. Алгоритмы неконтролируемого обучения включают кластеризацию, обнаружение аномалий, нейронные сети и т. д.
Пример машинного обучения без учителя
Давайте возьмем пример обучения без присмотра для ребенка и его домашней собаки.
Она знает и идентифицирует эту собаку. Несколько недель спустя друг семьи приводит с собой собаку и пытается поиграть с малышом.
Малыш не видел эту собаку раньше. Но она признает, что многие черты (2 уха, глаза, хождение на 4 ногах) похожи на ее домашнюю собаку. Она идентифицирует новое животное как собаку. Это обучение без присмотра, когда вас не учат, а вы учитесь на основе данных (в данном случае данных о собаке). контролируемое обучение, друг семьи сказал бы ребенку, что это собака, как показано в приведенном выше примере обучения без присмотра.
Почему обучение без учителя?
Вот основные причины использования обучения без учителя в Машинное обучение:
- Машинное обучение без учителя находит в данных всевозможные неизвестные закономерности.
- Неконтролируемые методы помогают найти функции, которые могут быть полезны для категоризации.
- Оно происходит в режиме реального времени, поэтому все входные данные анализируются и маркируются в присутствии обучающихся.
- Легче получить неразмеченные данные с компьютера, чем помеченные данные, которые требуют ручного вмешательства.
ClusterТипы обучения без учителя Algorithms
Ниже приведены типы кластеризации алгоритмов неконтролируемого машинного обучения:
Проблемы обучения без учителя далее группируются в проблемы кластеризации и ассоциации.
ClusterИНГ
ClusterОбучение является важной концепцией, когда речь идет об обучении без присмотра. В основном он занимается поиском структуры или шаблона в коллекции неклассифицированных данных. Обучение без присмотра Clustering алгоритмы обработают ваши данные и найдут естественные кластеры (группы), если они существуют в данных. Вы также можете изменить количество кластеров, которые должны идентифицировать ваши алгоритмы. Это позволяет вам настроить гранулярность этих групп.
Вы можете использовать различные типы кластеризации:
Эксклюзивный (разделение)
В этом методе кластеризации данные группируются таким образом, что одни данные могут принадлежать только одному кластеру.
Пример: K-средние
агломерационных
В этом методе кластеризации все данные представляют собой кластер. Итеративные объединения двух ближайших кластеров уменьшают количество кластеров.
Пример: Иерархическая кластеризация
Перекрытие
В этом методе для кластеризации данных используются нечеткие множества. Каждая точка может принадлежать двум и более кластерам с разными степенями принадлежности.
Здесь данные будут связаны с соответствующим значением членства. Пример: нечеткие C-средства
вероятностный
Этот метод использует распределение вероятностей для создания кластеров.
Пример: следующие ключевые слова
- «мужская обувь».
- «женская обувь».
- «женская перчатка».
- «мужская перчатка».
можно разделить на две категории: «обувь» и «перчатки» или «мужчины» и «женщины».
ClusterТипы
Ниже приведены типы кластеризации машинного обучения:
- Иерархическая кластеризация
- K-означает кластеризацию
- K-NN (k ближайших соседей)
- Анализ главных компонентов
- Разложение по единственному значению
- Независимый анализ компонентов
иерархическая ClusterИНГ
Иерархическая кластеризация — это алгоритм, который строит иерархию кластеров. Все начинается со всех данных, которые назначаются собственному кластеру. Здесь два близких кластера будут находиться в одном кластере. Этот алгоритм заканчивается, когда остается только один кластер.
K-средних ClusterИНГ
K означает, что это алгоритм итеративной кластеризации, который помогает вам найти наибольшее значение для каждой итерации. Изначально выбирается желаемое количество кластеров. В этом методе кластеризации вам необходимо сгруппировать точки данных в k групп. Таким же образом большее значение k означает меньшие группы с большей степенью детализации. Меньшее значение k означает более крупные группы с меньшей степенью детализации.
Результатом работы алгоритма является группа «меток». Он присваивает точку данных одной из k групп. При кластеризации k-средних каждая группа определяется путем создания центроида для каждой группы. Центроиды подобны сердцу кластера, которое захватывает ближайшие к ним точки и добавляет их в кластер.
Кластеризация K-средних дополнительно определяет две подгруппы:
- Агломеративная кластеризация
- Дендрограмма
Агломеративная кластеризация
Этот тип кластеризации K-средних начинается с фиксированного количества кластеров. Он распределяет все данные по точному количеству кластеров. Этот метод кластеризации не требует количества кластеров K в качестве входных данных. Процесс агломерации начинается с формирования каждых данных в виде единого кластера.
Этот метод использует некоторую меру расстояния, уменьшает количество кластеров (по одному на каждой итерации) путем слияния. Наконец, у нас есть один большой кластер, содержащий все объекты.
Дендрограмма
В методе кластеризации дендрограммы каждый уровень будет представлять собой возможный кластер. Высота дендрограммы показывает уровень сходства между двумя объединенными кластерами. Чем ближе к низу процесса, тем больше схожих кластеров, что является нахождением группы по дендрограмме, что не естественно и по большей части субъективно.
К- Ближайшие соседи
K-ближайший сосед — самый простой из всех классификаторов машинного обучения. Он отличается от других методов машинного обучения тем, что не создает модель. Это простой алгоритм, который сохраняет все доступные случаи и классифицирует новые экземпляры на основе меры сходства.
Это очень хорошо работает, когда между примерами есть расстояние. Скорость обучения низкая, когда обучающая выборка велика, а расчет расстояния нетривиален.
Анализ основных компонентов
На случай, если вам нужно пространство более высокого измерения. Вам нужно выбрать основу для этого пространства и только 200 наиболее важных оценок этой основы. Эта база известна как главный компонент. Выбранное вами подмножество представляет собой новое пространство, которое меньше по размеру по сравнению с исходным пространством. Он сохраняет как можно большую сложность данных.
Фонды и ассоциации
Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных. Этот неконтролируемый метод предназначен для обнаружения интересных взаимосвязей между переменными в больших базах данных. Например, люди, покупающие новый дом, скорее всего, купят новую мебель.
Другие примеры:
- Подгруппа больных раком, сгруппированная по показателям экспрессии генов.
- Группы покупателей на основе их истории посещений и покупок.
- Группа фильмов по рейтингу зрителей
Контролируемое и неконтролируемое машинное обучение
Вот основная разница между Контролируемое и неконтролируемое обучение:
параметры | Метод контролируемого машинного обучения | Техника машинного обучения без учителя |
---|---|---|
Входные данные | Algorithms обучаются с использованием размеченных данных. | Algorithms используются для данных, которые не помечены |
Вычислительная сложность | Обучение под присмотром – более простой метод. | Обучение без учителя является вычислительно сложным |
точность | Очень точный и надежный метод. | Less точный и надежный метод. |
Применение машинного обучения без учителя
Некоторые применения методов обучения без учителя:
- Clusterавтоматическое разделение набора данных на группы на основе их сходства
- Обнаружение аномалий может обнаружить необычные точки данных в вашем наборе данных. Это полезно для обнаружения мошеннических транзакций.
- Анализ ассоциаций идентифицирует наборы элементов, которые часто встречаются вместе в вашем наборе данных.
- Модели со скрытыми переменными широко используются для предварительной обработки данных. Например, уменьшение количества объектов в наборе данных или разложение набора данных на несколько компонентов.
Недостатки обучения без учителя
- Вы не можете получить точную информацию о сортировке данных, а выходные данные, используемые в обучении без учителя, помечены и неизвестны.
- Less точность результатов обусловлена тем, что входные данные заранее неизвестны и не промаркированы людьми. Это означает, что машина требует сделать это сама.
- Спектральные классы не всегда соответствуют информационным классам.
- Пользователю необходимо потратить время на интерпретацию и маркировку классов, соответствующих этой классификации.
- Спектральные свойства классов также могут меняться со временем, поэтому вы не можете иметь одну и ту же информацию о классе при переходе от одного изображения к другому.
Итого
- Обучение без учителя — это метод машинного обучения, при котором вам не нужно контролировать модель.
- Машинное обучение без учителя помогает вам находить в данных всевозможные неизвестные закономерности.
- ClusterОбучение и ассоциация — это два типа обучения без учителя.
- Четыре типа методов кластеризации: 1) Исключительный 2) Агломеративный 3) Перекрывающийся 4) Вероятностный.
- Важными типами кластеризации являются: 1) Иерархическая кластеризация 2) Кластеризация K-средних 3) K-NN 4) Анализ главных компонентов 5) Разложение по сингулярным значениям 6) Анализ независимых компонентов.
- Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных.
- В контролируемом обучении, Algorithms обучаются с использованием размеченных данных во время обучения без учителя Algorithms используются для данных, которые не помечены.
- Обнаружение аномалий может обнаружить важные точки данных в вашем наборе данных, что полезно для обнаружения мошеннических транзакций.
- Самый большой недостаток обучения без учителя заключается в том, что вы не можете получить точную информацию о сортировке данных.