Учебник по машинному обучению для начинающих: что такое, основы машинного обучения

Что такое машинное обучение?

Машинное обучение это система компьютера algorithms которые могут учиться на примерах путем самосовершенствования без явного написания кода программистом. Машинное обучение — это часть искусственного интеллекта, которая объединяет данные со статистическими инструментами для прогнозирования результатов, которые можно использовать для получения практической информации.

Прорыв связан с идеей о том, что машина может обучаться на основе данных (т. е. примеров) исключительно для получения точных результатов. Машинное обучение тесно связано с интеллектуальным анализом данных и байесовским прогнозным моделированием. Машина получает данные в качестве входных данных и использует алгоритм для формулирования ответов.

Типичная задача машинного обучения — предоставление рекомендаций. Для тех, у кого есть Netflix аккаунте все рекомендации фильмов или сериалов основаны на исторических данных пользователя. Технологические компании используют неконтролируемое обучение чтобы улучшить пользовательский опыт с помощью персонализированных рекомендаций.

Машинное обучение также используется для решения различных задач, таких как обнаружение мошенничества, прогнозное обслуживание, оптимизация портфеля, автоматизация задач и т. д.

Машинное обучение против традиционного программирования

Традиционное программирование существенно отличается от машинного обучения. В традиционном программировании программист пишет все правила по согласованию с экспертом в отрасли, для которой разрабатывается программное обеспечение. Каждое правило основано на логическом foundation; машина выполнит выводwing логическое утверждение. Когда система растетplex, нужно написать больше правил. Его обслуживание может быстро стать неприемлемым.

Традиционное программирование
Традиционное программирование

Машинное обучение должно решить эту проблему. Машина узнает, как коррелируют входные и выходные данные, и пишет правило. Программистам не нужно писать новые правила каждый раз, когда появляются новые данные. algorithms адаптироваться в ответ на новые данные и опыт для повышения эффективности с течением времени.

Машинное обучение

Машинное обучение

Как работает машинное обучение?

Теперь в этом уроке «Основы машинного обучения для начинающих» мы узнаем, как работает машинное обучение (ML):

Машинное обучение — это мозг, в котором происходит все обучение. Способ обучения машины аналогичен способу обучения человека. Люди учатся на опыте. Чем больше мы знаем, тем легче нам прогнозировать. По аналогии, когда мы сталкиваемся с неизвестной ситуацией, вероятность успеха ниже, чем в известной ситуации. Машины обучаются одинаково. Чтобы сделать точный прогноз, машина видит пример. Если мы дадим машине аналогичный пример, она сможет определить результат. Однако, как и человеку, если ему подать ранее невиданный пример, машине будет трудно его предсказать.

Основная цель машинного обучения – изучение и вывод. Прежде всего, машина учится через обнаружение закономерностей. Это открытие сделано благодаря данным. Одна из важнейших задач специалиста по данным — тщательно выбирать, какие данные предоставлять машине. Список атрибутов, используемых для решения проблемы, называется вектор признаков. Вы можете думать о векторе признаков как о подмножестве данных, которое используется для решения проблемы.

Машина использует некоторые фантазии algorithms упростить реальность и превратить это открытие в модель. Поэтому этап обучения используется для описания данных и суммированияmarize это в модель.

Машинное обучение

Например, машина пытается понять взаимосвязь между заработной платой человека и вероятностью пойти в модный ресторан. Оказывается, машина обнаруживает положительную связь между заработной платой и посещением дорогого ресторана: это модель

вывод

Когда модель построена, можно проверить ее эффективность на ранее не встречавшихся данных. Новые данные преобразуются в вектор признаков, проходят через модель и дают прогноз. Это прекрасная часть машинного обучения. Нет необходимости обновлять правила или заново обучать модель. Вы можете использовать ранее обученную модель, чтобы делать выводы на основе новых данных.

Вывод из модели

Жизнь программ машинного обучения проста и ее можно сложитьmariЗед в следующемwing точки:

  1. Определить вопрос
  2. Собирать данные
  3. Визуализировать данные
  4. Алгоритм обучения
  5. Проверьте алгоритм
  6. Собирайте отзывы
  7. Уточнить алгоритм
  8. Цикл 4–7, пока результаты не будут удовлетворительными.
  9. Используйте модель для прогнозирования

Как только алгоритм научится рисоватьwing правильные выводы, он применяет эти знания к новым наборам данных.

Машинное обучение Algorithms и где они используются?

Теперь в этом руководстве по машинному обучению для начинающих мы узнаем, где машинное обучение (ML) algorithms используются:

Машинное обучение Algorithms

Машинное обучение Algorithms

Машинное обучение можно сгруппировать в две широкие задачи обучения: контролируемое и неконтролируемое. Есть много других algorithms

Контролируемое обучение

Алгоритм использует обучающие данные и обратную связь от людей, чтобы изучить взаимосвязь данных входных данных с заданными выходными данными. Например, практикующий специалист может использовать маркетинговые расходы и прогноз погоды в качестве входных данных для прогнозирования продаж банок.

Вы можете использовать обучение с учителем, когда выходные данные известны. Алгоритм будет прогнозировать новые данные.

Есть две категории контролируемое обучение:

  • Задача классификации
  • Задача регрессии

классификация

Представьте, что вы хотите предсказать пол покупателя рекламного ролика. Вы начнете собирать данные о росте, весе, работе, зарплате, корзине покупок и т. д. из своей базы данных клиентов. Вы знаете пол каждого вашего клиента, он может быть только мужчиной или женщиной. Целью классификатора будет присвоение вероятности быть мужчиной или женщиной (т. е. метка) на основе информации (т. е. собранных вами признаков). Когда модель научится распознавать мужчину или женщину, вы сможете использовать новые данные для прогнозирования. Например, вы только что получили новую информацию от неизвестного клиента и хотите знать, мужчина это или женщина. Если классификатор предсказывает, что мужчина = 70%, это означает, что алгоритм на 70% уверен, что этот клиент — мужчина, а на 30% — женщина.

Метка может относиться к двум или более классам. В приведенном выше примере машинного обучения есть только два класса, но если классификатору необходимо предсказать объект, он имеет десятки классов (например, стекло, стол, обувь и т. д. каждый объект представляет класс).

Регрессия

Если выходные данные представляют собой непрерывное значение, задача представляет собой регрессию. Например, финансовому аналитику может потребоваться спрогнозировать стоимость акции на основе ряда характеристик, таких как капитал, предыдущие результаты акций, макроэкономический индекс. Система будет обучена оценивать цену акций с минимально возможной ошибкой.

Алгоритм Описание Тип
Линейная регрессия Находит способ сопоставить каждую функцию с выходными данными, чтобы помочь спрогнозировать будущие значения. Регрессия
Логистическая регрессия Расширение линейной регрессии, используемое для задач классификации. Выходная переменная 3 является двоичной (например, только черный или белый), а не непрерывной (например, бесконечный список возможных цветов). классификация
Древо решений Легко интерпретируемая модель классификации или регрессии, которая разбивает значения признаков данных на ветви в узлах принятия решений (например, если признак является цветом, каждый возможный цвет становится новой ветвью) до тех пор, пока не будет принято окончательное решение. Регрессия
классификация
Наивный байесовский Байесовский метод — это метод классификации, в котором используется теорема Байеса. Теорема обновляет априорные знания о событии независимой вероятностью каждого признака, который может повлиять на событие. Регрессия
классификация
Машина опорных векторов
Машина опорных векторов, или SVM, обычно используется для задачи классификации.
Алгоритм SVM находит гиперплоскость, которая оптимально разделяет классы. Его лучше всего использовать с нелинейным решателем.
Регрессия (не очень часто)
классификация
Случайный лес Алгоритм построен на дереве решений, что значительно повышает точность. Случайный лес генерирует множество простых деревьев решений и использует метод «голосования большинства», чтобы решить, какую метку вернуть. Для задачи классификации окончательным прогнозом будет тот, который наберет наибольшее количество голосов; в то время как для задачи регрессии средний прогноз всех деревьев является окончательным прогнозом. Регрессия
классификация
АдаБуст Метод классификации или регрессии, который использует множество моделей для принятия решения, но взвешивает их на основе их точности при прогнозировании результата. Регрессия
классификация
Деревья с усилением градиента Деревья с градиентным усилением — это современный метод классификации/регрессии. Он концентрирует внимание на ошибке, допущенной предыдущими деревьями, и пытается ее исправить. Регрессия
классификация

Неконтролируемое обучение

При обучении без учителя алгоритм исследует входные данные без указания явной выходной переменной (например, исследует демографические данные клиентов для выявления закономерностей).

Вы можете использовать его, когда не знаете, как классифицировать данные, и хотите, чтобы алгоритм находил закономерности и классифицировал данные за вас.

Имя алгоритма Описание Тип
K-средних clusterИНГ Помещает данные в несколько групп (k), каждая из которых содержит данные со схожими характеристиками (как определено моделью, а не людьми заранее). ClusterИНГ
Модель смеси Гаусса Обобщение k-средних clusterЭто обеспечивает большую гибкость в размере и форме групп (clusters) ClusterИНГ
здесьarchiизвесть clusterИНГ расколы clusterвдоль холмаarchiдерево калибровок для формирования системы классификации.

Может быть использован для Cluster клиент карты лояльности

ClusterИНГ
Рекомендательная система Помогите определить соответствующие данные для вынесения рекомендаций. ClusterИНГ
ПСА/Т-СНЭ В основном используется для уменьшения размерности данных. algorithms сократите количество признаков до 3 или 4 векторов с наибольшими дисперсиями. Уменьшение размеров

Как выбрать алгоритм машинного обучения

Теперь в этом руководстве по основам машинного обучения мы узнаем, как выбрать алгоритм машинного обучения (ML):

Существует много машинного обучения algorithms. Выбор алгоритма зависит от поставленной цели.

В приведенном ниже примере машинного обучения задача состоит в том, чтобы предсказать тип цветка среди трех разновидностей. Прогнозы основаны на длине и ширине лепестка. На картинке изображены результаты десяти различных algorithms. Изображение в левом верхнем углу — это набор данных. Данные разделены на три категории: красный, светло-синий и темно-синий. Есть некоторые группировки. Например, на втором изображении все, что находится в левом верхнем углу, относится к красной категории, в средней части — смесь неопределенности и светло-голубого, а нижняя часть соответствует темной категории. На других изображениях другое algorithms и как они пытаются классифицировать данные.

Как выбрать алгоритм машинного обучения

Проблемы и ограничения машинного обучения

Теперь в этом руководстве по машинному обучению мы узнаем об ограничениях машинного обучения:

Основная проблема машинного обучения — нехватка данных или разнообразие набора данных. Машина не может учиться, если нет доступных данных. Кроме того, набор данных с недостатком разнообразия усложняет работу машины. Чтобы получить осмысленную информацию, машина должна обладать неоднородностью. Алгоритм редко может извлечь информацию, когда вариантов нет или мало. Рекомендуется иметь не менее 20 наблюдений на группу, чтобы помочь машине учиться. Это ограничение приводит к плохой оценке и прогнозированию.

Применение машинного обучения

Теперь в этом руководстве по машинному обучению давайте изучим применение машинного обучения:

увеличение:

  • Машинное обучение, которое помогает людям выполнять повседневные задачи лично или в коммерческих целях, не имея при этом полного контроля над результатами. Такое машинное обучение используется по-разному, например, в виртуальном помощнике, анализе данных, программных решениях. Основной пользователь должен уменьшить количество ошибок из-за человеческой предвзятости.

автоматизация:

  • Машинное обучение, которое работает полностью автономно в любой области без необходимости вмешательства человека. Например, роботы, выполняющие основные технологические этапы на производственных предприятиях.

Финансовая промышленность

  • Машинное обучение растетwing популярности в финансовой индустрии. Банки в основном используют МО для поиска закономерностей в данных, а также для предотвращения мошенничества.

Государственная организация

  • Правительство использует ОД для управления общественной безопасностью и коммунальными услугами. Возьмем пример Китая с массовым распознаванием лиц. Правительство использует искусственный интеллект чтобы предотвратить пешехода.

Индустрия здравоохранения

  • Здравоохранение было одной из первых отраслей, применивших машинное обучение для обнаружения изображений.

Маркетинг

  • Широкое использование ИИ в маркетинге осуществляется благодаря широкому доступу к данным. До эпохи массовых данных исследователи разрабатывали передовые математические инструменты, такие как байесовский анализ, для оценки ценности клиента. В условиях растущего объема данных отдел маркетинга полагается на искусственный интеллект для оптимизации отношений с клиентами и маркетинговой кампании.

Пример применения машинного обучения в цепочке поставок

Машинное обучение дает потрясающие результаты в визуальном распознавании образов, открывая множество потенциальных приложений для физического контроля и обслуживания во всей сети цепочки поставок.

Обучение без учителя позволяет быстро найти сопоставимые закономерности в разнообразном наборе данных. В свою очередь, машина может выполнять проверку качества по всему логистическому узлу, отгрузку с повреждениями и износом.

Например, IBMПлатформа Watson компании Watson может определять повреждения транспортных контейнеров. Watson объединяет визуальные и системные данные для отслеживания, составления отчетов и выдачи рекомендаций в режиме реального времени.

В прошлом году менеджер по запасам широко полагался на основной метод оценки и прогнозирования запасов. При сочетании больших данных и машинного обучения были реализованы более совершенные методы прогнозирования (улучшение на 20–30 % по сравнению с традиционными инструментами прогнозирования). С точки зрения продаж это означает увеличение на 2–3 % за счет потенциального снижения затрат на складские запасы.

Пример машинного обучения Google Car

Например, все знают автомобиль Google. На крыше автомобиля полно лазеров, которые сообщают ему, где он находится относительно окружающей местности. В передней части имеется радар, который информирует машину о скорости и движении всех машин вокруг нее. Он использует все эти данные, чтобы выяснить не только, как управлять автомобилем, но также выяснить и предсказать, что собираются делать потенциальные водители рядом с автомобилем. Что впечатляет, так это то, что автомобиль обрабатывает почти гигабайт данных в секунду.

Применение машинного обучения

Почему машинное обучение важно?

Машинное обучение на сегодняшний день является лучшим инструментом для анализа, понимания и выявления закономерностей в данных. Одна из основных идей машинного обучения заключается в том, что компьютер можно научить автоматизировать задачи, которые были бы утомительны или невыполнимы для человека. Явным нарушением традиционного анализа является то, что машинное обучение может принимать решения с минимальным вмешательством человека.

Возьми следующееwing пример для этого руководства по машинному обучению; розничный агент может оценить цену дома, основываясь на своем собственном опыте и знании рынка.

Машину можно обучить переводить знания эксперта в функции. Характеристики — это все характеристики дома, района, экономической среды и т. д., которые определяют разницу в цене. Эксперту, вероятно, потребовалось несколько лет, чтобы овладеть искусством оценки цены дома. Его опыт становится все лучше и лучше после каждой продажи.

Чтобы овладеть этим искусством, машине требуются миллионы данных (т. е. примеров). В самом начале своего обучения машина допускает ошибку, как и младший продавец. Как только машина увидит весь пример, она получит достаточно знаний, чтобы сделать оценку. При этом с невероятной точностью. Машина также может соответствующим образом скорректировать свою ошибку.

Большинство крупных компаний осознали ценность машинного обучения и хранения данных. По оценкам McKinsey, ценность аналитики колеблется от $9.5 трлн. $15.4 трлн в то время как $От 5 до 7 триллионов можно отнести на счет самых передовых технологий искусственного интеллекта.

Читайте также: Что такое нечеткая логика? Archiтектура, применение и пример: Кликните сюда