Підручник з машинного навчання для початківців: що таке, основи ML

Що таке машинне навчання?

машинне навчання це система комп’ютерних алгоритмів, які можуть вчитися на прикладі шляхом самовдосконалення без явного кодування програмістом. Машинне навчання — це частина штучного інтелекту, яка поєднує дані зі статистичними інструментами для прогнозування результатів, які можна використовувати для отримання корисних ідей.

Прорив пов’язаний з ідеєю, що машина може самостійно вчитися на даних (тобто прикладі), щоб отримати точні результати. Машинне навчання тісно пов’язане з інтелектуальним аналізом даних і байєсівським прогнозним моделюванням. Машина отримує дані як вхідні дані та використовує алгоритм для формулювання відповідей.

Типовими завданнями машинного навчання є надання рекомендацій. Для тих, хто має a Netflix обліковий запис, усі рекомендації фільмів чи серіалів базуються на історичних даних користувача. Технічні компанії використовують непідконтрольне навчання щоб покращити взаємодію з користувачем за допомогою персоналізованих рекомендацій.

Машинне навчання також використовується для різноманітних завдань, таких як виявлення шахрайства, прогнозне обслуговування, оптимізація портфоліо, автоматизація завдань тощо.

Машинне навчання проти традиційного програмування

Традиційне програмування суттєво відрізняється від машинного навчання. У традиційному програмуванні програміст кодує всі правила, консультуючись із експертом у галузі, для якої розробляється програмне забезпечення. Кожне правило базується на логічній основі; машина виконає вихід після логічного оператора. Коли система ускладнюється, потрібно писати більше правил. Це може швидко стати непридатним для обслуговування.

Традиційне програмування
Традиційне програмування

Передбачається, що машинне навчання подолає цю проблему. Машина дізнається, як співвідносяться вхідні та вихідні дані, і пише правило. Програмістам не потрібно писати нові правила щоразу, коли з’являються нові дані. Алгоритми адаптуються до нових даних і досвіду, щоб з часом підвищити ефективність.

машинне навчання

машинне навчання

Як працює машинне навчання?

Тепер у цьому підручнику з основ машинного навчання для початківців ми дізнаємося, як працює машинне навчання (ML):

Машинне навчання – це мозок, у якому відбувається все навчання. Те, як машина навчається, подібне до людини. Люди вчаться на досвіді. Чим більше ми знаємо, тим легше нам передбачити. За аналогією, коли ми стикаємося з невідомою ситуацією, ймовірність успіху нижча, ніж у відомій ситуації. Машини навчені однаково. Щоб зробити точний прогноз, машина бачить приклад. Коли ми даємо машині подібний приклад, вона може визначити результат. Однак, як і людині, якщо її подати раніше небачений приклад, машині важко передбачити.

Основною метою машинного навчання є вивчення та умовивод. Перш за все, машина навчається через виявлення закономірностей. Це відкриття зроблено завдяки дані. Однією з ключових частин роботи спеціаліста з обробки даних є ретельний вибір даних, які надавати машині. Список атрибутів, які використовуються для вирішення проблеми, називається a вектор ознак. Ви можете розглядати вектор ознак як підмножину даних, яка використовується для вирішення проблеми.

Машина використовує деякі химерні алгоритми, щоб спростити реальність і перетворити це відкриття в модель. Тому етап навчання використовується для опису даних і узагальнення їх у модель.

Робота з машинного навчання

Наприклад, машина намагається зрозуміти зв’язок між заробітною платою індивіда та ймовірністю відвідати шикарний ресторан. Виявляється, машина знаходить позитивний зв’язок між зарплатою та відвідуванням елітного ресторану: це модель

Роблячи висновок

Коли модель побудована, можна перевірити, наскільки вона потужна, на даних, які ніколи не бачили раніше. Нові дані перетворюються у вектор ознак, проходять через модель і дають прогноз. Це все прекрасна частина машинного навчання. Немає потреби оновлювати правила чи знову навчати модель. Ви можете використовувати попередньо навчену модель, щоб зробити висновки на основі нових даних.

Висновок з моделі

Життя програм машинного навчання є простим і може бути підсумовано такими пунктами:

  1. Визначте питання
  2. Збір даних
  3. Візуалізуйте дані
  4. Алгоритм навчання
  5. Перевірте алгоритм
  6. Збирайте відгуки
  7. Уточніть алгоритм
  8. Петля 4-7, поки результати не будуть задовільними
  9. Використовуйте модель, щоб зробити прогноз

Коли алгоритм робить правильні висновки, він застосовує ці знання до нових наборів даних.

машинне навчання Algorithms і де вони використовуються?

Тепер у цьому посібнику з машинного навчання для початківців ми дізнаємося, де використовуються алгоритми машинного навчання (ML):

машинне навчання Algorithms

навчання за допомогою машини Algorithms

Машинне навчання можна згрупувати в два широкі навчальні завдання: контрольоване та неконтрольоване. Існує багато інших алгоритмів

Контрольоване навчання

Алгоритм використовує навчальні дані та зворотній зв’язок від людей, щоб дізнатися про зв’язок заданих вхідних даних із заданим виходом. Наприклад, практик може використовувати маркетингові витрати та прогноз погоди як вхідні дані для прогнозування продажів банок.

Ви можете використовувати контрольоване навчання, коли вихідні дані відомі. Алгоритм буде передбачати нові дані.

Існує дві категорії контрольоване навчання:

  • Класифікаційне завдання
  • Регресійна задача

Класифікація

Уявіть, що ви хочете передбачити стать клієнта для реклами. Ви почнете збирати дані про зріст, вагу, роботу, зарплату, кошик для покупок тощо з бази даних клієнтів. Ви знаєте стать кожного свого клієнта, це може бути тільки чоловік або жінка. Мета класифікатора полягатиме в тому, щоб визначити ймовірність бути чоловіком або жінкою (тобто мітку) на основі інформації (тобто ознак, які ви зібрали). Коли модель навчиться розпізнавати самця чи самку, ви зможете використовувати нові дані, щоб зробити прогноз. Наприклад, ви щойно отримали нову інформацію від невідомого клієнта і хочете знати, чоловік це чи жінка. Якщо класифікатор передбачає чоловік = 70%, це означає, що алгоритм на 70% впевнений, що цей клієнт є чоловіком, і на 30% це жінка.

Мітка може мати два або більше класів. Наведений вище приклад машинного навчання має лише два класи, але якщо класифікатору потрібно передбачити об’єкт, він має десятки класів (наприклад, скло, стіл, взуття тощо. Кожен об’єкт представляє клас)

Регресія

Коли результат є безперервним значенням, завдання є регресією. Наприклад, фінансовому аналітику може знадобитися спрогнозувати вартість акцій на основі ряду характеристик, таких як капітал, попередні показники акцій, макроекономічний індекс. Система буде навчена оцінювати ціну акцій з найменшою можливою похибкою.

Алгоритм Описи конструкції тип
Лінійна регресія Знаходить спосіб співвіднести кожну функцію з результатом, щоб допомогти передбачити майбутні значення. Регресія
Логістична регресія Розширення лінійної регресії, яке використовується для класифікаційних завдань. Вихідна змінна 3 є двійковою (наприклад, тільки чорний або білий), а не постійною (наприклад, нескінченний список потенційних кольорів) Класифікація
Дерево рішень Класифікація або регресійна модель, яка добре інтерпретується, розбиває значення ознак даних на гілки у вузлах прийняття рішень (наприклад, якщо ознака є кольором, кожен можливий колір стає новою гілкою), доки не буде прийнято остаточне рішення. Регресія
Класифікація
Наївні Баєси Метод Байєса — це метод класифікації, який використовує теорему Байєса. Теорема оновлює попередні знання про подію незалежною ймовірністю кожної функції, яка може вплинути на подію. Регресія
Класифікація
Підтримка векторної машини
Машина опорних векторів, або SVM, зазвичай використовується для завдання класифікації.
Алгоритм SVM знаходить гіперплощину, яка оптимально розділила класи. Його найкраще використовувати з нелінійним розв’язувачем.
Регрес (не дуже часто)
Класифікація
Випадковий ліс Алгоритм побудовано на дереві рішень для значного підвищення точності. Випадковий ліс генерує кілька простих дерев рішень і використовує метод «більшості голосів», щоб вирішити, яку мітку повернути. Для класифікаційного завдання остаточним прогнозом буде той, який набере найбільшу кількість голосів; тоді як для задачі регресії середнє передбачення всіх дерев є остаточним прогнозом. Регресія
Класифікація
AdaBoost Техніка класифікації або регресії, яка використовує безліч моделей для прийняття рішення, але зважує їх на основі їхньої точності в прогнозуванні результату Регресія
Класифікація
Дерева, що підвищують градієнт Дерева з посиленням градієнта — це сучасний метод класифікації/регресії. Він зосереджується на помилці, допущеній попередніми деревами, і намагається її виправити. Регресія
Класифікація

Непідконтрольне навчання

У неконтрольованому навчанні алгоритм досліджує вхідні дані, не отримавши явної вихідної змінної (наприклад, досліджує демографічні дані клієнтів для виявлення шаблонів)

Ви можете використовувати його, коли ви не знаєте, як класифікувати дані, і хочете, щоб алгоритм знаходив закономірності та класифікував дані за вас

Назва алгоритму Описи конструкції тип
K-означає кластеризацію Розміщує дані в декілька груп (k), кожна з яких містить дані зі схожими характеристиками (як визначено моделлю, а не заздалегідь людьми) ClusterІНГ
Модель суміші Гауса Узагальнення кластеризації k-середніх, що забезпечує більшу гнучкість у розмірі та формі груп (кластерів) ClusterІНГ
Ієрархічна кластеризація Розділяє кластери вздовж ієрархічного дерева для формування системи класифікації.

Може бути використаний для Cluster клієнт картки постійного клієнта

ClusterІНГ
Система рекомендацій Допоможіть визначити відповідні дані для надання рекомендації. ClusterІНГ
PCA/T-SNE Здебільшого використовується для зменшення розмірності даних. Алгоритми зменшують кількість ознак до 3 або 4 векторів з найвищими дисперсіями. Зменшення розмірів

Як вибрати алгоритм машинного навчання

У цьому навчальному посібнику з основ машинного навчання ми дізнаємося, як вибрати алгоритм машинного навчання (ML):

Існує багато алгоритмів машинного навчання. Вибір алгоритму базується на меті.

У наведеному нижче прикладі машинного навчання завдання полягає в тому, щоб передбачити тип квітки серед трьох сортів. Прогнози базуються на довжині та ширині пелюстки. На малюнку зображені результати десяти різних алгоритмів. Зображення вгорі ліворуч - це набір даних. Дані класифікуються за трьома категоріями: червоні, світло-сині та темно-сині. Є деякі групування. Наприклад, на другому зображенні все у верхньому лівому куті належить до червоної категорії, у середній частині є суміш невизначеності та світло-блакитного, тоді як нижня частина відповідає темній категорії. Інші зображення показують різні алгоритми та те, як вони намагаються класифікувати дані.

Як вибрати алгоритм машинного навчання

Проблеми та обмеження машинного навчання

У цьому посібнику з машинного навчання ми дізнаємося про обмеження машинного навчання:

Основною проблемою машинного навчання є відсутність даних або їх різноманітність. Машина не може навчатися, якщо немає доступних даних. Крім того, набір даних із недостатньою різноманітністю заважає машині. Машина повинна мати неоднорідність, щоб навчитися значущому розумінню. Рідко алгоритм може витягти інформацію, коли варіантів немає або їх мало. Рекомендується мати щонайменше 20 спостережень на групу, щоб допомогти машині навчитися. Це обмеження призводить до поганої оцінки та прогнозування.

Застосування машинного навчання

Тепер у цьому підручнику з машинного навчання розглянемо застосування машинного навчання:

Збільшення:

  • Машинне навчання, яке допомагає людям виконувати повсякденні завдання, особисто чи комерційно, не маючи повного контролю над результатом. Таке машинне навчання використовується різними способами, наприклад віртуальний помічник, аналіз даних, програмні рішення. Основним користувачем є зменшення помилок через упередженість людини.

Автоматизація:

  • Машинне навчання, яке працює повністю автономно в будь-якій сфері без необхідності втручання людини. Наприклад, роботи, які виконують основні етапи процесу на виробничих підприємствах.

Фінансова галузь

  • Машинне навчання стає все популярнішим у фінансовій галузі. Банки в основному використовують машинне навчання для пошуку закономірностей у даних, а також для запобігання шахрайству.

Урядова організація

  • Уряд використовує ML для управління громадською безпекою та комунальними послугами. Візьмемо приклад Китаю з масовим розпізнаванням облич. Влада використовує штучний інтелект щоб запобігти jaywalker.

Медична галузь

  • Охорона здоров’я була однією з перших галузей, яка використовувала машинне навчання з розпізнаванням зображень.

Маркетинг

  • ШІ широко використовується в маркетингу завдяки великому доступу до даних. До епохи масових даних дослідники розробили передові математичні інструменти, такі як байєсівський аналіз, щоб оцінити цінність клієнта. З розвитком даних відділ маркетингу покладається на штучний інтелект для оптимізації відносин із клієнтами та маркетингової кампанії.

Приклад застосування машинного навчання в ланцюзі поставок

Машинне навчання дає чудові результати для візуального розпізнавання образів, відкриваючи багато потенційних застосувань у фізичній перевірці та обслуговуванні всієї мережі постачання.

Навчання без нагляду може швидко шукати порівнювані шаблони в різноманітному наборі даних. У свою чергу, машина може виконувати перевірку якості в усьому логістичному центрі, відправлення з пошкодженнями та зносом.

Так, наприклад, IBMПлатформа Watson може визначити пошкодження транспортних контейнерів. Watson поєднує візуальні та системні дані для відстеження, звітування та надання рекомендацій у режимі реального часу.

Минулого року менеджер із запасів широко покладався на основний метод для оцінки та прогнозування запасів. При поєднанні великих даних і машинного навчання було реалізовано кращі методи прогнозування (поліпшення на 20–30 % у порівнянні з традиційними інструментами прогнозування). З точки зору продажів це означає збільшення від 2 до 3 % за рахунок потенційного зниження витрат на запаси.

Приклад машинного навчання Google Car

Наприклад, всі знають машину Google. Автомобіль укомплектований лазерами на даху, які повідомляють, де він знаходиться відносно навколишньої території. Він має радар спереду, який інформує автомобіль про швидкість і рух усіх автомобілів навколо нього. Він використовує всі ці дані, щоб з’ясувати не лише те, як керувати автомобілем, але й визначити та передбачити, що збираються робити потенційні водії навколо автомобіля. Вражає те, що автомобіль обробляє майже гігабайт даних за секунду.

Застосування машинного навчання

Чому машинне навчання важливе?

Машинне навчання наразі є найкращим інструментом для аналізу, розуміння та виявлення закономірностей у даних. Однією з основних ідей машинного навчання є те, що комп’ютер можна навчити автоматизувати завдання, які були б виснажливими або неможливими для людини. Явним порушенням традиційного аналізу є те, що машинне навчання може приймати рішення з мінімальним втручанням людини.

Візьміть наступний приклад для цього посібника з ML; роздрібний агент може оцінити ціну будинку, виходячи з власного досвіду та знання ринку.

Машину можна навчити перетворювати знання експерта на функції. Характеристики — це всі характеристики будинку, району, економічного середовища тощо, які визначають різницю в ціні. Експерту, напевно, знадобилося кілька років, щоб оволодіти мистецтвом оцінки вартості будинку. Його досвід стає все кращим і кращим після кожного продажу.

Машині потрібні мільйони даних (тобто прикладів), щоб освоїти це мистецтво. На самому початку навчання машина робить помилку, як молодший продавець. Коли машина перегляне весь приклад, вона отримає достатньо знань, щоб зробити свою оцінку. При цьому з неймовірною точністю. Машина також здатна відповідно регулювати свою помилку.

Більшість великих компаній зрозуміли цінність машинного навчання та зберігання даних. За оцінками McKinsey, цінність аналітики коливається від $9.5 трлн $15.4 трлн $Від 5 до 7 трильйонів можна віднести до найдосконаліших технологій ШІ.

Читайте також Що таке нечітка логіка? Archiтектура, застосування та приклад: Натисніть тут