Підручник з інтелектуального аналізу даних: що таке інтелектуальний аналіз даних? Техніка, процес
Що таке інтелектуальний аналіз даних?
Видобуток даних це процес пошуку потенційно корисних шаблонів із величезних наборів даних. Це багатопрофільна навичка, яка використовує навчання за допомогою машини, статистику та ШІ для отримання інформації для оцінки ймовірності майбутніх подій. Статистика, отримана за допомогою аналізу даних, використовується для маркетингу, виявлення шахрайства, наукових відкриттів тощо.
Інтелектуальний аналіз даних — це виявлення прихованих, не підозрюваних і раніше невідомих, але дійсних зв’язків між даними. Інтелектуальний аналіз даних також називається виявленням знань у даних (KDD), вилученням знань, аналізом даних/шаблонів, збором інформації тощо.
Типи даних
Інтелектуальний аналіз даних можна виконувати на таких типах даних
- Реляційні бази даних
- Сховища даних
- Розширені БД та сховища інформації
- Об'єктно-орієнтовані та об'єктно-реляційні бази даних
- Транзакційні та просторові бази даних
- Гетерогенні та застарілі бази даних
- Мультимедійна та потокова база даних
- Текстові бази даних
- Текстовий і веб-майнінг
Процес впровадження інтелектуального аналізу даних
Давайте детально вивчимо процес впровадження Data Mining
Ділове розуміння
На цьому етапі встановлюються бізнес-цілі та цілі аналізу даних.
- По-перше, вам потрібно зрозуміти цілі бізнесу та клієнта. Ви повинні визначити, чого хоче ваш клієнт (про що часто навіть вони самі не знають)
- Перегляньте поточний сценарій інтелектуального аналізу даних. У свою оцінку враховуйте ресурси, припущення, обмеження та інші важливі фактори.
- Використовуючи бізнес-цілі та поточний сценарій, визначте свої цілі інтелектуального аналізу даних.
- Хороший план інтелектуального аналізу даних є дуже детальним, і його слід розробити для досягнення як бізнес-цілей, так і цілей інтелектуального аналізу даних.
Розуміння даних
На цьому етапі виконується перевірка працездатності даних, щоб перевірити, чи відповідають вони цілям інтелектуального аналізу даних.
- По-перше, дані збираються з кількох джерел даних, доступних в організації.
- Ці джерела даних можуть включати численні бази даних, плоский файлер або куби даних. У процесі інтеграції даних можуть виникнути такі проблеми, як зіставлення об’єктів та інтеграція схем. Це досить складний і хитрий процес, оскільки дані з різних джерел навряд чи легко збігаються. Наприклад, таблиця A містить сутність під назвою cust_no, тоді як інша таблиця B містить сутність під назвою cust-id.
- Таким чином, досить важко переконатися, що обидва дані об’єкти посилаються на одне й те саме значення чи ні. Тут метадані слід використовувати для зменшення помилок у процесі інтеграції даних.
- Наступним кроком є пошук властивостей отриманих даних. Хороший спосіб дослідити дані — відповісти на запитання інтелектуального аналізу даних (вирішені на бізнес-фазі) за допомогою інструментів запитів, звітів і візуалізації.
- За результатами запиту слід визначити якість даних. Необхідно отримати відсутні дані, якщо такі є.
Підготовка даних
На цьому етапі дані готові до виробництва.
Процес підготовки даних займає близько 90% часу проекту.
Дані з різних джерел слід вибирати, очищати, трансформувати, форматувати, анонімізувати та створювати (якщо потрібно).
Очищення даних — це процес «очищення» даних шляхом згладжування шумних даних і заповнення пропущених значень.
Наприклад, для демографічного профілю клієнта дані про вік відсутні. Дані неповні, їх необхідно заповнити. У деяких випадках можуть бути викиди даних. Наприклад, вік має значення 300. Дані можуть бути суперечливими. Наприклад, ім'я клієнта в різних таблицях відрізняється.
Операції перетворення даних змінюють дані, щоб зробити їх корисними для аналізу даних. Можна застосувати наступне перетворення
Перетворення даних
Операції перетворення даних сприятимуть успіху процесу видобутку.
Згладжування: Це допомагає прибрати шум із даних.
Агрегування: До даних застосовуються операції зведення або агрегування. Тобто щотижневі дані про продажі агрегуються для розрахунку місячних і річних підсумків.
Узагальнення: На цьому етапі дані низького рівня замінюються концепціями вищого рівня за допомогою ієрархій концепцій. Наприклад, місто замінено на повіт.
Нормалізація: Нормалізація виконується, коли дані атрибутів масштабуються вгору або зменшено. Приклад: дані мають бути в діапазоні від -2.0 до 2.0 після нормалізації.
Побудова атрибутів: ці атрибути створені та включають заданий набір атрибутів, корисних для аналізу даних.
Результатом цього процесу є кінцевий набір даних, який можна використовувати в моделюванні.
моделювання
На цьому етапі математичні моделі використовуються для визначення шаблонів даних.
- Виходячи з бізнес-цілей, слід вибрати відповідні методи моделювання для підготовленого набору даних.
- Створіть сценарій для перевірки якості та валідності моделі.
- Запустіть модель на підготовленому наборі даних.
- Результати повинні бути оцінені всіма зацікавленими сторонами, щоб переконатися, що модель може відповідати цілям аналізу даних.
Оцінка
На цьому етапі ідентифіковані шаблони оцінюються щодо бізнес-цілей.
- Результати, отримані за допомогою моделі інтелектуального аналізу даних, слід оцінювати щодо бізнес-цілей.
- Розуміння бізнесу – це повторюваний процес. Насправді, незважаючи на розуміння, нові бізнес-вимоги можуть бути підвищені через аналіз даних.
- Приймається рішення про переміщення моделі на етапі розгортання.
розгортання
На етапі розгортання ви передаєте свої відкриття інтелектуального аналізу даних у повсякденні бізнес-операції.
- Знання або інформація, виявлені під час процесу інтелектуального аналізу даних, повинні бути легкими для розуміння зацікавленими сторонами, які не мають технічних знань.
- Створено детальний план розгортання для доставки, обслуговування та моніторингу відкриттів інтелектуального аналізу даних.
- Підсумковий звіт про проект створюється із засвоєними уроками та основним досвідом під час проекту. Це допомагає покращити бізнес-політику організації.
Методи аналізу даних
1. Класифікація
Цей аналіз використовується для отримання важливої та актуальної інформації про дані та метадані. Цей метод аналізу даних допомагає класифікувати дані в різних класах.
2. ClusterІНГ
ClusterІнтелектуальний аналіз — це метод інтелектуального аналізу даних для ідентифікації даних, які схожі один на одного. Цей процес допомагає зрозуміти відмінності та схожість між даними.
3. Регресія
Регресійний аналіз – це метод інтелектуального аналізу даних, що дозволяє ідентифікувати та аналізувати зв’язок між змінними. Він використовується для визначення ймовірності певної змінної за наявності інших змінних.
4. Правила асоціації
Цей метод інтелектуального аналізу даних допомагає знайти зв’язок між двома чи більше елементами. Він виявляє прихований шаблон у наборі даних.
5. Зовнішнє виявлення
Цей тип техніки інтелектуального аналізу даних відноситься до спостереження за елементами даних у наборі даних, які не відповідають очікуваній моделі або очікуваній поведінці. Цю техніку можна використовувати в різних сферах, таких як вторгнення, виявлення, шахрайство або виявлення помилок тощо. Зовнішнє виявлення також називають аналізом викидів або аналізом викидів.
6. Послідовні візерунки
Ця техніка інтелектуального аналізу даних допомагає виявити або ідентифікувати подібні моделі або тенденції в даних транзакцій за певний період.
7. Прогнозування
Прогнозування використовує комбінацію інших методів інтелектуального аналізу даних, таких як тенденції, послідовні шаблони, кластеризація, класифікація тощо. Він аналізує минулі події або випадки в правильній послідовності для прогнозування майбутніх подій.
Проблеми впровадження Data Mine
- Для формулювання запитів інтелектуального аналізу даних потрібні кваліфіковані експерти.
- Переобладнання: через малий розмір навчальної бази даних модель може не відповідати майбутнім станам.
- Інтелектуальний аналіз даних потребує великих баз даних, якими іноді важко керувати
- Ділова практика може знадобитися змінити, щоб вирішити використовувати розкриту інформацію.
- Якщо набір даних не різноманітний, результати аналізу даних можуть бути неточними.
- Необхідна інтеграційна інформація з різнорідних баз даних і глобальних інформаційних систем може бути складною
Приклади аналізу даних
Тепер у цьому курсі Data Mining, давайте дізнаємось про Data Mining на прикладах:
Приклад 1:
Розглянемо керівника відділу маркетингу телекомунікаційних послуг, який хоче збільшити доходи від послуг міжміського сполучення. Для отримання високої рентабельності інвестицій у його продажі та маркетингові зусилля важливим є профіль клієнта. У нього є величезний пул даних про клієнтів, як-от вік, стать, дохід, кредитна історія тощо. Але за допомогою ручного аналізу неможливо визначити характеристики людей, які віддають перевагу міжміським дзвінкам. Використовуючи методи інтелектуального аналізу даних, він може виявити закономірності між користувачами міжміських дзвінків та їхніми характеристиками.
Наприклад, він може дізнатися, що його найкращі клієнти — це заміжні жінки віком від 45 до 54 років, які заробляють понад 80,000 XNUMX доларів на рік. Маркетингові зусилля можуть бути спрямовані на таку демографічну групу.
Приклад 2:
Банк хоче знайти нові шляхи збільшення доходів від операцій з кредитними картками. Вони хочуть перевірити, чи подвоїться використання, якщо комісії зменшаться вдвічі.
Банк має багаторічну історію середніх залишків на кредитних картках, сум платежів, використання кредитного ліміту та інших ключових параметрів. Вони створюють модель для перевірки впливу запропонованої нової бізнес-політики. Результати даних показують, що скорочення комісії вдвічі для цільової клієнтської бази може збільшити доходи на 10 мільйонів доларів.
Інструменти інтелектуального аналізу даних
Нижче наведено 2 популярних Інструменти інтелектуального аналізу даних широко використовується в промисловості
R-мова:
мова R це інструмент із відкритим кодом для статистичних обчислень і графіки. R має широкий спектр статистичних, класичних статистичних тестів, аналізу часових рядів, класифікації та графічних методів. Він пропонує ефективну обробку та зберігання даних.
Oracle Видобуток даних:
Oracle Видобуток даних широко відомий як ODM, є модулем Oracle Розширена аналітична база даних. Цей інструмент інтелектуального аналізу даних дозволяє аналітикам даних генерувати детальну інформацію та робити прогнози. Він допомагає передбачити поведінку клієнтів, розробляє профілі клієнтів, визначає можливості перехресних продажів.
Переваги аналізу даних
- Метод інтелектуального аналізу даних допомагає компаніям отримувати інформацію, засновану на знаннях.
- Інтелектуальний аналіз даних допомагає організаціям вносити прибуткові зміни в роботу та виробництво.
- Інтелектуальний аналіз даних є рентабельним і ефективним рішенням порівняно з іншими програмами статистичних даних.
- Інтелектуальний аналіз даних допомагає в процесі прийняття рішень.
- Полегшує автоматичне прогнозування тенденцій і поведінки, а також автоматичне виявлення прихованих закономірностей.
- Він може бути реалізований як у нових системах, так і на існуючих платформах
- Це швидкий процес, який дозволяє користувачам легко аналізувати величезну кількість даних за менший час.
Недоліки Data Mining
- Існує ймовірність того, що компанії можуть продавати корисну інформацію про своїх клієнтів іншим компаніям за гроші. Наприклад, American Express продала покупки кредитними картками своїх клієнтів іншим компаніям.
- Багато аналітичних програм для інтелектуального аналізу даних важко використовувати, і для роботи з ними потрібне попереднє навчання.
- Різні інструменти інтелектуального аналізу даних працюють по-різному через різні алгоритми, використані в їх розробці. Тому вибір правильного інструменту інтелектуального аналізу даних є дуже складним завданням.
- Методи інтелектуального аналізу даних є неточними, тому за певних умов це може призвести до серйозних наслідків.
Програми інтелектуального аналізу даних
додатків | Використання |
---|---|
зв'язку | Методи інтелектуального аналізу даних використовуються в секторі комунікацій, щоб передбачити поведінку клієнтів, щоб запропонувати високоцільові та релевантні кампанії. |
Страхування | Інтелектуальний аналіз даних допомагає страховим компаніям вигідно оцінювати свої продукти та рекламувати нові пропозиції своїм новим або існуючим клієнтам. |
Освіта | Інтелектуальний аналіз даних допомагає викладачам отримувати доступ до даних студентів, прогнозувати рівень успішності та знаходити студентів або групи студентів, які потребують додаткової уваги. Наприклад, учні, які мають слабкі знання з математики. |
Manufacturing | За допомогою інтелектуального аналізу даних виробники можуть прогнозувати знос виробничих активів. Вони можуть передбачити технічне обслуговування, що допомагає їм скоротити їх і мінімізувати час простою. |
Banking | Інтелектуальний аналіз даних допомагає фінансовому сектору отримати уявлення про ринкові ризики та керувати дотриманням нормативних вимог. Він допомагає банкам виявити ймовірних неплатників для прийняття рішення про видачу кредитних карток, кредитів тощо. |
Роздрібна торгівля | Технології інтелектуального аналізу даних допомагають роздрібним торговим центрам і продуктовим магазинам визначати та розташовувати найпопулярніші товари в найбільш уважних позиціях. Це допомагає власникам магазинів придумати пропозицію, яка спонукає клієнтів збільшити свої витрати. |
Постачальники послуг | Такі постачальники послуг, як мобільні телефони та комунальні послуги, використовують інтелектуальний аналіз даних, щоб передбачити причини, коли клієнт залишає їхню компанію. Вони аналізують платіжні реквізити, взаємодію зі службою обслуговування клієнтів, скарги, подані компанії, щоб призначити кожному клієнту оцінку ймовірності та пропонують заохочення. |
Електронна комерція | Веб-сайти електронної комерції використовують інтелектуальний аналіз даних, щоб пропонувати перехресні та додаткові продажі через свої веб-сайти. Одним із найвідоміших імен є Amazon, які використовують методи аналізу даних, щоб залучити більше клієнтів у свій магазин електронної комерції. |
Супер ринки | Інтелектуальний аналіз даних дозволяє розробити правила супермаркетів, щоб передбачити, чи очікують їх покупці. Оцінюючи їхню модель купівлі, вони могли знайти клієнтів-жінок, які, швидше за все, вагітні. Вони можуть почати орієнтуватися на такі продукти, як дитяча присипка, дитячий магазин, підгузки тощо. |
Розслідування злочинів | Інтелектуальний аналіз даних допомагає агентствам з розслідування злочинів розгортати поліцейських (де найбільш ймовірно станеться злочин і коли?), кого шукати на перетині кордону тощо. |
біоінформатика | Інтелектуальний аналіз даних допомагає отримувати біологічні дані з масивних наборів даних, зібраних у біології та медицині. |
Підсумки
- Визначення інтелектуального аналізу даних. Інтелектуальний аналіз даних — це пояснення минулого та передбачення майбутнього за допомогою Аналіз даних.
- Інтелектуальний аналіз даних допомагає отримувати інформацію з величезних масивів даних. Це процедура отримання знань із даних.
- Процес інтелектуального аналізу даних включає розуміння бізнесу, розуміння даних, підготовку даних, моделювання, еволюцію, розгортання.
- Важливі методи аналізу даних: класифікація, кластеризація, регресія, правила асоціації, зовнішнє виявлення, послідовні шаблони та прогнозування
- R-мова та Oracle Інтелектуальний аналіз даних є відомими інструментами та методами інтелектуального аналізу даних.
- Метод інтелектуального аналізу даних допомагає компаніям отримувати інформацію, засновану на знаннях.
- Головним недоліком інтелектуального аналізу даних є те, що багатьма аналітичними програмами важко працювати, і для роботи з ними потрібна попередня підготовка.
- Інтелектуальний аналіз даних використовується в різних галузях, таких як зв’язок, страхування, освіта, виробництво, банківська справа, роздрібна торгівля, постачальники послуг, електронна комерція, супермаркети, біоінформатика.