Учебное пособие по интеллектуальному анализу данных: что такое интеллектуальный анализ данных? Техники, Процесс
Что такое интеллектуальный анализ данных?
Добыча данных — это процесс поиска потенциально полезных закономерностей в огромных наборах данных. Это междисциплинарный навык, который использует обучение с помощью машины, статистика и искусственный интеллект для извлечения информации и оценки вероятности будущих событий. Информация, полученная в результате интеллектуального анализа данных, используется для маркетинга, обнаружения мошенничества, научных открытий и т. д.
Интеллектуальный анализ данных – это обнаружение скрытых, неожиданных и ранее неизвестных, но достоверных взаимосвязей между данными. Интеллектуальный анализ данных также называется обнаружением знаний в данных (KDD), извлечением знаний, анализом данных/шаблонов, сбором информации и т. д.
Типы данных
Интеллектуальный анализ данных может выполняться для следующих типов данных.
- Реляционные базы данных
- Хранилища данных
- Расширенные БД и хранилища информации
- Объектно-ориентированные и объектно-реляционные базы данных
- Транзакционные и пространственные базы данных
- Гетерогенные и устаревшие базы данных
- Мультимедийная и потоковая база данных
- Текстовые базы данных
- Текстовый майнинг и веб-майнинг
Процесс реализации интеллектуального анализа данных
Давайте подробно изучим процесс внедрения Data Mining.
Понимание бизнеса
На этом этапе определяются цели бизнеса и сбора данных.
- Во-первых, вам необходимо понять цели бизнеса и клиента. Вам необходимо определить, чего хочет ваш клиент (чего зачастую даже он сам не знает).
- Подведите итоги текущего сценария интеллектуального анализа данных. При оценке учитывайте ресурсы, предположения, ограничения и другие важные факторы.
- Используя бизнес-цели и текущий сценарий, определите цели интеллектуального анализа данных.
- Хороший план интеллектуального анализа данных очень подробен и должен быть разработан для достижения как бизнес-целей, так и целей интеллектуального анализа данных.
Понимание данных
На этом этапе выполняется проверка работоспособности данных, чтобы убедиться, что они подходят для целей интеллектуального анализа данных.
- Во-первых, данные собираются из нескольких источников данных, доступных в организации.
- Эти источники данных могут включать в себя несколько баз данных, плоский фильтр или кубы данных. В процессе интеграции данных могут возникнуть такие проблемы, как сопоставление объектов и интеграция схем. Это довольно сложный и трудный процесс, поскольку данные из разных источников вряд ли легко совпадут. Например, таблица A содержит объект с именем cust_no, тогда как другая таблица B содержит объект с именем cust-id.
- Поэтому довольно сложно гарантировать, что оба этих объекта ссылаются на одно и то же значение или нет. Здесь метаданные следует использовать для уменьшения ошибок в процессе интеграции данных.
- Далее следует поиск свойств полученных данных. Хороший способ изучить данные — ответить на вопросы интеллектуального анализа данных (решаемые на бизнес-этапе) с помощью инструментов запросов, отчетов и визуализации.
- По результатам запроса необходимо убедиться в качестве данных. Отсутствующие данные, если таковые имеются, должны быть получены.
Подготовка данных
На этом этапе данные подготавливаются к производству.
Процесс подготовки данных занимает около 90% времени проекта.
Данные из разных источников следует отбирать, очищать, трансформировать, форматировать, анонимизировать и конструировать (при необходимости).
Очистка данных — это процесс «очистки» данных путем сглаживания зашумленных данных и заполнения пропущенных значений.
Например, для профиля демографических данных клиента отсутствуют данные о возрасте. Данные неполные и должны быть заполнены. В некоторых случаях могут быть выбросы данных. Например, возраст имеет значение 300. Данные могут быть противоречивыми. Например, имя клиента в разных таблицах разное.
Операции преобразования данных изменяют данные, чтобы сделать их полезными для интеллектуального анализа данных. Можно применить следующее преобразование
Преобразование данных
Операции по преобразованию данных будут способствовать успеху процесса добычи полезных ископаемых.
Сглаживание: Это помогает удалить шум из данных.
Агрегация: К данным применяются операции суммирования или агрегирования. Т. е. еженедельные данные о продажах агрегируются для расчета месячной и годовой суммы.
Обобщение: На этом этапе данные низкого уровня заменяются концепциями более высокого уровня с помощью иерархии концепций. Например, город заменяется округом.
Нормализация: Нормализация выполняется, когда данные атрибута увеличиваются или уменьшаются. Пример: после нормализации данные должны находиться в диапазоне от -2.0 до 2.0.
Конструкция атрибута: эти атрибуты созданы и включают в себя заданный набор атрибутов, полезных для интеллектуального анализа данных.
Результатом этого процесса является окончательный набор данных, который можно использовать при моделировании.
Моделирование
На этом этапе математические модели используются для определения закономерностей данных.
- Исходя из бизнес-целей, для подготовленного набора данных следует выбрать подходящие методы моделирования.
- Создайте сценарий для проверки качества и достоверности модели.
- Запустите модель в подготовленном наборе данных.
- Результаты должны оцениваться всеми заинтересованными сторонами, чтобы убедиться, что модель соответствует целям интеллектуального анализа данных.
Оценка
На этом этапе выявленные закономерности оцениваются на соответствие бизнес-целям.
- Результаты, полученные с помощью модели интеллектуального анализа данных, следует оценивать в соответствии с бизнес-целями.
- Достижение понимания бизнеса — это итеративный процесс. Фактически, при понимании, новые бизнес-требования могут возникнуть из-за интеллектуального анализа данных.
- Решение о том, можно или нет, принимается для перемещения модели на этапе развертывания.
развертывание
На этапе развертывания вы передаете результаты интеллектуального анализа данных в повседневные бизнес-операции.
- Знания или информация, обнаруженные в процессе интеллектуального анализа данных, должны быть легко понятны заинтересованным сторонам, не имеющим технического образования.
- Создается подробный план развертывания для доставки, обслуживания и мониторинга обнаружений интеллектуального анализа данных.
- Итоговый отчет по проекту создается с учетом извлеченных уроков и ключевого опыта, полученного в ходе проекта. Это помогает улучшить бизнес-политику организации.
Методы интеллектуального анализа данных
1. классификация
Этот анализ используется для получения важной и актуальной информации о данных и метаданных. Этот метод интеллектуального анализа данных помогает классифицировать данные по разным классам.
2. ClusterИНГ
ClusterАнализ — это метод интеллектуального анализа данных, позволяющий идентифицировать данные, похожие друг на друга. Этот процесс помогает понять различия и сходства между данными.
3. регрессия
Регрессионный анализ — это метод интеллектуального анализа данных для выявления и анализа взаимосвязей между переменными. Он используется для определения вероятности определенной переменной при наличии других переменных.
4. Правила ассоциации
Этот метод интеллектуального анализа данных помогает найти связь между двумя или более элементами. Он обнаруживает скрытый шаблон в наборе данных.
5. Внешнее обнаружение
Этот тип метода интеллектуального анализа данных относится к наблюдению элементов данных в наборе данных, которые не соответствуют ожидаемому шаблону или ожидаемому поведению. Этот метод можно использовать в различных областях, таких как вторжение, обнаружение, мошенничество или обнаружение неисправностей и т. д. Внешнее обнаружение также называется анализом выбросов или анализом выбросов.
6. Последовательные паттерны
Этот метод интеллектуального анализа данных помогает обнаружить или идентифицировать аналогичные закономерности или тенденции в данных транзакций за определенный период.
7. Прогноз
В прогнозировании использовалась комбинация других методов интеллектуального анализа данных, таких как тенденции, последовательные закономерности, кластеризация, классификация и т. д. Он анализирует прошлые события или случаи в правильной последовательности для прогнозирования будущего события.
Проблемы внедрения Data Mining
- Для формулирования запросов по интеллектуальному анализу данных необходимы квалифицированные эксперты.
- Переоснащение: из-за небольшого размера обучающей базы данных модель может не соответствовать будущим состояниям.
- Для интеллектуального анализа данных необходимы большие базы данных, которыми иногда сложно управлять.
- Возможно, потребуется изменить деловую практику, чтобы принять решение об использовании полученной информации.
- Если набор данных не разнообразен, результаты интеллектуального анализа данных могут быть неточными.
- Информация для интеграции, необходимая из разнородных баз данных и глобальных информационных систем, может быть сложной.
Примеры интеллектуального анализа данных
Теперь в этом курсе Data Mining давайте узнаем об интеллектуальном анализе данных на примерах:
Пример 1:
Рассмотрим руководителя отдела маркетинга компании, предоставляющего телекоммуникационные услуги, который хочет увеличить доходы от услуг междугородной связи. Для достижения высокой рентабельности инвестиций в продажи и маркетинг очень важно составить профиль клиента. У него есть обширный пул данных о клиентах, таких как возраст, пол, доход, кредитная история и т. д. Но невозможно определить характеристики людей, которые предпочитают междугородные звонки, с помощью ручного анализа. Используя методы интеллектуального анализа данных, он может выявить закономерности между пользователями междугородних звонков и их характеристиками.
Например, он может узнать, что его лучшие клиенты — замужние женщины в возрасте от 45 до 54 лет, которые зарабатывают более 80,000 XNUMX долларов в год. Маркетинговые усилия могут быть направлены на такую аудиторию.
Пример 2:
Банк хочет найти новые способы увеличения доходов от операций с кредитными картами. Они хотят проверить, увеличится ли использование в два раза, если плата будет снижена вдвое.
Банк имеет многолетние данные о среднем остатке кредитной карты, суммах платежей, использовании кредитного лимита и других ключевых параметрах. Они создают модель для проверки воздействия предлагаемой новой бизнес-политики. Результаты данных показывают, что сокращение комиссионных вдвое для целевой клиентской базы может увеличить доходы на 10 миллионов долларов.
Инструменты интеллектуального анализа данных
Ниже приведены 2 популярных Инструменты интеллектуального анализа данных широко используется в промышленности
R-язык:
R язык это инструмент с открытым исходным кодом для статистических вычислений и графики. R имеет широкий спектр статистических, классических статистических тестов, анализа временных рядов, классификации и графических методов. Он предлагает эффективную передачу и хранение данных.
Oracle Сбор данных:
Oracle Добыча данных широко известный как ODM, представляет собой модуль Oracle База данных расширенной аналитики. Этот инструмент интеллектуального анализа данных позволяет аналитикам данных получать подробную информацию и делать прогнозы. Это помогает прогнозировать поведение клиентов, разрабатывать профили клиентов, определять возможности перекрестных продаж.
Преимущества интеллектуального анализа данных
- Техника интеллектуального анализа данных помогает компаниям получать информацию, основанную на знаниях.
- Интеллектуальный анализ данных помогает организациям внести выгодные коррективы в эксплуатацию и производство.
- Интеллектуальный анализ данных является экономичным и эффективным решением по сравнению с другими приложениями для сбора статистических данных.
- Интеллектуальный анализ данных помогает в процессе принятия решений.
- Облегчает автоматическое прогнозирование тенденций и поведения, а также автоматическое обнаружение скрытых закономерностей.
- Его можно реализовать как в новых системах, так и на существующих платформах.
- Это быстрый процесс, который позволяет пользователям анализировать огромные объемы данных за меньшее время.
Недостатки интеллектуального анализа данных
- Есть вероятность, что компании могут продать полезную информацию своих клиентов другим компаниям за деньги. Например, American Express продавала покупки своих клиентов по кредитным картам другим компаниям.
- Многие программы для анализа данных сложны в использовании и требуют предварительного обучения для работы.
- Различные инструменты интеллектуального анализа данных работают по-разному из-за разных алгоритмов, используемых при их разработке. Поэтому выбор правильного инструмента интеллектуального анализа данных является очень сложной задачей.
- Методы интеллектуального анализа данных неточны, поэтому в определенных условиях это может привести к серьезным последствиям.
Приложения для интеллектуального анализа данных
Приложения | Применение |
---|---|
Связь | Методы интеллектуального анализа данных используются в секторе коммуникаций для прогнозирования поведения клиентов и проведения целенаправленных и релевантных кампаний. |
Страхование | Интеллектуальный анализ данных помогает страховым компаниям устанавливать выгодные цены на свои продукты и продвигать новые предложения своим новым или существующим клиентам. |
Образование | Интеллектуальный анализ данных позволяет преподавателям получать доступ к данным учащихся, прогнозировать уровни успеваемости и находить учащихся или группы учащихся, которым требуется дополнительное внимание. Например, ученики со слабыми знаниями по математике. |
Производство | С помощью Data Mining производители могут прогнозировать износ производственных активов. Они могут предвидеть техническое обслуживание, что помогает им сократить расходы и свести к минимуму время простоя. |
Банковское дело | Интеллектуальный анализ данных помогает финансовому сектору получить представление о рыночных рисках и обеспечить соблюдение нормативных требований. Это помогает банкам выявить вероятных неплательщиков и принять решение о выдаче кредитных карт, кредитов и т. д. |
Ритейл | Методы интеллектуального анализа данных помогают торговым центрам и продуктовым магазинам выявлять и размещать наиболее продаваемые товары на наиболее выгодных позициях. Это помогает владельцам магазинов придумать предложение, которое побуждает клиентов увеличить свои расходы. |
Поставщики услуг | Поставщики услуг, такие как мобильные телефоны и коммунальные услуги, используют интеллектуальный анализ данных, чтобы предсказать причины, по которым клиент покидает их компанию. Они анализируют детали выставления счетов, взаимодействие со службой поддержки клиентов, жалобы, поданные в компанию, чтобы присвоить каждому клиенту оценку вероятности и предложить стимулы. |
Электронная коммерция | Веб-сайты электронной коммерции используют интеллектуальный анализ данных, чтобы предлагать перекрестные и дополнительные продажи через свои веб-сайты. Одно из самых известных имен – Amazon, которые используют методы интеллектуального анализа данных, чтобы привлечь больше клиентов в свой магазин электронной коммерции. |
Супермаркеты | Интеллектуальный анализ данных позволяет супермаркетам разрабатывать правила, позволяющие предсказать, будут ли их покупатели ожидать чего-либо. Оценив свою структуру покупок, они смогли найти покупателей-женщин, которые, скорее всего, беременны. Они могут начать ориентироваться на такие продукты, как детская присыпка, детский магазин, подгузники и так далее. |
Расследование преступлений | Data Mining помогает органам по расследованию преступлений направлять сотрудников полиции (где и когда наиболее вероятно произойдет преступление?), кого обыскивать при пересечении границы и т. д. |
Биоинформатика | Data Mining помогает извлекать биологические данные из огромных наборов данных, собранных в биологии и медицине. |
Резюме
- Определение интеллектуального анализа данных. Целью интеллектуального анализа данных является объяснение прошлого и прогнозирование будущего с помощью Анализ данных.
- Интеллектуальный анализ данных помогает извлекать информацию из огромных наборов данных. Это процедура извлечения знаний из данных.
- Процесс интеллектуального анализа данных включает в себя понимание бизнеса, понимание данных, подготовку данных, моделирование, эволюцию и развертывание.
- Важными методами интеллектуального анализа данных являются классификация, кластеризация, регрессия, правила ассоциации, внешнее обнаружение, последовательные шаблоны и прогнозирование.
- R-язык и Oracle Интеллектуальный анализ данных — это известные инструменты и методы интеллектуального анализа данных.
- Техника интеллектуального анализа данных помогает компаниям получать информацию, основанную на знаниях.
- Основным недостатком интеллектуального анализа данных является то, что многие аналитические программы сложны в использовании и требуют предварительного обучения для работы.
- Интеллектуальный анализ данных используется в различных отраслях, таких как связь, страхование, образование, производство, банковское дело, розничная торговля, поставщики услуг, электронная коммерция, супермаркеты, биоинформатика.