Урок за извличане на данни: Какво е извличане на данни? Техники, Процес

Какво е Data Mining?

Data Mining е процес на намиране на потенциално полезни модели от огромни набори от данни. Това е мултидисциплинарно умение, което използва машинно обучение, статистика и AI за извличане на информация за оценка на вероятността за бъдещи събития. Прозренията, получени от Data Mining, се използват за маркетинг, откриване на измами, научни открития и др.

Извличането на данни е свързано с откриването на скрити, неподозирани и неизвестни досега, но валидни връзки между данните. Извличането на данни се нарича още откриване на знания в данни (KDD), извличане на знания, анализ на данни/модели, събиране на информация и др.

Видове данни

Извличането на данни може да се извърши върху следните типове данни

  • Релационни бази данни
  • Складове за данни
  • Разширена база данни и информационни хранилища
  • Обектно-ориентирани и обектно-релационни бази данни
  • Транзакционни и пространствени бази данни
  • Хетерогенни и наследени бази данни
  • База данни за мултимедия и стрийминг
  • Текстови бази данни
  • Копаене на текст и уеб копаене

Процес на внедряване на Data Mining

Процес на внедряване на Data Mining
Процес на внедряване на Data Mining

Нека проучим подробно процеса на внедряване на Data Mining

Бизнес разбиране

В тази фаза се установяват бизнес целите и целите за извличане на данни.

  • Първо, трябва да разберете целите на бизнеса и клиента. Трябва да определите какво иска вашият клиент (което много пъти дори самите те не знаят)
  • Направете преглед на текущия сценарий за извличане на данни. Вземете предвид ресурсите, предположенията, ограниченията и други значими фактори във вашата оценка.
  • Като използвате бизнес цели и текущия сценарий, определете вашите цели за извличане на данни.
  • Добрият план за извличане на данни е много подробен и трябва да бъде разработен, за да постигне както бизнес целите, така и целите за извличане на данни.

Разбиране на данните

В тази фаза се извършва проверка на надеждността на данните, за да се провери дали са подходящи за целите на извличането на данни.

  • Първо, данните се събират от множество източници на данни, налични в организацията.
  • Тези източници на данни могат да включват множество бази данни, плосък файл или кубове с данни. Има проблеми като съпоставяне на обекти и интегриране на схеми, които могат да възникнат по време на процеса на интегриране на данни. Това е доста сложен и труден процес, тъй като е малко вероятно данните от различни източници да съвпадат лесно. Например таблица A съдържа обект с име cust_no, докато друга таблица B съдържа обект с име cust-id.
  • Следователно е доста трудно да се гарантира, че и двата дадени обекта се отнасят до една и съща стойност или не. Тук метаданните трябва да се използват за намаляване на грешките в процеса на интегриране на данни.
  • Следващата стъпка е търсене на свойства на придобитите данни. Добър начин за изследване на данните е да отговорите на въпросите за извличане на информация (решени в бизнес фаза) с помощта на инструментите за заявка, отчитане и визуализация.
  • Въз основа на резултатите от запитването трябва да се установи качеството на данните. Трябва да се съберат липсващи данни, ако има такива.

Подготовка на данни

В тази фаза данните са готови за производство.

Процесът на подготовка на данните отнема около 90% от времето на проекта.

Данните от различни източници трябва да бъдат избрани, почистени, трансформирани, форматирани, анонимизирани и конструирани (ако е необходимо).

Почистването на данни е процес за „почистване“ на данните чрез изглаждане на шумни данни и попълване на липсващи стойности.

Например, за клиентски демографски профил липсват данни за възрастта. Данните са непълни и трябва да се попълнят. В някои случаи може да има отклонения в данните. Например възрастта има стойност 300. Данните може да са непоследователни. Например името на клиента е различно в различните таблици.

Операциите за преобразуване на данни променят данните, за да ги направят полезни при извличане на данни. Може да се приложи следната трансформация

Преобразуване на данни

Операциите за преобразуване на данни ще допринесат за успеха на процеса на копаене.

Изглаждане: Помага за премахване на шума от данните.

агрегиране: Към данните се прилагат операции за обобщаване или агрегиране. Т.е. седмичните данни за продажбите се обобщават, за да се изчисли общата месечна и годишна сума.

Обобщение: В тази стъпка данните от ниско ниво се заменят с концепции от по-високо ниво с помощта на йерархии на концепции. Например градът се заменя с окръг.

Нормализация: Нормализацията се извършва, когато данните за атрибутите са мащабирани или намалени. Пример: Данните трябва да попадат в диапазона от -2.0 до 2.0 след нормализацията.

Конструкция на атрибути: тези атрибути са конструирани и включват даден набор от атрибути, полезни за извличане на данни.

Резултатът от този процес е окончателен набор от данни, който може да се използва при моделиране.

моделиране

В тази фаза се използват математически модели за определяне на модели на данни.

  • Въз основа на бизнес целите трябва да се изберат подходящи техники за моделиране за подготвения набор от данни.
  • Създайте сценарий за проверка на качеството и валидността на модела.
  • Стартирайте модела върху подготвения набор от данни.
  • Резултатите трябва да бъдат оценени от всички заинтересовани страни, за да се гарантира, че моделът може да изпълни целите за извличане на данни.

Оценка

В тази фаза идентифицираните модели се оценяват спрямо бизнес целите.

  • Резултатите, генерирани от модела за извличане на данни, трябва да бъдат оценени спрямо бизнес целите.
  • Получаването на разбиране за бизнеса е итеративен процес. Всъщност, докато се разбира, може да се повишат нови бизнес изисквания поради извличането на данни.
  • За преместване на модела във фазата на внедряване се взема решение за стартиране или отказ.

внедряване

Във фазата на внедряване вие ​​изпращате вашите открития за извличане на данни към ежедневните бизнес операции.

  • Знанията или информацията, открити по време на процеса на извличане на данни, трябва да бъдат лесни за разбиране от нетехнически заинтересовани страни.
  • Създава се подробен план за внедряване за доставка, поддръжка и наблюдение на открития за извличане на данни.
  • Създава се окончателен доклад за проекта с извлечените уроци и ключови преживявания по време на проекта. Това помага за подобряване на бизнес политиката на организацията.

Техники за извличане на данни

Техники за извличане на данни
Техники за извличане на данни

1. Класификация

Този анализ се използва за извличане на важна и подходяща информация за данни и метаданни. Този метод за извличане на данни помага да се класифицират данните в различни класове.

2. ClusterING

Clusterанализът е техника за извличане на данни за идентифициране на данни, които си приличат. Този процес помага да се разберат разликите и приликите между данните.

3. Регресия

Регресионният анализ е методът за извличане на данни за идентифициране и анализиране на връзката между променливите. Използва се за идентифициране на вероятността за конкретна променлива, предвид наличието на други променливи.

4. Правила на асоциирането

Тази техника за извличане на данни помага да се намери връзката между два или повече елемента. Той открива скрит модел в набора от данни.

5. Външно откриване

Този тип техника за извличане на данни се отнася до наблюдение на елементи от данни в набора от данни, които не съответстват на очакван модел или очаквано поведение. Тази техника може да се използва в различни области, като проникване, откриване, откриване на измами или грешки и т.н.

6. Последователни модели

Тази техника за извличане на данни помага да се открият или идентифицират подобни модели или тенденции в данните за транзакциите за определен период.

7. Прогноза

Прогнозата използва комбинация от други техники за извличане на данни като тенденции, последователни модели, групиране, класификация и т.н. Анализира минали събития или случаи в правилна последователност за прогнозиране на бъдещо събитие.

Предизвикателства при внедряването на Data mine

  • Необходими са квалифицирани експерти за формулиране на заявки за извличане на данни.
  • Прекомерно оборудване: Поради малкия размер на базата данни за обучение, даден модел може да не отговаря на бъдещи състояния.
  • Извличането на данни се нуждае от големи бази данни, които понякога са трудни за управление
  • Може да се наложи бизнес практиките да бъдат променени, за да се реши дали да се използва непокритата информация.
  • Ако наборът от данни не е разнообразен, резултатите от извличането на данни може да не са точни.
  • Информацията за интегриране, необходима от разнородни бази данни и глобални информационни системи, може да бъде сложна

Примери за извличане на данни

Сега в този курс за извличане на данни, нека научим за извличането на данни с примери:

Пример 1:

Помислете за маркетинг ръководител на телекомуникационни услуги, който иска да увеличи приходите от услуги на дълги разстояния. За високата възвръщаемост на инвестициите в неговите продажби и маркетингови усилия профилирането на клиента е важно. Той разполага с огромен набор от информация за клиенти като възраст, пол, доход, кредитна история и т.н. Но е невъзможно да се определят характеристиките на хората, които предпочитат междуселищни разговори с ръчен анализ. Използвайки техники за извличане на данни, той може да разкрие модели между потребителите на дълги разстояния и техните характеристики.

Например, той може да научи, че най-добрите му клиенти са омъжени жени на възраст между 45 и 54 години, които правят повече от $80,000 XNUMX на година. Маркетинговите усилия могат да бъдат насочени към такава демографска група.

Пример 2:

Една банка иска да търси нови начини за увеличаване на приходите от операциите си с кредитни карти. Те искат да проверят дали използването ще се удвои, ако таксите бъдат намалени наполовина.

Банката има многогодишна история на средни салда по кредитни карти, суми на плащания, използване на кредитен лимит и други ключови параметри. Те създават модел за проверка на въздействието на предложената нова бизнес политика. Резултатите от данните показват, че намаляването на таксите наполовина за целева клиентска база може да увеличи приходите с $10 милиона.

Инструменти за извличане на данни

Следват 2 популярни Инструменти за извличане на данни широко използвани в промишлеността

R-език:

R език е инструмент с отворен код за статистически изчисления и графики. R разполага с голямо разнообразие от статистически, класически статистически тестове, анализ на времеви редове, класификация и графични техники. Предлага ефективно средство за обработка и съхранение на данни.

Научете повече тук

Oracle Извличане на данни:

Oracle Data Mining популярно известен като ODM е модул на Oracle Разширена база данни за анализ. Този инструмент за извличане на данни позволява на анализаторите на данни да генерират подробни прозрения и да правят прогнози. Помага за прогнозиране на поведението на клиентите, разработва клиентски профили, идентифицира възможности за кръстосани продажби.

Научете повече тук

Ползи от извличането на данни

  • Техниката за извличане на данни помага на компаниите да получат информация, базирана на знания.
  • Извличането на данни помага на организациите да направят печелившите корекции в работата и производството.
  • Извличането на данни е рентабилно и ефикасно решение в сравнение с други приложения за статистически данни.
  • Извличането на данни помага в процеса на вземане на решения.
  • Улеснява автоматизираното предвиждане на тенденции и поведение, както и автоматизирано откриване на скрити модели.
  • Може да се внедри в нови системи, както и в съществуващи платформи
  • Това е бързият процес, който улеснява потребителите да анализират огромно количество данни за по-малко време.

Недостатъци на Data Mining

  • Има шансове компаниите да продадат полезна информация за своите клиенти на други компании срещу пари. Например American Express е продавала покупки с кредитни карти на своите клиенти на други компании.
  • Много софтуер за анализ на извличане на данни е труден за работа и изисква предварително обучение за работа.
  • Различните инструменти за извличане на данни работят по различни начини поради различните алгоритми, използвани в техния дизайн. Следователно изборът на правилен инструмент за извличане на данни е много трудна задача.
  • Техниките за извличане на данни не са точни и могат да причинят сериозни последствия при определени условия.

Приложения за извличане на данни

Приложения употреба
комуникации Техниките за извличане на данни се използват в комуникационния сектор, за да се предвиди поведението на клиентите, за да се предложат силно насочени и подходящи кампании.
Застраховка Извличането на данни помага на застрахователните компании да определят изгодни цени на своите продукти и да популяризират нови оферти на своите нови или съществуващи клиенти.
Образование Извличането на данни облагодетелства преподавателите за достъп до данни на учениците, прогнозиране на нивата на постижения и намиране на ученици или групи от ученици, които се нуждаят от допълнително внимание. Например ученици, които са слаби по математика.
производство С помощта на Data Mining производителите могат да предвидят износването на производствените активи. Те могат да предвидят поддръжка, което им помага да я намалят, за да минимизират времето на престой.
Банков Извличането на данни помага на финансовия сектор да получи представа за пазарните рискове и да управлява спазването на регулаторните изисквания. Помага на банките да идентифицират вероятни неизпълнения, за да решат дали да издадат кредитни карти, заеми и др.
На дребно Техниките за извличане на данни помагат на търговските центрове и магазините за хранителни стоки да идентифицират и подредят най-продаваните артикули на най-внимателните позиции. Той помага на собствениците на магазини да измислят оферта, която насърчава клиентите да увеличат разходите си.
Доставчици на услуги Доставчици на услуги като мобилни телефони и индустрии за комунални услуги използват Data Mining, за да предвидят причините, когато клиентът напусне тяхната компания. Те анализират подробностите за фактуриране, взаимодействията с обслужването на клиенти, оплакванията, отправени към компанията, за да присвоят на всеки клиент вероятностен резултат и предлагат стимули.
Електронна търговия Уебсайтовете за електронна търговия използват извличане на данни, за да предложат кръстосани продажби и по-високи продажби чрез своите уебсайтове. Едно от най-известните имена е Amazon, които използват техники за извличане на данни, за да привлекат повече клиенти в своя магазин за електронна търговия.
Супер пазари Извличането на данни позволява на супермаркетите да разработят правила, за да предскажат дали техните купувачи е вероятно да очакват. Чрез оценка на техния модел на пазаруване те биха могли да намерят жени клиенти, които най-вероятно са бременни. Те могат да започнат да се насочват към продукти като бебешка пудра, бебешки магазин, пелени и т.н.
Разследване на престъпления Извличането на данни помага на агенциите за разследване на престъпления да разположат полицейска работна сила (къде е най-вероятно да се случи престъпление и кога?), кого да претърсят на граничен пункт и т.н.
Биоинформатика Извличането на данни помага за извличане на биологични данни от масивни набори от данни, събрани в биологията и медицината.

Oбобщение

  • Определение за извличане на данни: Извличането на данни е свързано с обясняване на миналото и прогнозиране на бъдещето чрез Анализ на данните.
  • Извличането на данни помага за извличане на информация от огромни набори от данни. Това е процедурата за извличане на знания от данни.
  • Процесът на извличане на данни включва бизнес разбиране, разбиране на данни, подготовка на данни, моделиране, еволюция, внедряване.
  • Важни техники за извличане на данни са класификация, групиране, регресия, правила за асоцииране, външно откриване, последователни модели и прогнозиране
  • R-език намлява Oracle Извличането на данни са видни инструменти и техники за извличане на данни.
  • Техниката за извличане на данни помага на компаниите да получат информация, базирана на знания.
  • Основният недостатък на извличането на данни е, че много аналитични софтуери са трудни за работа и изискват предварително обучение за работа.
  • Извличането на данни се използва в различни индустрии като комуникации, застраховане, образование, производство, банкиране, търговия на дребно, доставчици на услуги, електронна търговия, супермаркети, биоинформатика.