Kurz dolování dat: Co je dolování dat? Techniky, Proces
Co je dolování dat?
Data Mining je proces hledání potenciálně užitečných vzorů z obrovských souborů dat. Je to multidisciplinární dovednost, kterou využívá strojové učení, statistiky a AI k získávání informací pro vyhodnocení pravděpodobnosti budoucích událostí. Poznatky získané z dolování dat se používají pro marketing, odhalování podvodů, vědecké objevy atd.
Data Mining je o objevování skrytých, netušené a dříve neznámých, ale platných vztahů mezi daty. Dolování dat se také nazývá Knowledge Discovery in Data (KDD), extrakce znalostí, analýza dat/vzorů, sběr informací atd.
Druhy dat
Data mining lze provádět na následujících typech dat
- Relační databáze
- Datové sklady
- Pokročilá databáze a úložiště informací
- Objektově orientované a objektově relační databáze
- Transakční a prostorové databáze
- Heterogenní a starší databáze
- Multimediální a streamovací databáze
- Textové databáze
- Text mining a Web mining
Proces implementace dolování dat
Pojďme si podrobně prostudovat proces implementace Data Miningu
Obchodní porozumění
V této fázi jsou stanoveny obchodní cíle a cíle dolování dat.
- Nejprve musíte pochopit obchodní a klientské cíle. Musíte definovat, co váš klient chce (což mnohokrát ani on sám neví)
- Zvažte aktuální scénář dolování dat. Při hodnocení zohledněte zdroje, předpoklady, omezení a další významné faktory.
- Pomocí obchodních cílů a aktuálního scénáře definujte své cíle dolování dat.
- Dobrý plán dolování dat je velmi podrobný a měl by být vypracován tak, aby splnil cíle podnikání i dolování dat.
Porozumění datům
V této fázi se provádí kontrola rozumu u dat, aby se ověřilo, zda jsou vhodná pro cíle dolování dat.
- Za prvé, data se shromažďují z více zdrojů dat dostupných v organizaci.
- Tyto zdroje dat mohou zahrnovat více databází, plochý soubor nebo datové kostky. Během procesu integrace dat mohou nastat problémy, jako je porovnávání objektů a integrace schémat. Je to poměrně složitý a složitý proces, protože data z různých zdrojů se pravděpodobně nebudou snadno shodovat. Například tabulka A obsahuje entitu s názvem cust_no, zatímco jiná tabulka B obsahuje entitu s názvem cust-id.
- Proto je poměrně obtížné zajistit, aby oba tyto dané objekty odkazovaly na stejnou hodnotu nebo ne. Zde by měla být metadata použita ke snížení chyb v procesu integrace dat.
- Dalším krokem je hledání vlastností získaných dat. Dobrým způsobem, jak prozkoumat data, je odpovědět na otázky dolování dat (rozhodnuté v obchodní fázi) pomocí nástrojů pro dotazy, sestavování a vizualizaci.
- Na základě výsledků dotazu by měla být zjištěna kvalita dat. Chybějící data, pokud by nějaká měla být získána.
Příprava dat
V této fázi jsou data připravena k výrobě.
Proces přípravy dat zabere asi 90 % času projektu.
Data z různých zdrojů by měla být vybrána, vyčištěna, transformována, formátována, anonymizována a vytvořena (pokud je to požadováno).
Čištění dat je proces „čištění“ dat vyhlazováním zašuměných dat a doplněním chybějících hodnot.
Například u demografického profilu zákazníka chybí údaje o věku. Údaje jsou neúplné a je třeba je doplnit. V některých případech mohou existovat datové odlehlé hodnoty. Například věk má hodnotu 300. Data mohou být nekonzistentní. Například jméno zákazníka se v různých tabulkách liší.
Operace transformace dat mění data tak, aby byla užitečná při dolování dat. Lze použít následující transformaci
Transformace dat
Operace transformace dat by přispěly k úspěchu procesu těžby.
Vyhlazování: Pomáhá odstraňovat šum z dat.
Agregace: Na data jsou aplikovány operace souhrnu nebo agregace. Tzn. týdenní údaje o prodeji se agregují pro výpočet měsíčního a ročního součtu.
Zobecnění: V tomto kroku jsou nízkoúrovňová data nahrazena koncepty vyšší úrovně pomocí hierarchií konceptů. Například město nahrazuje kraj.
Normalizace: Normalizace se provádí, když jsou data atributu zvětšena nebo zmenšena. Příklad: Data by po normalizaci měla spadat do rozsahu -2.0 až 2.0.
Konstrukce atributů: tyto atributy jsou vytvořeny a zahrnují danou sadu atributů užitečných pro dolování dat.
Výsledkem tohoto procesu je konečný soubor dat, který lze použít při modelování.
Modelování
V této fázi se k určení datových vzorů používají matematické modely.
- Na základě obchodních cílů by měly být vybrány vhodné techniky modelování pro připravený datový soubor.
- Vytvořte scénář pro testování kvality a platnosti modelu.
- Spusťte model na připravené datové sadě.
- Výsledky by měly být posouzeny všemi zúčastněnými stranami, aby se zajistilo, že model může splnit cíle dolování dat.
Hodnocení
V této fázi jsou identifikované vzory hodnoceny podle obchodních cílů.
- Výsledky generované modelem dolování dat by měly být vyhodnoceny s ohledem na obchodní cíle.
- Získání obchodního porozumění je iterativní proces. Ve skutečnosti, při pochopení, mohou být kvůli dolování dat vzneseny nové obchodní požadavky.
- Pro přesun modelu ve fázi nasazení je přijato rozhodnutí jít nebo ne.
Rozvinutí
Ve fázi nasazení posíláte své objevy dolování dat do každodenních obchodních operací.
- Znalosti nebo informace objevené během procesu dolování dat by měly být snadno srozumitelné i pro netechnické zúčastněné strany.
- Je vytvořen podrobný plán nasazení pro přepravu, údržbu a monitorování objevů dolování dat.
- Je vytvořena závěrečná zpráva o projektu, která obsahuje ponaučení a klíčové zkušenosti během projektu. To pomáhá zlepšit obchodní politiku organizace.
Techniky dolování dat
1. Klasifikace
Tato analýza se používá k získání důležitých a relevantních informací o datech a metadatech. Tato metoda dolování dat pomáhá klasifikovat data do různých tříd.
2. Clustering.
ClusterAnalýza je technika dolování dat k identifikaci dat, která jsou si navzájem podobná. Tento proces pomáhá pochopit rozdíly a podobnosti mezi daty.
3. Regrese
Regresní analýza je metoda dolování dat k identifikaci a analýze vztahu mezi proměnnými. Používá se k identifikaci pravděpodobnosti konkrétní proměnné, vzhledem k přítomnosti dalších proměnných.
4. Pravidla sdružení
Tato technika dolování dat pomáhá najít spojení mezi dvěma nebo více položkami. Objeví skrytý vzor v sadě dat.
5. Vnější detekce
Tento typ techniky dolování dat se týká pozorování datových položek v datové sadě, které neodpovídají očekávanému vzoru nebo očekávanému chování. Tuto techniku lze použít v různých oblastech, jako je narušení, detekce, detekce podvodů nebo chyb atd. Vnější detekce se také nazývá analýza odlehlých hodnot nebo dolování odlehlých hodnot.
6. Sekvenční vzory
Tato technika dolování dat pomáhá odhalit nebo identifikovat podobné vzorce nebo trendy v transakčních datech za určité období.
7. Předpověď
Predikce využívá kombinaci dalších technik dolování dat, jako jsou trendy, sekvenční vzory, shlukování, klasifikace atd. Analyzuje minulé události nebo instance ve správném pořadí pro předpovídání budoucí události.
Výzvy implementace datového dolu
- K formulování dotazů na dolování dat jsou zapotřebí kvalifikovaní odborníci.
- Overfitting: Kvůli malé velikosti školicí databáze nemusí model odpovídat budoucím stavům.
- Dolování dat vyžaduje velké databáze, které je někdy obtížné spravovat
- Obchodní praktiky může být nutné upravit, aby bylo možné zjištěné informace použít.
- Pokud soubor dat není různorodý, výsledky dolování dat nemusí být přesné.
- Integrační informace potřebné z heterogenních databází a globálních informačních systémů mohou být složité
Příklady dolování dat
Nyní v tomto kurzu Data Mining se pojďme dozvědět o Data miningu s příklady:
Příklad 1:
Zvažte vedoucího marketingu poskytovatelů telekomunikačních služeb, který chce zvýšit výnosy z dálkových služeb. Pro vysokou návratnost investic jeho prodejního a marketingového úsilí je důležité profilování zákazníků. Disponuje rozsáhlým datovým fondem zákaznických informací, jako je věk, pohlaví, příjem, úvěrová historie atd. Ruční analýzou však nelze určit charakteristiky lidí, kteří preferují dálkové hovory. Pomocí technik dolování dat může odhalit vzorce mezi uživateli meziměstských hovorů a jejich charakteristikami.
Mohl by se například dozvědět, že jeho nejlepšími zákazníky jsou vdané ženy ve věku 45 až 54 let, které vydělávají více než 80,000 XNUMX dolarů ročně. Na takovouto demografickou skupinu lze zacílit marketingové úsilí.
Příklad 2:
Banka chce hledat nové způsoby, jak zvýšit výnosy z operací s kreditními kartami. Chtějí zkontrolovat, zda by se využití zdvojnásobilo, kdyby byly poplatky sníženy na polovinu.
Banka má několik let záznamů o průměrných zůstatcích na kreditních kartách, výši plateb, využití úvěrového limitu a dalších klíčových parametrech. Vytvářejí model pro kontrolu dopadu navrhované nové obchodní politiky. Výsledky dat ukazují, že snížení poplatků na polovinu pro cílovou zákaznickou základnu by mohlo zvýšit příjmy o 10 milionů USD.
Nástroje pro dolování dat
Následují 2 oblíbené Nástroje pro dolování dat široce používané v průmyslu
R-jazyk:
Jazyk R. je open source nástroj pro statistické výpočty a grafiku. R má širokou škálu statistických, klasických statistických testů, analýzy časových řad, klasifikace a grafických technik. Nabízí efektivní manipulaci s daty a jejich ukládání.
Oracle Dolování dat:
Oracle Data Mining populárně známý jako ODM je modul Oracle Pokročilá analytická databáze. Tento nástroj pro dolování dat umožňuje datovým analytikům vytvářet podrobné poznatky a předpovídat. Pomáhá předvídat chování zákazníků, vytváří profily zákazníků, identifikuje příležitosti křížového prodeje.
Výhody dolování dat
- Technika dolování dat pomáhá společnostem získat informace založené na znalostech.
- Data mining pomáhá organizacím provádět ziskové úpravy v provozu a výrobě.
- Data mining je nákladově efektivní a efektivní řešení ve srovnání s jinými statistickými datovými aplikacemi.
- Data mining pomáhá s rozhodovacím procesem.
- Usnadňuje automatizovanou předpověď trendů a chování, stejně jako automatizované odhalování skrytých vzorců.
- Lze jej implementovat do nových systémů i do stávajících platforem
- Je to rychlý proces, který uživatelům usnadňuje analýzu velkého množství dat za kratší dobu.
Nevýhody dolování dat
- Existuje šance, že společnosti prodají užitečné informace o svých zákaznících jiným společnostem za peníze. Například American Express prodal nákupy svých zákazníků kreditními kartami jiným společnostem.
- Mnoho analytického softwaru pro dolování dat je obtížné ovládat a vyžaduje pokročilé školení.
- Různé nástroje pro dolování dat pracují různými způsoby kvůli různým algoritmům použitým při jejich návrhu. Proto je výběr správného nástroje pro dolování dat velmi obtížný úkol.
- Techniky dolování dat nejsou přesné, a tak mohou za určitých podmínek způsobit vážné následky.
Aplikace pro dolování dat
Aplikace | Používání |
---|---|
Komunikace | Techniky dolování dat se používají v komunikačním sektoru k předvídání chování zákazníků a nabízení vysoce cílených a relevantních kampaní. |
Pojištění | Data mining pomáhá pojišťovnám ocenit jejich produkty ziskově a propagovat nové nabídky svým novým nebo stávajícím zákazníkům. |
Vzdělání | Data mining prospívá pedagogům v přístupu k datům studentů, předpovídání úrovně dosažených výsledků a hledání studentů nebo skupin studentů, kteří potřebují zvláštní pozornost. Například studenti, kteří jsou slabí v matematice. |
Výroba | S pomocí dolování dat mohou výrobci předvídat opotřebení výrobních aktiv. Mohou předvídat údržbu, která jim pomáhá snížit je a minimalizovat prostoje. |
Bankovnictví | Data mining pomáhá finančnímu sektoru získat přehled o tržních rizicích a řídit dodržování předpisů. Pomáhá bankám identifikovat pravděpodobné neplatiče a rozhodnout se, zda vydat kreditní karty, úvěry atd. |
Maloobchod | Techniky dolování dat pomáhají maloobchodním centrům a obchodům s potravinami identifikovat a uspořádat nejprodávanější položky na těch nejpozornějších pozicích. Pomáhá majitelům obchodů přijít s nabídkou, která povzbudí zákazníky ke zvýšení útraty. |
Poskytovatelé služeb | Poskytovatelé služeb, jako je odvětví mobilních telefonů a veřejných služeb, využívají dolování dat k předvídání důvodů, kdy zákazník opustí jejich společnost. Analyzují fakturační údaje, interakce se zákaznickým servisem, stížnosti podané společnosti, aby každému zákazníkovi přidělily skóre pravděpodobnosti a nabízejí pobídky. |
E-commerce | Webové stránky elektronického obchodu využívají dolování dat k nabízení křížových a upsellů prostřednictvím svých webových stránek. Jedno z nejznámějších jmen je Amazon, kteří používají techniky dolování dat, aby získali více zákazníků do svého eCommerce obchodu. |
Super trhy | Data Mining umožňuje vývojovým pravidlům supermarketů předvídat, zda to jejich zákazníci pravděpodobně očekávají. Vyhodnocením svého nákupního vzoru by mohli najít zákaznice, které jsou s největší pravděpodobností těhotné. Mohou se začít zaměřovat na produkty, jako je dětský pudr, dětský obchod, plenky a tak dále. |
Vyšetřování zločinu | Data Mining pomáhá agenturám pro vyšetřování zločinu nasadit policejní pracovní síly (kde a kdy s největší pravděpodobností dojde k trestnému činu?), koho hledat na hraničních přechodech atd. |
Bioinformatika | Data Mining pomáhá dolovat biologická data z masivních datových sad shromážděných v biologii a medicíně. |
Shrnutí
- Definice dolování dat: dolování dat je o vysvětlování minulosti a předpovídání budoucnosti prostřednictvím Analýza dat.
- Data mining pomáhá extrahovat informace z obrovských souborů dat. Je to postup dolování znalostí z dat.
- Proces dolování dat zahrnuje obchodní porozumění, porozumění datům, přípravu dat, modelování, vývoj, nasazení.
- Důležité techniky dolování dat jsou klasifikace, shlukování, regrese, asociační pravidla, vnější detekce, sekvenční vzory a predikce
- R-jazyk si Oracle Data mining jsou prominentní nástroje a techniky pro dolování dat.
- Technika dolování dat pomáhá společnostem získat informace založené na znalostech.
- Hlavní nevýhodou dolování dat je to, že mnoho analytického softwaru je obtížné ovládat a vyžaduje pokročilé školení.
- Data mining se používá v různých odvětvích, jako jsou komunikace, pojišťovnictví, vzdělávání, výroba, bankovnictví, maloobchod, poskytovatelé služeb, eCommerce, bioinformatika supermarketů.