Vodič za rudarenje podataka: Što je rudarenje podataka? Tehnike, Proces

Što je Data Mining?

Data Mining je proces pronalaženja potencijalno korisnih uzoraka iz ogromnih skupova podataka. To je multidisciplinarna vještina koja koristi stroj za učenje, statistika i AI za izvlačenje informacija za procjenu vjerojatnosti budućih događaja. Uvidi izvedeni iz Data Mininga koriste se za marketing, otkrivanje prijevara, znanstvena otkrića itd.

Data Mining je sve o otkrivanju skrivenih, nesumnjivih i prethodno nepoznatih, ali valjanih odnosa među podacima. Rudarenje podataka također se naziva Otkrivanje znanja u podacima (KDD), ekstrakcija znanja, analiza podataka/uzoraka, sakupljanje informacija itd.

Vrste podataka

Rudarenje podataka može se izvesti na sljedećim vrstama podataka

  • Relacijske baze podataka
  • Skladišta podataka
  • Napredni DB i spremišta informacija
  • Objektno orijentirane i objektno-relacijske baze podataka
  • Transakcijske i prostorne baze podataka
  • Heterogene i naslijeđene baze podataka
  • Multimedijska i streaming baza podataka
  • Tekstualne baze podataka
  • Text mining i Web mining

Implementacijski proces rudarenja podataka

Proces implementacije rudarenja podataka
Proces implementacije rudarenja podataka

Proučimo detaljno proces implementacije Data Mininga

Poslovno razumijevanje

U ovoj fazi uspostavljaju se poslovni ciljevi i ciljevi rudarenja podataka.

  • Prvo morate razumjeti poslovne ciljeve i ciljeve klijenata. Morate definirati što vaš klijent želi (što često ni sami ne znaju)
  • Pregledajte trenutni scenarij rudarenja podataka. U svoju procjenu uračunajte resurse, pretpostavke, ograničenja i druge značajne čimbenike.
  • Koristeći poslovne ciljeve i trenutni scenarij, definirajte svoje ciljeve rudarenja podataka.
  • Dobar plan rudarenja podataka vrlo je detaljan i treba ga razviti kako bi se postigli i poslovni i ciljevi rudarenja podataka.

Razumijevanje podataka

U ovoj fazi provodi se provjera ispravnosti podataka kako bi se provjerilo jesu li prikladni za ciljeve rudarenja podataka.

  • Prvo, podaci se prikupljaju iz više izvora podataka dostupnih u organizaciji.
  • Ti izvori podataka mogu uključivati ​​višestruke baze podataka, ravne datoteke ili podatkovne kocke. Postoje problemi poput podudaranja objekata i integracije sheme koji se mogu pojaviti tijekom procesa integracije podataka. To je prilično složen i lukav proces jer se podaci iz različitih izvora vjerojatno neće lako podudarati. Na primjer, tablica A sadrži entitet pod nazivom cust_no, dok druga tablica B sadrži entitet pod nazivom cust-id.
  • Stoga je prilično teško osigurati da se oba navedena objekta odnose na istu vrijednost ili ne. Ovdje se metapodaci trebaju koristiti za smanjenje pogrešaka u procesu integracije podataka.
  • Sljedeći korak je traženje svojstava prikupljenih podataka. Dobar način za istraživanje podataka je odgovaranje na pitanja rudarenja podataka (o kojima se odlučuje u poslovnoj fazi) pomoću alata za upite, izvješća i vizualizaciju.
  • Na temelju rezultata upita potrebno je utvrditi kvalitetu podataka. Podaci koji nedostaju, ako ih treba prikupiti.

Priprema podataka

U ovoj fazi podaci su spremni za proizvodnju.

Proces pripreme podataka oduzima oko 90% vremena projekta.

Podatke iz različitih izvora treba odabrati, očistiti, transformirati, formatirati, anonimizirati i konstruirati (ako je potrebno).

Čišćenje podataka je proces "čišćenja" podataka izglađivanjem podataka s šumom i popunjavanjem vrijednosti koje nedostaju.

Na primjer, za demografski profil kupca nedostaju podaci o dobi. Podaci su nepotpuni i potrebno ih je popuniti. U nekim slučajevima može doći do odstupanja podataka. Na primjer, dob ima vrijednost 300. Podaci mogu biti nedosljedni. Na primjer, ime kupca je različito u različitim tablicama.

Operacije transformacije podataka mijenjaju podatke kako bi bili korisni u rudarenju podataka. Sljedeća transformacija se može primijeniti

Transformacija podataka

Operacije transformacije podataka pridonijele bi uspjehu procesa rudarenja.

zaglađivanje: Pomaže u uklanjanju šuma iz podataka.

združivanje: Na podatke se primjenjuju operacije sažetka ili agregacije. Odnosno, podaci o tjednoj prodaji prikupljaju se kako bi se izračunao mjesečni i godišnji ukupni iznos.

Generalizacija: U ovom koraku podaci niske razine zamjenjuju se konceptima više razine uz pomoć hijerarhije koncepata. Na primjer, grad je zamijenjen županijom.

Normalizacija: Normalizacija koja se izvodi kada se podaci atributa povećavaju ili smanjuju. Primjer: podaci bi trebali biti u rasponu od -2.0 do 2.0 nakon normalizacije.

Konstrukcija atributa: ovi su atributi konstruirani i uključuju zadani skup atributa korisnih za rudarenje podataka.

Rezultat ovog procesa je konačni skup podataka koji se može koristiti u modeliranju.

Modeliranje

U ovoj fazi koriste se matematički modeli za određivanje obrazaca podataka.

  • Na temelju poslovnih ciljeva treba odabrati odgovarajuće tehnike modeliranja za pripremljeni skup podataka.
  • Napravite scenarij za provjeru kvalitete i valjanosti modela.
  • Pokrenite model na pripremljenom skupu podataka.
  • Rezultate bi trebali procijeniti svi dionici kako bi bili sigurni da model može ispuniti ciljeve rudarenja podataka.

Procjena

U ovoj fazi, identificirani obrasci se procjenjuju u odnosu na poslovne ciljeve.

  • Rezultate generirane modelom rudarenja podataka treba procijeniti u odnosu na poslovne ciljeve.
  • Stjecanje poslovnog razumijevanja ponavljajući je proces. Zapravo, uz razumijevanje, novi poslovni zahtjevi mogu nastati zbog rudarenja podataka.
  • Donosi se odluka o pokretanju ili nekretanju za premještanje modela u fazi postavljanja.

razvoj

U fazi implementacije, svoja otkrića rudarenja podataka šaljete u svakodnevne poslovne operacije.

  • Znanje ili informacije otkrivene tijekom procesa rudarenja podataka trebaju biti lako razumljive netehničkim dionicima.
  • Izrađuje se detaljan plan implementacije za otpremu, održavanje i praćenje otkrića rudarenja podataka.
  • Izrađuje se konačno projektno izvješće s naučenim lekcijama i ključnim iskustvima tijekom projekta. To pomaže u poboljšanju poslovne politike organizacije.

Tehnike rudarenja podataka

Tehnike rudarenja podataka
Tehnike rudarenja podataka

1. Klasifikacija

Ova se analiza koristi za dohvaćanje važnih i relevantnih informacija o podacima i metapodacima. Ova metoda rudarenja podataka pomaže klasificirati podatke u različite klase.

2. Clustering.

Clustering analiza je tehnika rudarenja podataka za identifikaciju podataka koji su slični jedni drugima. Ovaj postupak pomaže u razumijevanju razlika i sličnosti između podataka.

3. Regresija

Regresijska analiza je metoda rudarenja podataka kojom se identificira i analizira odnos između varijabli. Koristi se za utvrđivanje vjerojatnosti specifične varijable, s obzirom na prisutnost drugih varijabli.

4. Pravila udruge

Ova tehnika rudarenja podataka pomaže pronaći vezu između dvije ili više stavki. Otkriva skriveni uzorak u skupu podataka.

5. Vanjska detekcija

Ova vrsta tehnike rudarenja podataka odnosi se na promatranje podatkovnih stavki u skupu podataka koje ne odgovaraju očekivanom obrascu ili očekivanom ponašanju. Ova se tehnika može koristiti u različitim domenama, kao što je upad, detekcija, prijevara ili otkrivanje greške, itd. Vanjska detekcija se također naziva Outlier analiza ili Outlier mining.

6. Sekvencijalni obrasci

Ova tehnika rudarenja podataka pomaže otkriti ili identificirati slične obrasce ili trendove u podacima o transakcijama za određeno razdoblje.

7. Predviđanje

Predviđanje je koristilo kombinaciju drugih tehnika rudarenja podataka kao što su trendovi, sekvencijalni obrasci, grupiranje, klasifikacija itd. Analizira prošle događaje ili slučajeve u pravom slijedu za predviđanje budućih događaja.

Izazovi implementacije rudarenja podataka

  • Za formuliranje upita za rudarenje podataka potrebni su kvalificirani stručnjaci.
  • Prekomjerno opremanje: Zbog male baze podataka za obuku, model možda neće odgovarati budućim stanjima.
  • Data mining zahtijeva velike baze podataka kojima je ponekad teško upravljati
  • Možda će biti potrebno promijeniti poslovne prakse kako bi se odlučilo koristiti nepokrivene informacije.
  • Ako skup podataka nije raznolik, rezultati rudarenja podataka možda neće biti točni.
  • Integracijske informacije potrebne iz heterogenih baza podataka i globalnih informacijskih sustava mogu biti složene

Primjeri rudarenja podataka

Sada u ovom tečaju rudarenja podataka naučimo o rudarenju podataka na primjerima:

Primjer 1:

Uzmite u obzir voditelja marketinga pružatelja telekomunikacijskih usluga koji želi povećati prihode od usluga na daljinu. Za visok povrat ulaganja u njegove prodajne i marketinške napore važno je profiliranje kupaca. On ima golemu bazu podataka o klijentima kao što su dob, spol, prihod, kreditna povijest itd. Ali nemoguće je ručnom analizom odrediti karakteristike ljudi koji preferiraju međugradske pozive. Koristeći tehnike rudarenja podataka, on može otkriti obrasce između korisnika poziva na velike udaljenosti i njihovih karakteristika.

Na primjer, mogao bi saznati da su njegove najbolje mušterije udate žene u dobi između 45 i 54 godine koje zarađuju više od 80,000 dolara godišnje. Marketinški napori mogu se usmjeriti na takve demografske skupine.

Primjer 2:

Banka želi pronaći nove načine povećanja prihoda od poslovanja s kreditnim karticama. Žele provjeriti hoće li se korištenje udvostručiti ako se naknade prepolove.

Banka ima višegodišnje podatke o prosječnom stanju kreditne kartice, iznosima plaćanja, korištenju kreditnog limita i drugim ključnim parametrima. Oni stvaraju model za provjeru utjecaja predložene nove poslovne politike. Rezultati podataka pokazuju da bi smanjenje naknada za ciljanu bazu korisnika na pola moglo povećati prihode za 10 milijuna dolara.

Alati za rudarenje podataka

Slijede 2 popularne Alati za rudarenje podataka naširoko korišten u industriji

R-jezik:

R jezik je alat otvorenog koda za statističko računanje i grafiku. R ima širok izbor statističkih, klasičnih statističkih testova, analize vremenskih nizova, klasifikacije i grafičkih tehnika. Nudi učinkovito rukovanje i skladištenje podataka.

Saznaj više

Oracle Rudarenje podataka:

Oracle Data Mining popularno poznat kao ODM je modul od Oracle Napredna analitička baza podataka. Ovaj alat za rudarenje podataka omogućuje analitičarima podataka da generiraju detaljne uvide i daju predviđanja. Pomaže u predviđanju ponašanja kupaca, razvija profile kupaca, identificira prilike za unakrsnu prodaju.

Saznaj više

Prednosti rudarenja podataka

  • Tehnika rudarenja podataka pomaže tvrtkama da dobiju informacije temeljene na znanju.
  • Rudarenje podataka pomaže organizacijama da naprave profitabilne prilagodbe u radu i proizvodnji.
  • Data mining je isplativo i učinkovito rješenje u usporedbi s drugim aplikacijama za statističke podatke.
  • Rudarenje podataka pomaže u procesu donošenja odluka.
  • Olakšava automatsko predviđanje trendova i ponašanja kao i automatsko otkrivanje skrivenih obrazaca.
  • Može se implementirati u nove sustave kao iu postojeće platforme
  • To je brz proces koji korisnicima olakšava analizu ogromne količine podataka u kraćem vremenu.

Nedostaci Data Mininga

  • Postoje šanse da tvrtke mogu prodati korisne informacije o svojim kupcima drugim tvrtkama za novac. Na primjer, American Express je kupnju kreditnom karticom svojih kupaca prodao drugim tvrtkama.
  • Mnogim analitičkim softverom za rudarenje podataka teško je upravljati i zahtijeva naprednu obuku za rad.
  • Različiti alati za rudarenje podataka rade na različite načine zbog različitih algoritama korištenih u njihovom dizajnu. Stoga je odabir ispravnog alata za rudarenje podataka vrlo težak zadatak.
  • Tehnike rudarenja podataka nisu točne, pa mogu uzrokovati ozbiljne posljedice u određenim uvjetima.

Aplikacije za rudarenje podataka

Aplikacije Upotreba
komunikacije Tehnike rudarenja podataka koriste se u komunikacijskom sektoru za predviđanje ponašanja korisnika kako bi se ponudile visoko ciljane i relevantne kampanje.
Osiguranje Rudarenje podataka pomaže osiguravajućim društvima da cijene svoje proizvode isplativo i promoviraju nove ponude svojim novim ili postojećim kupcima.
Obrazovanje Rudarenje podataka koristi nastavnicima za pristup podacima učenika, predviđanje razina postignuća i pronalaženje učenika ili grupa učenika kojima je potrebna dodatna pozornost. Na primjer, učenici koji su slabi u predmetu matematika.
Proizvodnja Uz pomoć rudarenja podataka proizvođači mogu predvidjeti istrošenost proizvodnih sredstava. Oni mogu predvidjeti održavanje što im pomaže da ga smanje kako bi smanjili vrijeme zastoja.
Bankarstvo Rudarenje podataka pomaže financijskom sektoru da dobije uvid u tržišne rizike i upravlja usklađenošću s propisima. Pomaže bankama da identificiraju vjerojatne neplatiše kako bi odlučile hoće li izdati kreditne kartice, zajmove itd.
Maloprodaja Tehnike rudarenja podataka pomažu trgovačkim centrima i trgovinama mješovitom robom identificirati i rasporediti najprodavanije artikle na najpažljivija mjesta. Pomaže vlasnicima trgovina da osmisle ponudu koja potiče kupce da povećaju svoju potrošnju.
Davatelji usluga Pružatelji usluga poput industrije mobilnih telefona i komunalnih usluga koriste Data Mining za predviđanje razloga kada klijent napusti njihovu tvrtku. Oni analiziraju podatke o naplati, interakcije s korisničkom službom, pritužbe upućene tvrtki kako bi svakom kupcu dodijelili ocjenu vjerojatnosti i ponudili poticaje.
E-commerce Web-mjesta za e-trgovinu koriste Data Mining kako bi ponudila unakrsnu i skuplju prodaju putem svojih web-mjesta. Jedno od najpoznatijih imena je Amazon, koji koriste tehnike rudarenja podataka kako bi privukli više kupaca u svoju eCommerce trgovinu.
Super tržnice Data Mining omogućuje supermarketima da razviju pravila za predviđanje hoće li njihovi kupci očekivati. Procjenjujući njihov obrazac kupnje, mogli su pronaći mušterije koje su najvjerojatnije trudne. Mogu početi ciljati na proizvode poput dječjeg pudera, baby shopa, pelena i tako dalje.
Istraživanje zločina Data Mining pomaže agencijama za kriminalističke istrage da rasporede policijsku radnu snagu (gdje će se zločin najvjerojatnije dogoditi i kada?), koga pretražiti na graničnom prijelazu itd.
Bioinformatika Data Mining pomaže u rudarenju bioloških podataka iz golemih skupova podataka prikupljenih u biologiji i medicini.

rezime

  • Definicija Data Mininga: Data Mining je sve o objašnjavanju prošlosti i predviđanju budućnosti putem Analiza podataka.
  • Rudarenje podataka pomaže izvući informacije iz ogromnih skupova podataka. To je postupak rudarenja znanja iz podataka.
  • Proces rudarenja podataka uključuje poslovno razumijevanje, razumijevanje podataka, pripremu podataka, modeliranje, evoluciju, implementaciju.
  • Važne tehnike rudarenja podataka su klasifikacija, grupiranje, regresija, pravila pridruživanja, vanjska detekcija, sekvencijalni obrasci i predviđanje
  • R-jezik i Oracle Data mining su istaknuti alati i tehnike za rudarenje podataka.
  • Tehnika rudarenja podataka pomaže tvrtkama da dobiju informacije temeljene na znanju.
  • Glavni nedostatak rudarenja podataka je to što je mnogim analitičkim softverom teško upravljati i zahtijeva naprednu obuku za rad.
  • Rudarenje podataka koristi se u različitim industrijama kao što su komunikacije, osiguranje, obrazovanje, proizvodnja, bankarstvo, maloprodaja, pružatelji usluga, e-trgovina, supermarketi, bioinformatika.