Data Mining Tutorial: Hvad er Data Mining? Teknikker, proces

Hvad er Data Mining?

Data Mining er en proces med at finde potentielt nyttige mønstre fra enorme datasæt. Det er en tværfaglig færdighed, der bruger machine learning, statistik og AI for at udtrække information for at evaluere sandsynligheden for fremtidige begivenheder. Indsigten fra Data Mining bruges til markedsføring, afsløring af svindel, videnskabelig opdagelse osv.

Data Mining handler om at opdage skjulte, uanede og hidtil ukendte endnu gyldige relationer mellem dataene. Data mining kaldes også Knowledge Discovery in Data (KDD), Knowledge extraction, data/mønsteranalyse, information høst mv.

Typer af data

Data mining kan udføres på følgende typer data

  • Relationsdatabaser
  • Datavarehuse
  • Avanceret DB og informationslagre
  • Objektorienterede og objektrelationelle databaser
  • Transaktionelle og rumlige databaser
  • Heterogene og ældre databaser
  • Multimedie- og streamingdatabase
  • Tekstdatabaser
  • Tekstmining og webmining

Implementeringsproces for Data Mining

Data Mining Implementeringsproces
Data Mining Implementeringsproces

Lad os studere Data Mining implementeringsprocessen i detaljer

Forretningsforståelse

I denne fase etableres forretnings- og data-mining-mål.

  • Først skal du forstå forretnings- og klientmål. Du skal definere, hvad din klient ønsker (som mange gange selv de ikke ved selv)
  • Gør status over det aktuelle data mining-scenarie. Inddrag ressourcer, antagelser, begrænsninger og andre væsentlige faktorer i din vurdering.
  • Brug forretningsmål og nuværende scenarie til at definere dine data mining-mål.
  • En god dataminingplan er meget detaljeret og bør udvikles til at nå både forretnings- og dataminingmål.

Dataforståelse

I denne fase udføres fornuftstjek på data for at kontrollere, om det er passende for datamining-målene.

  • For det første indsamles data fra flere tilgængelige datakilder i organisationen.
  • Disse datakilder kan omfatte flere databaser, flade filer eller datakuber. Der er problemer som objektmatching og skemaintegration, som kan opstå under dataintegrationsprocessen. Det er en ret kompleks og vanskelig proces, da data fra forskellige kilder næppe vil matche let. For eksempel indeholder tabel A en enhed med navnet kunde_nr, mens en anden tabel B indeholder en enhed med navnet kunde-id.
  • Derfor er det ret svært at sikre, at begge disse givne objekter refererer til den samme værdi eller ej. Her bør Metadata bruges til at reducere fejl i dataintegrationsprocessen.
  • Dernæst er trinnet at søge efter egenskaber for erhvervede data. En god måde at udforske dataene på er at besvare data mining-spørgsmålene (afgjort i forretningsfasen) ved hjælp af forespørgsels-, rapporterings- og visualiseringsværktøjerne.
  • Baseret på resultaterne af forespørgslen bør datakvaliteten fastslås. Manglende data, hvis nogen skulle indhentes.

Forberedelse af data

I denne fase gøres data produktionsklar.

Dataforberedelsesprocessen bruger omkring 90 % af projektets tid.

Dataene fra forskellige kilder bør udvælges, renses, transformeres, formateres, anonymiseres og konstrueres (hvis påkrævet).

Datarensning er en proces til at "rense" dataene ved at udjævne støjende data og udfylde manglende værdier.

For en kundedemografisk profil mangler der f.eks. aldersdata. Dataene er ufuldstændige og skal udfyldes. I nogle tilfælde kan der være dataudlignere. For eksempel har alder en værdi på 300. Data kan være inkonsistente. For eksempel er navnet på kunden forskelligt i forskellige tabeller.

Datatransformationsoperationer ændrer dataene for at gøre dem nyttige i datamining. Følgende transformation kan anvendes

Datatransformation

Datatransformationsoperationer vil bidrage til minedriftsprocessens succes.

Udjævning: Det hjælper med at fjerne støj fra dataene.

Aggregation: Opsummerings- eller aggregeringsoperationer anvendes på dataene. Dvs. de ugentlige salgsdata aggregeres for at beregne den månedlige og årlige total.

Generalisering: I dette trin erstattes data på lavt niveau af begreber på højere niveau ved hjælp af begrebshierarkier. Eksempelvis erstattes byen af ​​amtet.

Normalisering: Normalisering udføres, når attributdata er skaleret op eller nedskaleret. Eksempel: Data skal ligge i området -2.0 til 2.0 efter normalisering.

Attributkonstruktion: disse attributter er konstrueret og inkluderet det givne sæt attributter, der er nyttige til data mining.

Resultatet af denne proces er et endeligt datasæt, der kan bruges i modellering.

Støbning

I denne fase bruges matematiske modeller til at bestemme datamønstre.

  • Baseret på forretningsmålene bør egnede modelleringsteknikker vælges til det forberedte datasæt.
  • Opret et scenarie for at teste kvaliteten og validiteten af ​​modellen.
  • Kør modellen på det forberedte datasæt.
  • Resultaterne bør vurderes af alle interessenter for at sikre, at modellen kan opfylde data mining-målene.

Evaluering

I denne fase evalueres identificerede mønstre i forhold til forretningsmålene.

  • Resultater genereret af datamining-modellen bør evalueres i forhold til forretningsmålene.
  • At opnå forretningsforståelse er en iterativ proces. Faktisk, mens du forstår, kan nye forretningskrav blive rejst på grund af data mining.
  • Der tages en go eller no-go beslutning om at flytte modellen i implementeringsfasen.

Deployment

I implementeringsfasen sender du dine data mining-opdagelser til daglige forretningsdrift.

  • Den viden eller information, der opdages under data mining-processen, bør gøres let at forstå for ikke-tekniske interessenter.
  • En detaljeret implementeringsplan for forsendelse, vedligeholdelse og overvågning af data mining-opdagelser oprettes.
  • Der laves en afsluttende projektrapport med erfaringer og nøgleerfaringer i løbet af projektet. Dette er med til at forbedre organisationens forretningspolitik.

Data Mining Techniques

Data Mining Techniques
Data Mining Techniques

1. Klassificering

Denne analyse bruges til at hente vigtig og relevant information om data og metadata. Denne data mining-metode hjælper med at klassificere data i forskellige klasser.

2. ClusterING

Clustering-analyse er en data mining-teknik til at identificere data, der ligner hinanden. Denne proces hjælper med at forstå forskellene og lighederne mellem dataene.

3. Regression

Regressionsanalyse er data mining-metoden til at identificere og analysere sammenhængen mellem variabler. Det bruges til at identificere sandsynligheden for en specifik variabel, givet tilstedeværelsen af ​​andre variabler.

4. Foreningens regler

Denne data mining-teknik hjælper med at finde sammenhængen mellem to eller flere elementer. Den opdager et skjult mønster i datasættet.

5. Ydre detektion

Denne type datamining-teknik refererer til observation af dataelementer i datasættet, som ikke matcher et forventet mønster eller forventet adfærd. Denne teknik kan bruges i en række forskellige domæner, såsom indtrængen, detektion, bedrageri eller fejldetektion osv. Ydre detektion kaldes også Outlier Analysis eller Outlier mining.

6. Sekventielle mønstre

Denne dataminingteknik hjælper med at opdage eller identificere lignende mønstre eller tendenser i transaktionsdata for en bestemt periode.

7. Forudsigelse

Forudsigelse har brugt en kombination af de andre teknikker inden for datamining som trends, sekventielle mønstre, clustering, klassificering osv. Den analyserer tidligere hændelser eller tilfælde i den rigtige rækkefølge for at forudsige en fremtidig hændelse.

Udfordringer ved implementering af datamine

  • Dygtige eksperter er nødvendige for at formulere datamining-forespørgslerne.
  • Overfitting: På grund af en lille træningsdatabase passer en model muligvis ikke til fremtidige tilstande.
  • Data mining kræver store databaser, som nogle gange er svære at administrere
  • Forretningspraksis skal muligvis ændres for at beslutte at bruge de afslørede oplysninger.
  • Hvis datasættet ikke er forskelligartet, er data mining-resultaterne muligvis ikke nøjagtige.
  • Integrationsoplysninger, der er nødvendige fra heterogene databaser og globale informationssystemer, kan være komplekse

Eksempler på data mining

Lad os nu i dette Data Mining-kursus lære om Data Mining med eksempler:

Eksempel 1:

Overvej en marketingchef for teletjenester, der ønsker at øge indtægterne fra langdistancetjenester. For høj ROI på hans salgs- og marketingindsats er kundeprofilering vigtig. Han har en stor datapulje af kundeoplysninger som alder, køn, indkomst, kredithistorik osv. Men det er umuligt at bestemme karakteristika for personer, der foretrækker langdistanceopkald med manuel analyse. Ved hjælp af data mining-teknikker kan han afdække mønstre mellem brugere af langdistanceopkald og deres egenskaber.

For eksempel kan han lære, at hans bedste kunder er gifte kvinder mellem 45 og 54 år, som tjener mere end $80,000 om året. Marketingindsatsen kan målrettes mod sådanne demografiske.

Eksempel 2:

En bank ønsker at finde nye måder at øge indtægterne fra sine kreditkortoperationer. De vil undersøge, om forbruget ville fordobles, hvis gebyrerne blev halveret.

Banken har flere års rekord på gennemsnitlige kreditkortsaldi, betalingsbeløb, brug af kreditgrænser og andre nøgleparametre. De skaber en model til at kontrollere virkningen af ​​den foreslåede nye erhvervspolitik. Dataresultaterne viser, at halvering af gebyrer for en målrettet kundebase kan øge indtægterne med $10 millioner.

Data Mining værktøjer

Følgende er 2 populære Data Mining værktøjer meget brugt i industrien

R-sprog:

R sprog er et open source-værktøj til statistisk databehandling og grafik. R har en bred vifte af statistiske, klassiske statistiske test, tidsserieanalyse, klassifikation og grafiske teknikker. Det tilbyder effektiv datahåndtering og lagringsfacilitet.

Få mere at vide her

Oracle Data mining:

Oracle Data Mining populært kendt som ODM er et modul af Oracle Avanceret analysedatabase. Dette Data mining-værktøj giver dataanalytikere mulighed for at generere detaljeret indsigt og lave forudsigelser. Det hjælper med at forudsige kundeadfærd, udvikler kundeprofiler, identificerer krydssalgsmuligheder.

Få mere at vide her

Fordele ved Data Mining

  • Data mining-teknik hjælper virksomheder med at få videnbaseret information.
  • Data mining hjælper organisationer med at foretage de rentable tilpasninger i drift og produktion.
  • Data mining er en omkostningseffektiv og effektiv løsning sammenlignet med andre statistiske dataapplikationer.
  • Data mining hjælper med beslutningsprocessen.
  • Faciliterer automatiseret forudsigelse af trends og adfærd samt automatiseret opdagelse af skjulte mønstre.
  • Det kan implementeres i nye systemer såvel som eksisterende platforme
  • Det er den hurtige proces, der gør det nemt for brugerne at analysere enorme mængder data på kortere tid.

Ulemper ved Data Mining

  • Der er chancer for, at virksomheder kan sælge nyttige oplysninger om deres kunder til andre virksomheder for penge. For eksempel har American Express solgt kreditkortkøb af deres kunder til de andre selskaber.
  • Mange data mining-analysesoftware er vanskelige at betjene og kræver forudgående uddannelse at arbejde på.
  • Forskellige data mining-værktøjer fungerer på forskellige måder på grund af forskellige algoritmer, der anvendes i deres design. Derfor er udvælgelsen af ​​korrekt data mining-værktøj en meget vanskelig opgave.
  • Data mining-teknikkerne er ikke nøjagtige, og det kan derfor have alvorlige konsekvenser under visse forhold.

Data Mining-applikationer

Applikationer Brug
Kommunikation Data mining-teknikker bruges i kommunikationssektoren til at forudsige kundeadfærd for at tilbyde meget målrettede og relevante kampagner.
Forsikring Data mining hjælper forsikringsselskaber med at prissætte deres produkter rentable og fremme nye tilbud til deres nye eller eksisterende kunder.
Uddannelse Data mining gavner undervisere til at få adgang til elevdata, forudsige præstationsniveauer og finde elever eller grupper af elever, som har brug for ekstra opmærksomhed. For eksempel elever, der er svage i matematikfaget.
Produktion Med hjælp fra Data Mining kan producenter forudsige slid og ælde af produktionsaktiver. De kan forudse vedligeholdelse, som hjælper dem med at reducere dem for at minimere nedetiden.
Bank Data mining hjælper finanssektoren med at få overblik over markedsrisici og styre overholdelse af lovgivningen. Det hjælper banker med at identificere sandsynlige misligholdere for at beslutte, om de vil udstede kreditkort, lån osv.
Retail Data Mining-teknikker hjælper detailcentre og købmandsforretninger med at identificere og arrangere de mest salgbare varer i de mest opmærksomme positioner. Det hjælper butiksejere med at komme med tilbuddet, som opfordrer kunderne til at øge deres forbrug.
Service Providers Tjenesteudbydere som mobiltelefoner og forsyningsvirksomheder bruger Data Mining til at forudsige årsagerne til, at en kunde forlader deres virksomhed. De analyserer faktureringsoplysninger, kundeserviceinteraktioner, klager til virksomheden for at tildele hver kunde en sandsynlighedsscore og tilbyder incitamenter.
E-Commerce E-handelswebsteder bruger Data Mining til at tilbyde krydssalg og opsalg gennem deres websteder. Et af de mest kendte navne er Amazon, der bruger Data mining-teknikker til at få flere kunder ind i deres e-handelsbutik.
Supermarkeder Data Mining gør det muligt for supermarkeder at udvikle regler til at forudsige, om deres kunder sandsynligvis ville forvente. Ved at evaluere deres købsmønster kunne de finde kvindelige kunder, der højst sandsynligt er gravide. De kan begynde at målrette produkter som babypudder, babybutik, bleer og så videre.
Efterforskning af kriminalitet Data Mining hjælper kriminalitetsefterforskningsbureauer med at indsætte politipersonale (hvor er det mest sandsynligt, at en forbrydelse finder sted, og hvornår?), hvem skal søge ved en grænseovergang osv.
Bioinformatik Data Mining hjælper med at mine biologiske data fra massive datasæt indsamlet inden for biologi og medicin.

Resumé

  • Data Mining definition: Data Mining handler om at forklare fortiden og forudsige fremtiden via Dataanalyse.
  • Data mining hjælper med at udtrække information fra enorme datasæt. Det er proceduren for at udvinde viden fra data.
  • Data mining-processen omfatter forretningsforståelse, dataforståelse, dataforberedelse, modellering, evolution, implementering.
  • Vigtige data mining-teknikker er klassificering, clustering, regression, associationsregler, ydre detektion, sekventielle mønstre og forudsigelse
  • R-sprog og Oracle Data mining er fremtrædende data mining værktøjer og teknikker.
  • Data mining-teknik hjælper virksomheder med at få videnbaseret information.
  • Den største ulempe ved datamining er, at mange analysesoftware er vanskelige at betjene og kræver forudgående uddannelse at arbejde på.
  • Data mining bruges i forskellige brancher såsom kommunikation, forsikring, uddannelse, fremstilling, bank, detailhandel, tjenesteudbydere, e-handel, supermarkeder bioinformatik.