Data Mining Handledning: Vad är Data Mining? Tekniker, process

Vad är Data Mining?

Data Mining är en process för att hitta potentiellt användbara mönster från enorma datamängder. Det är en multidisciplinär färdighet som använder maskininlärning, statistik och AI för att extrahera information för att utvärdera sannolikheten för framtida händelser. De insikter som härrör från Data Mining används för marknadsföring, upptäckt av bedrägerier, vetenskaplig upptäckt, etc.

Datautvinning handlar om att upptäcka dolda, oanade och tidigare okända men giltiga relationer mellan data. Data mining kallas även Knowledge Discovery in Data (KDD), Knowledge extraction, data/mönsteranalys, information harvesting, etc.

Typer av data

Data mining kan utföras på följande typer av data

  • Relationsdatabaser
  • Datalager
  • Avancerade DB och informationsarkiv
  • Objektorienterade och objektrelationella databaser
  • Transaktionella och rumsliga databaser
  • Heterogena och äldre databaser
  • Multimedia och strömmande databas
  • Textdatabaser
  • Text mining och Web mining

Implementeringsprocess för Data Mining

Data Mining Implementeringsprocess
Data Mining Implementeringsprocess

Låt oss studera implementeringsprocessen för Data Mining i detalj

Affärsförståelse

I denna fas fastställs affärs- och datautvinningsmål.

  • Först måste du förstå affärs- och kundmål. Du måste definiera vad din klient vill ha (vilket många gånger inte ens de själva vet)
  • Gör en inventering av det aktuella datautvinningsscenariot. Ta med resurser, antaganden, begränsningar och andra viktiga faktorer i din bedömning.
  • Använd affärsmål och nuvarande scenario, definiera dina datautvinningsmål.
  • En bra datautvinningsplan är mycket detaljerad och bör utvecklas för att uppnå både affärs- och datautvinningsmål.

Dataförståelse

I denna fas utförs förnuftskontroll av data för att kontrollera om det är lämpligt för datautvinningsmålen.

  • Först samlas data in från flera tillgängliga datakällor i organisationen.
  • Dessa datakällor kan inkludera flera databaser, platta filer eller datakuber. Det finns problem som objektmatchning och schemaintegration som kan uppstå under dataintegrationsprocessen. Det är en ganska komplex och knepig process eftersom data från olika källor är osannolikt att matcha lätt. Tabell A innehåller till exempel en enhet med namnet kund_nr medan en annan tabell B innehåller en enhet som heter kund-id.
  • Därför är det ganska svårt att säkerställa att båda dessa givna objekt hänvisar till samma värde eller inte. Här bör Metadata användas för att minska fel i dataintegrationsprocessen.
  • Därefter är steget att söka efter egenskaper för förvärvad data. Ett bra sätt att utforska data är att svara på datautvinningsfrågorna (besluts i affärsfasen) med hjälp av fråge-, rapporterings- och visualiseringsverktygen.
  • Baserat på resultaten av frågan bör datakvaliteten fastställas. Saknade data om någon skulle skaffas.

Dataförberedelse

I denna fas görs data produktionsklar.

Databeredningsprocessen tar cirka 90 % av projektets tid.

Data från olika källor bör väljas, rengöras, transformeras, formateras, anonymiseras och konstrueras (om det behövs).

Datarensning är en process för att "rensa" data genom att jämna ut bullriga data och fylla i saknade värden.

Till exempel, för en kunddemografisk profil, saknas åldersdata. Uppgifterna är ofullständiga och bör fyllas i. I vissa fall kan det finnas dataavvikelser. Till exempel har ålder värdet 300. Data kan vara inkonsekventa. Till exempel är kundens namn olika i olika tabeller.

Datatransformationsoperationer ändrar data för att göra den användbar vid datautvinning. Följande transformation kan tillämpas

Datatransformation

Datatransformationsoperationer skulle bidra till framgången för gruvprocessen.

Glättning: Det hjälper till att ta bort brus från data.

Aggregering: Sammanfattnings- eller aggregeringsoperationer tillämpas på data. Dvs. veckoförsäljningsdata aggregeras för att beräkna månads- och årssumman.

Generalisering: I det här steget ersätts lågnivådata av begrepp på högre nivå med hjälp av begreppshierarkier. Till exempel ersätts staden av länet.

Normalisering: Normalisering utförs när attributdata skalas upp eller ned. Exempel: Data bör ligga inom intervallet -2.0 till 2.0 efter normalisering.

Attributkonstruktion: dessa attribut är konstruerade och inkluderade den givna uppsättningen attribut som är användbara för datautvinning.

Resultatet av denna process är en slutlig datamängd som kan användas i modellering.

Modellering

I denna fas används matematiska modeller för att bestämma datamönster.

  • Baserat på affärsmålen bör lämpliga modelleringstekniker väljas för den förberedda datamängden.
  • Skapa ett scenario för att testkontrollera modellens kvalitet och giltighet.
  • Kör modellen på den förberedda datamängden.
  • Resultaten bör bedömas av alla intressenter för att säkerställa att modellen kan uppfylla målen för datautvinning.

Utvärdering

I denna fas utvärderas identifierade mönster mot affärsmålen.

  • Resultat som genereras av datautvinningsmodellen bör utvärderas mot affärsmålen.
  • Att få affärsförståelse är en iterativ process. I själva verket, medan man förstår, kan nya affärskrav höjas på grund av datautvinning.
  • Ett go eller no-go-beslut fattas för att flytta modellen i utbyggnadsfasen.

konfiguration

I implementeringsfasen skickar du dina datautvinningsupptäckter till den dagliga affärsverksamheten.

  • Den kunskap eller information som upptäcks under datautvinningsprocessen bör göras lätt att förstå för icke-tekniska intressenter.
  • En detaljerad distributionsplan för leverans, underhåll och övervakning av upptäckter av datautvinning skapas.
  • En slutlig projektrapport skapas med lärdomar och nyckelerfarenheter under projektet. Detta bidrar till att förbättra organisationens affärspolicy.

Data Mining Techniques

Data Mining Techniques
Data Mining Techniques

1. Klassificering

Denna analys används för att hämta viktig och relevant information om data och metadata. Denna datautvinningsmetod hjälper till att klassificera data i olika klasser.

2. Clusteranvändning

Clusteringanalys är en datautvinningsteknik för att identifiera data som liknar varandra. Denna process hjälper till att förstå skillnaderna och likheterna mellan data.

3. Regression

Regressionsanalys är datautvinningsmetoden för att identifiera och analysera sambandet mellan variabler. Den används för att identifiera sannolikheten för en specifik variabel, givet närvaron av andra variabler.

4. Föreningsregler

Denna datautvinningsteknik hjälper till att hitta sambandet mellan två eller flera objekt. Den upptäcker ett dolt mönster i datamängden.

5. Yttre detektering

Denna typ av datautvinningsteknik hänvisar till observation av dataobjekt i datamängden som inte matchar ett förväntat mönster eller förväntat beteende. Denna teknik kan användas inom en mängd olika domäner, såsom intrång, upptäckt, bedrägeri eller feldetektering, etc. Yttre detektering kallas även Outlier Analysis eller Outlier mining.

6. Sekventiella mönster

Denna datautvinningsteknik hjälper till att upptäcka eller identifiera liknande mönster eller trender i transaktionsdata för en viss period.

7. Förutsägelse

Prediction har använt en kombination av de andra teknikerna för datautvinning som trender, sekventiella mönster, klustring, klassificering, etc. Den analyserar tidigare händelser eller instanser i rätt sekvens för att förutsäga en framtida händelse.

Utmaningar för implementering av Data Mine

  • Skickliga experter behövs för att formulera datautvinningsfrågor.
  • Övermontering: På grund av en liten träningsdatabas, kanske en modell inte passar framtida tillstånd.
  • Datautvinning kräver stora databaser som ibland är svåra att hantera
  • Affärspraxis kan behöva ändras för att bestämma att den information som avslöjas ska användas.
  • Om datamängden inte är olika kan det hända att datautvinningsresultaten inte är korrekta.
  • Integrationsinformation som behövs från heterogena databaser och globala informationssystem kan vara komplex

Exempel på datautvinning

Nu i denna Data Mining-kurs, låt oss lära oss om Data Mining med exempel:

Exempel 1:

Överväg en marknadschef för telekomtjänster som vill öka intäkterna från långdistanstjänster. För hög ROI på hans försäljnings- och marknadsföringsinsatser är kundprofilering viktig. Han har en stor datapool av kundinformation som ålder, kön, inkomst, kredithistorik, etc. Men det är omöjligt att fastställa egenskaper hos personer som föredrar långdistanssamtal med manuell analys. Med hjälp av datautvinningstekniker kan han upptäcka mönster mellan användare av långdistanssamtal och deras egenskaper.

Till exempel kan han lära sig att hans bästa kunder är gifta kvinnor mellan 45 och 54 år som tjänar mer än 80,000 XNUMX USD per år. Marknadsföringsinsatser kan riktas mot sådana demografiska.

Exempel 2:

En bank vill söka nya sätt att öka intäkterna från sin kreditkortsverksamhet. De vill kontrollera om användningen skulle fördubblas om avgifterna halverades.

Banken har flera års rekord på genomsnittliga kreditkortssaldon, betalningsbelopp, kreditgränsanvändning och andra nyckelparametrar. De skapar en modell för att kontrollera effekten av den föreslagna nya affärspolicyn. Dataresultaten visar att en halvering av avgifterna för en riktad kundbas kan öka intäkterna med 10 miljoner dollar.

Datautvinningsverktyg

Följande är 2 populära Datautvinningsverktyg används i stor utsträckning inom industrin

R-språk:

R-språk är ett verktyg med öppen källkod för statistisk beräkning och grafik. R har ett brett utbud av statistiska, klassiska statistiska tester, tidsserieanalys, klassificering och grafiska tekniker. Det erbjuder effektiv datahantering och lagringsmöjligheter.

Läs mer här

Oracle Datautvinning:

Oracle Data Mining populärt känd som ODM är en modul av Oracle Avancerad analysdatabas. Detta datautvinningsverktyg låter dataanalytiker generera detaljerade insikter och göra förutsägelser. Det hjälper till att förutsäga kundernas beteende, utvecklar kundprofiler, identifierar korsförsäljningsmöjligheter.

Läs mer här

Fördelar med Data Mining

  • Data mining-teknik hjälper företag att få kunskapsbaserad information.
  • Data mining hjälper organisationer att göra lönsamma justeringar i drift och produktion.
  • Data mining är en kostnadseffektiv och effektiv lösning jämfört med andra statistiska dataapplikationer.
  • Data mining hjälper till med beslutsprocessen.
  • Underlättar automatisk förutsägelse av trender och beteenden samt automatisk upptäckt av dolda mönster.
  • Det kan implementeras i nya system såväl som befintliga plattformar
  • Det är den snabba processen som gör det enkelt för användarna att analysera enorma mängder data på kortare tid.

Nackdelar med Data Mining

  • Det finns chanser att företag kan sälja användbar information om sina kunder till andra företag för pengar. Till exempel har American Express sålt kreditkortsköp av sina kunder till de andra företagen.
  • Många datautvinningsanalysprogram är svåra att använda och kräver förhandsutbildning att arbeta med.
  • Olika verktyg för datautvinning fungerar på olika sätt på grund av olika algoritmer som används i deras design. Därför är valet av korrekt datautvinningsverktyg en mycket svår uppgift.
  • Datautvinningsteknikerna är inte korrekta och kan därför orsaka allvarliga konsekvenser under vissa förhållanden.

Data Mining-applikationer

Tillämpningar Användning
Trygghet i vårdförloppet Datautvinningstekniker används inom kommunikationssektorn för att förutsäga kundbeteende för att erbjuda mycket riktade och relevanta kampanjer.
Försäkring Data mining hjälper försäkringsbolag att prissätta sina produkter lönsamma och marknadsföra nya erbjudanden till sina nya eller befintliga kunder.
Utbildning Datautvinning gynnar lärare att få tillgång till elevdata, förutsäga prestationsnivåer och hitta elever eller grupper av elever som behöver extra uppmärksamhet. Till exempel elever som är svaga i matteämne.
Tillverkning Med hjälp av Data Mining kan tillverkare förutsäga slitage på produktionstillgångar. De kan förutse underhåll som hjälper dem att minska dem för att minimera stilleståndstiden.
Banking Data mining hjälper finanssektorn att få en överblick över marknadsrisker och hantera regelefterlevnad. Det hjälper banker att identifiera sannolika försummelser för att besluta om de ska utfärda kreditkort, lån etc.
Detaljhandeln Datautvinningstekniker hjälper detaljhandeln och livsmedelsbutiker att identifiera och ordna de mest säljbara föremålen i de mest uppmärksamma positionerna. Det hjälper butiksägare att komma med erbjudandet som uppmuntrar kunderna att öka sina utgifter.
Tjänsteleverantörer Tjänsteleverantörer som mobiltelefoner och allmännyttiga industrier använder Data Mining för att förutsäga orsakerna när en kund lämnar sitt företag. De analyserar faktureringsdetaljer, kundtjänstinteraktioner, klagomål till företaget för att tilldela varje kund en sannolikhetspoäng och erbjuder incitament.
E-handel E-handelswebbplatser använder Data Mining för att erbjuda korsförsäljning och merförsäljning via sina webbplatser. Ett av de mest kända namnen är Amazon, som använder datautvinningstekniker för att få fler kunder till sin e-handelsbutik.
Supermarknader Data Mining gör det möjligt för supermarkets att utveckla regler för att förutsäga om deras shoppare sannolikt förväntade sig. Genom att utvärdera deras köpmönster kunde de hitta kvinnliga kunder som med största sannolikhet är gravida. De kan börja rikta in sig på produkter som babypuder, babyshop, blöjor och så vidare.
Brottsutredning Data Mining hjälper brottsutredande myndigheter att distribuera polispersonal (var är det mest sannolikt att ett brott inträffar och när?), vem ska söka vid en gränsövergång etc.
bioinformatik Data Mining hjälper till att bryta biologiska data från enorma datamängder som samlats in inom biologi och medicin.

Sammanfattning

  • Data Mining definition: Data Mining handlar om att förklara det förflutna och förutsäga framtiden via Dataanalys.
  • Datautvinning hjälper till att extrahera information från enorma uppsättningar data. Det är proceduren för att utvinna kunskap från data.
  • Datautvinningsprocessen inkluderar affärsförståelse, dataförståelse, dataförberedelse, modellering, evolution, implementering.
  • Viktiga datautvinningstekniker är klassificering, klustring, regression, associationsregler, yttre detektion, sekventiella mönster och förutsägelse
  • R-språk och Oracle Datautvinning är framstående verktyg och tekniker för datautvinning.
  • Data mining-teknik hjälper företag att få kunskapsbaserad information.
  • Den största nackdelen med datautvinning är att många analysprogram är svåra att använda och kräver förhandsutbildning för att arbeta med.
  • Data mining används i olika branscher som kommunikation, försäkring, utbildning, tillverkning, bank, detaljhandel, tjänsteleverantörer, e-handel, supermarkets bioinformatik.