Datamining-tutorial: wat is datamining? Technieken, proces
Wat is datamining?
Data Mining is een proces waarbij potentieel bruikbare patronen uit enorme datasets worden gevonden. Het is een multidisciplinaire vaardigheid die wordt gebruikt machine learning, statistieken en AI om informatie te extraheren om de waarschijnlijkheid van toekomstige gebeurtenissen te evalueren. De inzichten uit Data Mining worden gebruikt voor marketing, fraudedetectie, wetenschappelijke ontdekkingen, etc.
Data Mining draait om het ontdekken van verborgen, onvermoede en voorheen onbekende maar geldige relaties tussen de data. Data mining wordt ook wel Knowledge Discovery in Data (KDD), Knowledge extraction, data/pattern analysis, information harvesting, etc. genoemd.
Typen gegevens
Data mining kan worden uitgevoerd op de volgende soorten gegevens
- Relationele databases
- Datawarehouses
- Geavanceerde DB- en informatieopslagplaatsen
- Objectgeoriënteerde en object-relationele databases
- Transactionele en ruimtelijke databases
- Heterogene en verouderde databases
- Multimedia- en streamingdatabase
- Tekstdatabases
- Tekstmining en webmining
Implementatieproces van datamining
Laten we het implementatieproces van Data Mining eens in detail bestuderen
Zakelijk begrip
In deze fase worden bedrijfs- en dataminingdoelen vastgesteld.
- Ten eerste moet u de bedrijfs- en klantdoelstellingen begrijpen. U moet definiëren wat uw klant wil (wat hij vaak zelf niet weet)
- Maak de balans op van het huidige dataminingscenario. Houd bij uw beoordeling rekening met middelen, aannames, beperkingen en andere belangrijke factoren.
- Gebruik zakelijke doelstellingen en het huidige scenario om uw dataminingdoelen te definiëren.
- Een goed dataminingplan is zeer gedetailleerd en moet worden ontwikkeld om zowel zakelijke als dataminingdoelen te bereiken.
Gegevens begrijpen
In deze fase wordt een sanity check op data uitgevoerd om te controleren of deze geschikt is voor de dataminingdoelen.
- Ten eerste worden gegevens verzameld uit meerdere gegevensbronnen die beschikbaar zijn in de organisatie.
- Deze gegevensbronnen kunnen meerdere databases, flat filer of data cubes omvatten. Er zijn problemen zoals object matching en schema-integratie die kunnen ontstaan tijdens het data-integratieproces. Het is een vrij complex en lastig proces, aangezien gegevens uit verschillende bronnen waarschijnlijk niet gemakkelijk te matchen zijn. Bijvoorbeeld, tabel A bevat een entiteit met de naam cust_no, terwijl een andere tabel B een entiteit bevat met de naam cust-id.
- Daarom is het vrij moeilijk om ervoor te zorgen dat beide gegeven objecten naar dezelfde waarde verwijzen of niet. Hier moeten metadata worden gebruikt om fouten in het data-integratieproces te verminderen.
- Vervolgens is de stap het zoeken naar eigenschappen van verkregen gegevens. Een goede manier om de gegevens te verkennen is door de dataminingvragen (die in de bedrijfsfase worden besloten) te beantwoorden met behulp van de hulpprogramma's voor zoekopdrachten, rapportage en visualisatie.
- Op basis van de resultaten van de zoekopdracht moet de gegevenskwaliteit worden vastgesteld. Ontbrekende gegevens, indien nodig, moeten worden verkregen.
Data voorbereiding
In deze fase worden de gegevens productierijp gemaakt.
Het gegevensvoorbereidingsproces neemt ongeveer 90% van de tijd van het project in beslag.
De gegevens uit verschillende bronnen moeten worden geselecteerd, opgeschoond, getransformeerd, geformatteerd, geanonimiseerd en geconstrueerd (indien nodig).
Het opschonen van gegevens is een proces waarbij de gegevens worden ‘opgeschoond’ door gegevens met ruis glad te strijken en ontbrekende waarden in te vullen.
Voor een demografisch klantprofiel ontbreken bijvoorbeeld leeftijdsgegevens. De gegevens zijn onvolledig en moeten worden ingevuld. In sommige gevallen kunnen er gegevensuitschieters zijn. Leeftijd heeft bijvoorbeeld de waarde 300. Gegevens kunnen inconsistent zijn. De naam van de klant is bijvoorbeeld verschillend in verschillende tabellen.
Datatransformatiebewerkingen veranderen de data om ze bruikbaar te maken voor datamining. De volgende transformatie kan worden toegepast
Datatransformatie
Gegevenstransformatie-operaties dragen bij aan het succes van het miningproces.
Afvlakken: Het helpt om ruis uit de gegevens te verwijderen.
Aggregatie: Samenvattings- of aggregatiebewerkingen worden toegepast op de gegevens. Dat wil zeggen dat de wekelijkse verkoopgegevens worden geaggregeerd om het maandelijkse en jaarlijkse totaal te berekenen.
Generalisatie: In deze stap worden Low-level data vervangen door higher-level concepten met behulp van concepthiërarchieën. Bijvoorbeeld, de stad wordt vervangen door de county.
Normalisatie: Normalisatie wordt uitgevoerd wanneer de attribuutgegevens omhoog of omlaag worden geschaald. Voorbeeld: Gegevens moeten na normalisatie binnen het bereik -2.0 tot 2.0 vallen.
Attribuut constructie: deze attributen zijn geconstrueerd en bevatten de gegeven set attributen die nuttig zijn voor datamining.
Het resultaat van dit proces is een definitieve dataset die kan worden gebruikt bij het modelleren.
Modellering
In deze fase worden wiskundige modellen gebruikt om datapatronen te bepalen.
- Op basis van de bedrijfsdoelstellingen moeten geschikte modelleringstechnieken worden geselecteerd voor de voorbereide dataset.
- Creëer een scenario om de kwaliteit en validiteit van het model te testen.
- Voer het model uit op de voorbereide gegevensset.
- De resultaten moeten door alle belanghebbenden worden beoordeeld om er zeker van te zijn dat het model aan de dataminingdoelstellingen kan voldoen.
Evaluatie
In deze fase worden de geïdentificeerde patronen geëvalueerd aan de hand van de bedrijfsdoelstellingen.
- Resultaten gegenereerd door het dataminingmodel moeten worden beoordeeld aan de hand van de bedrijfsdoelstellingen.
- Het verkrijgen van zakelijk inzicht is een iteratief proces. Hoewel we dit begrijpen, kunnen er door datamining nieuwe bedrijfsvereisten ontstaan.
- Er wordt een go- of no-go-beslissing genomen om het model in de implementatiefase te verplaatsen.
Deployment
In de implementatiefase worden uw data mining-ontdekkingen geïmplementeerd in de dagelijkse bedrijfsvoering.
- De kennis of informatie die tijdens het dataminingproces wordt ontdekt, moet gemakkelijk begrijpelijk worden gemaakt voor niet-technische belanghebbenden.
- Er wordt een gedetailleerd implementatieplan opgesteld voor verzending, onderhoud en monitoring van datamining-ontdekkingen.
- Er wordt een eindprojectrapport opgesteld met de geleerde lessen en de belangrijkste ervaringen tijdens het project. Dit helpt het bedrijfsbeleid van de organisatie te verbeteren.
Data Mining Techniques
1. Classificatie
Deze analyse wordt gebruikt om belangrijke en relevante informatie over data en metadata te achterhalen. Deze dataminingmethode helpt gegevens in verschillende klassen te classificeren.
2. ClusterING
Clustering-analyse is een dataminingtechniek om gegevens te identificeren die op elkaar lijken. Dit proces helpt om de verschillen en overeenkomsten tussen de gegevens te begrijpen.
3. regressie
Regressieanalyse is de dataminingmethode voor het identificeren en analyseren van de relatie tussen variabelen. Het wordt gebruikt om de waarschijnlijkheid van een specifieke variabele te identificeren, gegeven de aanwezigheid van andere variabelen.
4. Verenigingsregels
Deze dataminingtechniek helpt bij het vinden van de associatie tussen twee of meer items. Het ontdekt een verborgen patroon in de dataset.
5. Buitendetectie
Dit type dataminingtechniek verwijst naar de observatie van gegevensitems in de dataset die niet overeenkomen met een verwacht patroon of verwacht gedrag. Deze techniek kan in verschillende domeinen worden gebruikt, zoals inbraak-, detectie-, fraude- of foutdetectie, enz. Outer-detectie wordt ook wel Outlier Analysis of Outlier mining genoemd.
6. Opeenvolgende patronen
Deze dataminingtechniek helpt bij het ontdekken of identificeren van vergelijkbare patronen of trends in transactiegegevens voor een bepaalde periode.
7. Voorspelling
Voorspelling maakt gebruik van een combinatie van andere technieken van data mining, zoals trends, sequentiële patronen, clustering, classificatie, etc. Het analyseert gebeurtenissen uit het verleden of instanties in de juiste volgorde om een toekomstige gebeurtenis te voorspellen.
Uitdagingen bij de implementatie van datamijn
- Er zijn deskundige experts nodig om de dataminingquery's te formuleren.
- Overfitting: vanwege de kleine trainingsdatabase past een model mogelijk niet in toekomstige toestanden.
- Voor datamining zijn grote databases nodig die soms moeilijk te beheren zijn
- Bedrijfspraktijken moeten mogelijk worden aangepast om te bepalen of de blootgelegde informatie kan worden gebruikt.
- Als de dataset niet divers is, zijn de resultaten van datamining mogelijk niet nauwkeurig.
- De integratie-informatie die nodig is uit heterogene databases en mondiale informatiesystemen kan complex zijn
Datamining Voorbeelden
Laten we nu in deze Data Mining-cursus meer leren over Data Mining met voorbeelden:
Voorbeeld 1:
Denk eens aan een marketinghoofd van een telecomdienstverlener die de inkomsten uit interlokale diensten wil vergroten. Voor een hoge ROI op zijn verkoop- en marketinginspanningen is klantprofilering belangrijk. Hij beschikt over een enorme datapool met klantinformatie, zoals leeftijd, geslacht, inkomen, kredietgeschiedenis, enz. Maar het is onmogelijk om met handmatige analyse de kenmerken vast te stellen van mensen die de voorkeur geven aan interlokale gesprekken. Met behulp van dataminingtechnieken kan hij patronen blootleggen tussen gebruikers van langeafstandsgesprekken en hun kenmerken.
Hij zou bijvoorbeeld kunnen vernemen dat zijn beste klanten getrouwde vrouwen tussen de 45 en 54 jaar zijn, die meer dan $80,000 per jaar verdienen. Marketinginspanningen kunnen op deze doelgroep worden gericht.
Voorbeeld 2:
Een bank wil nieuwe manieren zoeken om de inkomsten uit haar creditcardactiviteiten te verhogen. Ze willen controleren of het gebruik zou verdubbelen als de kosten zouden worden gehalveerd.
De Bank heeft meerdere jaren ervaring met het gemiddelde creditcardsaldo, betalingsbedragen, kredietlimietgebruik en andere belangrijke parameters. Ze creëren een model om de impact van het voorgestelde nieuwe bedrijfsbeleid te controleren. Uit de dataresultaten blijkt dat het halveren van de vergoedingen voor een gericht klantenbestand de omzet met $10 miljoen zou kunnen verhogen.
Hulpmiddelen voor datamining
Hieronder volgen 2 populaire Hulpmiddelen voor datamining veel gebruikt in de industrie
R-taal:
R taal is een open source-tool voor statistische berekeningen en grafische afbeeldingen. R beschikt over een breed scala aan statistische, klassieke statistische tests, tijdreeksanalyse, classificatie en grafische technieken. Het biedt effectieve gegevensoverdracht en opslagfaciliteiten.
Oracle Datamining:
Oracle Data Mining in de volksmond bekend als ODM is een module van de Oracle Geavanceerde analysedatabase. Met deze Data mining tool kunnen data-analisten gedetailleerde inzichten genereren en voorspellingen doen. Het helpt het gedrag van klanten te voorspellen, ontwikkelt klantprofielen en identificeert cross-sellingmogelijkheden.
Voordelen van datamining
- Dataminingtechniek helpt bedrijven om op kennis gebaseerde informatie te verkrijgen.
- Data mining helpt organisaties om winstgevende aanpassingen door te voeren in de bedrijfsvoering en productie.
- De datamining is een kosteneffectieve en efficiënte oplossing in vergelijking met andere statistische datatoepassingen.
- Datamining helpt bij het besluitvormingsproces.
- Vergemakkelijkt geautomatiseerde voorspelling van trends en gedrag, evenals geautomatiseerde ontdekking van verborgen patronen.
- Het kan zowel in nieuwe systemen als in bestaande platforms worden geïmplementeerd
- Het is het snelle proces dat het voor de gebruikers gemakkelijk maakt om grote hoeveelheden gegevens in minder tijd te analyseren.
Nadelen van datamining
- De kans bestaat dat bedrijven voor geld nuttige informatie over hun klanten aan andere bedrijven verkopen. American Express heeft bijvoorbeeld creditcardaankopen van hun klanten aan de andere bedrijven verkocht.
- Veel data mining-analysesoftware is moeilijk te bedienen en vereist voorafgaande training om ermee te kunnen werken.
- Verschillende data mining tools werken op verschillende manieren vanwege verschillende algoritmes die in hun ontwerp worden gebruikt. Daarom is de selectie van de juiste data mining tool een zeer moeilijke taak.
- De dataminingtechnieken zijn niet nauwkeurig en kunnen dus onder bepaalde omstandigheden ernstige gevolgen hebben.
Datamining-applicaties
Toepassingen | Gebruik |
---|---|
Communicatie | Dataminingtechnieken worden in de communicatiesector gebruikt om het gedrag van klanten te voorspellen om zeer gerichte en relevante campagnes aan te bieden. |
Verzekering | Met data mining kunnen verzekeringsmaatschappijen hun producten winstgevend prijzen en nieuwe aanbiedingen promoten bij hun nieuwe en bestaande klanten. |
Opleidingen | Datamining biedt docenten de mogelijkheid toegang te krijgen tot gegevens van leerlingen, prestatieniveaus te voorspellen en leerlingen of groepen leerlingen te vinden die extra aandacht nodig hebben. Bijvoorbeeld leerlingen die zwak zijn in wiskundevakken. |
Productie | Met behulp van Data Mining kunnen fabrikanten slijtage van productiemiddelen voorspellen. Ze kunnen anticiperen op onderhoud, waardoor ze de uitvaltijd kunnen beperken. |
Bankieren | Datamining helpt de financiële sector om inzicht te krijgen in de marktrisico's en om de naleving van de regelgeving te beheren. Het helpt banken waarschijnlijke wanbetalers te identificeren en te beslissen of ze creditcards, leningen, enz. willen uitgeven. |
Retail | Met dataminingtechnieken kunnen winkelcentra en supermarkten de meest verkoopbare artikelen op de meest aandachtige posities identificeren en rangschikken. Het helpt winkeleigenaren om met een aanbod te komen dat klanten aanmoedigt hun uitgaven te verhogen. |
Service Providers | Dienstverleners zoals mobiele telefoon- en nutsbedrijven gebruiken Data Mining om de redenen te voorspellen waarom een klant hun bedrijf verlaat. Ze analyseren factureringsgegevens, interacties met de klantenservice, klachten die bij het bedrijf zijn ingediend om elke klant een waarschijnlijkheidsscore toe te kennen en incentives te bieden. |
E-Commerce | E-commercewebsites gebruiken datamining om cross-sells en up-sells via hun websites aan te bieden. Eén van de bekendste namen is Amazon, die dataminingtechnieken gebruiken om meer klanten naar hun e-commerce winkel te krijgen. |
Supermarkten | Dankzij datamining kunnen supermarkten regels ontwikkelen om te voorspellen of hun klanten dit waarschijnlijk zouden verwachten. Door hun kooppatroon te evalueren, konden ze vrouwelijke klanten vinden die hoogstwaarschijnlijk zwanger zijn. Ze kunnen zich gaan richten op producten zoals babypoeder, babywinkels, luiers, enzovoort. |
misdaadonderzoek | Datamining helpt misdaadonderzoeksbureaus bij het inzetten van politiepersoneel (waar kan een misdrijf het meest waarschijnlijk plaatsvinden en wanneer?), wie moet worden gefouilleerd bij een grensovergang, enz. |
Bioinformatics | Datamining helpt biologische gegevens te ontginnen uit enorme datasets die zijn verzameld in de biologie en geneeskunde. |
Samenvatting
- Definitie van datamining: Bij datamining gaat het erom het verleden te verklaren en de toekomst te voorspellen Data-analyse.
- Datamining helpt informatie te extraheren uit grote hoeveelheden gegevens. Het is de procedure waarbij kennis uit gegevens wordt gehaald.
- Het dataminingproces omvat zakelijk inzicht, gegevensinzicht, gegevensvoorbereiding, modellering, evolutie en implementatie.
- Belangrijke data mining-technieken zijn classificatie, clustering, regressie, associatieregels, externe detectie, sequentiële patronen en voorspelling.
- R-taal en Oracle Datamining zijn prominente dataminingtools en -technieken.
- Dataminingtechniek helpt bedrijven om op kennis gebaseerde informatie te verkrijgen.
- Het grootste nadeel van data mining is dat veel analysesoftware moeilijk te bedienen is en dat er vooraf training nodig is om ermee te kunnen werken.
- Datamining wordt gebruikt in diverse sectoren, zoals communicatie, verzekeringen, onderwijs, productie, banken, detailhandel, dienstverleners, e-commerce, supermarkten en bio-informatica.