Data Mining-Tutorial: Was ist Data Mining? Techniken, Prozess
Was ist Data Mining?
Data Mining ist ein Prozess zum Finden potenziell nützlicher Muster aus riesigen Datenmengen. Es handelt sich um eine multidisziplinäre Fähigkeit, die genutzt wird Maschinelles Lernen, Statistiken und KI, um Informationen zur Bewertung der Wahrscheinlichkeit zukünftiger Ereignisse zu extrahieren. Die aus dem Data Mining gewonnenen Erkenntnisse werden für Marketing, Betrugserkennung, wissenschaftliche Entdeckungen usw. verwendet.
Beim Data Mining geht es darum, verborgene, unerwartete und bisher unbekannte, aber gültige Beziehungen zwischen den Daten zu entdecken. Data Mining wird auch als Knowledge Discovery in Data (KDD), Wissensextraktion, Daten-/Musteranalyse, Informationserhebung usw. bezeichnet.
Arten von Daten
Data Mining kann für folgende Datentypen durchgeführt werden
- Relationale Datenbanken
- Data Warehouse
- Erweiterte Datenbank- und Informationsrepositorys
- Objektorientierte und objektrelationale Datenbanken
- Transaktionale und räumliche Datenbanken
- Heterogene und Legacy-Datenbanken
- Multimedia- und Streaming-Datenbank
- Textdatenbanken
- Text-Mining und Web-Mining
Implementierungsprozess von Data Mining
Lassen Sie uns den Data Mining-Implementierungsprozess im Detail untersuchen
Geschäftsverständnis
In dieser Phase werden Geschäfts- und Data-Mining-Ziele festgelegt.
- Zunächst müssen Sie die Geschäfts- und Kundenziele verstehen. Sie müssen definieren, was Ihr Kunde will (was oft nicht einmal der Kunde selbst weiß).
- Machen Sie eine Bestandsaufnahme des aktuellen Data-Mining-Szenarios. Berücksichtigen Sie bei Ihrer Beurteilung Ressourcen, Annahmen, Einschränkungen und andere wichtige Faktoren.
- Definieren Sie Ihre Data-Mining-Ziele anhand der Geschäftsziele und des aktuellen Szenarios.
- Ein guter Data-Mining-Plan ist sehr detailliert und sollte so entwickelt werden, dass sowohl Geschäfts- als auch Data-Mining-Ziele erreicht werden.
Datenverständnis
In dieser Phase wird eine Plausibilitätsprüfung der Daten durchgeführt, um zu überprüfen, ob sie für die Data-Mining-Ziele geeignet sind.
- Zunächst werden Daten aus mehreren in der Organisation verfügbaren Datenquellen gesammelt.
- Diese Datenquellen können mehrere Datenbanken, Flatfiles oder Datenwürfel umfassen. Während des Datenintegrationsprozesses können Probleme wie Objektabgleich und Schemaintegration auftreten. Es handelt sich um einen recht komplexen und kniffligen Prozess, da Daten aus verschiedenen Quellen nicht leicht zusammenpassen. Beispielsweise enthält Tabelle A eine Entität namens cust_no, während eine andere Tabelle B eine Entität namens cust-id enthält.
- Daher ist es ziemlich schwierig sicherzustellen, dass sich diese beiden gegebenen Objekte auf denselben Wert beziehen oder nicht. Hier sollten Metadaten genutzt werden, um Fehler im Datenintegrationsprozess zu reduzieren.
- Der nächste Schritt besteht darin, nach Eigenschaften der erfassten Daten zu suchen. Eine gute Möglichkeit, die Daten zu untersuchen, besteht darin, die (in der Geschäftsphase entschiedenen) Data-Mining-Fragen mithilfe der Abfrage-, Berichts- und Visualisierungstools zu beantworten.
- Basierend auf den Ergebnissen der Abfrage sollte die Datenqualität ermittelt werden. Eventuell fehlende Daten sollten erfasst werden.
Datenaufbereitung
In dieser Phase werden die Daten produktionsbereit gemacht.
Der Datenaufbereitungsprozess nimmt etwa 90 % der Projektzeit in Anspruch.
Die Daten aus verschiedenen Quellen sollten ausgewählt, bereinigt, transformiert, formatiert, anonymisiert und (falls erforderlich) konstruiert werden.
Bei der Datenbereinigung handelt es sich um einen Prozess zum „Bereinigen“ der Daten, indem verrauschte Daten geglättet und fehlende Werte ergänzt werden.
Beispielsweise fehlen für ein demografisches Profil eines Kunden Altersdaten. Die Daten sind unvollständig und sollten ausgefüllt werden. In einigen Fällen kann es zu Datenausreißern kommen. Das Alter hat beispielsweise den Wert 300. Die Daten könnten inkonsistent sein. Beispielsweise ist der Name des Kunden in verschiedenen Tabellen unterschiedlich.
Datentransformationsoperationen verändern die Daten, um sie für Data Mining nutzbar zu machen. Folgende Transformation kann angewendet werden
Datentransformation
Datentransformationsvorgänge würden zum Erfolg des Mining-Prozesses beitragen.
Glätten: Es hilft, Rauschen aus den Daten zu entfernen.
Anhäufung: Auf die Daten werden Zusammenfassungs- oder Aggregationsvorgänge angewendet. Beispielsweise werden die wöchentlichen Verkaufsdaten aggregiert, um die Monats- und Jahresgesamtsumme zu berechnen.
Verallgemeinerung: In diesem Schritt werden Low-Level-Daten mit Hilfe von Konzepthierarchien durch Konzepte auf höherer Ebene ersetzt. Beispielsweise wird die Stadt durch den Landkreis ersetzt.
Normalisierung: Die Normalisierung wird durchgeführt, wenn die Attributdaten vergrößert oder verkleinert werden. Beispiel: Die Daten sollten nach der Normalisierung im Bereich von -2.0 bis 2.0 liegen.
Attributkonstruktion: Diese Attribute werden erstellt und enthalten den angegebenen Satz von Attributen, die für das Data Mining hilfreich sind.
Das Ergebnis dieses Prozesses ist ein endgültiger Datensatz, der bei der Modellierung verwendet werden kann.
Modellieren
In dieser Phase werden mathematische Modelle verwendet, um Datenmuster zu ermitteln.
- Basierend auf den Geschäftszielen sollten geeignete Modellierungstechniken für den vorbereiteten Datensatz ausgewählt werden.
- Erstellen Sie ein Szenario, um die Qualität und Gültigkeit des Modells zu testen.
- Führen Sie das Modell für den vorbereiteten Datensatz aus.
- Die Ergebnisse sollten von allen Beteiligten bewertet werden, um sicherzustellen, dass das Modell die Data-Mining-Ziele erfüllen kann.
Evaluierung
In dieser Phase werden die identifizierten Muster anhand der Geschäftsziele bewertet.
- Die durch das Data-Mining-Modell generierten Ergebnisse sollten anhand der Geschäftsziele bewertet werden.
- Geschäftsverständnis zu erlangen ist ein iterativer Prozess. Tatsächlich können aufgrund des Data Mining neue Geschäftsanforderungen entstehen, obwohl dies verstanden wird.
- Über die Verschiebung des Modells in der Bereitstellungsphase wird eine „Go“ oder „No Go“-Entscheidung getroffen.
Einsatz
In der Bereitstellungsphase übertragen Sie Ihre Data-Mining-Erkenntnisse in den alltäglichen Geschäftsbetrieb.
- Das während des Data-Mining-Prozesses gewonnene Wissen oder die Informationen sollten für technisch nicht versierte Interessengruppen leicht verständlich gemacht werden.
- Es wird ein detaillierter Bereitstellungsplan für den Versand, die Wartung und die Überwachung von Data-Mining-Erkennungen erstellt.
- Es wird ein abschließender Projektbericht mit den gewonnenen Erkenntnissen und Schlüsselerfahrungen während des Projekts erstellt. Dies trägt dazu bei, die Geschäftspolitik der Organisation zu verbessern.
Data Mining-Techniken
1. Einstufung
Diese Analyse wird verwendet, um wichtige und relevante Informationen über Daten und Metadaten abzurufen. Diese Data-Mining-Methode hilft dabei, Daten in verschiedene Klassen zu klassifizieren.
2. ClusterIng.
ClusterDie Ining-Analyse ist eine Data-Mining-Technik zur Identifizierung ähnlicher Daten. Dieser Prozess hilft, die Unterschiede und Ähnlichkeiten zwischen den Daten zu verstehen.
3. Regression
Die Regressionsanalyse ist die Data-Mining-Methode zur Identifizierung und Analyse der Beziehung zwischen Variablen. Es wird verwendet, um die Wahrscheinlichkeit einer bestimmten Variablen angesichts des Vorhandenseins anderer Variablen zu ermitteln.
4. Assoziationsregeln
Diese Data-Mining-Technik hilft dabei, die Verbindung zwischen zwei oder mehr Elementen zu finden. Es entdeckt ein verstecktes Muster im Datensatz.
5. Äußere Erkennung
Diese Art von Data-Mining-Technik bezieht sich auf die Beobachtung von Datenelementen im Datensatz, die nicht einem erwarteten Muster oder erwarteten Verhalten entsprechen. Diese Technik kann in einer Vielzahl von Bereichen eingesetzt werden, z. B. bei Einbruch, Erkennung, Betrugs- oder Fehlererkennung usw. Die äußere Erkennung wird auch als Ausreißeranalyse oder Ausreißer-Mining bezeichnet.
6. Sequentielle Muster
Diese Data-Mining-Technik hilft dabei, ähnliche Muster oder Trends in Transaktionsdaten für einen bestimmten Zeitraum zu entdecken oder zu identifizieren.
7. Vorhersage
Bei der Vorhersage wird eine Kombination anderer Data-Mining-Techniken verwendet, beispielsweise Trends, sequentielle Muster, Clustering, Klassifizierung usw. Dabei werden vergangene Ereignisse oder Instanzen in der richtigen Reihenfolge analysiert, um zukünftige Ereignisse vorherzusagen.
Herausforderungen bei der Implementierung von Data Mine
- Für die Formulierung der Data-Mining-Abfragen werden qualifizierte Experten benötigt.
- Überanpassung: Aufgrund der geringen Größe der Trainingsdatenbank passt ein Modell möglicherweise nicht zu zukünftigen Zuständen.
- Für Data Mining sind große Datenbanken erforderlich, die manchmal schwer zu verwalten sind
- Geschäftspraktiken müssen möglicherweise geändert werden, um zu entscheiden, ob die aufgedeckten Informationen verwendet werden sollen.
- Wenn der Datensatz nicht vielfältig ist, sind die Data-Mining-Ergebnisse möglicherweise nicht genau.
- Die Integration von Informationen aus heterogenen Datenbanken und globalen Informationssystemen kann komplex sein
Beispiele für Data Mining
In diesem Data-Mining-Kurs lernen wir nun anhand von Beispielen etwas über Data-Mining:
Beispiel 1:
Stellen Sie sich einen Marketingleiter eines Telekommunikationsdienstleisters vor, der den Umsatz mit Ferngesprächen steigern möchte. Für einen hohen ROI seiner Vertriebs- und Marketingbemühungen ist die Erstellung von Kundenprofilen wichtig. Er verfügt über einen riesigen Datenpool an Kundeninformationen wie Alter, Geschlecht, Einkommen, Bonität usw. Es ist jedoch unmöglich, mit manueller Analyse die Merkmale von Personen zu bestimmen, die Ferngespräche bevorzugen. Mithilfe von Data-Mining-Techniken kann er Muster zwischen Benutzern von Ferngesprächen und deren Merkmale aufdecken.
Beispielsweise könnte er erfahren, dass seine besten Kunden verheiratete Frauen im Alter zwischen 45 und 54 Jahren sind, die mehr als 80,000 US-Dollar pro Jahr verdienen. Marketingmaßnahmen können gezielt auf diese Bevölkerungsgruppe ausgerichtet werden.
Beispiel 2:
Eine Bank möchte neue Wege finden, um die Einnahmen aus ihrem Kreditkartengeschäft zu steigern. Sie möchte prüfen, ob sich die Nutzung verdoppeln würde, wenn die Gebühren halbiert würden.
Die Bank verfügt über mehrjährige Aufzeichnungen über durchschnittliche Kreditkartensalden, Zahlungsbeträge, Kreditlimitauslastung und andere wichtige Parameter. Sie erstellen ein Modell, um die Auswirkungen der vorgeschlagenen neuen Geschäftspolitik zu überprüfen. Die Datenergebnisse zeigen, dass eine Halbierung der Gebühren für einen bestimmten Kundenstamm den Umsatz um 10 Millionen US-Dollar steigern könnte.
Data-Mining-Tools
Im Folgenden sind 2 beliebte Data-Mining-Tools weit verbreitet in der Industrie
R-Sprache:
R Sprache ist ein Open-Source-Tool für statistische Berechnungen und Grafiken. R verfügt über eine Vielzahl statistischer, klassischer statistischer Tests, Zeitreihenanalysen, Klassifizierungen und grafischer Techniken. Es bietet eine effektive Möglichkeit zur Datenhandhabung und -speicherung.
Oracle Data-Mining:
Oracle Data Mining Im Volksmund als ODM bekannt, ist ein Modul von Oracle Erweiterte Analytics-Datenbank. Dieses Data-Mining-Tool ermöglicht es Datenanalysten, detaillierte Erkenntnisse zu gewinnen und Vorhersagen zu treffen. Es hilft, das Kundenverhalten vorherzusagen, Kundenprofile zu entwickeln und Cross-Selling-Möglichkeiten zu identifizieren.
Vorteile von Data Mining
- Die Data-Mining-Technik hilft Unternehmen, wissensbasierte Informationen zu erhalten.
- Data Mining unterstützt Unternehmen dabei, gewinnbringende Anpassungen in Betrieb und Produktion vorzunehmen.
- Das Data Mining ist im Vergleich zu anderen statistischen Datenanwendungen eine kostengünstige und effiziente Lösung.
- Data Mining hilft bei der Entscheidungsfindung.
- Ermöglicht die automatische Vorhersage von Trends und Verhaltensweisen sowie die automatische Erkennung versteckter Muster.
- Es kann sowohl in neuen Systemen als auch auf bestehenden Plattformen implementiert werden
- Es ist der schnelle Prozess, der es den Benutzern erleichtert, große Datenmengen in kürzerer Zeit zu analysieren.
Nachteile von Data Mining
- Es besteht die Möglichkeit, dass Unternehmen nützliche Informationen ihrer Kunden gegen Geld an andere Unternehmen verkaufen. Beispielsweise hat American Express Kreditkartenkäufe seiner Kunden an die anderen Unternehmen verkauft.
- Viele Data-Mining-Analyseprogramme sind schwierig zu bedienen und erfordern eine erweiterte Schulung.
- Verschiedene Data-Mining-Tools funktionieren aufgrund der unterschiedlichen Algorithmen, die bei ihrer Entwicklung zum Einsatz kommen, auf unterschiedliche Weise. Daher ist die Auswahl des richtigen Data-Mining-Tools eine sehr schwierige Aufgabe.
- Die Data-Mining-Techniken sind nicht genau und können daher unter bestimmten Bedingungen schwerwiegende Folgen haben.
Data-Mining-Anwendungen
Anwendungen | Anwendungsbereich |
---|---|
Kommunikation | Data-Mining-Techniken werden im Kommunikationssektor eingesetzt, um das Kundenverhalten vorherzusagen und gezielte und relevante Kampagnen anzubieten. |
Versicherung | Data Mining hilft Versicherungsunternehmen dabei, ihre Produkte gewinnbringend zu bepreisen und ihren neuen oder bestehenden Kunden neue Angebote zu unterbreiten. |
Bildung | Mithilfe von Data Mining können Pädagogen auf Schülerdaten zugreifen, Leistungsniveaus vorhersagen und Schüler oder Schülergruppen finden, die besondere Aufmerksamkeit benötigen. Zum Beispiel Schüler, die im Fach Mathematik schwach sind. |
Fertigung | Mithilfe von Data Mining können Hersteller den Verschleiß von Produktionsanlagen vorhersagen. Sie können Wartungsarbeiten vorhersehen, was ihnen hilft, diese zu reduzieren und Ausfallzeiten zu minimieren. |
Bankinggg | Data Mining hilft dem Finanzsektor, sich einen Überblick über Marktrisiken zu verschaffen und die Einhaltung gesetzlicher Vorschriften zu gewährleisten. Es hilft Banken, mögliche Zahlungsausfälle zu identifizieren und zu entscheiden, ob sie Kreditkarten, Kredite usw. ausstellen. |
Einzelhandel | Mithilfe von Data-Mining-Techniken können Einkaufszentren und Lebensmittelgeschäfte die verkaufsfähigsten Artikel identifizieren und an den aufmerksamsten Positionen anordnen. Es hilft Ladenbesitzern, ein Angebot zu erstellen, das Kunden dazu ermutigt, ihre Ausgaben zu erhöhen. |
Dienstleister | Dienstleister wie Mobilfunk- und Versorgungsunternehmen nutzen Data Mining, um die Gründe vorherzusagen, warum ein Kunde ihr Unternehmen verlässt. Sie analysieren Rechnungsdetails, Interaktionen mit dem Kundendienst und Beschwerden, die beim Unternehmen eingehen, um jedem Kunden einen Wahrscheinlichkeitswert zuzuweisen und Anreize zu bieten. |
E-Commerce | E-Commerce-Websites nutzen Data Mining, um Cross-Selling und Up-Selling über ihre Websites anzubieten. Einer der bekanntesten Namen ist Amazon, die Data-Mining-Techniken nutzen, um mehr Kunden in ihren E-Commerce-Shop zu locken. |
Supermärkte | Mithilfe von Data Mining können Supermärkte Regeln entwickeln, um vorherzusagen, ob ihre Kunden wahrscheinlich damit rechnen. Durch die Auswertung ihres Kaufverhaltens könnten sie Kundinnen finden, die höchstwahrscheinlich schwanger sind. Sie können gezielt auf Produkte wie Babypuder, Babyshop, Windeln usw. abzielen. |
Kriminalpolizei | Mithilfe von Data Mining können Kriminalermittlungsbehörden Polizeikräfte einsetzen (wo und wann ist ein Verbrechen am wahrscheinlichsten?), wen sie an einem Grenzübergang durchsuchen müssen usw. |
Bioinformatik | Data Mining hilft bei der Gewinnung biologischer Daten aus riesigen Datensätzen, die in der Biologie und Medizin gesammelt wurden. |
Zusammenfassung
- Data Mining-Definition: Beim Data Mining geht es darum, die Vergangenheit zu erklären und die Zukunft vorherzusagen Datenanalyse.
- Data Mining hilft dabei, Informationen aus riesigen Datenmengen zu extrahieren. Dabei handelt es sich um das Verfahren, Wissen aus Daten zu gewinnen.
- Der Data-Mining-Prozess umfasst Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellierung, Entwicklung und Bereitstellung.
- Wichtige Data-Mining-Techniken sind Klassifizierung, Clustering, Regression, Assoziationsregeln, äußere Erkennung, sequentielle Muster und Vorhersage
- R-Sprache und Oracle Data Mining sind herausragende Data-Mining-Tools und -Techniken.
- Die Data-Mining-Technik hilft Unternehmen, wissensbasierte Informationen zu erhalten.
- Der Hauptnachteil des Data Mining besteht darin, dass viele Analysesoftwareprogramme schwierig zu bedienen sind und eine fortgeschrittene Schulung erfordern.
- Data Mining wird in verschiedenen Branchen wie Kommunikation, Versicherungen, Bildung, Fertigung, Banken, Einzelhandel, Dienstleister, E-Commerce, Supermärkte und Bioinformatik eingesetzt.