Tutorial sul data mining: cos'è il data mining? Tecniche, Processo
Cos'è il data mining?
Data Mining è un processo per trovare modelli potenzialmente utili da enormi set di dati. È una competenza multidisciplinare che utilizza machine learning, statistiche e intelligenza artificiale per estrarre informazioni per valutare la probabilità di eventi futuri. Le informazioni derivate dal Data Mining vengono utilizzate per il marketing, il rilevamento di frodi, la scoperta scientifica, ecc.
Il Data Mining consiste nella scoperta di relazioni nascoste, insospettate e precedentemente sconosciute ma valide tra i dati. Il data mining è anche chiamato Knowledge Discovery in Data (KDD), estrazione di conoscenza, analisi di dati/modelli, raccolta di informazioni, ecc.
Tipi di dati
Il data mining può essere eseguito sui seguenti tipi di dati
- Database relazionali
- Data warehouse
- DB avanzati e repository di informazioni
- Database orientati agli oggetti e relazionali agli oggetti
- Database transazionali e spaziali
- Database eterogenei e legacy
- Database multimediale e streaming
- Banche dati di testo
- Text mining e Web mining
Processo di implementazione del Data Mining
Studiamo nel dettaglio il processo di implementazione del Data Mining
Comprensione commerciale
In questa fase vengono stabiliti gli obiettivi aziendali e di data mining.
- Innanzitutto, è necessario comprendere gli obiettivi aziendali e dei clienti. Devi definire cosa vuole il tuo cliente (cosa che molte volte nemmeno lui stesso conosce)
- Fare il punto sullo scenario attuale del data mining. Tieni conto delle risorse, dei presupposti, dei vincoli e di altri fattori significativi nella tua valutazione.
- Utilizzando gli obiettivi aziendali e lo scenario attuale, definisci i tuoi obiettivi di data mining.
- Un buon piano di data mining è molto dettagliato e dovrebbe essere sviluppato per raggiungere sia gli obiettivi aziendali che quelli di data mining.
Comprensione dei dati
In questa fase viene eseguito il controllo di integrità dei dati per verificare se sono appropriati per gli obiettivi di data mining.
- Innanzitutto, i dati vengono raccolti da più origini dati disponibili nell'organizzazione.
- Queste fonti di dati possono includere più database, filer piatti o cubi di dati. Ci sono problemi come la corrispondenza degli oggetti e l'integrazione degli schemi che possono sorgere durante il processo di integrazione dei dati. È un processo piuttosto complesso e complicato, poiché è improbabile che i dati provenienti da varie fonti corrispondano facilmente. Ad esempio, la tabella A contiene un'entità denominata cust_no mentre un'altra tabella B contiene un'entità denominata cust-id.
- Pertanto, è abbastanza difficile garantire che entrambi questi oggetti si riferiscano o meno allo stesso valore. In questo caso, i metadati dovrebbero essere utilizzati per ridurre gli errori nel processo di integrazione dei dati.
- Successivamente, il passaggio consiste nel cercare le proprietà dei dati acquisiti. Un buon modo per esplorare i dati è rispondere alle domande di data mining (decise nella fase aziendale) utilizzando gli strumenti di query, reporting e visualizzazione.
- Sulla base dei risultati della query, dovrebbe essere accertata la qualità dei dati. Eventuali dati mancanti dovranno essere acquisiti.
Preparazione dei dati
In questa fase i dati vengono preparati per la produzione.
Il processo di preparazione dei dati consuma circa il 90% del tempo del progetto.
I dati provenienti da diverse fonti dovrebbero essere selezionati, puliti, trasformati, formattati, resi anonimi e costruiti (se richiesto).
La pulizia dei dati è un processo per "pulire" i dati livellando i dati rumorosi e inserendo i valori mancanti.
Ad esempio, per il profilo demografico di un cliente mancano i dati sull'età. I dati sono incompleti e devono essere compilati. In alcuni casi, potrebbero esserci dati anomali. Ad esempio, l'età ha un valore 300. I dati potrebbero essere incoerenti. Ad esempio, il nome del cliente è diverso nelle diverse tabelle.
Le operazioni di trasformazione dei dati modificano i dati per renderli utili nel data mining. La seguente trasformazione può essere applicata
Trasformazione dei dati
Le operazioni di trasformazione dei dati contribuirebbero al successo del processo di mining.
Lisciatura: Aiuta a rimuovere il rumore dai dati.
Aggregazione: Ai dati vengono applicate operazioni di riepilogo o di aggregazione. Cioè, i dati delle vendite settimanali vengono aggregati per calcolare il totale mensile e annuale.
Generalizzazione: In questa fase, i dati di basso livello vengono sostituiti da concetti di livello superiore con l'aiuto di gerarchie concettuali. Ad esempio, la città viene sostituita dalla contea.
Normalizzazione: Normalizzazione eseguita quando i dati degli attributi vengono ingranditi o ridotti. Esempio: i dati dovrebbero rientrare nell'intervallo da -2.0 a 2.0 dopo la normalizzazione.
Costruzione di attributi: questi attributi sono costruiti e includono il set di attributi utile per il data mining.
Il risultato di questo processo è un set di dati finale che può essere utilizzato nella modellazione.
Modellazione
In questa fase, vengono utilizzati modelli matematici per determinare i modelli di dati.
- In base agli obiettivi aziendali, dovrebbero essere selezionate tecniche di modellazione adeguate per il set di dati preparato.
- Creare uno scenario per testare la qualità e la validità del modello.
- Eseguire il modello sul set di dati preparato.
- I risultati dovrebbero essere valutati da tutte le parti interessate per assicurarsi che il modello possa soddisfare gli obiettivi di data mining.
Valutazione
In questa fase, i modelli identificati vengono valutati rispetto agli obiettivi aziendali.
- I risultati generati dal modello di data mining devono essere valutati rispetto agli obiettivi aziendali.
- Acquisire la comprensione del business è un processo iterativo. Infatti, durante la comprensione, potrebbero sorgere nuovi requisiti aziendali a causa del data mining.
- Viene presa una decisione se andare o no per spostare il modello nella fase di distribuzione.
Distribuzione
Nella fase di distribuzione, le scoperte di data mining vengono trasferite alle operazioni aziendali quotidiane.
- La conoscenza o le informazioni scoperte durante il processo di data mining dovrebbero essere rese facilmente comprensibili per le parti interessate non tecniche.
- Viene creato un piano di distribuzione dettagliato per la spedizione, la manutenzione e il monitoraggio delle scoperte di data mining.
- Viene creato un rapporto finale del progetto con le lezioni apprese e le esperienze chiave durante il progetto. Ciò aiuta a migliorare la politica aziendale dell'organizzazione.
Tecniche di data mining
1. Classificazione
Questa analisi viene utilizzata per recuperare informazioni importanti e rilevanti su dati e metadati. Questo metodo di data mining aiuta a classificare i dati in diverse classi.
2. ClusterING
ClusterL'analisi è una tecnica di data mining per identificare dati simili tra loro. Questo processo aiuta a comprendere le differenze e le somiglianze tra i dati.
3. Regressione
L'analisi di regressione è il metodo di data mining per identificare e analizzare la relazione tra le variabili. Viene utilizzato per identificare la probabilità di una determinata variabile, data la presenza di altre variabili.
4. Regole dell'Associazione
Questa tecnica di data mining aiuta a trovare l'associazione tra due o più elementi. Scopre uno schema nascosto nel set di dati.
5. Rilevamento esterno
Questo tipo di tecnica di data mining si riferisce all'osservazione di elementi di dati nel set di dati che non corrispondono a un modello o a un comportamento previsto. Questa tecnica può essere utilizzata in una varietà di ambiti, ad esempio intrusione, rilevamento, frode o rilevamento di errori, ecc. Il rilevamento esterno è anche chiamato analisi dei valori anomali o mining dei valori anomali.
6. Modelli sequenziali
Questa tecnica di data mining aiuta a scoprire o identificare modelli o tendenze simili nei dati delle transazioni per un determinato periodo.
7. Predizione
La previsione ha utilizzato una combinazione di altre tecniche di data mining come tendenze, modelli sequenziali, clustering, classificazione, ecc. Analizza eventi o istanze passati nella giusta sequenza per prevedere un evento futuro.
Sfide dell'implementazione del Data Mine
- Sono necessari esperti qualificati per formulare le query di data mining.
- Adattamento eccessivo: a causa delle dimensioni ridotte del database di addestramento, un modello potrebbe non adattarsi agli stati futuri.
- Il data mining necessita di database di grandi dimensioni che a volte sono difficili da gestire
- Potrebbe essere necessario modificare le pratiche aziendali per decidere di utilizzare le informazioni scoperte.
- Se il set di dati non è diversificato, i risultati del data mining potrebbero non essere accurati.
- Le informazioni di integrazione necessarie da database eterogenei e sistemi informativi globali potrebbero essere complesse
Esempi di data mining
Ora in questo corso sul data mining, impariamo a conoscere il data mining con esempi:
Esempio 1:
Consideriamo un responsabile marketing di un fornitore di servizi di telecomunicazioni che desidera aumentare i ricavi dei servizi a lunga distanza. Per un ROI elevato sulle vendite e sulle attività di marketing, la profilazione dei clienti è importante. Dispone di un vasto pool di dati di informazioni sui clienti come età, sesso, reddito, storia creditizia, ecc. Ma è impossibile determinare le caratteristiche delle persone che preferiscono le chiamate interurbane con l'analisi manuale. Utilizzando tecniche di data mining, può scoprire modelli tra gli utenti di chiamate a lunga distanza e le loro caratteristiche.
Ad esempio, potrebbe scoprire che i suoi migliori clienti sono donne sposate di età compresa tra 45 e 54 anni che guadagnano più di 80,000 dollari all’anno. Gli sforzi di marketing possono essere mirati a tale fascia demografica.
Esempio 2:
Una banca vuole cercare nuovi modi per aumentare i ricavi dalle sue operazioni con carta di credito. Vuole verificare se l'utilizzo raddoppierebbe se le commissioni fossero dimezzate.
La banca ha diversi anni di registrazioni sui saldi medi delle carte di credito, sugli importi dei pagamenti, sull'utilizzo dei limiti di credito e su altri parametri chiave. Creano un modello per verificare l'impatto della nuova politica aziendale proposta. I risultati dei dati mostrano che dimezzare le tariffe per una base clienti mirata potrebbe aumentare i ricavi di 10 milioni di dollari.
Strumenti di data mining
Di seguito sono riportati 2 popolari Strumenti di data mining ampiamente utilizzato nell'industria
Linguaggio R:
R lingua è uno strumento open source per il calcolo statistico e la grafica. R dispone di un'ampia varietà di test statistici, test statistici classici, analisi di serie temporali, classificazione e tecniche grafiche. Offre un'efficace gestione e archiviazione dei dati.
Oracle Estrazione dei dati:
Oracle Data Mining popolarmente noto come ODM è un modulo di Oracle Database di analisi avanzate. Questo strumento di data mining consente agli analisti di dati di generare approfondimenti dettagliati e fare previsioni. Aiuta a prevedere il comportamento dei clienti, sviluppa i profili dei clienti, identifica le opportunità di cross-selling.
Vantaggi del data mining
- La tecnica di data mining aiuta le aziende a ottenere informazioni basate sulla conoscenza.
- Il data mining aiuta le organizzazioni ad apportare modifiche redditizie al funzionamento e alla produzione.
- Il data mining è una soluzione economica ed efficiente rispetto ad altre applicazioni di dati statistici.
- Il data mining aiuta nel processo decisionale.
- Facilita la previsione automatizzata di tendenze e comportamenti, nonché la scoperta automatizzata di modelli nascosti.
- Può essere implementato in nuovi sistemi così come in piattaforme esistenti
- È il processo rapido che consente agli utenti di analizzare facilmente enormi quantità di dati in meno tempo.
Svantaggi del data mining
- Ci sono possibilità che le aziende possano vendere informazioni utili sui propri clienti ad altre società in cambio di denaro. Ad esempio, American Express ha venduto gli acquisti con carta di credito dei propri clienti ad altre società.
- Molti software di analisi di data mining sono difficili da utilizzare e richiedono una formazione avanzata per poter lavorare.
- Diversi strumenti di data mining funzionano in modi diversi a causa dei diversi algoritmi utilizzati nella loro progettazione. Pertanto, la selezione dello strumento di data mining corretto è un compito molto difficile.
- Le tecniche di data mining non sono accurate e quindi possono causare gravi conseguenze in determinate condizioni.
Applicazioni di data mining
Applicazioni | Impiego |
---|---|
Comunicazioni | Le tecniche di data mining vengono utilizzate nel settore della comunicazione per prevedere il comportamento dei clienti per offrire campagne altamente mirate e pertinenti. |
Assicurazione | Il data mining aiuta le compagnie assicurative a stabilire prezzi redditizi per i loro prodotti e a promuovere nuove offerte ai loro clienti nuovi o esistenti. |
Istruzione | Il data mining consente agli insegnanti di accedere ai dati degli studenti, prevedere i livelli di rendimento e trovare studenti o gruppi di studenti che necessitano di particolare attenzione. Ad esempio, gli studenti che hanno difficoltà in matematica. |
Produzione | Con l'aiuto del Data Mining i produttori possono prevedere l'usura degli asset di produzione. Possono anticipare la manutenzione che li aiuta a ridurli per ridurre al minimo i tempi di inattività. |
Settore bancario | Il data mining aiuta il settore finanziario ad avere una visione dei rischi di mercato e a gestire la conformità normativa. Aiuta le banche a identificare probabili inadempienti per decidere se emettere carte di credito, prestiti, ecc. |
Retail | Le tecniche di data mining aiutano i centri commerciali e i negozi di alimentari a identificare e organizzare gli articoli più vendibili nelle posizioni più attente. Aiuta i proprietari dei negozi a proporre un'offerta che incoraggi i clienti ad aumentare la propria spesa. |
Provider di servizi | I fornitori di servizi come i settori della telefonia mobile e delle utility utilizzano il Data Mining per prevedere i motivi per cui un cliente abbandona la propria azienda. Analizzano i dettagli di fatturazione, le interazioni con il servizio clienti, i reclami presentati all'azienda per assegnare a ciascun cliente un punteggio di probabilità e offrire incentivi. |
E-Commerce | I siti web di e-commerce utilizzano il data mining per offrire cross-sell e up-sell attraverso i loro siti web. Uno dei nomi più famosi è Amazon, che utilizzano tecniche di data mining per attirare più clienti nel proprio negozio di e-commerce. |
Super mercati | Il Data Mining consente alle regole di sviluppo dei supermercati di prevedere se i loro acquirenti potrebbero aspettarsi. Valutando il loro modello di acquisto, potrebbero trovare clienti donne che molto probabilmente sono incinte. Possono iniziare a prendere di mira prodotti come borotalco, baby shop, pannolini e così via. |
Indagine sulla criminalità | Il data mining aiuta le agenzie investigative sulla criminalità a schierare personale di polizia (dove è più probabile che si verifichi un crimine e quando?), chi cercare ai valichi di frontiera, ecc. |
Bioinformatica | Il Data Mining aiuta a estrarre dati biologici da enormi set di dati raccolti in biologia e medicina. |
Sommario
- Definizione di Data Mining: Il Data Mining consiste nello spiegare il passato e nel prevedere il futuro tramite L'analisi dei dati.
- Il data mining aiuta a estrarre informazioni da enormi quantità di dati. È la procedura di estrazione della conoscenza dai dati.
- Il processo di data mining include la comprensione del business, la comprensione dei dati, la preparazione dei dati, la modellazione, l'evoluzione, la distribuzione.
- Importanti tecniche di data mining sono classificazione, clustering, regressione, regole di associazione, rilevamento esterno, modelli sequenziali e previsione
- Linguaggio R e Oracle Il data mining è un importante strumento e tecnica di data mining.
- La tecnica di data mining aiuta le aziende a ottenere informazioni basate sulla conoscenza.
- Lo svantaggio principale del data mining è che molti software di analisi sono difficili da utilizzare e richiedono una formazione avanzata per poter lavorare.
- Il data mining viene utilizzato in diversi settori quali comunicazioni, assicurazioni, istruzione, produzione, banche, vendita al dettaglio, fornitori di servizi, e-commerce, supermercati, bioinformatica.