Tutorial Data Mining: Ce este Data Mining? Tehnici, proces
Ce este Data Mining?
Data Mining este un proces de găsire a modelelor potențial utile din seturi uriașe de date. Este o abilitate multidisciplinară care folosește masina de învățare, statistici și AI pentru a extrage informații pentru a evalua probabilitatea evenimentelor viitoare. Insight-urile derivate din Data Mining sunt folosite pentru marketing, detectarea fraudelor, descoperiri științifice etc.
Miningul de date se referă la descoperirea de relații ascunse, nebănuite și necunoscute anterior, dar valide, între date. Exploatarea datelor se mai numește și descoperirea cunoștințelor în date (KDD), extragerea cunoștințelor, analiza datelor/modelului, recoltarea de informații etc.
Tipuri de date
Exploatarea datelor poate fi efectuată pe următoarele tipuri de date
- Baze de date relaționale
- Depozite de date
- DB avansate și depozite de informații
- Baze de date orientate pe obiecte și obiect-relaționale
- Baze de date tranzacționale și spațiale
- Baze de date eterogene și vechi
- Baza de date multimedia și streaming
- Baze de date text
- Exploatarea textului și extragerea web
Procesul de implementare a Data Mining
Să studiem în detaliu procesul de implementare a Data Mining
Înțelegerea afacerilor
În această fază, sunt stabilite obiectivele de afaceri și de data mining.
- În primul rând, trebuie să înțelegeți obiectivele afacerii și ale clienților. Trebuie să definiți ce dorește clientul dvs. (pe care de multe ori nici măcar ei nu se cunosc)
- Faceți un bilanț al scenariului actual de data mining. Luați în considerare resurse, presupuneri, constrângeri și alți factori importanți în evaluarea dvs.
- Folosind obiectivele de afaceri și scenariul actual, definiți-vă obiectivele de data mining.
- Un plan bun de data mining este foarte detaliat și ar trebui dezvoltat pentru a îndeplini atât obiectivele de afaceri, cât și de data mining.
Înțelegerea datelor
În această fază, se efectuează verificarea corectă a datelor pentru a verifica dacă este adecvată pentru obiectivele extragerii de date.
- În primul rând, datele sunt colectate din mai multe surse de date disponibile în organizație.
- Aceste surse de date pot include mai multe baze de date, fișiere plat sau cuburi de date. Există probleme precum potrivirea obiectelor și integrarea schemei care pot apărea în timpul procesului de integrare a datelor. Este un proces destul de complex și complicat, deoarece este puțin probabil ca datele din diverse surse să se potrivească cu ușurință. De exemplu, tabelul A conține o entitate numită cust_no, în timp ce un alt tabel B conține o entitate numită cust-id.
- Prin urmare, este destul de dificil să ne asigurăm că ambele aceste obiecte date se referă la aceeași valoare sau nu. Aici, metadatele ar trebui folosite pentru a reduce erorile în procesul de integrare a datelor.
- În continuare, pasul este să căutați proprietățile datelor achiziționate. O modalitate bună de a explora datele este să răspunzi la întrebările de extragere a datelor (decise în faza de afaceri) folosind instrumentele de interogare, raportare și vizualizare.
- Pe baza rezultatelor interogării, trebuie să se verifice calitatea datelor. Date lipsă, dacă ar trebui achiziționate.
Pregătirea datelor
În această fază, datele sunt pregătite pentru producție.
Procesul de pregătire a datelor consumă aproximativ 90% din timpul proiectului.
Datele din diferite surse trebuie selectate, curățate, transformate, formatate, anonimizate și construite (dacă este necesar).
Curățarea datelor este un proces de „curățare” a datelor prin netezirea datelor zgomotoase și completând valorile lipsă.
De exemplu, pentru un profil demografic al clientului, lipsesc datele privind vârsta. Datele sunt incomplete și trebuie completate. În unele cazuri, pot exista valori aberante ale datelor. De exemplu, vârsta are o valoare 300. Datele ar putea fi inconsecvente. De exemplu, numele clientului este diferit în diferite tabele.
Operațiunile de transformare a datelor modifică datele pentru a le face utile în data mining. Se poate aplica următoarea transformare
Transformarea datelor
Operațiunile de transformare a datelor ar contribui la succesul procesului de minerit.
Netezire: Ajută la eliminarea zgomotului din date.
Agregare: Datelor sunt aplicate operațiuni de rezumat sau de agregare. Adică, datele de vânzări săptămânale sunt agregate pentru a calcula totalul lunar și anual.
Generalizare: În acest pas, datele de nivel inferior sunt înlocuite cu concepte de nivel superior cu ajutorul ierarhiilor de concepte. De exemplu, orașul este înlocuit de județ.
Normalizare: Normalizare efectuată atunci când datele de atribut sunt mărite sau reduse. Exemplu: datele ar trebui să se încadreze în intervalul -2.0 până la 2.0 după normalizare.
Construcția atributelor: aceste atribute sunt construite și includ setul dat de atribute utile pentru extragerea datelor.
Rezultatul acestui proces este un set final de date care poate fi utilizat în modelare.
Modelare
În această fază, modelele matematice sunt utilizate pentru a determina modelele de date.
- Pe baza obiectivelor de afaceri, trebuie selectate tehnici de modelare adecvate pentru setul de date pregătit.
- Creați un scenariu pentru a testa verificarea calității și validității modelului.
- Rulați modelul pe setul de date pregătit.
- Rezultatele ar trebui să fie evaluate de toate părțile interesate pentru a se asigura că modelul poate îndeplini obiectivele de extragere a datelor.
Evaluare
În această fază, modelele identificate sunt evaluate în raport cu obiectivele de afaceri.
- Rezultatele generate de modelul de data mining ar trebui evaluate în raport cu obiectivele de afaceri.
- Obținerea înțelegerii afacerii este un proces iterativ. De fapt, în timp ce înțelegem, noi cerințe de afaceri pot fi ridicate din cauza minării de date.
- Se ia o decizie de a merge sau de a nu trece pentru a muta modelul în faza de implementare.
Implementare
În faza de implementare, trimiteți descoperirile de extragere a datelor către operațiunile de afaceri de zi cu zi.
- Cunoștințele sau informațiile descoperite în timpul procesului de extragere a datelor ar trebui să fie ușor de înțeles pentru părțile interesate non-tehnice.
- Este creat un plan de implementare detaliat, pentru expedierea, întreținerea și monitorizarea descoperirilor de data mining.
- Un raport final al proiectului este creat cu lecțiile învățate și experiențele cheie în timpul proiectului. Acest lucru ajută la îmbunătățirea politicii de afaceri a organizației.
Tehnici de exploatare a datelor
1. Clasificare
Această analiză este utilizată pentru a prelua informații importante și relevante despre date și metadate. Această metodă de extragere a datelor ajută la clasificarea datelor în diferite clase.
2. ClusterING
ClusterAnaliza ing este o tehnică de extragere a datelor pentru a identifica datele care se aseamănă între ele. Acest proces ajută la înțelegerea diferențelor și asemănărilor dintre date.
3. Regresie
Analiza regresiei este metoda de extragere a datelor de identificare și analiză a relației dintre variabile. Este folosit pentru a identifica probabilitatea unei anumite variabile, având în vedere prezența altor variabile.
4. Regulile de asociere
Această tehnică de extragere a datelor ajută la găsirea asocierii dintre două sau mai multe articole. Descoperă un model ascuns în setul de date.
5. Detectare exterioară
Acest tip de tehnică de extragere a datelor se referă la observarea elementelor de date din setul de date care nu se potrivesc cu un model așteptat sau cu un comportament așteptat. Această tehnică poate fi utilizată într-o varietate de domenii, cum ar fi intruziunea, detectarea, detectarea fraudei sau a erorilor, etc. Detectarea exterioară mai este numită și Analiză anormală sau extracție minată.
6. Modele secvențiale
Această tehnică de extragere a datelor ajută la descoperirea sau identificarea unor modele sau tendințe similare în datele tranzacțiilor pentru o anumită perioadă.
7. Previziune
Predicția a folosit o combinație a celorlalte tehnici de extragere a datelor, cum ar fi tendințele, modelele secvențiale, gruparea, clasificarea etc. Analizează evenimentele sau cazurile trecute într-o secvență corectă pentru a prezice un eveniment viitor.
Provocări ale implementării minei de date
- Sunt necesari experți calificați pentru a formula interogările de data mining.
- Supraajustare: din cauza bazei de date de antrenament de dimensiuni mici, un model poate să nu se potrivească stărilor viitoare.
- Exploatarea datelor are nevoie de baze de date mari, care uneori sunt dificil de gestionat
- Practicile de afaceri ar putea trebui modificate pentru a determina utilizarea informațiilor descoperite.
- Dacă setul de date nu este divers, este posibil ca rezultatele extragerii de date să nu fie exacte.
- Integrarea informațiilor necesare din baze de date eterogene și sisteme de informații globale ar putea fi complexă
Exemple de extragere a datelor
Acum, în acest curs de data mining, să învățăm despre data mining cu exemple:
Exemplu 1:
Luați în considerare un șef de marketing al serviciilor de telecomunicații care dorește să crească veniturile din serviciile de lungă distanță. Pentru un ROI ridicat al eforturilor sale de vânzări și marketing, este importantă crearea profilului clienților. El are un bazin vast de date de informații despre clienți, cum ar fi vârsta, sexul, venitul, istoricul de credit etc. Dar este imposibil de determinat caracteristicile persoanelor care preferă apelurile la distanță cu analiză manuală. Folosind tehnici de extragere a datelor, el poate descoperi modele între utilizatorii de apeluri la distanță mare și caracteristicile acestora.
De exemplu, ar putea afla că cei mai buni clienți ai săi sunt femei căsătorite cu vârsta cuprinsă între 45 și 54 de ani, care câștigă mai mult de 80,000 USD pe an. Eforturile de marketing pot fi direcționate către o astfel de populație.
Exemplu 2:
O bancă dorește să caute noi modalități de a crește veniturile din operațiunile sale cu cardul de credit. Vor să verifice dacă utilizarea s-ar dubla dacă taxele s-ar înjumătăți.
Banca are mai mulți ani de înregistrare în ceea ce privește soldurile medii ale cardurilor de credit, sumele plăților, utilizarea limitei de credit și alți parametri cheie. Ei creează un model pentru a verifica impactul noii politici de afaceri propuse. Rezultatele datelor arată că reducerea la jumătate a taxelor pentru o bază de clienți vizată ar putea crește veniturile cu 10 milioane USD.
Instrumente de extragere a datelor
Următoarele sunt 2 populare Instrumente de extragere a datelor utilizat pe scară largă în industrie
Limba R:
limbajul R este un instrument open source pentru calcul statistic și grafică. R are o mare varietate de teste statistice, statistice clasice, analize de serii temporale, tehnici de clasificare și grafice. Oferă o facilitate eficientă de manipulare și stocare a datelor.
Oracle Exploatarea datelor:
Oracle Data Mining cunoscut ca ODM este un modul al Oracle Baza de date de analiză avansată. Acest instrument de extragere a datelor permite analiștilor de date să genereze informații detaliate și să facă predicții. Ajută la prezicerea comportamentului clienților, dezvoltă profilurile clienților, identifică oportunitățile de vânzare încrucișată.
Beneficiile Data Mining
- Tehnica de extragere a datelor ajută companiile să obțină informații bazate pe cunoștințe.
- Exploatarea datelor ajută organizațiile să facă ajustări profitabile în operare și producție.
- Miningul de date este o soluție rentabilă și eficientă în comparație cu alte aplicații de date statistice.
- Exploatarea datelor ajută la procesul de luare a deciziilor.
- Facilitează predicția automată a tendințelor și comportamentelor, precum și descoperirea automată a tiparelor ascunse.
- Poate fi implementat în sisteme noi, precum și în platformele existente
- Procesul rapid face ca utilizatorii să analizeze cu ușurință cantități uriașe de date în mai puțin timp.
Dezavantajele minării de date
- Există șanse ca companiile să vândă informații utile despre clienții lor altor companii pentru bani. De exemplu, American Express a vândut altor companii achizițiile cu cardul de credit ale clienților lor.
- Multe software-uri de analiză pentru extragerea datelor sunt dificil de operat și necesită pregătire avansată pentru a lucra.
- Diferite instrumente de extragere a datelor funcționează în moduri diferite, datorită diferiților algoritmi folosiți în proiectarea lor. Prin urmare, selectarea instrumentului corect de extragere a datelor este o sarcină foarte dificilă.
- Tehnicile de extragere a datelor nu sunt precise și, prin urmare, pot provoca consecințe grave în anumite condiții.
Aplicații de extragere a datelor
Aplicatii | Folosire |
---|---|
Comunicații | Tehnicile de data mining sunt folosite în sectorul comunicațiilor pentru a prezice comportamentul clienților pentru a oferi campanii foarte vizate și relevante. |
Asigurări | Exploatarea datelor ajută companiile de asigurări să-și stabilească prețurile profitabile pentru produsele și să promoveze noi oferte pentru clienții lor noi sau existenți. |
Educaţie | Exploatarea datelor aduce beneficii educatorilor pentru a accesa datele studenților, a prezice nivelurile de performanță și a găsi studenți sau grupuri de studenți care necesită o atenție suplimentară. De exemplu, elevii care sunt slabi la materia matematică. |
Producție | Cu ajutorul Data Mining, producătorii pot prezice uzura activelor de producție. Ei pot anticipa întreținerea, ceea ce îi ajută să le reducă pentru a minimiza timpul de nefuncționare. |
Bancar | Exploatarea datelor ajută sectorul financiar să obțină o perspectivă asupra riscurilor de piață și să gestioneze conformitatea cu reglementările. Ajută băncile să identifice probabili debitori pentru a decide dacă emit carduri de credit, împrumuturi etc. |
Retail | Tehnicile Data Mining ajută mall-urile și magazinele alimentare cu amănuntul să identifice și să aranjeze cele mai multe articole care pot fi vândute în cele mai atente poziții. Îi ajută pe proprietarii de magazine să vină cu oferta care îi încurajează pe clienți să-și mărească cheltuielile. |
Furnizori de servicii | Furnizorii de servicii precum telefoanele mobile și industriile de utilități folosesc Data Mining pentru a prezice motivele când un client își părăsește compania. Ei analizează detaliile de facturare, interacțiunile cu serviciul clienți, reclamațiile adresate companiei pentru a atribui fiecărui client un scor de probabilitate și oferă stimulente. |
E-commerce | Site-urile de comerț electronic utilizează Data Mining pentru a oferi vânzări încrucișate și up-sells prin intermediul site-urilor lor. Unul dintre cele mai cunoscute nume este Amazon, care folosesc tehnici de extragere a datelor pentru a atrage mai mulți clienți în magazinul lor de comerț electronic. |
Super piețe | Data Mining permite supermarketurilor să dezvolte reguli pentru a prezice dacă cumpărătorii lor ar fi probabil să se aștepte. Evaluând modelul lor de cumpărare, ei ar putea găsi clienți femei care sunt cel mai probabil însărcinate. Ei pot începe să vizeze produse precum pudră pentru copii, magazin pentru copii, scutece și așa mai departe. |
Investigarea Criminalității | Data Mining ajută agențiile de investigare a criminalității să desfășoare forță de muncă de poliție (unde este cel mai probabil să se întâmple o crimă și când?), pe cine să caute la un punct de trecere a frontierei etc. |
bioinformatica | Data Mining ajută la extragerea datelor biologice din seturi masive de date adunate în biologie și medicină. |
Rezumat
- Definiția Data Mining: Data Mining este totul despre explicarea trecutului și prezicerea viitorului prin intermediul Analiza datelor.
- Exploatarea datelor ajută la extragerea informațiilor din seturi uriașe de date. Este procedura de extragere a cunoștințelor din date.
- Procesul de extragere a datelor include înțelegerea afacerii, înțelegerea datelor, pregătirea datelor, modelarea, evoluția, implementarea.
- Tehnicile importante de extragere a datelor sunt clasificarea, gruparea, regresia, regulile de asociere, detectarea exterioară, modelele secvențiale și predicția.
- Limba R si Oracle Exploatarea datelor sunt instrumente și tehnici importante de extragere a datelor.
- Tehnica de extragere a datelor ajută companiile să obțină informații bazate pe cunoștințe.
- Principalul dezavantaj al minării de date este că multe software de analiză sunt dificil de operat și necesită pregătire avansată pentru a lucra.
- Exploatarea datelor este utilizată în diverse industrii, cum ar fi comunicații, asigurări, educație, producție, servicii bancare, retail, furnizori de servicii, comerț electronic, bioinformatică pentru supermarketuri.