Tiedonlouhinnan opetusohjelma: Mitä tiedonlouhinta on? Tekniikat, prosessit

Mikä on tiedonlouhinta?

Data Mining on prosessi, jossa etsitään mahdollisesti hyödyllisiä malleja valtavista tietojoukoista. Se on monialainen taito, jota käytetään koneoppiminen, tilastot ja tekoäly poimimaan tietoa tulevien tapahtumien todennäköisyyden arvioimiseksi. Tiedonlouhinnasta saatuja oivalluksia käytetään markkinointiin, petosten havaitsemiseen, tieteellisiin löytöihin jne.

Tiedonlouhinnassa on kyse piilotettujen, epäiltyjen ja aiemmin tuntemattomien, mutta pätevien suhteiden löytämisestä datasta. Tiedonlouhintaa kutsutaan myös nimellä Knowledge Discovery in Data (KDD), tiedon poimiminen, data/mallianalyysi, tiedon kerääminen jne.

Tietotyypit

Tiedonlouhinta voidaan suorittaa seuraavan tyyppisille tiedoille

  • Relaatiotietokannat
  • Tietovarastot
  • Kehittynyt tietokanta ja tietovarastot
  • Olio- ja oliorelaatiotietokannat
  • Tapahtuma- ja tilatietokannat
  • Heterogeeniset ja vanhat tietokannat
  • Multimedia- ja suoratoistotietokanta
  • Tekstitietokannat
  • Tekstin louhinta ja verkkolouhinta

Tietojen louhinnan toteutusprosessi

Tiedonlouhinnan käyttöönottoprosessi
Tiedonlouhinnan käyttöönottoprosessi

Tutkitaan tiedon louhinnan toteutusprosessia yksityiskohtaisesti

Liiketoiminnan ymmärtäminen

Tässä vaiheessa asetetaan liiketoiminnan ja tiedon louhinnan tavoitteet.

  • Ensinnäkin sinun on ymmärrettävä liiketoiminnan ja asiakkaiden tavoitteet. Sinun on määriteltävä, mitä asiakkaasi haluaa (mitä usein edes hän ei itse tiedä)
  • Tutustu nykyiseen tiedon louhintaskenaarioon. Ota arvioosi huomioon resurssit, olettamukset, rajoitteet ja muut tärkeät tekijät.
  • Määritä tiedonlouhintatavoitteesi liiketoimintatavoitteiden ja nykyisen skenaarion avulla.
  • Hyvä tiedonlouhintasuunnitelma on hyvin yksityiskohtainen, ja se tulisi kehittää sekä liiketoiminnan että tiedon louhintatavoitteiden saavuttamiseksi.

Tietojen ymmärtäminen

Tässä vaiheessa datalle suoritetaan mielenterveystarkastus sen tarkistamiseksi, onko se sopiva tiedon louhintatavoitteisiin.

  • Ensinnäkin tiedot kerätään useista organisaatiossa saatavilla olevista tietolähteistä.
  • Nämä tietolähteet voivat sisältää useita tietokantoja, litteän arkistoinnin tai datakuutiot. Tietojen integrointiprosessin aikana voi ilmetä ongelmia, kuten objektien täsmääminen ja skeeman integrointi. Se on melko monimutkainen ja hankala prosessi, koska eri lähteistä peräisin olevat tiedot eivät todennäköisesti täsmää helposti. Esimerkiksi taulukko A sisältää entiteetin nimeltä cust_no, kun taas toinen taulukko B sisältää entiteetin nimeltä cust-id.
  • Siksi on melko vaikeaa varmistaa, viittaavatko nämä molemmat objektit samaan arvoon vai eivät. Tässä metatietoja tulisi käyttää vähentämään virheitä tietojen integrointiprosessissa.
  • Seuraavaksi etsitään hankittujen tietojen ominaisuuksia. Hyvä tapa tutkia dataa on vastata tiedon louhintakysymyksiin (jotka päätettiin liiketoimintavaiheessa) kysely-, raportointi- ja visualisointityökalujen avulla.
  • Kyselyn tulosten perusteella tulee varmistaa tietojen laatu. Puuttuvat tiedot, jos niitä pitäisi hankkia.

Tietojen valmistelu

Tässä vaiheessa data saatetaan tuotantovalmiiksi.

Tietojen valmisteluprosessi vie noin 90 % projektin ajasta.

Eri lähteistä tulevat tiedot tulee valita, puhdistaa, muuntaa, muotoilla, anonymisoida ja rakentaa (tarvittaessa).

Tietojen puhdistus on prosessi, jolla tiedot "puhdistetaan" tasoittamalla kohinaisia ​​tietoja ja täyttämällä puuttuvia arvoja.

Esimerkiksi asiakkaan demografisesta profiilista puuttuu ikätietoja. Tiedot ovat epätäydellisiä ja ne on täytettävä. Joissakin tapauksissa tiedoissa voi olla poikkeavuuksia. Esimerkiksi iän arvo on 300. Tiedot voivat olla epäjohdonmukaisia. Esimerkiksi asiakkaan nimi on erilainen eri taulukoissa.

Datan muunnostoiminnot muuttavat dataa hyödylliseksi tiedon louhinnassa. Seuraavaa muunnosa voidaan soveltaa

Tietojen muuntaminen

Datan muunnosoperaatiot edistäisivät kaivosprosessin onnistumista.

Tasoitus: Se auttaa poistamaan kohinaa tiedoista.

Yhdistäminen: Tietoihin sovelletaan yhteenveto- tai koontioperaatioita. Eli viikoittaiset myyntitiedot yhdistetään kuukausittaisen ja vuosittaisen kokonaissumman laskemiseksi.

Yleistys: Tässä vaiheessa matalan tason data korvataan ylemmän tason käsitteillä konseptihierarkioiden avulla. Esimerkiksi kaupunki korvataan läänillä.

normalisointi: Normalisointi suoritetaan, kun attribuuttitietoja skaalataan ylös tai pienennetään. Esimerkki: Datan pitäisi olla välillä -2.0 - 2.0 normalisoinnin jälkeen.

Ominaisuuden rakentaminen: nämä attribuutit on rakennettu ja sisältävät tietyt attribuutit, jotka ovat hyödyllisiä tiedonlouhinnassa.

Tämän prosessin tuloksena saadaan lopullinen tietojoukko, jota voidaan käyttää mallintamisessa.

mallinnus

Tässä vaiheessa matemaattisia malleja käytetään datakuvioiden määrittämiseen.

  • Valmistetulle tietojoukolle tulisi valita sopivat mallinnustekniikat liiketoimintatavoitteiden perusteella.
  • Luo skenaario mallin laadun ja kelpoisuuden testaamiseksi.
  • Suorita malli valmiissa tietojoukossa.
  • Kaikkien sidosryhmien tulee arvioida tuloksia varmistaakseen, että malli voi täyttää tiedon louhinnan tavoitteet.

Arviointi

Tässä vaiheessa tunnistettuja malleja arvioidaan suhteessa liiketoiminnan tavoitteisiin.

  • Tiedonlouhintamallin tuottamia tuloksia tulee arvioida suhteessa liiketoiminnan tavoitteisiin.
  • Liiketoiminnan ymmärtäminen on iteratiivinen prosessi. Itse asiassa, vaikka ymmärrätkin, tiedon louhinta voi nostaa uusia liiketoimintavaatimuksia.
  • Päätös mallin siirtämisestä käyttöönottovaiheessa tehdään tai ei.

Käyttöönotto

Käyttöönottovaiheessa lähetät tiedonlouhintalöytösi jokapäiväiseen liiketoimintaan.

  • Tiedonlouhintaprosessin aikana löydetyt tiedot tulee tehdä helposti ymmärrettäväksi ei-teknisille sidosryhmille.
  • Yksityiskohtainen käyttöönottosuunnitelma tiedonlouhintalöytöjen toimittamiseen, ylläpitoon ja seurantaan luodaan.
  • Projektin loppuraportti luodaan, joka sisältää hankkeen aikana saadut opetukset ja keskeiset kokemukset. Tämä auttaa parantamaan organisaation liiketoimintapolitiikkaa.

Data Mining Techniques

Data Mining Techniques
Data Mining Techniques

1. Luokittelu

Tätä analyysiä käytetään tärkeän ja merkityksellisen tiedon hakemiseen tiedoista ja metatiedoista. Tämä tiedonlouhintamenetelmä auttaa luokittelemaan tiedot eri luokkiin.

2. Clusterta

ClusterAnalyysi on tiedonlouhintatekniikka toistensa kaltaisten tietojen tunnistamiseksi. Tämä prosessi auttaa ymmärtämään tietojen eroja ja yhtäläisyyksiä.

3. Regressio

Regressioanalyysi on tiedon louhintamenetelmä muuttujien välisten suhteiden tunnistamiseksi ja analysoimiseksi. Sitä käytetään määrittämään tietyn muuttujan todennäköisyys, kun otetaan huomioon muiden muuttujien läsnäolo.

4. Yhdistyksen säännöt

Tämä tiedonlouhintatekniikka auttaa löytämään yhteyden kahden tai useamman kohteen välillä. Se löytää piilotetun kuvion tietojoukosta.

5. Ulkoinen tunnistus

Tämän tyyppinen tiedonlouhintatekniikka viittaa sellaisten tietojoukon tietokohteiden tarkkailuun, jotka eivät vastaa odotettua mallia tai odotettua käyttäytymistä. Tätä tekniikkaa voidaan käyttää useilla aloilla, kuten tunkeutumisen, havaitsemisen, petosten tai vikojen havaitsemiseen jne. Ulkoista havaitsemista kutsutaan myös outlier-analyysiksi tai outlier-kaivostoiminnaksi.

6. Peräkkäiset kuviot

Tämä tiedonlouhintatekniikka auttaa löytämään tai tunnistamaan samanlaisia ​​​​malleja tai trendejä tapahtumatiedoissa tietyltä ajanjaksolta.

7. Ennustus

Ennuste on käyttänyt yhdistelmää muita tiedon louhintatekniikoita, kuten trendejä, peräkkäisiä kuvioita, klusterointia, luokittelua jne. Se analysoi menneitä tapahtumia tai tapauksia oikeassa järjestyksessä tulevan tapahtuman ennustamiseksi.

Datakaivoksen käyttöönoton haasteet

  • Tiedonlouhintakyselyjen muotoiluun tarvitaan taitavia asiantuntijoita.
  • Ylisovitus: Pienen koulutustietokannan vuoksi malli ei välttämättä sovi tuleviin tiloihin.
  • Tiedonlouhinta vaatii suuria tietokantoja, joita on joskus vaikea hallita
  • Liiketoimintakäytäntöjä on ehkä muutettava, jotta paljastettuja tietoja voidaan käyttää.
  • Jos tietojoukko ei ole monipuolinen, tiedon louhinnan tulokset eivät välttämättä ole tarkkoja.
  • Heterogeenisista tietokannoista ja globaaleista tietojärjestelmistä tarvittava integrointitieto voi olla monimutkaista

Esimerkkejä tiedon louhinnasta

Nyt tällä tiedonlouhintakurssilla opitaan tiedon louhinnasta esimerkkien avulla:

Esimerkki 1:

Harkitse televiestintäpalveluiden markkinointipäällikköä, joka haluaa kasvattaa kaukopalvelujen tuloja. Korkean sijoitetun pääoman tuottoprosentin saavuttamiseksi hänen myynti- ja markkinointiponnisteluissaan asiakkaiden profilointi on tärkeää. Hänellä on laaja tietokanta asiakastiedoista, kuten iästä, sukupuolesta, tuloista, luottohistoriasta jne. Mutta kaukopuheluita suosivien ihmisten ominaisuuksia on mahdotonta määrittää manuaalisen analyysin avulla. Käyttämällä tiedonlouhintatekniikoita hän voi paljastaa kuvioita kaukopuheluiden käyttäjien ja heidän ominaisuuksiensa välillä.

Hän saattaa esimerkiksi oppia, että hänen parhaat asiakkaat ovat naimisissa olevia 45–54-vuotiaita naisia, jotka tienaavat yli 80,000 XNUMX dollaria vuodessa. Markkinointiponnistelut voidaan kohdistaa sellaisiin väestöryhmiin.

Esimerkki 2:

Pankki haluaa etsiä uusia tapoja kasvattaa luottokorttitoimintojensa tuottoa. He haluavat tarkistaa, kaksinkertaistuuko käyttö, jos maksut puolitettaisiin.

Pankilla on useiden vuosien ennätys keskimääräisistä luottokorttisaldoista, maksusummista, luottorajan käytöstä ja muista tärkeistä parametreista. He luovat mallin ehdotetun uuden liiketoimintapolitiikan vaikutusten tarkistamiseksi. Tietojen tulokset osoittavat, että kohdennetun asiakaskunnan maksujen puolittaminen voisi lisätä tuloja 10 miljoonalla dollarilla.

Tiedonlouhintatyökalut

Seuraavat ovat 2 suosittua Tiedonlouhintatyökalut käytetään laajasti teollisuudessa

R-kieli:

R -kieli on avoimen lähdekoodin työkalu tilastolaskentaan ja grafiikkaan. R:llä on laaja valikoima tilastollisia, klassisia tilastollisia testejä, aikasarjaanalyysiä, luokittelua ja graafisia tekniikoita. Se tarjoaa tehokkaan tiedonkäsittelyn ja varastoinnin.

Lue lisää täältä

Oracle Tiedonlouhinta:

Oracle Data Mining yleisesti tunnettu ODM on moduuli Oracle Advanced Analytics-tietokanta. Tämän tiedonlouhintatyökalun avulla data-analyytikot voivat luoda yksityiskohtaisia ​​näkemyksiä ja tehdä ennusteita. Se auttaa ennakoimaan asiakkaiden käyttäytymistä, kehittää asiakasprofiileja ja tunnistaa ristiinmyyntimahdollisuudet.

Lue lisää täältä

Tiedonlouhinnan edut

  • Tiedonlouhintatekniikka auttaa yrityksiä saamaan tietoon perustuvaa tietoa.
  • Tiedonlouhinta auttaa organisaatioita tekemään kannattavia muutoksia toiminnassa ja tuotannossa.
  • Tiedonlouhinta on kustannustehokas ja tehokas ratkaisu verrattuna muihin tilastotietosovelluksiin.
  • Tiedonlouhinta auttaa päätöksenteossa.
  • Helpottaa trendien ja käyttäytymisen automaattista ennustamista sekä piilotettujen kuvioiden automaattista havaitsemista.
  • Se voidaan toteuttaa sekä uusissa järjestelmissä että olemassa olevissa alustoissa
  • Se on nopea prosessi, jonka ansiosta käyttäjien on helppo analysoida valtava määrä tietoa lyhyemmässä ajassa.

Tiedonlouhinnan haitat

  • On mahdollista, että yritykset myyvät hyödyllistä tietoa asiakkaistaan ​​muille yrityksille rahalla. Esimerkiksi American Express on myynyt asiakkaidensa luottokorttiostoksia muille yrityksille.
  • Monet tiedon louhintaanalytiikkaohjelmistot ovat vaikeita käyttää ja vaativat ennakkokoulutusta.
  • Eri tiedonlouhintatyökalut toimivat eri tavoin niiden suunnittelussa käytettyjen eri algoritmien vuoksi. Siksi oikean tiedon louhintatyökalun valinta on erittäin vaikea tehtävä.
  • Tiedonlouhintatekniikat eivät ole tarkkoja, joten se voi aiheuttaa vakavia seurauksia tietyissä olosuhteissa.

Tiedonlouhintasovellukset

Sovellukset Käyttö
Yhteydenpito Tiedonlouhintatekniikoita käytetään viestintäalalla asiakkaiden käyttäytymisen ennustamiseen, jotta voidaan tarjota tarkasti kohdistettuja ja osuvia kampanjoita.
Vakuutus Tiedonlouhinta auttaa vakuutusyhtiöitä hinnoittelemaan tuotteensa kannattavasti ja edistämään uusia tarjouksia uusille tai nykyisille asiakkailleen.
Oppilaitokset Tiedonlouhinta auttaa opettajia pääsemään käsiksi oppilastietoihin, ennustamaan saavutustasoja ja löytämään opiskelijat tai opiskelijaryhmät, jotka tarvitsevat erityistä huomiota. Esimerkiksi opiskelijat, jotka ovat heikkoja matematiikan aineissa.
valmistus Data Miningin avulla valmistajat voivat ennustaa tuotantoomaisuuden kulumista. He voivat ennakoida huoltoa, mikä auttaa heitä vähentämään niitä ja minimoimaan seisokkeja.
Pankkitoiminta Tiedonlouhinta auttaa rahoitusalaa saamaan kuvan markkinariskeistä ja hallitsemaan säännösten noudattamista. Se auttaa pankkeja tunnistamaan todennäköiset laiminlyönnit päättääkseen, myöntävätkö ne luottokortteja, lainoja jne.
Vähittäiskauppa Data Mining -tekniikat auttavat vähittäiskauppoja ja ruokakauppoja tunnistamaan ja järjestämään myydyimmät tuotteet kaikkein tarkkaavaisimpiin paikkoihin. Se auttaa myymälöiden omistajia keksimään tarjouksen, joka rohkaisee asiakkaita lisäämään kulutustaan.
Palveluntarjoajat Palveluntarjoajat, kuten matkapuhelin- ja sähköteollisuus, käyttävät Data Miningiä ennustaakseen syitä, miksi asiakas lähtee yrityksestään. He analysoivat laskutustietoja, asiakaspalvelun vuorovaikutusta, yritykselle tehtyjä valituksia määrittääkseen jokaiselle asiakkaalle todennäköisyyspisteet ja tarjoavat kannustimia.
E-Commerce Verkkokauppasivustot käyttävät Data Mining -palvelua tarjotakseen ristiin- ja lisämyyntiä verkkosivustojensa kautta. Yksi tunnetuimmista nimistä on Amazon, jotka käyttävät tiedonlouhintatekniikoita saadakseen lisää asiakkaita verkkokauppaansa.
Super Marketit Tietojen louhinnan avulla supermarketit voivat kehittää sääntöjä ennustaakseen, odottivatko heidän ostajansa. Arvioimalla ostotottumustaan ​​he voivat löytää naisasiakkaita, jotka ovat todennäköisimmin raskaana. He voivat alkaa kohdistaa tuotteita, kuten vauvanjauhetta, vauvakauppaa, vaippoja ja niin edelleen.
Rikostutkinta Tiedonlouhinta auttaa rikostutkintavirastoja käyttämään poliisivoimaa (missä rikos todennäköisimmin tapahtuu ja milloin?), ketä etsimään rajanylityspaikalta jne.
bioinformatiikka Data Mining auttaa louhimaan biologisia tietoja massiivisista biologian ja lääketieteen aineistoista.

Yhteenveto

  • Tiedonlouhinnan määritelmä: Tiedonlouhinnassa on kyse menneisyyden selittämisestä ja tulevaisuuden ennustamisesta Tietojen analysointi.
  • Tiedonlouhinta auttaa poimimaan tietoa valtavista tietojoukoista. Se on menetelmä tiedon louhimiseksi tiedoista.
  • Tiedonlouhintaprosessi sisältää liiketoiminnan ymmärtämisen, tietojen ymmärtämisen, tietojen valmistelun, mallinnuksen, evoluution ja käyttöönoton.
  • Tärkeitä tiedonlouhintatekniikoita ovat luokittelu, klusterointi, regressio, assosiaatiosäännöt, ulkoinen tunnistus, peräkkäiset kuviot ja ennustus
  • R-kieli ja Oracle Tiedonlouhinta ovat merkittäviä tiedonlouhintatyökaluja ja -tekniikoita.
  • Tiedonlouhintatekniikka auttaa yrityksiä saamaan tietoon perustuvaa tietoa.
  • Tiedonlouhinnan suurin haittapuoli on, että monet analytiikkaohjelmistot ovat vaikeita käyttää ja vaativat ennakkokoulutusta.
  • Tiedonlouhintaa käytetään monilla aloilla, kuten viestintä, vakuutus, koulutus, valmistus, pankkitoiminta, vähittäiskauppa, palveluntarjoajat, sähköinen kaupankäynti, supermarkettien bioinformatiikka.