Andmekaevandamise õpetus: mis on andmekaevandamine? Tehnikad, protsess
Mis on andmekaeve?
Data Mining on protsess potentsiaalselt kasulike mustrite leidmiseks tohututest andmekogumitest. See on multidistsiplinaarne oskus, mida kasutatakse masinõpe, statistika ja tehisintellekt, et hankida teavet tulevaste sündmuste tõenäosuse hindamiseks. Andmekaevandusest saadud teadmisi kasutatakse turunduseks, pettuste tuvastamiseks, teaduslikeks avastusteks jne.
Andmekaevandamine on seotud andmete varjatud, kahtlustamatute ja varem tundmatute, kuid kehtivate seoste avastamisega. Andmekaeve nimetatakse ka teadmiste avastamiseks andmetes (KDD), teadmiste ekstraheerimiseks, andmete/mustrite analüüsiks, teabe kogumiseks jne.
Andmete tüübid
Andmekaevet saab teostada järgmist tüüpi andmete puhul
- Relatsioonandmebaasid
- Andmelaod
- Täiustatud DB ja teabehoidlad
- Objektorienteeritud ja objektrelatsioonilised andmebaasid
- Tehingu- ja ruumiandmebaasid
- Heterogeensed ja pärandandmebaasid
- Multimeedia ja voogesituse andmebaas
- Teksti andmebaasid
- Tekstikaevandamine ja veebikaevandamine
Andmekaeve rakendusprotsess
Uurime üksikasjalikult andmekaeve juurutamisprotsessi
Äri mõistmine
Selles etapis kehtestatakse äri- ja andmekaevandamise eesmärgid.
- Esiteks peate mõistma ettevõtte ja kliendi eesmärke. Peate määratlema, mida teie klient soovib (mida sageli isegi ta ise ei tea)
- Tehke ülevaade praegusest andmekaeve stsenaariumist. Võtke oma hinnangus arvesse ressursse, eeldusi, piiranguid ja muid olulisi tegureid.
- Määrake oma andmekaevandamise eesmärgid ärieesmärke ja praegust stsenaariumi kasutades.
- Hea andmekaeveplaan on väga üksikasjalik ja see tuleks välja töötada nii äri- kui ka andmekaeveeesmärkide saavutamiseks.
Andmete mõistmine
Selles etapis kontrollitakse andmete mõistlikkust, et kontrollida, kas see sobib andmekaeve eesmärkidega.
- Esiteks kogutakse andmeid mitmest organisatsioonis saadaolevast andmeallikast.
- Need andmeallikad võivad hõlmata mitut andmebaasi, ühtset failifaili või andmekuubikuid. Andmete integreerimise käigus võib tekkida probleeme, nagu objektide sobitamine ja skeemi integreerimine. See on üsna keeruline ja keeruline protsess, kuna erinevatest allikatest pärinevad andmed ei pruugi tõenäoliselt kergesti ühtida. Näiteks tabel A sisaldab olemit nimega cust_no, samas kui teine tabel B sisaldab olemit nimega cust-id.
- Seetõttu on üsna raske kindlaks teha, kas need mõlemad antud objektid viitavad samale väärtusele või mitte. Siin tuleks metaandmeid kasutada andmete integreerimise protsessis esinevate vigade vähendamiseks.
- Järgmisena tuleb otsida omandatud andmete atribuute. Hea viis andmete uurimiseks on vastata andmekaeve küsimustele (mis on otsustatud ärifaasis), kasutades päringu-, aruandlus- ja visualiseerimistööriistu.
- Päringu tulemuste põhjal tuleks kindlaks teha andmete kvaliteet. Andmed puuduvad, kui neid tuleks hankida.
Andmete ettevalmistamine
Selles etapis valmistatakse andmed tootmisvalmis.
Andmete ettevalmistamise protsess võtab umbes 90% projekti ajast.
Erinevatest allikatest pärit andmed tuleks valida, puhastada, teisendada, vormindada, anonüümseks muuta ja konstrueerida (vajadusel).
Andmete puhastamine on protsess andmete "puhastamiseks", siludes mürarikkaid andmeid ja täites puuduvad väärtused.
Näiteks kliendi demograafilise profiili puhul puuduvad vanuseandmed. Andmed on puudulikud ja tuleks täita. Mõnel juhul võivad andmed esineda kõrvalekaldeid. Näiteks vanuse väärtus on 300. Andmed võivad olla vastuolulised. Näiteks on kliendi nimi erinevates tabelites erinev.
Andmete teisendustoimingud muudavad andmeid, et muuta need andmekaevandamisel kasulikuks. Rakendada saab järgmist teisendust
Andmete teisendamine
Andmete teisendamise toimingud aitaksid kaasa kaevandamisprotsessi edule.
Silumine: See aitab andmetest müra eemaldada.
Koondamine: Andmetele rakendatakse kokkuvõtvaid või liitmisoperatsioone. St iganädalased müügiandmed koondatakse, et arvutada kuu ja aasta kogusumma.
Üldistus: Selles etapis asendatakse madala taseme andmed mõistehierarhiate abil kõrgema taseme mõistetega. Näiteks linna asemel on maakond.
Normaliseerimine: Normaliseerimine viiakse läbi, kui atribuutide andmeid suurendatakse või vähendatakse. Näide: andmed peaksid pärast normaliseerimist jääma vahemikku -2.0 kuni 2.0.
Atribuudi ehitus: need atribuudid on koostatud ja sisaldavad antud atribuutide komplekti, mis on abiks andmekaeve jaoks.
Selle protsessi tulemuseks on lõplik andmekogum, mida saab kasutada modelleerimisel.
modelleerimine
Selles faasis kasutatakse andmemustrite määramiseks matemaatilisi mudeleid.
- Ärieesmärkidest lähtuvalt tuleks koostatud andmestiku jaoks valida sobivad modelleerimistehnikad.
- Looge mudeli kvaliteedi ja kehtivuse testimiseks stsenaarium.
- Käivitage mudel ettevalmistatud andmekogumil.
- Tulemusi peaksid hindama kõik sidusrühmad, et veenduda mudeli vastavuses andmekaeve eesmärkidele.
Hindamine
Selles etapis hinnatakse tuvastatud mustreid ärieesmärkide alusel.
- Andmekaevemudeli abil saadud tulemusi tuleks hinnata ärieesmärkide alusel.
- Ettevõtlusest arusaamise omandamine on iteratiivne protsess. Tegelikult võivad andmekaevandamise tõttu tekkida uued ärinõuded, kuigi mõista.
- Mudeli kasutuselevõtufaasis teisaldamiseks tehakse otsus kas minna või mitte.
Deployment
Juurutamisetapis saadate oma andmekaevandamise avastused igapäevasesse äritegevusse.
- Andmekaevandamise käigus avastatud teadmised või teave tuleks teha mittetehnilistele sidusrühmadele kergesti arusaadavaks.
- Luuakse üksikasjalik juurutamiskava andmekaevandamise avastuste tarnimiseks, hoolduseks ja jälgimiseks.
- Projekti lõpparuanne koostatakse projekti käigus saadud õppetundide ja peamiste kogemustega. See aitab parandada organisatsiooni äripoliitikat.
Andmekaevandamise tehnikad
1. Klassifikatsioon
Seda analüüsi kasutatakse andmete ja metaandmete kohta olulise ja asjakohase teabe hankimiseks. See andmekaevandamise meetod aitab klassifitseerida andmeid erinevatesse klassidesse.
2. Clusterse
Clusteranalüüs on andmekaevetehnika, mille abil tuvastatakse üksteisega sarnased andmed. See protsess aitab mõista andmete erinevusi ja sarnasusi.
3. Taandareng
Regressioonanalüüs on andmekaeve meetod muutujate vaheliste seoste tuvastamiseks ja analüüsimiseks. Seda kasutatakse konkreetse muutuja tõenäosuse tuvastamiseks, võttes arvesse teiste muutujate olemasolu.
4. Ühingu reeglid
See andmekaevetehnika aitab leida seose kahe või enama üksuse vahel. See avastab andmekogumis peidetud mustri.
5. Väline tuvastamine
Seda tüüpi andmekaevetehnika viitab selliste andmeüksuste vaatlemisele andmekogumis, mis ei vasta eeldatavale mustrile või eeldatavale käitumisele. Seda tehnikat saab kasutada erinevates valdkondades, nagu sissetungimine, tuvastamine, pettuste või rikete tuvastamine jne. Välist tuvastamist nimetatakse ka kõrvalekallete analüüsiks või kõrvalekallete kaevandamiseks.
6. Järjestikused mustrid
See andmekaevetehnika aitab avastada või tuvastada tehinguandmetes teatud perioodi jooksul sarnaseid mustreid või suundumusi.
7. Ennustamine
Prognoos on kasutanud kombinatsiooni muudest andmekaevandamise tehnikatest, nagu trendid, järjestikused mustrid, rühmitamine, klassifitseerimine jne. See analüüsib minevikusündmusi või juhtumeid õiges järjestuses, et ennustada tulevast sündmust.
Andmekaevanduse rakendamise väljakutsed
- Andmekaevepäringute formuleerimiseks on vaja kvalifitseeritud eksperte.
- Ülesobitamine: väiksuse koolitusandmebaasi tõttu ei pruugi mudel tulevastesse olekutesse sobida.
- Andmekaeve vajab suuri andmebaase, mida mõnikord on raske hallata
- Avatud teabe kasutamise otsustamiseks võib olla vaja äritavasid muuta.
- Kui andmekogum ei ole mitmekesine, ei pruugi andmekaeve tulemused olla täpsed.
- Heterogeensetest andmebaasidest ja globaalsetest infosüsteemidest saadav integratsiooniteave võib olla keeruline
Andmekaeve näited
Nüüd sellel andmekaeve kursusel tutvume andmekaevandamisega näidete abil.
Näide 1:
Mõelge telekommunikatsiooniteenuste osutamise turundusjuhile, kes soovib suurendada pikamaateenuste tulusid. Tema müügi- ja turundustegevuse kõrge ROI jaoks on oluline kliendiprofiilide koostamine. Tal on tohutu andmebaas klienditeabe kohta, nagu vanus, sugu, sissetulek, krediidiajalugu jne. Kuid kaugkõnesid eelistavate inimeste omadusi on käsitsi analüüsiga võimatu kindlaks teha. Andmekaevetehnikaid kasutades võib ta avastada mustreid kaugekõnede kasutajate ja nende omaduste vahel.
Näiteks võib ta teada saada, et tema parimad kliendid on 45–54-aastased abielus naised, kes teenivad aastas üle 80,000 XNUMX dollari. Turundustegevus võib olla suunatud sellisele demograafilisele tasemele.
Näide 2:
Pank soovib otsida uusi võimalusi oma krediitkaarditoimingutest saadava tulu suurendamiseks. Nad tahavad kontrollida, kas kasutamine kahekordistuks, kui tasusid poole võrra vähendada.
Pangal on krediitkaardi keskmiste saldode, maksesummade, krediidilimiidi kasutamise ja muude oluliste parameetrite kohta mitu aastat andmeid. Nad loovad mudeli kavandatava uue äripoliitika mõju kontrollimiseks. Andmete tulemused näitavad, et sihtotstarbelise kliendibaasi tasude vähendamine poole võrra võib suurendada tulusid 10 miljoni dollari võrra.
Andmekaevandamise tööriistad
Järgmised on 2 populaarset Andmekaevandamise tööriistad kasutatakse laialdaselt tööstuses
R-keel:
R keel on avatud lähtekoodiga tööriist statistilise andmetöötluse ja graafika jaoks. R-l on lai valik statistilisi, klassikalisi statistilisi teste, aegridade analüüsi, klassifikatsiooni ja graafilisi tehnikaid. See pakub tõhusat andmete edastamise ja säilitamise võimalust.
Oracle Andmete kaevandamine:
Oracle Data Mining rahva tuntud kui ODM on moodul Oracle Täpsem Analyticsi andmebaas. See andmekaevandamise tööriist võimaldab andmeanalüütikutel luua üksikasjalikke teadmisi ja teha prognoose. See aitab ennustada klientide käitumist, arendab kliendiprofiile, tuvastab ristmüügivõimalused.
Andmekaevandamise eelised
- Andmekaevandamise tehnika aitab ettevõtetel saada teadmistepõhist teavet.
- Andmekaevandamine aitab organisatsioonidel teha kasumlikke kohandusi töös ja tootmises.
- Andmekaeve on kulutõhus ja tõhus lahendus võrreldes teiste statistiliste andmerakendustega.
- Andmekaeve aitab otsustusprotsessis kaasa aidata.
- Hõlbustab suundumuste ja käitumise automatiseeritud ennustamist ning peidetud mustrite automaatset avastamist.
- Seda saab rakendada nii uutes süsteemides kui ka olemasolevates platvormides
- See on kiire protsess, mis võimaldab kasutajatel analüüsida tohutul hulgal andmeid lühema ajaga.
Andmekaevandamise puudused
- On tõenäoline, et ettevõtted müüvad raha eest oma klientide kasulikku teavet teistele ettevõtetele. Näiteks on American Express müünud oma klientide krediitkaardioste teistele ettevõtetele.
- Paljusid andmekaeve analüüsitarkvarasid on raske kasutada ja see nõuab eelkoolitust.
- Erinevad andmekaevetööriistad töötavad erinevatel viisidel nende disainis kasutatavate erinevate algoritmide tõttu. Seetõttu on õige andmekaevetööriista valimine väga keeruline ülesanne.
- Andmekaevetehnikad ei ole täpsed ja seetõttu võib see teatud tingimustel põhjustada tõsiseid tagajärgi.
Andmekaevandamise rakendused
Rakendused | Kasutus |
---|---|
Side | Andmekaevetehnikaid kasutatakse kommunikatsioonisektoris klientide käitumise ennustamiseks, et pakkuda täpselt sihitud ja asjakohaseid kampaaniaid. |
Kindlustus | Andmekaevandamine aitab kindlustusseltsidel oma tooteid kasumlikult hinnata ja uutele või olemasolevatele klientidele uusi pakkumisi reklaamida. |
Käsitöö | Andmekaevandamine aitab õpetajatel juurdepääsu õpilaste andmetele, ennustada saavutuste taset ja leida õpilasi või õpilaste rühmi, kes vajavad erilist tähelepanu. Näiteks õpilased, kes on matemaatika aines nõrgad. |
tootmine | Andmekaeve abil saavad tootjad prognoosida tootmisvarade kulumist. Nad oskavad hooldust ette näha, mis aitab neil neid vähendada ja seisakuid minimeerida. |
Pangandus | Andmekaevandamine aitab finantssektoril saada ülevaadet tururiskidest ja hallata regulatiivset vastavust. See aitab pankadel tuvastada tõenäolisi maksehäireid, et otsustada, kas väljastada krediitkaarte, laene vms. |
Jaekaubandus | Andmekaevandamise tehnikad aitavad jaemüügikeskustel ja toidupoodidel tuvastada ja paigutada kõige müüdavad kaubad kõige tähelepanelikumatele kohtadele. See aitab kaupluste omanikel tulla välja pakkumisega, mis julgustab kliente oma kulutusi suurendama. |
Service Providers | Teenusepakkujad, nagu mobiiltelefonide ja kommunaalteenuste tööstus, kasutavad andmekaevet, et ennustada põhjuseid, miks klient ettevõttest lahkub. Nad analüüsivad arvelduse üksikasju, klienditeeninduse suhtlust, ettevõttele esitatud kaebusi, et määrata igale kliendile tõenäosusskoor ja pakkuda stiimuleid. |
E-kaubandus | E-kaubanduse veebisaidid kasutavad andmete kaevandamist, et pakkuda oma veebisaitide kaudu rist- ja ülesmüüki. Üks kuulsamaid nimesid on Amazon, kes kasutavad andmekaevetehnikaid, et meelitada oma e-poodi rohkem kliente. |
Super turud | Andmekaevandamine võimaldab supermarketitel välja töötada reegleid, et ennustada, kas nende ostjad tõenäoliselt ootasid. Ostumustrit hinnates võivad nad leida naiskliente, kes on suure tõenäosusega rasedad. Nad saavad hakata sihtima selliseid tooteid nagu beebipulber, beebipood, mähkmed ja nii edasi. |
Kuriteouurimine | Andmekaevandamine aitab kuritegude uurimisasutustel paigutada politseitööjõudu (kus on kuritegu kõige tõenäolisem ja millal?), keda piiripunktis otsida jne. |
Bioinformaatika | Andmekaevandamine aitab kaevandada bioloogilisi andmeid tohututest bioloogias ja meditsiinis kogutud andmekogumitest. |
kokkuvõte
- Andmekaeve definitsioon: andmekaeve eesmärk on mineviku selgitamine ja tuleviku ennustamine Andmete analüüs.
- Andmekaevandamine aitab koguda teavet tohututest andmehulkadest. See on andmetest teadmiste kaevandamise protseduur.
- Andmekaeveprotsess hõlmab äritegevusest arusaamist, andmete mõistmist, andmete ettevalmistamist, modelleerimist, evolutsiooni, juurutamist.
- Olulised andmekaevetehnikad on klassifitseerimine, rühmitamine, regressioon, assotsiatsioonireeglid, välimine tuvastamine, järjestikused mustrid ja ennustamine
- R-keel ja Oracle Andmekaeve on silmapaistvad andmekaevandamise tööriistad ja tehnikad.
- Andmekaevandamise tehnika aitab ettevõtetel saada teadmistepõhist teavet.
- Andmekaevandamise peamiseks puuduseks on see, et paljusid analüütikatarkvarasid on raske kasutada ja see nõuab eelkoolitust.
- Andmekaevet kasutatakse erinevates tööstusharudes, nagu side, kindlustus, haridus, tootmine, pangandus, jaemüük, teenusepakkujad, e-kaubandus, supermarketite bioinformaatika.