ETL (Extract, Transform ja Load) -prosessi tietovarastossa
Mikä on ETL?
ETL on prosessi, joka poimii tiedot eri lähdejärjestelmistä, muuntaa tiedot (kuten laskelmia, ketjutuksia jne.) ja lataa lopuksi tiedot Data Warehouse -järjestelmään. ETL:n täysi muoto on Extract, Transform and Load.
On houkuttelevaa ajatella, että tietovaraston luominen on yksinkertaisesti tietojen purkamista useista lähteistä ja lataamista tietovaraston tietokantaan. Tämä on kaukana totuudesta ja vaatii monimutkaisen ETL-prosessin. ETL-prosessi vaatii aktiivista panosta useilta eri sidosryhmiltä, mukaan lukien kehittäjät, analyytikot, testaajat ja huippujohtajat, ja se on teknisesti haastava.
Säilyttääkseen arvonsa päätöksentekijöiden työkaluna tietovarastojärjestelmän on muututtava liiketoiminnan muutosten myötä. ETL on tietovarastojärjestelmän toistuva toiminta (päivittäin, viikoittain, kuukausittain), ja sen on oltava ketterä, automatisoitu ja hyvin dokumentoitu.
Miksi tarvitset ETL:n?
ETL:n käyttöönotolle organisaatiossa on monia syitä:
- Se auttaa yrityksiä analysoimaan liiketoimintatietojaan kriittisten liiketoimintapäätösten tekemistä varten.
- Tapahtumatietokannat eivät voi vastata monimutkaisiin liiketoimintakysymyksiin, joihin voidaan vastata ETL-esimerkillä.
- Tietovarasto tarjoaa yhteisen tietovaraston
- ETL tarjoaa tavan siirtää dataa eri lähteistä tietovarastoon.
- Tietolähteiden muuttuessa tietovarasto päivittyy automaattisesti.
- Hyvin suunniteltu ja dokumentoitu ETL-järjestelmä on lähes välttämätön tietovarastoprojektin onnistumiselle.
- Salli tietojen muunnos-, yhdistämis- ja laskentasääntöjen tarkistaminen.
- ETL-prosessi mahdollistaa näytetietojen vertailun lähteen ja kohdejärjestelmän välillä.
- ETL-prosessi voi suorittaa monimutkaisia muunnoksia ja vaatii ylimääräisen alueen tietojen tallentamiseen.
- ETL auttaa siirtämään tiedot tietovarastoon. Muunna eri muotoihin ja tyyppeihin noudattaaksesi yhtä yhtenäistä järjestelmää.
- ETL on ennalta määritetty prosessi lähdetietojen käyttämiseksi ja käsittelemiseksi kohdetietokantaan.
- Tietovaraston ETL tarjoaa syvän historiallisen kontekstin yritykselle.
- Se auttaa parantamaan tuottavuutta, koska se kodifioi ja käyttää uudelleen ilman teknisiä taitoja.
ETL-prosessi tietovarastoissa
ETL on 3-vaiheinen prosessi
Vaihe 1) Uutto
Tässä ETL-arkkitehtuurin vaiheessa tiedot poimitaan lähdejärjestelmästä vaiheistusalueelle. Mahdolliset muunnokset tehdään lavastusalueella, jotta lähdejärjestelmän suorituskyky ei heikkene. Lisäksi, jos vioittuneet tiedot kopioidaan suoraan lähteestä tietovarastotietokantaan, palautus on haaste. Vaihealue antaa mahdollisuuden tarkistaa poimitut tiedot ennen kuin ne siirtyvät tietovarastoon.
Tietovaraston on integroitava järjestelmät, joissa on erilaisia
DBMS, laitteisto, Operajärjestelmiin ja viestintäprotokolliin. Lähteitä voivat olla vanhat sovellukset, kuten keskusyksiköt, mukautetut sovellukset, yhteyspistelaitteet, kuten pankkiautomaatti, puhelukytkimet, tekstitiedostot, laskentataulukot, ERP, tiedot toimittajilta ja kumppaneilta.
Siksi tarvitaan looginen tietokartta ennen kuin tiedot puretaan ja ladataan fyysisesti. Tämä tietokartta kuvaa lähteiden ja kohdetietojen välistä suhdetta.
Kolme tiedonpoistomenetelmää:
- Täysi poisto
- Osittainen purku - ilman päivitysilmoitusta.
- Osittainen purku - päivitysilmoituksella
Käytetystä menetelmästä riippumatta purkamisen ei pitäisi vaikuttaa lähdejärjestelmien suorituskykyyn ja vasteaikaan. Nämä lähdejärjestelmät ovat reaaliaikaisia tuotantotietokantoja. Kaikki hidastukset tai lukitukset voivat vaikuttaa yrityksen tulokseen.
Eräät tarkistukset tehdään purkamisen aikana:
- Täsmätä tietueet lähdetietojen kanssa
- Varmista, ettei roskapostia/ei-toivottuja tietoja ole ladattu
- Tietotyypin tarkistus
- Poista kaiken tyyppiset päällekkäiset/hajanaiset tiedot
- Tarkista, ovatko kaikki avaimet paikoillaan vai eivät
Vaihe 2) Muunnos
Lähdepalvelimelta poimitut tiedot ovat raakaa, eikä niitä voida käyttää alkuperäisessä muodossaan. Siksi se on puhdistettava, kartoitettava ja muutettava. Itse asiassa tämä on avainvaihe, jossa ETL-prosessi lisää arvoa ja muuttaa tietoja siten, että voidaan luoda oivaltavia BI-raportteja.
Se on yksi tärkeimmistä ETL-konsepteista, jossa käytetään joukko funktioita poimittuihin tietoihin. Tietoja, jotka eivät vaadi muunnoksia, kutsutaan nimellä suora liike or kulkea datan läpi.
Muunnosvaiheessa voit suorittaa mukautettuja toimintoja tiedoille. Esimerkiksi, jos käyttäjä haluaa myyntitulojen summan, jota ei ole tietokannassa. Tai jos taulukon etu- ja sukunimi ovat eri sarakkeissa. Ne on mahdollista ketjuttaa ennen lataamista.
Seuraavat tiedot Integrity Ongelmat:
- Saman henkilön eri kirjoitusasu, kuten Jon, John jne.
- On olemassa useita tapoja merkitä yrityksen nimi, kuten Google, Google Inc.
- Erilaisten nimien käyttö, kuten Cleaveland, Cleveland.
- Saattaa olla, että samalle asiakkaalle eri sovellukset luovat eri tilinumeroita.
- Joissakin tiedoissa vaaditut tiedostot jäävät tyhjiksi
- Virheellinen tuote, joka on kerätty POS:ssa manuaalisena syöttämisenä, voi johtaa virheisiin.
Vahvistukset tehdään tässä vaiheessa
- Suodatus – Valitse vain tietyt ladattavat sarakkeet
- Sääntöjen ja hakutaulukoiden käyttäminen tietojen standardointiin
- Merkistöjen muuntaminen ja koodauksen käsittely
- Mittayksiköiden muuntaminen, kuten päivämäärän ja ajan muuntaminen, valuuttamuunnokset, numeeriset muunnokset jne.
- Tietojen kynnyksen validointitarkistus. Esimerkiksi ikä ei voi olla enempää kuin kaksi numeroa.
- Tietovirran validointi lavastusalueelta välitaulukoihin.
- Pakollisia kenttiä ei saa jättää tyhjiksi.
- Puhdistus (esimerkiksi NULL:n kartoittaminen arvoon 0 tai sukupuoli Mies arvoon "M" ja nainen "F" jne.)
- Jaa sarake kerrannaisiksi ja yhdistä useita sarakkeita yhdeksi sarakkeeksi.
- Rivien ja sarakkeiden transponointi,
- Käytä hakuja tietojen yhdistämiseen
- Minkä tahansa monimutkaisen tietojen validoinnin käyttäminen (esim. jos rivin kaksi ensimmäistä saraketta ovat tyhjiä, rivi hylätään automaattisesti käsittelystä)
Vaihe 3) Lataus
Tietojen lataaminen kohdetietovarastotietokantaan on ETL-prosessin viimeinen vaihe. Tyypillisessä tietovarastossa valtava määrä dataa on ladattava suhteellisen lyhyessä ajassa (öissä). Siksi latausprosessi on optimoitava suorituskyvyn kannalta.
Jos lataus epäonnistuu, palautusmekanismit tulee määrittää käynnistymään uudelleen vikapisteestä ilman tietojen eheyden menetystä. Data Warehouse -järjestelmänvalvojien on seurattava, jatkettava ja peruutettava latauksia vallitsevan palvelimen suorituskyvyn mukaisesti.
Lataustyypit:
- Alkukuorma — täyttää kaikki tietovarastotaulukot
- Inkrementaalinen kuormitus — Jatkuvat muutokset otetaan käyttöön tarvittaessa säännöllisesti.
- Täysi päivitys — yhden tai useamman taulukon sisällön poistaminen ja uusien tietojen lataaminen.
Lataa vahvistus
- Varmista, että avainkentän tiedot eivät ole puuttuvia tai tyhjiä.
- Testaa mallinnusnäkymiä kohdetaulukoiden perusteella.
- Tarkista, että yhdistetyt arvot ja lasketut mitat.
- Tietojen tarkistukset ulottuvuustaulukossa sekä historiataulukossa.
- Tarkista BI-raportit ladatusta fakta- ja dimensiotaulukosta.
ETL-työkalut
On olemassa monia ETL-työkalut ovat saatavilla markkinoilta. Tässä on joitain näkyvimmistä:
1. MarkLogic:
MarkLogic on tietovarastoratkaisu, joka tekee tietojen integroinnista helpompaa ja nopeampaa käyttämällä useita yritysominaisuuksia. Se voi kysyä erityyppisiä tietoja, kuten asiakirjoja, suhteita ja metatietoja.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle on alan johtava tietokanta. Se tarjoaa laajan valikoiman Data Warehouse -ratkaisuja sekä paikan päällä että pilvessä. Se auttaa optimoimaan asiakaskokemusta lisäämällä toiminnan tehokkuutta.
https://www.oracle.com/index.html
3. Amazon punainenShift:
Amazon Redshift on tietovarastotyökalu. Se on yksinkertainen ja kustannustehokas työkalu kaikentyyppisten tietojen analysoimiseen standardin avulla SQL ja olemassa olevat BI-työkalut. Se mahdollistaa myös monimutkaisten kyselyjen suorittamisen strukturoidun datan petatavuilla.
https://aws.amazon.com/redshift/?nc2=h_m1
Tässä on täydellinen luettelo hyödyllisistä Tietovarastotyökalut.
Parhaat käytännöt ETL-prosessi
Seuraavassa on parhaat käytännöt ETL-prosessin vaiheille:
Älä koskaan yritä puhdistaa kaikkia tietoja:
Jokainen organisaatio haluaisi, että kaikki tiedot ovat puhtaat, mutta useimmat eivät ole valmiita maksamaan odottamisesta tai eivät ole valmiita odottamaan. Sen puhdistaminen vie yksinkertaisesti liian kauan, joten on parempi olla yrittämättä puhdistaa kaikkia tietoja.
Älä koskaan puhdista mitään:
Suunnittele aina puhdistamistasi, koska suurin syy tietovaraston rakentamiseen on tarjota puhtaampaa ja luotettavampaa dataa.
Määritä tietojen puhdistamisen kustannukset:
Ennen kuin puhdistat kaikki likaiset tiedot, sinun on tärkeää määrittää jokaisen likaisen tietoelementin puhdistuskustannukset.
Voit nopeuttaa kyselyn käsittelyä käyttämällä apunäkymiä ja -hakemistoja:
Tallenna yhteenvetotiedot levynauhoille säästääksesi tallennuskustannuksia. Lisäksi vaaditaan kompromissi tallennettavan tiedon määrän ja sen yksityiskohtaisen käytön välillä. Kompromissi tietojen tarkkuuden tasolla tallennuskustannusten vähentämiseksi.
Yhteenveto
- ETL tarkoittaa Extract, Transform and Load.
- ETL tarjoaa menetelmän siirtää dataa eri lähteistä a tietovarasto.
- Ensimmäisessä poimintavaiheessa data poimitaan lähdejärjestelmästä lavastusalueelle.
- Muunnosvaiheessa lähteestä poimitut tiedot puhdistetaan ja muunnetaan.
- Tietojen lataaminen kohdetietovarastoon on ETL-prosessin viimeinen vaihe.