Mikä Data Lake on? Sen ArchiTecture: Data Lake Tutorial
Mikä Data Lake on?
Data Lake on tallennusvarasto, joka voi tallentaa suuren määrän jäsenneltyä, puolirakenteista ja jäsentämätöntä dataa. Se on paikka kaikentyyppisten tietojen tallentamiseen alkuperäisessä muodossaan ilman kiinteitä rajoituksia tilin koolle tai tiedostolle. Se tarjoaa suuren datamäärän analyyttisen suorituskyvyn ja alkuperäisen integroinnin lisäämiseksi.
Data Lake on kuin suuri kontti, joka on hyvin samanlainen kuin todellinen järvi ja joki. Aivan kuten järvessä, johon tulee useita sivujokia, datajärvessä on jäsenneltyä dataa, jäsentämätöntä dataa, koneelta koneelle, lokit virtaavat läpi reaaliajassa.
Data Lake demokratisoi tiedot ja on kustannustehokas tapa tallentaa kaikki organisaation tiedot myöhempää käsittelyä varten. Tutkimusanalyytikko voi keskittyä etsimään datasta merkityksellisiä malleja, ei itse dataa.
Toisin kuin hierarkkinen Tietovarasto jossa tiedot tallennetaan tiedostoihin ja kansioihin, Data Lake -arkkitehtuuri on tasainen. Jokainen Data Laken tietoelementti saa yksilöllisen tunnisteen ja merkitään metatietojoukolla.
Miksi Data Lake?
Datajärven rakentamisen päätavoitteena on tarjota datatieteilijöille jalostamaton näkymä datasta.
Syitä Data Laken käyttöön ovat:
- Alkaessa varastointimoottorit, kuten Hadoop erilaisten tietojen tallentamisesta on tullut helppoa. Data Laken avulla ei tarvitse mallintaa tietoja yrityksen laajuiseksi skeemaksi.
- Tietomäärän, tiedon laadun ja metadatan kasvaessa myös analyysien laatu paranee.
- Data Lake tarjoaa liiketoiminnan ketteryyttä
- Koneen oppiminen ja tekoälyä voidaan käyttää kannattavien ennusteiden tekemiseen.
- Se tarjoaa kilpailuetua toteuttavalle organisaatiolle.
- Tietosiilon rakennetta ei ole. Data Lake tarjoaa 360 asteen näkymän asiakkaisiin ja tekee analyysistä entistä vankempaa.
Datajärvi Archirakenne
Kuvassa näkyy Business Data Laken arkkitehtuuri. Alemmat tasot edustavat enimmäkseen levossa olevaa dataa, kun taas ylemmät tasot näyttävät reaaliaikaisia tapahtumatietoja. Nämä tiedot kulkevat järjestelmän läpi ilman tai vain vähän latenssia. Seuraavat ovat tärkeitä Data Laken tasoja Archirakenne:
- Nielemistaso: Vasemmalla olevat tasot kuvaavat tietolähteitä. Data voidaan ladata datajärveen erissä tai reaaliajassa
- Insights-taso: Oikeanpuoleiset tasot edustavat tutkimuspuolta, jossa järjestelmän oivalluksia käytetään. SQL, NoSQL-kyselyitä tai jopa exceliä voidaan käyttää tietojen analysointiin.
- HDFS on kustannustehokas ratkaisu sekä strukturoidulle että strukturoimattomalle datalle. Se on laskeutumisalue kaikille järjestelmässä levossa oleville tiedoille.
- Tislaustaso ottaa tiedot varastorenkaasta ja muuntaa ne strukturoiduiksi tiedoiksi analysoinnin helpottamiseksi.
- Käsittelytaso Suorita analyyttisiä algoritmeja ja käyttäjien kyselyitä vaihtelevalla reaaliajalla, interaktiivisia, erää luodaksesi jäsenneltyä dataa analyysin helpottamiseksi.
- Yhtenäinen toimintataso ohjaa järjestelmän hallintaa ja valvontaa. Se sisältää auditoinnin ja pätevyydenhallinnan, tiedonhallinnan, työnkulun hallinta.
Key Data Lake Concepts
Seuraavat ovat Key Data Lake -käsitteitä, jotka on ymmärrettävä voidakseen ymmärtää Data Laken täysin Archirakenne
Tietojen syöttö
Datan keräämisen avulla liittimet voivat saada dataa eri tietolähteistä ja ladata Data Lakeen.
Datan käsittely tukee:
- Kaiken tyyppiset strukturoidut, puolirakenteiset ja jäsentämättömät tiedot.
- Useita käsittelyjä, kuten erä, reaaliaikainen, kertalataus.
- Monen tyyppiset tietolähteet, kuten tietokannat, verkkopalvelimet, sähköpostit, Esineiden internetja FTP.
Levytila
Tietojen tallennuksen tulee olla skaalautuvaa, se tarjoaa kustannustehokasta tallennustilaa ja mahdollistaa nopean pääsyn tietojen tutkimiseen. Sen pitäisi tukea erilaisia tietomuotoja.
Tietohallinto
Tietojen hallinta on prosessi, jolla hallitaan organisaatiossa käytettyjen tietojen saatavuutta, käytettävyyttä, turvallisuutta ja eheyttä.
Turvallisuus
Tietoturva on toteutettava Data Laken jokaisessa kerroksessa. Se alkaa varastoinnista, purkamisesta ja kulutuksesta. Perustarve on estää luvattomien käyttäjien pääsy. Sen pitäisi tukea erilaisia työkaluja tietojen käyttämiseen helposti navigoitavilla GUI- ja hallintapaneeleilla.
Todennus, kirjanpito, valtuutus ja tietosuoja ovat tärkeitä datajärven turvallisuuden ominaisuuksia.
Tietojen laatu
Tiedon laatu on olennainen osa Data Lake -arkkitehtuuria. Tietoja käytetään liiketoiminnan arvon tarkentamiseen. Havainnon poimiminen huonolaatuisista tiedoista johtaa huonolaatuisiin oivalluksiin.
Tietojen etsiminen
Data Discovery on toinen tärkeä vaihe ennen kuin voit aloittaa tietojen valmistelun tai analysoinnin. Tässä vaiheessa datan ymmärtämisen ilmaisemiseen käytetään taggaustekniikkaa järjestämällä ja tulkitsemalla Datajärvessä syötettyä dataa.
Tietojen tarkastus
Kaksi suurta tietojen tarkastustehtävää ovat avaintietojoukon muutosten seuranta.
- Tärkeiden tietojoukon elementtien muutosten seuranta
- Vangitsee kuinka/ milloin/ ja kuka muuttaa näitä elementtejä.
Tietojen auditointi auttaa arvioimaan riskejä ja vaatimustenmukaisuutta.
Data Lineage
Tämä komponentti käsittelee tietojen alkuperää. Se käsittelee pääasiassa sitä, missä se liikkuu ajan myötä ja mitä sille tapahtuu. Se helpottaa virheiden korjaamista data-analytiikkaprosessissa alkuperästä määränpäähän.
Tietojen etsintä
Se on data-analyysin alkuvaihe. Se auttaa tunnistamaan oikean tietojoukon ennen Data Explorationin aloittamista.
Kaikkien komponenttien on toimittava yhdessä ollakseen tärkeässä roolissa Data Lake -rakennuksessa, joka kehittyy helposti ja tutkii ympäristöä.
Data Laken kypsyysvaiheet
Datajärven kypsyysasteiden määritelmä vaihtelee oppikirjoista toiseen. Vaikka ydin pysyy samana. Kypsyyden jälkeen vaiheen määritelmä on maallikon näkökulmasta.
Vaihe 1: Käsittele ja niele tietoja mittakaavassa
Tämä Data Maturityn ensimmäinen vaihe sisältää tiedon muuntamis- ja analysointikyvyn parantamisen. Täällä yritysten omistajien on löydettävä osaamisensa mukaiset työkalut tiedon hankkimiseen ja analyyttisten sovellusten rakentamiseen.
Vaihe 2: Analyyttisen lihaksen rakentaminen
Tämä on toinen vaihe, joka sisältää tiedon muuntamis- ja analysointikyvyn parantamisen. Tässä vaiheessa yritykset käyttävät omaan osaamiseensa sopivinta työkalua. He alkavat hankkia lisää tietoa ja rakentaa sovelluksia. Tässä käytetään yrityksen tietovaraston ja datajärven ominaisuuksia yhdessä.
Vaihe 3: EDW ja Data Lake toimivat yhdessä
Tämä vaihe sisältää tiedon ja analytiikan saamisen mahdollisimman monen ihmisen käsiin. Tässä vaiheessa datajärvi ja yrityksen tietovarasto alkavat toimia liitossa. Molemmat osallistuvat analytiikkaan
Vaihe 4: Yritystoiminta järvessä
Data Laken tässä kypsyysvaiheessa Data Lakeen lisätään yritysominaisuudet. Tietohallinnon, tiedon elinkaaren hallintaominaisuuksien ja metatietojen hallinnan käyttöönotto. Kuitenkin hyvin harvat organisaatiot voivat saavuttaa tämän kypsyystason, mutta tämä määrä kasvaa tulevaisuudessa.
Data Laken käyttöönoton parhaat käytännöt
- Archirakenteellisten komponenttien, niiden vuorovaikutuksen ja tunnistettujen tuotteiden tulee tukea natiivitietotyyppejä
- Data Laken suunnittelun tulisi perustua siihen, mikä on saatavilla, ei vaadittava. Kaaviota ja tietovaatimusta ei määritellä ennen kuin siitä on tehty kysely
- Suunnittelua ohjaavat kertakäyttöiset komponentit, jotka on integroitu palvelun API:hen.
- Tietojen etsimistä, käsittelyä, tallennusta, hallintaa, laatua, muuntamista ja visualisointia tulee hallita itsenäisesti.
- Data Lake -arkkitehtuuri tulisi räätälöidä tietylle toimialalle. Sen pitäisi varmistaa, että kyseiselle toimialueelle tarvittavat ominaisuudet ovat olennainen osa suunnittelua
- Äskettäin löydettyjen tietolähteiden nopeampi käyttöönotto on tärkeää
- Data Lake auttaa räätälöityä hallintaa maksimaalisen arvon saamiseksi
- Data Laken tulisi tukea olemassa olevia yrityksen tiedonhallintatekniikoita ja -menetelmiä
Datajärven rakentamisen haasteet:
- Data Lakessa datamäärä on suurempi, joten prosessin on oltava enemmän riippuvainen ohjelmallisesta hallinnasta
- On vaikea käsitellä harvaa, epätäydellistä ja haihtuvaa dataa
- Laajempi tietojoukko ja lähde tarvitsee laajempaa tiedonhallintaa ja tukea
Ero Data Laken ja tietovaraston välillä
parametrit | Tietojärvet | Tietovarasto |
---|---|---|
Päiväys | Datajärvet tallentavat kaiken. | Data Warehouse keskittyy vain liiketoimintaprosesseihin. |
Käsittely | Tiedot ovat pääosin käsittelemättömiä | Pitkälle käsitelty data. |
Tietojen tyyppi | Se voi olla rakenteeton, puolirakenteinen ja jäsennelty. | Se on enimmäkseen taulukkomuodossa ja rakenteessa. |
Tehtävä | Jaa tiedonhallinta | Optimoitu tiedonhakuun |
Ketteryys | Erittäin ketterä, konfiguroi ja konfiguroi uudelleen tarpeen mukaan. | Data Lakeen verrattuna se on vähemmän ketterä ja siinä on kiinteä kokoonpano. |
käyttäjät | Data Lake on enimmäkseen Data Scientistin käyttämä | Liiketoiminnan ammattilaiset käyttävät laajasti tietovarastoa |
varastointi | Data Lakes -suunnittelu edullista tallennusta varten. | Käytetään kallista tallennustilaa, joka antaa nopeat vasteajat |
Turvallisuus | Tarjoaa vähemmän hallintaa. | Mahdollistaa tietojen paremman hallinnan. |
EDW:n vaihto | Data Lake voi olla EDW:n lähde | EDW:tä täydentävä (ei korvaava) |
Malli | Lukukaavio (ei ennalta määritettyjä skeemoja) | Schema kirjoitettaessa (ennalta määritetyt mallit) |
Tietojenkäsittely | Auttaa nopeaan uuden tiedon vastaanottamiseen. | Uuden sisällön esittely vie aikaa. |
Tietojen tarkkuutta | Tiedot alhaisella yksityiskohtaisuudella tai tarkkuudella. | Tiedot yhteenvedon tai kootun tarkkuuden tasolla. |
Työkalut | Voi käyttää avoimen lähdekoodin / työkaluja, kuten Hadoop / Map Reduce | Lähinnä kaupallisia työkaluja. |
Data Laken käytön edut ja riskit
Tässä on joitain Data Laken käytön merkittäviä etuja:
- Auttaa täysin tuotteiden ionisoinnissa ja edistyneessä analytiikassa
- Tarjoaa kustannustehokkaan skaalautuvuuden ja joustavuuden
- Tarjoaa arvoa rajoittamattomista tietotyypeistä
- Vähentää pitkäaikaisia omistuskustannuksia
- Sallii tiedostojen taloudellisen tallennuksen
- Nopeasti sopeutuva muutoksiin
- Data Laken tärkein etu on keskittäminen eri sisällön lähteistä
- Käyttäjiä eri osastoilta voi olla hajallaan ympäri maailmaa joustava pääsy dataan
Data Laken käytön riski:
- Jonkin ajan kuluttua Data Lake saattaa menettää merkityksensä ja vauhtinsa
- Data Laken suunnitteluun liittyy suurempi riski
- Strukturoimaton data voi johtaa hallitsemattomaan kaaokseen, käyttökelvottomaan dataan, erilaisiin ja monimutkaisiin työkaluihin, yrityksen laajuiseen yhteistyöhön, yhtenäiseen, johdonmukaiseen ja yhteiseen
- Se lisää myös tallennustilaa ja laskee kustannuksia
- Ei ole mitään keinoa saada oivalluksia muilta, jotka ovat työskennelleet tietojen kanssa, koska aikaisempien analyytikoiden havaintojen sukulinjasta ei ole tietoa
- Datajärvien suurin riski on turvallisuus ja kulunvalvonta. Joskus tietoja voidaan sijoittaa järveen ilman valvontaa, koska osa tiedoista voi olla yksityisyyden ja sääntelyn tarvetta.
Yhteenveto
- Data Lake on tallennusvarasto, joka voi tallentaa suuren määrän jäsenneltyä, puolirakenteista ja jäsentämätöntä dataa.
- Datajärven rakentamisen päätavoitteena on tarjota datatieteilijöille jalostamaton näkymä datasta.
- Yhtenäinen toimintataso, käsittelytaso, tislaustaso ja HDFS ovat tärkeitä Data Laken kerroksia Archirakenne
- Tiedon käsittely, tietojen tallennus, tiedon laatu, tietojen tarkastus, tietojen tutkiminen, tiedon löytäminen ovat joitakin Data Laken tärkeitä osia Archirakenne
- Data Laken suunnittelun tulisi perustua siihen, mikä on saatavilla, ei vaadittava.
- Data Lake vähentää pitkäaikaisia omistuskustannuksia ja mahdollistaa tiedostojen taloudellisen tallennuksen
- Datajärvien suurin riski on turvallisuus ja kulunvalvonta. Joskus tietoja voidaan sijoittaa järveen ilman valvontaa, koska osa tiedoista saattaa edellyttää yksityisyyttä ja sääntelyä.