Mis on Data Lake? See on Architektuur: Data Lake'i õpetus
Mis on Data Lake?
Data Lake on salvestushoidla, mis suudab salvestada suurel hulgal struktureeritud, poolstruktureeritud ja struktureerimata andmeid. See on koht, kus saab salvestada igat tüüpi andmeid nende algvormingus, ilma konto suuruse või faili piiranguteta. See pakub suurt andmemahtu, et suurendada analüütilist jõudlust ja natiivset integratsiooni.
Data Lake on nagu suur konteiner, mis on väga sarnane tõelise järve ja jõgedega. Nii nagu järves, kus on mitu lisajõge, on andmejärves struktureeritud andmed, struktureerimata andmed, masinatevahelised andmed, reaalajas voolavad logid.
Data Lake demokratiseerib andmed ja on kulutõhus viis kõigi organisatsiooni andmete salvestamiseks hilisemaks töötlemiseks. Teadusanalüütik saab keskenduda andmete tähendusmustrite leidmisele, mitte andmetele endale.
Erinevalt hierarhilisest Andmeladu kus andmeid salvestatakse failidesse ja kaustadesse, on Data Lake'il tasane arhitektuur. Igale Data Lake'i andmeelemendile antakse kordumatu identifikaator ja märgitakse metaandmete kogum.
Miks Data Lake?
Andmejärve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.
Data Lake'i kasutamise põhjused on järgmised:
- Mis algusega ladustamise mootorid nagu hadoop erineva teabe salvestamine on muutunud lihtsaks. Andmeid ei ole vaja Data Lake'i abil kogu ettevõtet hõlmavaks skeemiks modelleerida.
- Andmemahu, andmete kvaliteedi ja metaandmete kasvuga tõuseb ka analüüside kvaliteet.
- Data Lake pakub ärilist Agilityt
- Masinõpe ja tehisintellekti saab kasutada tulusate prognooside tegemiseks.
- See pakub rakendavale organisatsioonile konkurentsieelise.
- Andmesilo struktuur puudub. Data Lake annab klientidele 360-kraadise ülevaate ja muudab analüüsi töökindlamaks.
andmejärv Architektuur
Joonisel on kujutatud Business Data Lake'i arhitektuur. Alumised tasemed esindavad andmeid, mis on enamasti puhkeolekus, samas kui ülemised tasemed näitavad reaalajas tehinguandmeid. Need andmed liiguvad läbi süsteemi ilma või vähese latentsusega. Järgmised on Data Lake'i olulised tasemed ArchiStruktuur:
- Allaneelamise tase: vasakpoolsed tasemed kujutavad andmeallikaid. Andmeid saab laadida andmejärve partiidena või reaalajas
- Statistika tase: Parempoolsed tasemed esindavad uurimistöö poolt, kus kasutatakse süsteemi teadmisi. SQL, andmete analüüsimiseks saab kasutada NoSQL-i päringuid või isegi Exceli.
- HDFS on kulutõhus lahendus nii struktureeritud kui ka struktureerimata andmete jaoks. See on kõigi süsteemis olevate andmete maandumistsoon.
- Destilleerimise tasand võtab andmeid salvestusrehvist ja teisendab need lihtsamaks analüüsiks struktureeritud andmeteks.
- Töötlemise tasand käivitage analüütilisi algoritme ja kasutajate päringuid erineva reaalajas, interaktiivsete partiidega, et luua struktureeritud andmeid lihtsamaks analüüsiks.
- Ühtne operatsioonide tasand reguleerib süsteemi haldamist ja jälgimist. See hõlmab auditeerimist ja oskuste haldamist, andmehaldust, töövoo juhtimine.
Key Data Lake Concepts
Järgnevalt on toodud Data Lake'i võtmekontseptsioonid, mida tuleb Data Lake'i täielikuks mõistmiseks mõista Architektuur
Andmete sissevõtmine
Andmete sisestamine võimaldab konnektoritel saada andmeid erinevatest andmeallikatest ja laadida need Data Lake'i.
Andmete sisestamine toetab:
- Igat tüüpi struktureeritud, poolstruktureeritud ja struktureerimata andmed.
- Mitu allaneelamist, näiteks partii, reaalajas, ühekordne laadimine.
- Mitut tüüpi andmeallikad, nagu andmebaasid, veebiserverid, e-kirjad, IoTja FTP.
Data Storage
Andmesalvestus peaks olema skaleeritav, pakkuma kulutõhusat salvestusruumi ja võimaldama kiiret juurdepääsu andmete uurimisele. See peaks toetama erinevaid andmevorminguid.
Andmete haldamine
Andmehaldus on protsess, mille käigus hallatakse organisatsioonis kasutatavate andmete kättesaadavust, kasutatavust, turvalisust ja terviklikkust.
TURVALISUS
Turvalisust tuleb rakendada Data Lake'i igas kihis. See algab ladustamisest, kaevandamisest ja tarbimisest. Põhivajadus on peatada volitamata kasutajate juurdepääs. See peaks toetama erinevaid tööriistu andmetele juurdepääsuks hõlpsasti navigeeritava GUI ja armatuurlauaga.
Autentimine, raamatupidamine, autoriseerimine ja andmekaitse on mõned Data Lake'i turvalisuse olulised funktsioonid.
Andmekvaliteet
Andmete kvaliteet on Data Lake'i arhitektuuri oluline komponent. Andmeid kasutatakse ettevõtte väärtuse täpsustamiseks. Ebakvaliteetsetest andmetest ülevaate saamine toob kaasa halva kvaliteediga statistika.
Andmete avastamine
Andmete avastamine on veel üks oluline etapp enne andmete ettevalmistamise või analüüsi alustamist. Selles etapis kasutatakse andmete mõistmise väljendamiseks sildistamistehnikat, korraldades ja tõlgendades Andmejärves neelatud andmeid.
Andmete auditeerimine
Kaks peamist andmeauditeerimise ülesannet on võtmeandmete kogumi muudatuste jälgimine.
- Oluliste andmestiku elementide muudatuste jälgimine
- Jäädvustab, kuidas/ millal/ ja kes neid elemente muudab.
Andmete auditeerimine aitab hinnata riske ja vastavust.
Andmeliinid
See komponent käsitleb andmete päritolu. See käsitleb peamiselt seda, kuhu see aja jooksul liigub ja mis sellega juhtub. See hõlbustab vigade parandamist andmeanalüüsi protsessis päritolust sihtkohta.
Andmete uurimine
See on andmete analüüsi algusetapp. See aitab tuvastada õige andmestiku, mis on oluline enne andmete uurimise alustamist.
Kõik antud komponendid peavad töötama koos, et mängida olulist rolli Data Lake'i ehitamisel, mida saab hõlpsasti arendada ja keskkonda uurida.
Data Lake'i küpsusastmed
Andmejärve küpsusastmete määratlus on õpikuti erinev. Kuigi tuum jääb samaks. Pärast küpsust on lavamääratlus võhiku vaatenurgast.
1. etapp: käsitlege ja neelake andmeid mastaabis
See andmete küpsuse esimene etapp hõlmab andmete teisendamise ja analüüsimise võime parandamist. Siin peavad ettevõtete omanikud leidma vastavalt oma oskustele tööriistad, et hankida rohkem andmeid ja luua analüütilisi rakendusi.
2. etapp: analüütilise lihase ehitamine
See on teine etapp, mis hõlmab andmete teisendamise ja analüüsimise võime parandamist. Selles etapis kasutavad ettevõtted tööriista, mis on nende oskuste jaoks kõige sobivam. Nad hakkavad hankima rohkem andmeid ja looma rakendusi. Siin kasutatakse koos ettevõtte andmelao ja andmejärve võimalusi.
3. etapp: EDW ja Data Lake töötavad koos
See samm hõlmab andmete ja analüütika saamist võimalikult paljude inimeste kätte. Selles etapis hakkavad andmejärv ja ettevõtte andmeladu liidus tööle. Mõlemad mängivad oma osa analüütikas
4. etapp: Ettevõtlusvõime järves
Andmejärve selles küpsusastmes lisatakse andmejärvele ettevõtte võimalused. Teabe haldamise, teabe elutsükli haldamise võimaluste ja metaandmete haldamise kasutuselevõtt. Selle küpsusastmeni jõuavad aga väga vähesed organisatsioonid, kuid see arv kasvab tulevikus.
Data Lake'i juurutamise parimad tavad
- Archistruktuurikomponendid, nende koostoime ja tuvastatud tooted peaksid toetama natiivseid andmetüüpe
- Data Lake'i kujundamisel tuleks lähtuda sellest, mis on saadaval, mitte selle, mida nõutakse. Skeemi ja andmenõuet ei määratleta enne, kui selle kohta päringuid tehakse
- Disain peaks juhinduma teenuse API-ga integreeritud ühekordsetest komponentidest.
- Andmete leidmist, sissevõtmist, salvestamist, haldust, kvaliteeti, teisendamist ja visualiseerimist tuleks hallata iseseisvalt.
- Data Lake'i arhitektuur peaks olema kohandatud konkreetsele tööstusele. See peaks tagama, et selle domeeni jaoks vajalikud võimalused on disaini lahutamatu osa
- Oluline on äsja avastatud andmeallikate kiirem kasutuselevõtt
- Data Lake aitab kohandatud haldust maksimaalse väärtuse hankimiseks
- Data Lake peaks toetama olemasolevaid ettevõtte andmehaldustehnikaid ja -meetodeid
Andmejärve ehitamise väljakutsed:
- Data Lake'is on andmemaht suurem, seega peab protsess rohkem sõltuma programmilisest haldusest
- Hõredate, mittetäielike ja muutlike andmetega on raske toime tulla
- Andmestiku ja allika laiem ulatus vajab suuremat andmehaldust ja tuge
Andmejärvede ja andmelao erinevus
parameetrid | Andmete järved | Andmeladu |
---|---|---|
kuupäev | Andmejärved salvestavad kõike. | Data Warehouse keskendub ainult äriprotsessidele. |
Töötlemine | Andmed on peamiselt töötlemata | Kõrgelt töödeldud andmed. |
Andmete tüüp | See võib olla struktureerimata, poolstruktureeritud ja struktureeritud. | See on enamasti tabeli kujul ja struktuuris. |
Ülesanne | Jagage andmete haldamist | Optimeeritud andmete otsimiseks |
Väledus | Väga vilgas, konfigureerige ja konfigureerige vastavalt vajadusele. | Võrreldes Data Lake'iga on see vähem vilgas ja fikseeritud konfiguratsiooniga. |
kasutajad | Data Lake’i kasutab enamasti Data Scientist | Ettevõtlusspetsialistid kasutavad andmeladu laialdaselt |
Säilitamine | Andmejärvede disain odavaks salvestamiseks. | Kasutatakse kiiret reageerimisaega andvat kallist salvestusruumi |
TURVALISUS | Pakub väiksemat kontrolli. | Võimaldab andmeid paremini kontrollida. |
EDW asendamine | Data Lake võib olla EDW allikas | EDW täiendav (mitte asendus) |
Skeem | Lugemise skeem (eelmääratletud skeemid puuduvad) | Skeem kirjutamisel (eelmääratletud skeemid) |
Andmetöötlus | Aitab uute andmete kiireks sissevõtmiseks. | Uue sisu tutvustamine võtab aega. |
Andmete detailsus | Madala detailsuse või detailsuse andmed. | Andmed kokkuvõtlikul või koondatud detailsustasemel. |
TÖÖRIISTAD | Saab kasutada avatud lähtekoodiga tööriistu, nagu Hadoop/Map Reduce | Enamasti kaubanduslikud tööriistad. |
Data Lake'i kasutamise eelised ja riskid
Siin on mõned Data Lake'i kasutamise peamised eelised:
- Aitab täielikult toote ioniseerimisel ja täiustatud analüüsil
- Pakub kulutõhusat mastaapsust ja paindlikkust
- Pakub väärtust piiramatul hulgal andmetüüpidel
- Vähendab pikaajalisi omamiskulusid
- Võimaldab faile säästlikult salvestada
- Kohandub kiiresti muutustega
- Data Lake'i peamine eelis on tsentraliseerimine erinevatest sisuallikatest
- Erinevatest osakondadest pärit kasutajad võivad olla üle maailma laiali paindlik juurdepääs andmetele
Data Lake'i kasutamise oht:
- Mõne aja pärast võib Data Lake kaotada olulisuse ja hoo
- Data Lake'i kavandamisega kaasneb suurem risk
- Struktureerimata andmed võivad põhjustada reguleerimata kaost, kasutamiskõlbmatuid andmeid, erinevaid ja keerulisi tööriistu, kogu ettevõtet hõlmavat koostööd, ühtset, järjepidevat ja ühist
- See suurendab ka salvestusruumi ja arvutab kulusid
- Teistelt, kes on andmetega töötanud, ei ole võimalik saada teavet, kuna puudub ülevaade varasemate analüütikute leidude päritolust.
- Andmejärvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord saab andmeid paigutada järve ilma igasuguse järelevalveta, kuna osa andmetest võib olla eraelu puutumatuse ja regulatiivse vajadusega.
kokkuvõte
- Data Lake on salvestushoidla, mis suudab salvestada suurel hulgal struktureeritud, poolstruktureeritud ja struktureerimata andmeid.
- Andmejärve ehitamise peamine eesmärk on pakkuda andmeteadlastele täpsustamata vaadet andmetele.
- Ühtne operatsioonitasand, töötlemistasand, destilleerimise tasand ja HDFS on Data Lake'i olulised kihid Architektuur
- Andmete sisestamine, andmete salvestamine, andmete kvaliteet, andmete auditeerimine, andmete uurimine, andmete avastamine on mõned Data Lake'i olulised komponendid Architektuur
- Data Lake'i kujundamisel tuleks lähtuda sellest, mis on saadaval, mitte selle, mida nõutakse.
- Data Lake vähendab pikaajalisi omamiskulusid ja võimaldab failide säästlikku salvestamist
- Andmejärvede suurim risk on turvalisus ja juurdepääsu kontroll. Mõnikord saab andmeid paigutada järve ilma igasuguse järelevalveta, kuna osa andmetest võib olla eraelu puutumatuse ja regulatiivse vajadusega.