Wat is DataLake? Zijn Archistructuur: Data Lake-zelfstudie
Wat is Data Lake?
Een Data Lake is een opslagplaats waarin grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens kunnen worden opgeslagen. Het is een plek waar u elk type gegevens in het oorspronkelijke formaat kunt opslaan, zonder vaste limieten op de accountgrootte of het bestand. Het biedt een grote hoeveelheid gegevens om de analytische prestaties en de native integratie te verbeteren.
Data Lake is als een grote container die erg lijkt op een echt meer en rivieren. Net zoals in een meer meerdere zijrivieren binnenkomen, heeft een data lake gestructureerde data, ongestructureerde data, machine-naar-machine, logs die in realtime doorstromen.

De Data Lake democratiseert data en is een kosteneffectieve manier om alle data van een organisatie op te slaan voor latere verwerking. Research Analyst kan zich richten op het vinden van betekenispatronen in data en niet op data zelf.
In tegenstelling tot een hiërarchische Datawarehouse waar data wordt opgeslagen in Files en Folder, heeft Data Lake een platte architectuur. Elk data-element in een Data Lake krijgt een unieke identifier en is getagd met een set metadata-informatie.
Waarom DataLake?
Het belangrijkste doel van het bouwen van een datameer is om datawetenschappers een ongeraffineerd beeld van data te bieden.
Redenen om Data Lake te gebruiken zijn:
- Met het begin van opslagmotoren zoals Hadoop het opslaan van ongelijksoortige informatie is eenvoudig geworden. Met een Data Lake is het niet nodig om gegevens in een ondernemingsbreed schema te modelleren.
- Met de toename van het datavolume, de datakwaliteit en de metadata neemt ook de kwaliteit van de analyses toe.
- Data Lake biedt zakelijke flexibiliteit
- Machine leren en kunstmatige intelligentie kan worden gebruikt om winstgevende voorspellingen te doen.
- Het biedt een concurrentievoordeel voor de uitvoerende organisatie.
- Er is geen datasilostructuur. Data Lake geeft een 360 graden beeld van klanten en maakt analyses robuuster.
Datameer Architectuur
De afbeelding toont de architectuur van een Business Data Lake. De lagere niveaus vertegenwoordigen data die voornamelijk in rust is, terwijl de hogere niveaus realtime transactionele data tonen. Deze data stroomt door het systeem met weinig of geen latentie. Hieronder volgen belangrijke lagen in Data Lake Archistructuur:
- Innameniveau: De lagen aan de linkerkant geven de gegevensbronnen weer. De gegevens kunnen in batches of in realtime in het datameer worden geladen
- Inzichtenlaag: De lagen aan de rechterkant vertegenwoordigen de onderzoekskant waar inzichten uit het systeem worden gebruikt. SQL, NoSQL-query's of zelfs Excel kunnen worden gebruikt voor gegevensanalyse.
- HDFS is een kosteneffectieve oplossing voor zowel gestructureerde als ongestructureerde data. Het is een landingszone voor alle gegevens die zich in het systeem bevinden.
- Distillatielaag haalt gegevens uit de opslagband en converteert deze naar gestructureerde gegevens voor eenvoudigere analyse.
- Verwerkingslaag Voer analytische algoritmen en gebruikersquery's uit met variërende realtime, interactieve en batch-gebaseerde gegevens om gestructureerde gegevens te genereren voor eenvoudigere analyse.
- Uniforme operationele laag regelt het systeembeheer en de monitoring. Het omvat auditing en vaardigheidsbeheer, gegevensbeheer, workflowbeheer.
Sleuteldatameer Concepts
Hieronder staan de belangrijkste Data Lake-concepten die u moet begrijpen om Data Lake volledig te begrijpen Architectuur
Gegevensopname
Met Data Ingestion kunnen connectoren gegevens uit verschillende gegevensbronnen ophalen en in het Data Lake laden.
Gegevensopname ondersteunt:
- Alle soorten gestructureerde, semi-gestructureerde en ongestructureerde gegevens.
- Meerdere opnames zoals batch, realtime, eenmalige belasting.
- Veel soorten gegevensbronnen zoals databases, webservers, e-mails, IoTen FTP.
Data opslag
Gegevensopslag moet schaalbaar zijn, kosteneffectieve opslag bieden en snelle toegang tot gegevensverkenning mogelijk maken. Het moet verschillende gegevensformaten ondersteunen.
Gegevensbeheer
Data governance is een proces voor het beheren van de beschikbaarheid, bruikbaarheid, veiligheid en integriteit van gegevens die in een organisatie worden gebruikt.
Beveiliging
Beveiliging moet in elke laag van het datameer worden geïmplementeerd. Het begint met opslag, opgraving en consumptie. De basisbehoefte is om de toegang voor ongeautoriseerde gebruikers te stoppen. Het moet verschillende tools ondersteunen om toegang te krijgen tot gegevens met een eenvoudig te navigeren GUI en dashboards.
Authenticatie, boekhouding, autorisatie en gegevensbescherming zijn enkele belangrijke kenmerken van data lake-beveiliging.
Datakwaliteit
Datakwaliteit is een essentieel onderdeel van Data Lake-architectuur. Data wordt gebruikt om bedrijfswaarde te bepalen. Het extraheren van inzichten uit data van slechte kwaliteit leidt tot inzichten van slechte kwaliteit.
Gegevensdetectie
Data Discovery is een andere belangrijke fase voordat u kunt beginnen met het voorbereiden van gegevens of analyses. In deze fase wordt de tagging-techniek gebruikt om het begrip van de gegevens tot uitdrukking te brengen, door de gegevens die in het Data Lake worden opgenomen, te organiseren en te interpreteren.
Gegevenscontrole
Twee belangrijke gegevensaudittaken zijn het volgen van wijzigingen in de belangrijkste gegevensset.
- Wijzigingen in belangrijke gegevenssetelementen bijhouden
- Legt vast hoe/wanneer/ en wie deze elementen verandert.
Gegevensaudit helpt bij het evalueren van risico's en compliance.
Gegevensafstamming
Dit onderdeel gaat over de oorsprong van gegevens. Het gaat vooral over waar het in de loop van de tijd naartoe beweegt en wat ermee gebeurt. Het vereenvoudigt foutcorrecties in een data-analyseproces van oorsprong tot bestemming.
Gegevensverkenning
Het is de beginfase van data-analyse. Het helpt om de juiste dataset te identificeren, wat essentieel is voordat u met Data Exploration begint.
Alle gegeven componenten moeten samenwerken om een belangrijke rol te spelen bij het bouwen van datameren, zodat ze gemakkelijk kunnen evolueren en de omgeving kunnen verkennen.
Volwassenheidsfasen van Data Lake
De definitie van Data Lake Maturity-fasen verschilt van leerboek tot leerboek. Hoewel de kern hetzelfde blijft. Na de volwassenheid is de definitie van de fase vanuit een lekenperspectief.
Fase 1: Gegevens op schaal verwerken en verwerken
Deze eerste fase van Data Maturity omvat het verbeteren van het vermogen om data te transformeren en te analyseren. Hier moeten bedrijfseigenaren de tools vinden die passen bij hun vaardigheden om meer gegevens te verkrijgen en analytische applicaties te bouwen.
Fase 2: Het opbouwen van de analytische spier
Dit is een tweede fase waarin het vermogen om gegevens te transformeren en te analyseren wordt verbeterd. In deze fase gebruiken bedrijven de tool die het meest geschikt is voor hun vaardigheden. Ze beginnen meer data te verzamelen en applicaties te bouwen. Hier worden de mogelijkheden van het enterprise datawarehouse en data lake samen gebruikt.
Fase 3: EDW en Data Lake werken samen
Deze stap houdt in dat gegevens en analyses in handen van zoveel mogelijk mensen komen. In deze fase gaan het datameer en het bedrijfsdatawarehouse in één geheel werken. Beiden spelen hun rol in de analyse
Fase 4: Enterprise-capaciteiten in het meer
In deze volwassenheidsfase van het datameer worden bedrijfsmogelijkheden aan het Data Lake toegevoegd. Toepassing van informatiebeheer, mogelijkheden voor informatielevenscyclusbeheer en metadatabeheer. Er zijn echter maar heel weinig organisaties die dit volwassenheidsniveau kunnen bereiken, maar dit aantal zal in de toekomst toenemen.
Best practices voor de implementatie van Data Lake
- Archistructurele componenten, hun interactie en geïdentificeerde producten moeten native datatypen ondersteunen
- Het ontwerp van Data Lake moet worden gestuurd door wat beschikbaar is in plaats van wat nodig is. De schema- en gegevensvereiste worden pas gedefinieerd nadat er een query op is uitgevoerd
- Het ontwerp moet worden geleid door wegwerpbare componenten die zijn geïntegreerd met de service-API.
- Het ontdekken, opnemen, opslaan, beheren, kwaliteit, transformeren en visualiseren van gegevens moeten onafhankelijk worden beheerd.
- De Data Lake-architectuur moet worden afgestemd op een specifieke branche. Het moet ervoor zorgen dat de mogelijkheden die nodig zijn voor dat domein een inherent onderdeel zijn van het ontwerp.
- Een snellere on-boarding van nieuw ontdekte databronnen is belangrijk
- Data Lake helpt maatwerkbeheer om maximale waarde te behalen
- Het Data Lake moet bestaande technieken en methoden voor bedrijfsgegevensbeheer ondersteunen
Uitdagingen bij het bouwen van een datameer:
- In Data Lake is het datavolume groter, dus het proces moet meer afhankelijk zijn van programmatisch beheer
- Het is moeilijk om met schaarse, onvolledige en vluchtige gegevens om te gaan
- Een bredere reikwijdte van dataset en bron vereist groter databeheer en ondersteuning
Verschil tussen datameren en datawarehouse
parameters | Datameren | Datawarehouse |
---|---|---|
Data | Datameren slaan alles op. | Data Warehouse richt zich alleen op bedrijfsprocessen. |
In behandeling | Gegevens zijn grotendeels onbewerkt | Sterk verwerkte gegevens. |
Type gegevens | Het kan ongestructureerd, semi-gestructureerd en gestructureerd zijn. | Het is meestal in tabelvorm en structuur. |
Taak | Deel databeheer | Geoptimaliseerd voor het ophalen van gegevens |
Behendigheid | Zeer flexibel, configureer en herconfigureer indien nodig. | In vergelijking met Data Lake is het minder wendbaar en heeft het een vaste configuratie. |
Gebruikers | Data Lake wordt vooral gebruikt door Data Scientist | Zakelijke professionals maken op grote schaal gebruik van datawarehouse |
Opbergen | Datameren ontwerpen voor goedkope opslag. | Er wordt gebruik gemaakt van dure opslag die snelle responstijden oplevert |
Beveiliging | Biedt minder controle. | Maakt een betere controle over de gegevens mogelijk. |
Vervanging van EDW | Data Lake kan een bron zijn voor EDW | Aanvullend op EDW (geen vervanging) |
Schema | Schema bij het lezen (geen vooraf gedefinieerde schema's) | Schema bij schrijven (vooraf gedefinieerde schema's) |
data Processing | Helpt bij snelle opname van nieuwe gegevens. | Tijdrovend om nieuwe inhoud te introduceren. |
Gegevens granulariteit | Gegevens met een laag detailniveau of granulariteit. | Gegevens op het samenvattende of geaggregeerde detailniveau. |
Tools | Kan open source/tools zoals Hadoop/ Map Reduce gebruiken | Meestal commerciële tools. |
Voordelen en risico's van het gebruik van Data Lake
Hier zijn enkele belangrijke voordelen bij het gebruik van een Data Lake:
- Helpt volledig bij productionisatie en geavanceerde analyses
- Biedt kosteneffectieve schaalbaarheid en flexibiliteit
- Biedt waarde uit onbeperkte datatypen
- Verlaagt de eigendomskosten op de lange termijn
- Maakt economische opslag van bestanden mogelijk
- Snel aanpasbaar aan veranderingen
- Het belangrijkste voordeel van data lake is de centralisatie van verschillende inhoudsbronnen
- Gebruikers, afkomstig uit diverse afdelingen, kunnen verspreid over de hele wereld terecht kunnen flexibele toegang naar de gegevens
Risico van het gebruik van Data Lake:
- Na verloop van tijd kan Data Lake aan relevantie en momentum verliezen
- Er zijn grotere risico's verbonden aan het ontwerpen van Data Lake
- Ongestructureerde gegevens kunnen leiden tot ongecontroleerde chaos, onbruikbare gegevens, uiteenlopende en complexe hulpmiddelen, samenwerking op ondernemingsniveau, uniform, consistent en gemeenschappelijk
- Het verhoogt ook de opslag- en computerkosten
- Er is geen manier om inzichten te krijgen van anderen die met de gegevens hebben gewerkt, omdat er geen verslag is van de bevindingen van eerdere analisten
- Het grootste risico van datameren is beveiliging en toegangscontrole. Soms kunnen gegevens zonder enig toezicht in een meer worden geplaatst, omdat sommige gegevens mogelijk privacy- en regelgevingsvereisten hebben
Samenvatting
- Een Data Lake is een opslagplaats waarin grote hoeveelheden gestructureerde, semi-gestructureerde en ongestructureerde gegevens kunnen worden opgeslagen.
- Het belangrijkste doel van het bouwen van een datameer is om datawetenschappers een ongeraffineerd beeld van data te bieden.
- Unified operations tier, Processing tier, Distillation tier en HDFS zijn belangrijke lagen van Data Lake Architectuur
- Gegevensopname, gegevensopslag, gegevenskwaliteit, gegevensaudit, gegevensverkenning en gegevensontdekking zijn enkele belangrijke componenten van Data Lake Architectuur
- Het ontwerp van Data Lake moet worden gestuurd door wat beschikbaar is in plaats van wat nodig is.
- Data Lake verlaagt de eigendomskosten op de lange termijn en maakt economische opslag van bestanden mogelijk
- Het grootste risico van datameren is beveiliging en toegangscontrole. Soms kunnen gegevens zonder enig toezicht in een meer worden geplaatst, omdat sommige gegevens mogelijk privacy- en regelgevingsvereisten hebben.