Was ist ein Data Lake? Definition ArchiArchitektur & Best Practices

⚡ Intelligente Zusammenfassung

Die Data-Lake-Architektur speichert strukturierte, semistrukturierte und unstrukturierte Daten im nativen Format in einem flachen Design. Jedes Element erhält eine eindeutige Kennung und Metadaten-Tags, was Analysen ohne vordefiniertes Unternehmensschema ermöglicht.

🗄️ Kerndefinition: Ein Repository, das alle Datentypen in Rohform enthält, ohne feste Beschränkung der Kontogröße oder Dateigröße.
???? ️ Ebenenstruktur: Aufnahme, Speicherung, Destillation, Verarbeitung, Erkenntnisse und einheitliche Abläufe bilden die sechs Architekturebenen.
🔑 Schlüsselkomponenten: Erfassung, Speicherung, Verwaltung, Sicherheit, Qualität, Auffindbarkeit, Prüfung, Herkunftsnachverfolgung und Erkundung müssen zusammenwirken.
📈 Reifepfad: Vier Phasen führen eine Organisation von der reinen Datenaufnahme zur vollständigen Unternehmensführung innerhalb des Datensees.
️ Lagerhaus-Kontrast: Datensee-Datenbanken wenden Schema-on-Read für Data Scientists an, Data Warehouses wenden Schema-on-Write für das Business-Reporting an.
⚠️ Primäres Risiko: Schwache Zugriffskontrolle und fehlende Aufsicht verwandeln einen unregulierten See in einen unbrauchbaren Datensumpf.

Was ist Data Lake?

Ein Data Lake ist ein Speicher-Repository, das große Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann. Es ist ein Ort, an dem jede Art von Daten in ihrem nativen Format gespeichert werden kann, ohne feste Beschränkungen hinsichtlich der Kontogröße oder der Datei. Es bietet eine hohe Datenmenge zur Steigerung der Analyseleistung und der nativen Integration.

Data Lake ist wie ein großer Behälter, der einem echten See und Flüssen sehr ähnlich ist. Genau wie bei einem See gibt es mehrere Zuflüsse, und ein Data Lake enthält strukturierte und unstrukturierte Daten, von Maschine zu Maschine und Protokolle, die in Echtzeit durchfließen.

Wie die obige Abbildung zeigt, fließen viele separate Datenströme in einen einzigen Datenspeicher ein. Der Data Lake demokratisiert Daten und ist eine kosteneffiziente Methode, alle Daten einer Organisation zur späteren Verarbeitung zu speichern. So können sich Forschungsanalysten auf die Suche nach aussagekräftigen Mustern in den Daten konzentrieren, anstatt sich mit den Daten selbst auseinanderzusetzen.

Im Gegensatz zu einem hierarchischen Data Warehousing Während Daten in Dateien und Ordnern gespeichert werden, hat Data Lake eine flache Architektur. Jedes Datenelement in einem Data Lake erhält eine eindeutige Kennung und ist mit einer Reihe von Metadateninformationen versehen.

Warum Data Lake?

Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschränkte Sicht auf die Daten zu bieten.

Gründe für die Nutzung von Data Lake sind:

Mit dem Aufkommen von Speicher-Engines wie Hadoop Das Speichern unterschiedlicher Informationen ist einfacher geworden. Mit einem Data Lake besteht keine Notwendigkeit, Daten in einem unternehmensweiten Schema zu modellieren.
Mit der Zunahme des Datenvolumens, der Datenqualität und der Metadaten steigt auch die Qualität der Analysen.
Data Lake bietet geschäftliche Agilität
Maschinelles lernen und künstliche Intelligenz kann genutzt werden, um gewinnbringende Vorhersagen zu treffen.
Es bietet der durchführenden Organisation einen Wettbewerbsvorteil.
Es gibt keine Datensilostruktur. Data Lake bietet eine 360-Grad-Ansicht der Kunden und macht die Analyse robuster.

Datensee Architektur

Die Abbildung zeigt die Architektur eines Business Data Lake. Die unteren Ebenen stellen Daten dar, die größtenteils im Ruhezustand sind, während die oberen Ebenen Echtzeit-Transaktionsdaten zeigen. Diese Daten fließen ohne oder mit geringer Latenz durch das System. Im Folgenden sind wichtige Ebenen in Data Lake aufgeführt. ArchiStruktur:

Aufnahmeebene: Die Ebenen auf der linken Seite stellen die Datenquellen dar. Die Daten können stapelweise oder in Echtzeit in den Data Lake geladen werden
Insights-Stufe: Die Ebenen auf der rechten Seite stellen die Forschungsseite dar, auf der Erkenntnisse aus dem System genutzt werden. SQL, NoSQL-Abfragen oder sogar Excel könnten für die Datenanalyse verwendet werden.
HDFS ist eine kostengünstige Lösung für strukturierte und unstrukturierte Daten. Es ist eine Zielzone für alle Daten, die im System ruhen.
Destillationsstufe Nimmt Daten aus der Speicherebene und wandelt sie in strukturierte Daten um, um die Analyse zu vereinfachen.
Verarbeitungsstufe Führen Sie analytische Algorithmen und Benutzerabfragen mit unterschiedlichen interaktiven Batch-Abfragen in Echtzeit aus, um strukturierte Daten für eine einfachere Analyse zu generieren.
Einheitliche Betriebsebene regelt die Systemverwaltung und -überwachung. Es umfasst Prüfungs- und Leistungsmanagement, Datenmanagement, Workflow-Management.

Schlüsseldatensee Concepts

Im Folgenden sind die wichtigsten Data Lake-Konzepte aufgeführt, die man verstehen muss, um den Data Lake vollständig zu verstehen Architektur

Datenaufnahme

Durch die Datenaufnahme können Konnektoren Daten aus verschiedenen Datenquellen abrufen und in den Data Lake laden.

Die Datenaufnahme unterstützt:

Alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten.
Mehrere Aufnahmen wie Batch, Echtzeit, einmaliges Laden.
Viele Arten von Datenquellen wie Datenbanken, Webserver, E-Mails, IoT, und FTP.

Datenspeicher

Der Datenspeicher sollte skalierbar sein, eine kostengünstige Speicherung bieten und einen schnellen Zugriff auf die Datenexploration ermöglichen. Es sollte verschiedene Datenformate unterstützen.

Datenverwaltung

Data Governance ist ein Prozess zur Verwaltung der Verfügbarkeit, Benutzerfreundlichkeit, Sicherheit und Integrität der in einer Organisation verwendeten Daten.

Sicherheit

Sicherheit muss in jeder Ebene des Data Lake implementiert werden. Es beginnt mit Lagerung, Ausgrabung und Konsum. Das Grundbedürfnis besteht darin, den Zugriff für unbefugte Benutzer zu verhindern. Es sollte verschiedene Tools für den Datenzugriff mit einer einfach zu navigierenden Benutzeroberfläche und Dashboards unterstützen.

Authentifizierung, Buchhaltung, Autorisierung und Datenschutz sind einige wichtige Merkmale der Data Lake-Sicherheit.

Datenqualität

Datenqualität ist ein wesentlicher Bestandteil der Data-Lake-Architektur. Daten werden genutzt, um geschäftlichen Nutzen zu generieren.tracDie Ableitung von Erkenntnissen aus Daten minderer Qualität führt zu Erkenntnissen minderer Qualität.

Datenerkennung

Die Datenermittlung ist ein weiterer wichtiger Schritt, bevor Sie mit der Vorbereitung von Daten oder Analysen beginnen können. In dieser Phase wird die Tagging-Technik verwendet, um das Datenverständnis auszudrücken, indem die im Data Lake erfassten Daten organisiert und interpretiert werden.

Datenprüfung

Zwei wichtige Aufgaben der Datenprüfung sind tracKing ändert den Schlüsseldatensatz.

Tracking Änderungen an wichtigen Datensatzelementen
Erfasst, wie/wann/wer an diesen Elementen Änderungen vornimmt.

Die Datenprüfung hilft bei der Bewertung von Risiken und Compliance.

Datenherkunft

Diese Komponente befasst sich mit den Ursprüngen von Daten. Sie verfolgt insbesondere, wohin die Daten im Laufe der Zeit wandern und was mit ihnen geschieht. Sie erleichtert die Fehlerkorrektur im Datenanalyseprozess vom Ursprung bis zum Ziel.

Datenexploration

Es ist die Anfangsphase der Datenanalyse. Es ist von entscheidender Bedeutung, den richtigen Datensatz zu identifizieren, bevor mit der Datenexploration begonnen wird.

Alle gegebenen Komponenten müssen zusammenarbeiten, um eine wichtige Rolle bei der einfachen Entwicklung und Erkundung der Umgebung von Data Lakes zu spielen.

Beliebte Data-Lake-Plattformen

Die oben beschriebenen Ebenen werden üblicherweise aus verwalteten Cloud-Diensten zusammengestellt und nicht von Grund auf neu entwickelt. Die folgenden Plattformen decken die Speicher- und Katalogisierungsebenen ab, mit denen die meisten Implementierungen beginnen.

Amazon S3 mit AWS-Seebildung: Objektspeicher in Verbindung mit einem Dienst, der Datenquellen registriert, Berechtigungen festlegt und den Datenkatalog erstellt. Siehe … AWS-Tutorial für das gesamte Ökosystem.
Azure Data Lake Storage Gen2: Fügt dem Blob-Speicher einen hierarchischen Namensraum hinzu, der Sicherheit auf Verzeichnisebene und einen schnelleren Zugriff auf Analysedaten ermöglicht.
Google Cloud Speicherplatz bei BigLake: Kombiniert Objektspeicher mit einer Abfrageschicht, die offene Tabellenformate direkt liest.
Apache Hadoop mit HDFS: Die ursprüngliche Option „vor Ort“ wird immer noch verwendet, wenn die Daten in einem privaten Rechenzentrum verbleiben müssen.
Databricks und Snowflake: Plattformen, die Tabellenformate wie z. B. Delta Lake und Apache Iceberg über Objektspeicher, um Transaktionen und Versionierung hinzuzufügen.

Die Auswahl richtet sich normalerweise nach dem Cloud-Anbieter, den ein Unternehmen bereits nutzt, da die Datenaufnahme und Business Intelligence-Tools Die kostengünstigste Integration erfolgt innerhalb eines einzigen Ökosystems.

Reifestadien von Data Lake

Die Definition der Reifegrade von Data Lakes unterscheidet sich von Lehrbuch zu Lehrbuch. Der Kern bleibt jedoch derselbe. Nach der Reife erfolgt die Definition der Stadien aus der Sicht eines Laien.

Stufe 1: Daten im großen Maßstab verarbeiten und aufnehmen

Diese erste Phase der Datenreife beinhaltet die Verbesserung der Fähigkeit, Daten zu transformieren und zu analysieren. Hier müssen Geschäftsinhaber die Tools finden, die ihren Fähigkeiten entsprechen, um mehr Daten zu erhalten und analytische Anwendungen zu erstellen.

Stufe 2: Aufbau der analytischen Muskeln

Dies ist ein zweiter Schritt, bei dem es darum geht, die Fähigkeit zur Transformation und Analyse von Daten zu verbessern. In dieser Phase verwenden Unternehmen das Tool, das ihren Fähigkeiten am besten entspricht. Sie beginnen, mehr Daten zu erfassen und Anwendungen zu erstellen. Dabei werden die Fähigkeiten des Enterprise Data Warehouse und des Data Lake gemeinsam genutzt.

Stufe 3: EDW und Data Lake arbeiten im Einklang

Bei diesem Schritt geht es darum, Daten und Analysen möglichst vielen Menschen zugänglich zu machen. In dieser Phase beginnen der Data Lake und das Enterprise Data Warehouse in einer Einheit zu arbeiten. Beide tragen ihren Teil zur Analytik bei

Stufe 4: Unternehmensfähigkeit im See

In dieser Reifephase des Data Lake werden dem Data Lake Unternehmensfunktionen hinzugefügt. Einführung von Information Governance, Funktionen zur Verwaltung des Informationslebenszyklus und Metadatenverwaltung. Allerdings können nur sehr wenige Organisationen diesen Reifegrad erreichen, aber dieser Wert wird in Zukunft noch zunehmen.

Best Practices für die Data Lake-Implementierung

ArchiStrukturelle Komponenten, ihre Interaktion und identifizierte Produkte sollten native Datentypen unterstützen
Das Design von Data Lake sollte sich an dem orientieren, was verfügbar ist, und nicht an dem, was benötigt wird. Das Schema und die Datenanforderung werden erst definiert, wenn sie abgefragt werden
Das Design sollte sich an Einwegkomponenten orientieren, die in die Service-API integriert sind.
Datenerkennung, -aufnahme, -speicherung, -verwaltung, -qualität, -transformation und -visualisierung sollten unabhängig voneinander verwaltet werden.
Die Data Lake-Architektur sollte auf eine bestimmte Branche zugeschnitten sein. Sie sollte sicherstellen, dass die für diese Domäne erforderlichen Funktionen ein fester Bestandteil des Designs sind.
Ein schnelleres Onboarding neu entdeckter Datenquellen ist wichtig
Data Lake unterstützt die individuelle Verwaltung von Beispielentract Maximalwert
Der Data Lake sollte bestehende Techniken und Methoden zur Unternehmensdatenverwaltung unterstützen

Herausforderungen beim Aufbau eines Data Lake:

In Data Lake ist das Datenvolumen höher, daher muss der Prozess stärker auf programmgesteuerte Verwaltung angewiesen sein
Es ist schwierig, mit spärlichen, unvollständigen und volatilen Daten umzugehen
Ein größerer Umfang an Datensätzen und Quellen erfordert eine umfassendere Datenverwaltung und -unterstützung

⚠️ Warnung: Ein See ohne katalogisierte Metadaten und durchgesetzte Zugriffsregeln verwandelt sich in einen Datensumpf. Die Daten sind zwar vorhanden, aber niemand kann sie finden, ihnen vertrauen oder nachweisen, wer sie verändert hat. Governance ist daher eine Grundvoraussetzung und keine spätere.

Unterschied zwischen Data Lakes und Data Warehouse

Der folgende Vergleich fasst zusammen, wo die einzelnen Geschäfte einzuordnen sind. Eine detailliertere Aufschlüsselung finden Sie im Data Lake vs Data Warehouse Vergleich.

Kenngrößen	Datenseen	Data Warehousing
Datum	Data Lakes speichern alles.	Data Warehouse konzentriert sich nur auf Geschäftsprozesse.
Verarbeitung	Die Daten liegen größtenteils unverarbeitet vor	Hochverarbeitete Daten.
Art der Daten	Es kann unstrukturiert, halbstrukturiert und strukturiert sein.	Es ist größtenteils in tabellarischer Form und Struktur.
Aufgabe	Teilen Sie die Datenverwaltung	Optimiert für den Datenabruf
Agilität	Äußerst agil, je nach Bedarf konfigurieren und neu konfigurieren.	Im Vergleich zu Data Lake ist es weniger agil und hat eine feste Konfiguration.
Nutzer	Data Lake wird hauptsächlich von Data Scientists verwendet	Geschäftsleute nutzen häufig Data Warehouse
Lagerung	Data Lakes-Design für kostengünstige Speicherung.	Es werden teure Speicher verwendet, die schnelle Reaktionszeiten ermöglichen
Sicherheit	Bietet weniger Kontrolle.	Ermöglicht eine bessere Kontrolle der Daten.
Ersatz von EDW	Data Lake kann eine Quelle für EDW sein	Ergänzung zu EDW (kein Ersatz)
Schema	Schema beim Lesen (keine vordefinierten Schemata)	Schema beim Schreiben (vordefinierte Schemata)
Datenverarbeitung	Hilft bei der schnellen Aufnahme neuer Daten.	Zeitaufwändig, neue Inhalte einzuführen.
Datengranularität	Daten mit einem geringen Detaillierungsgrad oder einer geringen Granularität.	Daten auf zusammenfassender oder aggregierter Detailebene.
Zubehör	Kann Open Source/Tools wie Hadoop/Map Reduce verwenden	Meistens kommerzielle Werkzeuge.

Was ist ein Data Lakehouse?

Der obige Vergleich geht von zwei separaten Systemen aus. Ein Data Lakehouse führt diese zu einem einzigen System zusammen, weshalb der Begriff in den meisten aktuellen Architekturdiskussionen auftaucht.

Ein Seehaus speichert Rohdateien in kostengünstigen Objektspeichern und fügt dann eine transaktionale Metadatenschicht durch offene Tabellenformate wie z. B. hinzu. Delta Lake, Apache Iceberg oder Apache Hudi. Diese Schicht bietet die Garantien, die ein Data Warehouse bietet, solange die zugrunde liegenden Dateien geöffnet bleiben.

Capability	Datensee	Daten Lakehouse
Transaktionen	Nicht unterstützt	ACID-Transaktionen auf Tabellen
Schemabehandlung	Schema schreibgeschützt	Schemaerzwingung und -entwicklung
Hauptnutzer	Datenwissenschaftler	Analysten und Datenwissenschaftler zusammen
Meldegeschwindigkeit	Langsam ohne separates Lager	Direkte Abfragen mit Indizierung und Caching

Für Teams, die bereits einen verwalteten Datensee betreiben, ist die Einführung eines Tabellenformats in der Regel eine schrittweise Verbesserung und kein kompletter Neuaufbau.

Vorteile und Risiken der Verwendung von Data Lake

Hier sind einige große Vorteile bei der Verwendung eines Data Lake:

Unterstützt umfassend bei der Produktionsumstellung und fortgeschrittenen Analysen.
Bietet kostengünstige Skalierbarkeit und Flexibilität
Bietet Mehrwert durch unbegrenzte Datentypen
Reduziert die langfristigen Betriebskosten
Ermöglicht eine kostengünstige Speicherung von Dateien
Schnelle Anpassung an Änderungen
Der Hauptvorteil von Data Lake ist Zentralisierung verschiedener Inhaltsquellen
Benutzer aus verschiedenen Abteilungen können über die ganze Welt verstreut sein flexibler Zugang zu den Daten

Risiko der Nutzung von Data Lake:

Nach einiger Zeit könnte Data Lake an Relevanz und Dynamik verlieren
Beim Entwurf von Data Lake besteht ein größeres Risiko
Unstrukturierte Daten können zu unkontrolliertem Chaos, unbrauchbaren Daten, uneinheitlichen und komplexen Tools sowie zu einer schwachen unternehmensweiten Zusammenarbeit führen.
Es erhöht auch die Speicher- und Rechenkosten
Es gibt keine Möglichkeit, Erkenntnisse von anderen zu erhalten, die mit den Daten gearbeitet haben, da es keinen Bericht über die Herkunft der Ergebnisse früherer Analysten gibt
Das größte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal können Daten unbeaufsichtigt in einem See abgelegt werden, da für einige der Daten möglicherweise Datenschutz- und Regulierungsanforderungen bestehen

Häufig gestellte Fragen

Das Einlesen von Dateien ohne Metadaten-Tags, Eigentümerangaben oder Aufbewahrungsregeln führt dazu, dass Benutzer nicht erkennen können, welche Datensätze aktuell oder vertrauenswürdig sind, wodurch sich der Datenpool mit Duplikaten füllt, die niemand abfragt.

Spaltenorientierte Formate wie Parquet und ORC lassen sich gut komprimieren und ermöglichen es Abfragen, nur die benötigten Spalten zu lesen. JSON und CSV bleiben vor der Konvertierung im Rohdatenformat nützlich.

Für das Modelltraining werden große Mengen an unstrukturierten, vielfältigen Beispielen benötigt – genau das, was ein See speichert. Teams lesen direkt aus dem Objektspeicher, anstatt Daten aus einem Data Warehouse zu exportieren.

Ja. KI-Dienste scannen eingehende Dateien, leiten Schemata ab, schlagen Metadaten-Tags vor und kennzeichnen Spalten, die personenbezogenen Daten ähneln. Menschliche Verantwortliche genehmigen die Klassifizierungen weiterhin, bevor Richtlinien in Kraft treten.

Wenden Sie Speicherlebenszyklusregeln an, die selten genutzte Dateien in Archivebenen verschieben, kleine Dateien zu größeren komprimieren und Daten partitionieren, sodass Abfragen weniger Scans durchführen. Die Rechenleistung, nicht der Speicherplatz, macht in der Regel den größten Teil der Kosten aus.

Was ist ein Data Lake? Definition ArchiArchitektur & Best Practices

Was ist Data Lake?

Warum Data Lake?

Datensee Architektur

Schlüsseldatensee Concepts

Datenaufnahme

Datenspeicher

Datenverwaltung

Sicherheit

Datenqualität

Datenerkennung

Datenprüfung

Datenherkunft

Datenexploration

Beliebte Data-Lake-Plattformen

Reifestadien von Data Lake

Stufe 1: Daten im großen Maßstab verarbeiten und aufnehmen

Stufe 2: Aufbau der analytischen Muskeln

Stufe 3: EDW und Data Lake arbeiten im Einklang

Stufe 4: Unternehmensfähigkeit im See

Best Practices für die Data Lake-Implementierung

Unterschied zwischen Data Lakes und Data Warehouse

Was ist ein Data Lakehouse?

Vorteile und Risiken der Verwendung von Data Lake

Häufig gestellte Fragen

Fassen Sie diesen Beitrag mit folgenden Worten zusammen:

Melden Sie sich für den Newsletter an

Was ist Data Lake?

Warum Data Lake?

Datensee Architektur

Schlüsseldatensee Concepts

Datenaufnahme

Datenspeicher

Datenverwaltung

Sicherheit

Datenqualität

Datenerkennung

Datenprüfung

Datenherkunft

Datenexploration

ÄHNLICHE ARTIKEL

Beliebte Data-Lake-Plattformen

Reifestadien von Data Lake

Stufe 1: Daten im großen Maßstab verarbeiten und aufnehmen

Stufe 2: Aufbau der analytischen Muskeln

Stufe 3: EDW und Data Lake arbeiten im Einklang

Stufe 4: Unternehmensfähigkeit im See

Best Practices für die Data Lake-Implementierung

Unterschied zwischen Data Lakes und Data Warehouse

Was ist ein Data Lakehouse?

Vorteile und Risiken der Verwendung von Data Lake

Häufig gestellte Fragen

Fassen Sie diesen Beitrag mit folgenden Worten zusammen:

Melden Sie sich für den Newsletter an