Qu’est-ce que Data Lake ? C'est Architecture : Tutoriel Data Lake
Qu'est-ce que le lac de données ?
Un Data Lake est un référentiel de stockage capable de stocker une grande quantité de données structurées, semi-structurées et non structurées. C'est un endroit où stocker tout type de données dans son format natif sans limite fixe de taille de compte ou de fichier. Il offre une grande quantité de données pour augmenter les performances analytiques et l'intégration native.
Data Lake est comme un grand conteneur qui ressemble beaucoup à de vrais lacs et rivières. Tout comme dans un lac, plusieurs affluents arrivent, un lac de données contient des données structurées, des données non structurées, de machine à machine, et des journaux circulant en temps réel.

Le Data Lake démocratise les données et constitue un moyen rentable de stocker toutes les données d'une organisation pour un traitement ultérieur. L'analyste de recherche peut se concentrer sur la recherche de modèles de signification dans les données et non sur les données elles-mêmes.
Contrairement à une hiérarchie Entreposage De Données où les données sont stockées dans des fichiers et des dossiers, Data Lake a une architecture plate. Chaque élément de données d'un Data Lake reçoit un identifiant unique et est étiqueté avec un ensemble d'informations de métadonnées.
Pourquoi Data Lake ?
L’objectif principal de la construction d’un lac de données est d’offrir une vue brute des données aux data scientists.
Les raisons d’utiliser Data Lake sont :
- Avec l'arrivée des moteurs de stockage comme Hadoop stocker des informations disparates est devenu facile. Il n’est pas nécessaire de modéliser les données dans un schéma à l’échelle de l’entreprise avec un Data Lake.
- Avec l’augmentation du volume de données, de la qualité des données et des métadonnées, la qualité des analyses augmente également.
- Data Lake offre de l'agilité aux entreprises
- Machine Learning et l’intelligence artificielle peut être utilisée pour faire des prédictions rentables.
- Il offre un avantage concurrentiel à l’organisation chargée de la mise en œuvre.
- Il n’y a pas de structure de silos de données. Data Lake offre une vue à 360 degrés des clients et rend l'analyse plus robuste.
Data Lake Architecture

La figure montre l'architecture d'un lac de données d'entreprise. Les niveaux inférieurs représentent les données qui sont principalement au repos tandis que les niveaux supérieurs montrent les données transactionnelles en temps réel. Ces données circulent dans le système avec peu ou pas de latence. Voici les niveaux importants du lac de données Archistructure :
- Niveau d'ingestion: Les niveaux sur le côté gauche représentent les sources de données. Les données pourraient être chargées dans le lac de données par lots ou en temps réel
- Niveau d'informations : Les niveaux de droite représentent le côté recherche où les informations du système sont utilisées. SQL, des requêtes NoSQL ou même Excel pourraient être utilisées pour l'analyse des données.
- HDFS est une solution rentable pour les données structurées et non structurées. Il s’agit d’une zone d’atterrissage pour toutes les données au repos dans le système.
- Niveau de distillation prend les données du pneu de stockage et les convertit en données structurées pour une analyse plus facile.
- Niveau de traitement exécutez des algorithmes analytiques et des requêtes des utilisateurs avec différents lots interactifs en temps réel pour générer des données structurées pour une analyse plus facile.
- Niveau d’opérations unifiées régit la gestion et la surveillance du système. Il comprend l'audit et la gestion des compétences, la gestion des données, gestion du workflow.
Lac de données clés Concepts
Voici les principaux concepts du Data Lake qu'il faut comprendre pour comprendre complètement le Data Lake Architecture

Ingestion de données
L'ingestion de données permet aux connecteurs d'obtenir des données provenant de différentes sources de données et de les charger dans le lac de données.
L'ingestion de données prend en charge :
- Tous types de données structurées, semi-structurées et non structurées.
- Ingestions multiples comme par lots, en temps réel, chargement unique.
- De nombreux types de sources de données telles que les bases de données, les serveurs Web, les e-mails, IoTet FTP.
Stockage de données
Le stockage des données doit être évolutif, offrir un stockage rentable et permettre un accès rapide à l'exploration des données. Il doit prendre en charge différents formats de données.
Gouvernance des Données
La gouvernance des données est un processus de gestion de la disponibilité, de la convivialité, de la sécurité et de l'intégrité des données utilisées dans une organisation.
Sécurité
La sécurité doit être mise en œuvre dans chaque couche du Data Lake. Cela commence par le stockage, la découverte et la consommation. Le besoin fondamental est d’arrêter l’accès aux utilisateurs non autorisés. Il doit prendre en charge différents outils pour accéder aux données avec une interface graphique et des tableaux de bord faciles à naviguer.
L'authentification, la comptabilité, l'autorisation et la protection des données sont quelques fonctionnalités importantes de la sécurité des lacs de données.
Qualité des données
La qualité des données est un élément essentiel de l'architecture d'un lac de données. Les données servent à générer de la valeur ajoutée pour l'entreprise. Par exemple :tracTirer des enseignements de données de mauvaise qualité conduira à des enseignements de mauvaise qualité.
Découverte de données
La découverte de données est une autre étape importante avant de pouvoir commencer à préparer des données ou à les analyser. Dans cette étape, la technique de marquage est utilisée pour exprimer la compréhension des données, en organisant et en interprétant les données ingérées dans le Data Lake.
Audit des données
Deux tâches majeures d'audit des données sont tracLe roi modifie l'ensemble de données principal.
- Tracking changes to important dataset elements
- Capture comment/quand/et qui modifie ces éléments.
L’audit des données permet d’évaluer les risques et la conformité.
Lignée de données
Ce composant traite de l'origine des données. Il s’agit principalement de savoir où il se déplace au fil du temps et de ce qui lui arrive. Il facilite la correction des erreurs dans un processus d'analyse de données, de l'origine à la destination.
Exploration de données
C'est la première étape de l'analyse des données. Il est essentiel d’identifier le bon ensemble de données avant de commencer l’exploration des données.
Tous les composants donnés doivent fonctionner ensemble pour jouer un rôle important dans la création de lacs de données, évoluer et explorer facilement l'environnement.
Étapes de maturité de Data Lake
La définition des étapes de maturité du Data Lake diffère d’un manuel à l’autre. Même si le fond reste le même. Après la maturité, la définition du stade se fait d'un point de vue profane.

Étape 1 : Gérer et ingérer des données à grande échelle
Cette première étape de la maturité des données consiste à améliorer la capacité à transformer et à analyser les données. Ici, les propriétaires d'entreprise doivent trouver les outils en fonction de leurs compétences pour obtenir plus de données et créer des applications analytiques.
Étape 2 : Construire le muscle analytique
Il s’agit d’une deuxième étape qui consiste à améliorer la capacité à transformer et analyser les données. A cette étape, les entreprises utilisent l’outil le plus adapté à leurs compétences. Ils commencent à acquérir davantage de données et à créer des applications. Ici, les capacités de l’entrepôt de données d’entreprise et du lac de données sont utilisées ensemble.
Étape 3 : EDW et Data Lake travaillent à l’unisson
Cette étape consiste à mettre les données et les analyses entre les mains du plus grand nombre de personnes possible. À ce stade, le lac de données et l’entrepôt de données d’entreprise commencent à fonctionner en union. Tous deux jouent leur rôle dans l’analyse
Étape 4 : Capacité d'entreprise dans le lac
À ce stade de maturité du lac de données, des capacités d'entreprise sont ajoutées au lac de données. Adoption de la gouvernance de l’information, des capacités de gestion du cycle de vie de l’information et de la gestion des métadonnées. Cependant, très peu d’organisations parviennent à atteindre ce niveau de maturité, mais ce chiffre va augmenter à l’avenir.
Meilleures pratiques pour la mise en œuvre de Data Lake
- Archiles composants structuraux, leur interaction et les produits identifiés doivent prendre en charge les types de données natifs
- La conception de Data Lake doit être guidée par ce qui est disponible plutôt que par ce qui est requis. Les exigences en matière de schéma et de données ne sont pas définies tant qu'elles ne sont pas interrogées
- La conception doit être guidée par des composants jetables intégrés à l'API de service.
- La découverte, l'ingestion, le stockage, l'administration, la qualité, la transformation et la visualisation des données doivent être gérés de manière indépendante.
- L'architecture Data Lake doit être adaptée à un secteur spécifique. Il doit garantir que les capacités nécessaires pour ce domaine font partie intégrante de la conception.
- Une intégration plus rapide des sources de données nouvellement découvertes est importante
- Data Lake aide à une gestion personnalisée pour extracvaleur maximale de t
- Le Data Lake doit prendre en charge les techniques et méthodes existantes de gestion des données d'entreprise.
Les défis de la création d'un lac de données :
- Dans Data Lake, le volume de données est plus élevé, le processus doit donc dépendre davantage de l'administration programmatique
- Il est difficile de gérer des données rares, incomplètes et volatiles
- Une portée plus large de l'ensemble de données et des sources nécessite une gouvernance et un support des données plus importants
Différence entre les lacs de données et les entrepôts de données
| Paramètres | Lacs de données | Entreposage De Données |
|---|---|---|
| Centres de données | Les lacs de données stockent tout. | Data Warehouse se concentre uniquement sur les processus métier. |
| En cours | Les données sont pour la plupart non traitées | Données hautement traitées. |
| Type de données | Il peut être non structuré, semi-structuré et structuré. | Il se présente principalement sous forme et structure tabulaires. |
| Tâche | Partager la gestion des données | Optimisé pour la récupération de données |
| Agilité | Très agile, configurez et reconfigurez selon les besoins. | Comparé au Data Lake, il est moins agile et a une configuration fixe. |
| Utilisateurs | Data Lake est principalement utilisé par Data Scientist | Les professionnels utilisent largement Data Warehouse |
| Stockage | Conception de lacs de données pour un stockage à faible coût. | Un stockage coûteux offrant des temps de réponse rapides est utilisé |
| Sécurité | Offre moins de contrôle. | Permet un meilleur contrôle des données. |
| Remplacement de l'EDW | Le lac de données peut être une source pour EDW | Complémentaire à EDW (pas de remplacement) |
| Programme | Schéma en lecture (pas de schéma prédéfini) | Schéma à l'écriture (schémas prédéfinis) |
| Traitement de l'information | Aide à l’ingestion rapide de nouvelles données. | Cela prend du temps pour introduire du nouveau contenu. |
| Granularité des données | Données à faible niveau de détail ou de granularité. | Données au niveau de détail récapitulatif ou agrégé. |
| Outils | Peut utiliser des outils open source comme Hadoop/Map Reduction | Des outils principalement commerciaux. |
Avantages et risques de l'utilisation de Data Lake
Voici quelques avantages majeurs de l’utilisation d’un Data Lake :
- Aide pleinement à l'ionisation des produits et à l'analyse avancée
- Offre une évolutivité et une flexibilité économiques
- Offre de la valeur à partir de types de données illimités
- Réduit le coût de possession à long terme
- Permet un stockage économique des fichiers
- Adaptation rapide aux changements
- Le principal avantage du lac de données est centralisation de différentes sources de contenu
- Les utilisateurs, issus de différents départements, peuvent être dispersés dans le monde entier et peuvent avoir accès flexible aux données
Risque lié à l'utilisation de Data Lake :
- Après un certain temps, Data Lake pourrait perdre de sa pertinence et de son élan
- La conception de Data Lake comporte un plus grand risque
- Les données non structurées peuvent conduire à un chaos non gouverné, à des données inutilisables, à des outils disparates et complexes, à une collaboration à l'échelle de l'entreprise, unifiée, cohérente et commune.
- Il augmente également le stockage et calcule les coûts
- Il n'y a aucun moyen d'obtenir des informations d'autres personnes qui ont travaillé avec les données car il n'y a aucun compte rendu de la lignée des résultats par les analystes précédents
- Le plus grand risque des lacs de données est la sécurité et le contrôle d’accès. Parfois, les données peuvent être placées dans un lac sans aucune surveillance, car certaines d'entre elles peuvent avoir des besoins en matière de confidentialité et de réglementation.
Résumé
- Un Data Lake est un référentiel de stockage capable de stocker une grande quantité de données structurées, semi-structurées et non structurées.
- L’objectif principal de la construction d’un lac de données est d’offrir une vue brute des données aux data scientists.
- Le niveau d'opérations unifiées, le niveau de traitement, le niveau de distillation et HDFS sont des couches importantes de Data Lake. Architecture
- L'ingestion de données, le stockage de données, la qualité des données, l'audit des données, l'exploration des données, la découverte des données sont quelques composants importants de Data Lake. Architecture
- La conception de Data Lake doit être guidée par ce qui est disponible plutôt que par ce qui est requis.
- Data Lake réduit le coût de possession à long terme et permet un stockage économique des fichiers
- Le plus grand risque des lacs de données est la sécurité et le contrôle d’accès. Parfois, les données peuvent être placées dans un lac sans aucune surveillance, car certaines d'entre elles peuvent avoir des besoins en matière de confidentialité et de réglementation.
