Τι είναι το Data Lake; Του Architecture: Data Lake Tutorial

Τι είναι το Data Lake;

Η Λίμνη Δεδομένων είναι μια αποθήκη αποθήκευσης που μπορεί να αποθηκεύσει μεγάλη ποσότητα δομημένων, ημιδομημένων και μη δομημένων δεδομένων. Είναι ένα μέρος για την αποθήκευση κάθε τύπου δεδομένων στην εγγενή του μορφή χωρίς σταθερά όρια στο μέγεθος του λογαριασμού ή στο αρχείο. Προσφέρει υψηλή ποσότητα δεδομένων για την αύξηση της αναλυτικής απόδοσης και της εγγενούς ενοποίησης.

Η Λίμνη Δεδομένων είναι σαν ένα μεγάλο δοχείο που μοιάζει πολύ με πραγματική λίμνη και ποτάμια. Ακριβώς όπως σε μια λίμνη που εισέρχονται πολλοί παραπόταμοι, μια λίμνη δεδομένων έχει δομημένα δεδομένα, μη δομημένα δεδομένα, από μηχανή σε μηχανή, κούτσουρα που ρέουν σε πραγματικό χρόνο.

Λίμνη δεδομένων
Λίμνη δεδομένων

Η Λίμνη Δεδομένων εκδημοκρατίζει τα δεδομένα και είναι ένας οικονομικά αποδοτικός τρόπος αποθήκευσης όλων των δεδομένων ενός οργανισμού για μεταγενέστερη επεξεργασία. Ο Αναλυτής Έρευνας μπορεί να επικεντρωθεί στην εύρεση μοτίβων νοήματος στα δεδομένα και όχι στα ίδια τα δεδομένα.

Σε αντίθεση με έναν ιεραρχικό Αποθήκη δεδομένων όπου τα δεδομένα αποθηκεύονται σε Files and Folder, το Data Lake έχει επίπεδη αρχιτεκτονική. Σε κάθε στοιχείο δεδομένων σε μια Λίμνη Δεδομένων δίνεται ένα μοναδικό αναγνωριστικό και επισημαίνεται με ένα σύνολο πληροφοριών μεταδεδομένων.

Γιατί Data Lake;

Ο κύριος στόχος της οικοδόμησης μιας λίμνης δεδομένων είναι να προσφέρει μια μη βελτιωμένη άποψη των δεδομένων στους επιστήμονες δεδομένων.

Οι λόγοι για τη χρήση του Data Lake είναι:

  • Με την έναρξη των μηχανών αποθήκευσης όπως Hadoop Η αποθήκευση ανόμοιων πληροφοριών έχει γίνει εύκολη. Δεν χρειάζεται να μοντελοποιήσετε δεδομένα σε ένα σχήμα σε επίπεδο επιχείρησης με Data Lake.
  • Με την αύξηση του όγκου δεδομένων, της ποιότητας των δεδομένων και των μεταδεδομένων, αυξάνεται και η ποιότητα των αναλύσεων.
  • Η Data Lake προσφέρει επιχειρηματική ευελιξία
  • Μηχανική μάθηση και η Τεχνητή Νοημοσύνη μπορεί να χρησιμοποιηθεί για να γίνουν κερδοφόρες προβλέψεις.
  • Προσφέρει ανταγωνιστικό πλεονέκτημα στον οργανισμό υλοποίησης.
  • Δεν υπάρχει δομή σιλό δεδομένων. Το Data Lake παρέχει στους πελάτες προβολή 360 μοιρών και κάνει την ανάλυση πιο ισχυρή.

Λίμνη δεδομένων Archiδομή

Λίμνη δεδομένων Archiδομή
Λίμνη δεδομένων Archiδομή

Το σχήμα δείχνει την αρχιτεκτονική μιας λίμνης επιχειρηματικών δεδομένων. Τα χαμηλότερα επίπεδα αντιπροσωπεύουν δεδομένα που είναι ως επί το πλείστον σε κατάσταση ηρεμίας, ενώ τα ανώτερα επίπεδα δείχνουν δεδομένα συναλλαγών σε πραγματικό χρόνο. Αυτά τα δεδομένα ρέουν μέσω του συστήματος χωρίς ή με μικρή καθυστέρηση. Ακολουθούν σημαντικές βαθμίδες στο Data Lake Archiδομή:

  1. Επίπεδο κατάποσης: Τα επίπεδα στην αριστερή πλευρά απεικονίζουν τις πηγές δεδομένων. Τα δεδομένα θα μπορούσαν να φορτωθούν στη λίμνη δεδομένων σε παρτίδες ή σε πραγματικό χρόνο
  2. Επίπεδο πληροφοριών: Τα επίπεδα στα δεξιά αντιπροσωπεύουν την ερευνητική πλευρά όπου χρησιμοποιούνται πληροφορίες από το σύστημα. SQL, ερωτήματα NoSQL ή ακόμα και excel θα μπορούσαν να χρησιμοποιηθούν για ανάλυση δεδομένων.
  3. ΚΑΕ είναι μια οικονομικά αποδοτική λύση τόσο για δομημένα όσο και για μη δομημένα δεδομένα. Είναι μια ζώνη προσγείωσης για όλα τα δεδομένα που βρίσκονται σε ηρεμία στο σύστημα.
  4. Βαθμίδα απόσταξης λαμβάνει δεδομένα από το ελαστικό αποθήκευσης και τα μετατρέπει σε δομημένα δεδομένα για ευκολότερη ανάλυση.
  5. Επίπεδο επεξεργασίας εκτελέστε αναλυτικούς αλγόριθμους και ερωτήματα χρηστών με ποικίλο πραγματικό χρόνο, διαδραστικά, ομαδικά για τη δημιουργία δομημένων δεδομένων για ευκολότερη ανάλυση.
  6. Ενιαίο επίπεδο λειτουργιών διέπει τη διαχείριση και την παρακολούθηση του συστήματος. Περιλαμβάνει έλεγχο και διαχείριση επάρκειας, διαχείριση δεδομένων, διαχείριση ροής εργασίας.

Key Data Lake Concepts

Ακολουθούν βασικές έννοιες της Λίμνης Δεδομένων που πρέπει να κατανοήσει κάποιος για να κατανοήσει πλήρως τη Λίμνη Δεδομένων Archiδομή

Κλειδί Concepts της Λίμνης Δεδομένων
Κλειδί Concepts της Λίμνης Δεδομένων

Κατάποση δεδομένων

Η απορρόφηση δεδομένων επιτρέπει στους συνδέσμους να λαμβάνουν δεδομένα από διαφορετικές πηγές δεδομένων και να φορτώνουν στη λίμνη Δεδομένων.

Η απορρόφηση δεδομένων υποστηρίζει:

  • Όλοι οι τύποι δομημένων, ημιδομημένων και μη δομημένων δεδομένων.
  • Πολλαπλές απολήψεις όπως Μαζική, Πραγματικός Χρόνος, Εφάπαξ φόρτωση.
  • Πολλοί τύποι πηγών δεδομένων όπως βάσεις δεδομένων, διακομιστές ιστού, μηνύματα ηλεκτρονικού ταχυδρομείου, IoTκαι FTP.

Αποθήκευσης δεδομένων

Η αποθήκευση δεδομένων πρέπει να είναι επεκτάσιμη, να προσφέρει οικονομικά αποδοτική αποθήκευση και να επιτρέπει γρήγορη πρόσβαση στην εξερεύνηση δεδομένων. Θα πρέπει να υποστηρίζει διάφορες μορφές δεδομένων.

Διακυβέρνηση δεδομένων

Η διακυβέρνηση δεδομένων είναι μια διαδικασία διαχείρισης της διαθεσιμότητας, της χρηστικότητας, της ασφάλειας και της ακεραιότητας των δεδομένων που χρησιμοποιούνται σε έναν οργανισμό.

Ασφάλεια

Η ασφάλεια πρέπει να εφαρμόζεται σε κάθε στρώμα της λίμνης Δεδομένων. Ξεκινά με την αποθήκευση, την αποκάλυψη και την κατανάλωση. Η βασική ανάγκη είναι να σταματήσει η πρόσβαση για μη εξουσιοδοτημένους χρήστες. Θα πρέπει να υποστηρίζει διαφορετικά εργαλεία για πρόσβαση σε δεδομένα με εύκολη πλοήγηση GUI και πίνακες εργαλείων.

Ο έλεγχος ταυτότητας, η λογιστική, η εξουσιοδότηση και η προστασία δεδομένων είναι μερικά σημαντικά χαρακτηριστικά της ασφάλειας της λίμνης δεδομένων.

Ποιότητα δεδομένων

Η ποιότητα των δεδομένων είναι βασικό συστατικό της αρχιτεκτονικής Data Lake. Τα δεδομένα χρησιμοποιούνται για την ακριβή επιχειρηματική αξία. Η εξαγωγή πληροφοριών από δεδομένα κακής ποιότητας θα οδηγήσει σε πληροφορίες κακής ποιότητας.

Ανακάλυψη δεδομένων

Η Ανακάλυψη Δεδομένων είναι ένα άλλο σημαντικό στάδιο πριν ξεκινήσετε την προετοιμασία δεδομένων ή την ανάλυση. Σε αυτό το στάδιο, η τεχνική επισήμανσης χρησιμοποιείται για να εκφράσει την κατανόηση των δεδομένων, οργανώνοντας και ερμηνεύοντας τα δεδομένα που λαμβάνονται στη λίμνη Δεδομένων.

Έλεγχος Δεδομένων

Δύο κύριες εργασίες ελέγχου δεδομένων είναι η παρακολούθηση αλλαγών στο βασικό σύνολο δεδομένων.

  1. Παρακολούθηση αλλαγών σε σημαντικά στοιχεία δεδομένων
  2. Καταγράφει πώς/ πότε/ και ποιος αλλάζει σε αυτά τα στοιχεία.

Ο έλεγχος δεδομένων βοηθά στην αξιολόγηση του κινδύνου και της συμμόρφωσης.

Γενεαλογία Δεδομένων

Αυτό το στοιχείο ασχολείται με την προέλευση των δεδομένων. Ασχολείται κυρίως με το πού κινείται με την πάροδο του χρόνου και τι συμβαίνει με αυτό. Διευκολύνει τις διορθώσεις σφαλμάτων σε μια διαδικασία ανάλυσης δεδομένων από την προέλευση στον προορισμό.

Εξερεύνηση δεδομένων

Είναι το αρχικό στάδιο της ανάλυσης δεδομένων. Βοηθά να προσδιοριστεί το σωστό σύνολο δεδομένων είναι ζωτικής σημασίας πριν από την έναρξη της Εξερεύνησης Δεδομένων.

Όλα τα δεδομένα πρέπει να συνεργαστούν για να διαδραματίσουν σημαντικό ρόλο στην εύκολη εξέλιξη και εξερεύνηση του περιβάλλοντος της Data Lake.

Στάδια ωριμότητας της Λίμνης Δεδομένων

Ο ορισμός των σταδίων ωριμότητας της λίμνης δεδομένων διαφέρει από εγχειρίδιο σε άλλο. Αν και η ουσία παραμένει η ίδια. Μετά την ωριμότητα, ο σκηνικός ορισμός είναι από λαϊκή σκοπιά.

Στάδια ωριμότητας της Λίμνης Δεδομένων
Στάδια ωριμότητας της Λίμνης Δεδομένων

Στάδιο 1: Χειρισμός και απορρόφηση δεδομένων σε κλίμακα

Αυτό το πρώτο στάδιο της ωριμότητας δεδομένων περιλαμβάνει τη βελτίωση της ικανότητας μετασχηματισμού και ανάλυσης δεδομένων. Εδώ, οι ιδιοκτήτες επιχειρήσεων πρέπει να βρουν τα εργαλεία σύμφωνα με το σύνολο δεξιοτήτων τους για τη λήψη περισσότερων δεδομένων και τη δημιουργία αναλυτικών εφαρμογών.

Στάδιο 2: Δόμηση του αναλυτικού μυός

Αυτό είναι ένα δεύτερο στάδιο που περιλαμβάνει τη βελτίωση της ικανότητας μετασχηματισμού και ανάλυσης δεδομένων. Σε αυτό το στάδιο, οι εταιρείες χρησιμοποιούν το εργαλείο που είναι πιο κατάλληλο για τις δεξιότητές τους. Αρχίζουν να αποκτούν περισσότερα δεδομένα και να δημιουργούν εφαρμογές. Εδώ, οι δυνατότητες της αποθήκης δεδομένων της επιχείρησης και της λίμνης δεδομένων χρησιμοποιούνται μαζί.

Στάδιο 3: EDW και Data Lake εργάζονται από κοινού

Αυτό το βήμα περιλαμβάνει τη μεταφορά δεδομένων και αναλυτικών στοιχείων στα χέρια όσο το δυνατόν περισσότερων ανθρώπων. Σε αυτό το στάδιο, η λίμνη δεδομένων και η αποθήκη δεδομένων της επιχείρησης αρχίζουν να λειτουργούν σε μια ένωση. Και οι δύο παίζουν το ρόλο τους στην ανάλυση

Στάδιο 4: Επιχειρηματική ικανότητα στη λίμνη

Σε αυτό το στάδιο ωριμότητας της λίμνης δεδομένων, οι επιχειρηματικές δυνατότητες προστίθενται στη λίμνη δεδομένων. Υιοθέτηση της διακυβέρνησης πληροφοριών, των δυνατοτήτων διαχείρισης του κύκλου ζωής των πληροφοριών και της διαχείρισης μεταδεδομένων. Ωστόσο, πολύ λίγοι οργανισμοί μπορούν να φτάσουν σε αυτό το επίπεδο ωριμότητας, αλλά αυτός ο απολογισμός θα αυξηθεί στο μέλλον.

καλυτερα πρακτικες για Εφαρμογή Δεδομένων Λίμνης

  • Archiτα τεχνικά στοιχεία, η αλληλεπίδρασή τους και τα αναγνωρισμένα προϊόντα θα πρέπει να υποστηρίζουν εγγενείς τύπους δεδομένων
  • Ο σχεδιασμός του Data Lake θα πρέπει να βασίζεται σε αυτό που είναι διαθέσιμο αντί για αυτό που απαιτείται. Η απαίτηση σχήματος και δεδομένων δεν ορίζεται μέχρι να υποβληθεί ερώτημα
  • Ο σχεδιασμός θα πρέπει να καθοδηγείται από εξαρτήματα μιας χρήσης ενσωματωμένα με το Service API.
  • Η ανακάλυψη, η κατάποση, η αποθήκευση, η διαχείριση, η ποιότητα, ο μετασχηματισμός και η οπτικοποίηση δεδομένων θα πρέπει να διαχειρίζονται ανεξάρτητα.
  • Η αρχιτεκτονική της Data Lake θα πρέπει να είναι προσαρμοσμένη σε μια συγκεκριμένη βιομηχανία. Θα πρέπει να διασφαλίζει ότι οι απαραίτητες δυνατότητες για αυτόν τον τομέα αποτελούν εγγενές μέρος του σχεδιασμού
  • Η ταχύτερη ενσωμάτωση πηγών δεδομένων που ανακαλύφθηκαν πρόσφατα είναι σημαντική
  • Το Data Lake βοηθά την προσαρμοσμένη διαχείριση για την εξαγωγή της μέγιστης αξίας
  • Η Λίμνη Δεδομένων θα πρέπει να υποστηρίζει τις υπάρχουσες τεχνικές και μεθόδους διαχείρισης εταιρικών δεδομένων

Προκλήσεις για την κατασκευή μιας λίμνης δεδομένων:

  • Στο Data Lake, ο όγκος δεδομένων είναι υψηλότερος, επομένως η διαδικασία πρέπει να εξαρτάται περισσότερο από τη διαχείριση μέσω προγραμματισμού
  • Είναι δύσκολο να αντιμετωπίσεις αραιά, ελλιπή, ασταθή δεδομένα
  • Το ευρύτερο εύρος δεδομένων και πηγής χρειάζεται μεγαλύτερη διαχείριση και υποστήριξη δεδομένων

Διαφορά μεταξύ λιμνών δεδομένων και αποθήκης δεδομένων

παράμετροι Λίμνες δεδομένων Αποθήκη δεδομένων
ημερομηνία Οι λίμνες δεδομένων αποθηκεύουν τα πάντα. Το Data Warehouse εστιάζει μόνο στις Επιχειρηματικές Διαδικασίες.
Επεξεργασία Τα δεδομένα είναι κυρίως μη επεξεργασμένα Δεδομένα υψηλής επεξεργασίας.
Τύπος Δεδομένων Μπορεί να είναι Μη δομημένο, ημιδομημένο και δομημένο. Είναι κυρίως σε μορφή και δομή πίνακα.
Έργο Κοινή διαχείριση δεδομένων Βελτιστοποιημένο για ανάκτηση δεδομένων
Ευκινησία Εξαιρετικά ευέλικτο, διαμορφώστε και επαναδιαμορφώστε τις παραμέτρους όπως απαιτείται. Σε σύγκριση με τη λίμνη Data είναι λιγότερο ευέλικτη και έχει σταθερή διαμόρφωση.
Χρήστες Το Data Lake χρησιμοποιείται κυρίως από το Data Scientist Οι επαγγελματίες των επιχειρήσεων χρησιμοποιούν ευρέως το Data Warehouse
Αποθηκευτικός χώρος Σχεδιασμός λιμνών δεδομένων για αποθήκευση χαμηλού κόστους. Χρησιμοποιείται ακριβός χώρος αποθήκευσης που δίνει γρήγορους χρόνους απόκρισης
Ασφάλεια Προσφέρει μικρότερο έλεγχο. Επιτρέπει τον καλύτερο έλεγχο των δεδομένων.
Αντικατάσταση EDW Η λίμνη δεδομένων μπορεί να είναι πηγή για το EDW Συμπληρωματικό του EDW (όχι αντικατάσταση)
Schema Σχήμα κατά την ανάγνωση (χωρίς προκαθορισμένα σχήματα) Σχήμα κατά την εγγραφή (προκαθορισμένα σχήματα)
Επεξεργασία δεδομένων Βοηθά στη γρήγορη απορρόφηση νέων δεδομένων. Χρονοβόρα η εισαγωγή νέου περιεχομένου.
Κοκκοποίηση δεδομένων Δεδομένα σε χαμηλό επίπεδο λεπτομέρειας ή ευαισθησίας. Δεδομένα σε συνοπτικό ή συγκεντρωτικό επίπεδο λεπτομέρειας.
Εργαλεία Μπορεί να χρησιμοποιεί ανοιχτού κώδικα/εργαλεία όπως το Hadoop/Μείωση χάρτη Εμπορικά εργαλεία κυρίως.

Οφέλη και κίνδυνοι από τη χρήση της Data Lake

Ακολουθούν ορισμένα σημαντικά οφέλη από τη χρήση μιας λίμνης δεδομένων:

  • Βοηθά πλήρως με τον ιονισμό προϊόντων και την προηγμένη ανάλυση
  • Προσφέρει οικονομικά αποδοτική επεκτασιμότητα και ευελιξία
  • Προσφέρει αξία από απεριόριστους τύπους δεδομένων
  • Μειώνει το μακροπρόθεσμο κόστος ιδιοκτησίας
  • Επιτρέπει την οικονομική αποθήκευση αρχείων
  • Γρήγορα προσαρμόσιμο στις αλλαγές
  • Το κύριο πλεονέκτημα της λίμνης δεδομένων είναι το συγκέντρωση διαφορετικών πηγών περιεχομένου
  • Χρήστες, από διάφορα τμήματα, μπορεί να είναι διασκορπισμένοι σε όλο τον κόσμο ευέλικτη πρόσβαση στα δεδομένα

Κίνδυνος χρήσης Data Lake:

  • Μετά από κάποιο χρονικό διάστημα, το Data Lake μπορεί να χάσει τη συνάφεια και την ορμή
  • Υπάρχει μεγαλύτερος κίνδυνος κατά τον σχεδιασμό της Data Lake
  • Τα μη δομημένα δεδομένα μπορεί να οδηγήσουν σε ακυβέρνητο χάος, αχρησιμοποίητα δεδομένα, ανόμοια και σύνθετα εργαλεία, συνεργασία σε επίπεδο επιχείρησης, ενοποιημένα, συνεπή και κοινά
  • Αυξάνει επίσης την αποθήκευση και υπολογίζει το κόστος
  • Δεν υπάρχει τρόπος να λάβετε πληροφορίες από άλλους που έχουν εργαστεί με τα δεδομένα, επειδή δεν υπάρχει αναφορά της γενεαλογίας των ευρημάτων από προηγούμενους αναλυτές
  • Ο μεγαλύτερος κίνδυνος των λιμνών δεδομένων είναι η ασφάλεια και ο έλεγχος πρόσβασης. Μερικές φορές τα δεδομένα μπορούν να τοποθετηθούν σε μια λίμνη χωρίς καμία επίβλεψη, καθώς ορισμένα από τα δεδομένα μπορεί να έχουν προστασία της ιδιωτικής ζωής και ρυθμιστική ανάγκη

Σύνοψη

  • Η Λίμνη Δεδομένων είναι μια αποθήκη αποθήκευσης που μπορεί να αποθηκεύσει μεγάλη ποσότητα δομημένων, ημιδομημένων και μη δομημένων δεδομένων.
  • Ο κύριος στόχος της οικοδόμησης μιας λίμνης δεδομένων είναι να προσφέρει μια μη βελτιωμένη άποψη των δεδομένων στους επιστήμονες δεδομένων.
  • Το επίπεδο ενοποιημένων λειτουργιών, το επίπεδο επεξεργασίας, το επίπεδο απόσταξης και το HDFS είναι σημαντικά στρώματα του Data Lake Archiδομή
  • Η απορρόφηση δεδομένων, η αποθήκευση δεδομένων, η ποιότητα δεδομένων, ο έλεγχος δεδομένων, η εξερεύνηση δεδομένων, η ανακάλυψη δεδομένων είναι μερικά σημαντικά στοιχεία του Data Lake Archiδομή
  • Ο σχεδιασμός του Data Lake θα πρέπει να βασίζεται σε αυτό που είναι διαθέσιμο αντί για αυτό που απαιτείται.
  • Το Data Lake μειώνει το μακροπρόθεσμο κόστος ιδιοκτησίας και επιτρέπει την οικονομική αποθήκευση αρχείων
  • Ο μεγαλύτερος κίνδυνος των λιμνών δεδομένων είναι η ασφάλεια και ο έλεγχος πρόσβασης. Μερικές φορές τα δεδομένα μπορούν να τοποθετηθούν σε μια λίμνη χωρίς καμία επίβλεψη, καθώς ορισμένα από τα δεδομένα μπορεί να έχουν ανάγκη ιδιωτικού απορρήτου και κανονιστικές ρυθμίσεις.