Какво е Data Lake? това е Archiтекстура: Урок за Data Lake

Какво е езерото на данните?

Data Lake е хранилище за съхранение, което може да съхранява голямо количество структурирани, полуструктурирани и неструктурирани данни. Това е място за съхраняване на всеки тип данни в неговия естествен формат без фиксирани ограничения за размера на акаунта или файла. Той предлага голямо количество данни за увеличаване на аналитичната производителност и естествената интеграция.

Data Lake е като голям контейнер, който е много подобен на истинско езеро и реки. Точно както в едно езеро имате множество притоци, които влизат, езерото с данни има структурирани данни, неструктурирани данни, машина към машина, дневници, преминаващи в реално време.

Езерото на данните
Езерото на данните

Data Lake демократизира данните и е рентабилен начин за съхраняване на всички данни на организация за последваща обработка. Анализаторът може да се фокусира върху намирането на смислови модели в данните, а не върху самите данни.

За разлика от йерарх Склад за данни където данните се съхраняват във файлове и папки, Data lake има плоска архитектура. Всеки елемент от данни в Data Lake получава уникален идентификатор и е маркиран с набор от информация за метаданни.

Защо Data Lake?

Основната цел на изграждането на езеро от данни е да предложи непречистен изглед на данните на учените по данни.

Причините за използването на Data Lake са:

  • С появата на двигатели за съхранение като Hadoop съхраняването на различна информация стана лесно. Няма нужда да се моделират данни в схема за цялото предприятие с Data Lake.
  • С увеличаването на обема на данните, качеството на данните и метаданните, качеството на анализите също се повишава.
  • Data Lake предлага бизнес гъвкавост
  • Machine Learning и изкуственият интелект може да се използва за правене на печеливши прогнози.
  • Предлага конкурентно предимство на организацията-изпълнител.
  • Няма силна структура на данни. Data Lake дава 360-градусов изглед на клиентите и прави анализа по-стабилен.

Езерото на данните Archiтекстура

Езерото на данните Archiтекстура
Езерото на данните Archiтекстура

Фигурата показва архитектурата на Business Data Lake. Долните нива представляват данни, които са предимно в покой, докато горните нива показват транзакционни данни в реално време. Тези данни протичат през системата без или с малко забавяне. Следват важни нива в Data Lake Archiтекстура:

  1. Ниво на поглъщане: Нивата от лявата страна изобразяват източниците на данни. Данните могат да се зареждат в езерото от данни на партиди или в реално време
  2. Ниво на прозрения: Нивата вдясно представляват изследователската страна, където се използват прозрения от системата. SQL, NoSQL заявки или дори excel могат да се използват за анализ на данни.
  3. HDFS е рентабилно решение както за структурирани, така и за неструктурирани данни. Това е зона за кацане за всички данни, които са в покой в ​​системата.
  4. Дестилационен слой взема данни от гумата за съхранение и ги преобразува в структурирани данни за по-лесен анализ.
  5. Ниво на обработка изпълнявайте аналитични алгоритми и потребителски заявки с вариращи в реално време, интерактивни, групови за генериране на структурирани данни за по-лесен анализ.
  6. Ниво на унифицирани операции управлява управлението и мониторинга на системата. Включва одит и управление на уменията, управление на данни, управление на работния процес .

Key Data Lake Concepts

Следват ключови концепции за Data Lake, които човек трябва да разбере, за да разбере напълно Data Lake Archiтекстура

ключ Concepts на Data Lake
ключ Concepts на Data Lake

Поглъщане на данни

Поемането на данни позволява на конекторите да получават данни от различни източници на данни и да ги зареждат в езерото с данни.

Приемането на данни поддържа:

  • Всички видове структурирани, полуструктурирани и неструктурирани данни.
  • Множество поглъщания като пакетно, в реално време, еднократно зареждане.
  • Много видове източници на данни като бази данни, уеб сървъри, имейли, ИНи FTP.

За съхранение на данни

Съхранението на данни трябва да бъде мащабируемо, да предлага рентабилно съхранение и да позволява бърз достъп до изследване на данни. Трябва да поддържа различни формати на данни.

Управление на данните

Управлението на данните е процес на управление на наличността, използваемостта, сигурността и целостта на данните, използвани в организацията.

Охрана

Сигурността трябва да бъде внедрена във всеки слой на езерото с данни. Започва със съхранение, разкриване и потребление. Основната необходимост е да се спре достъпът за неоторизирани потребители. Трябва да поддържа различни инструменти за достъп до данни с лесен за навигиране GUI и табла за управление.

Удостоверяване, отчитане, оторизация и защита на данните са някои важни характеристики на сигурността на езерото от данни.

Качество на данните

Качеството на данните е основен компонент на архитектурата на Data Lake. Данните се използват за точна бизнес стойност. Извличането на прозрения от данни с лошо качество ще доведе до прозрения с лошо качество.

Откриване на данни

Откриването на данни е друг важен етап, преди да започнете да подготвяте данни или анализ. На този етап се използва техника за маркиране, за да се изрази разбирането на данните чрез организиране и интерпретиране на данните, погълнати в езерото с данни.

Одитиране на данни

Две основни задачи за одит на данни са проследяване на промените в ключовия набор от данни.

  1. Проследяване на промените във важни елементи от набора от данни
  2. Улавя как/кога/ и кой променя тези елементи.

Одитът на данни помага за оценка на риска и съответствието.

Data Lineage

Този компонент се занимава с произхода на данните. Основно се занимава с това къде се движи във времето и какво се случва с него. Той улеснява корекциите на грешки в процеса на анализ на данни от източника до местоназначението.

Изследване на данни

Това е началният етап на анализ на данните. Помага да се идентифицира правилният набор от данни, който е от жизненоважно значение, преди да започнете изследване на данни.

Всички дадени компоненти трябва да работят заедно, за да играят важна роля в изграждането на Data lake, лесно да се развиват и изследват околната среда.

Етапи на зрялост на Data Lake

Дефиницията на етапите на зрялост на Data Lake се различава в различните учебници. Въпреки че същността остава същата. След зрелостта дефинирането на етапа е от гледна точка на неспециалист.

Етапи на зрялост на Data Lake
Етапи на зрялост на Data Lake

Етап 1: Манипулирайте и поглъщайте данни в мащаб

Този първи етап на зрялост на данните включва подобряване на способността за трансформиране и анализиране на данни. Тук собствениците на бизнес трябва да намерят инструментите според техния набор от умения за получаване на повече данни и изграждане на аналитични приложения.

Етап 2: Изграждане на аналитичен мускул

Това е втори етап, който включва подобряване на способността за трансформиране и анализиране на данни. На този етап компаниите използват инструмента, който е най-подходящ за техния набор от умения. Те започват да събират повече данни и да създават приложения. Тук възможностите на корпоративното хранилище за данни и езерото от данни се използват заедно.

Етап 3: EDW и Data Lake работят в унисон

Тази стъпка включва получаване на данни и анализи в ръцете на възможно най-много хора. На този етап езерото от данни и корпоративното хранилище на данни започват да работят в съюз. И двете играят своята роля в анализа

Етап 4: Възможности на предприятието в езерото

В този етап на зрялост на езерото с данни към езерото с данни се добавят корпоративни възможности. Приемане на управление на информацията, възможности за управление на жизнения цикъл на информацията и управление на метаданни. Много малко организации обаче могат да достигнат това ниво на зрялост, но този брой ще се увеличи в бъдеще.

Най-добри практики за внедряване на Data Lake

  • Archiструктурните компоненти, тяхното взаимодействие и идентифицираните продукти трябва да поддържат родни типове данни
  • Дизайнът на Data Lake трябва да се ръководи от това, което е налично, вместо от това, което се изисква. Изискването за схема и данни не е дефинирано, докато не бъде извършено запитване
  • Дизайнът трябва да се ръководи от компоненти за еднократна употреба, интегрирани с API на услугата.
  • Откриването на данни, приемането, съхранението, администрирането, качеството, трансформацията и визуализацията трябва да се управляват независимо.
  • Архитектурата на Data Lake трябва да бъде съобразена с конкретна индустрия. Той трябва да гарантира, че възможностите, необходими за този домейн, са неразделна част от дизайна
  • По-бързото включване на новооткрити източници на данни е важно
  • Data Lake помага на персонализираното управление за извличане на максимална стойност
  • Data Lake трябва да поддържа съществуващи техники и методи за управление на корпоративни данни

Предизвикателства при изграждането на езеро от данни:

  • В Data Lake обемът на данните е по-голям, така че процесът трябва да зависи повече от програмното администриране
  • Трудно е да се работи с оскъдни, непълни, непостоянни данни
  • По-широкият обхват от набор от данни и източник изисква по-голямо управление и поддръжка на данни

Разлика между Data lakes и Data warehouse

параметри Езера от данни Склад за данни
Дата Езерата от данни съхраняват всичко. Data Warehouse се фокусира само върху бизнес процесите.
Обработване Данните са предимно необработени Силно обработени данни.
Тип данни Тя може да бъде неструктурирана, полуструктурирана и структурирана. Той е предимно в таблична форма и структура.
Task Споделете управление на данните Оптимизиран за извличане на данни
Ловкост Много гъвкав, конфигурирайте и преконфигурирайте според нуждите. В сравнение с Data lake то е по-малко гъвкаво и има фиксирана конфигурация.
Потребители Data Lake се използва най-вече от Data Scientist Бизнес професионалистите широко използват Data Warehouse
Съхранение Проектиране на езера от данни за евтино съхранение. Използват се скъпи хранилища, които осигуряват бързо време за реакция
Охрана Предлага по-малък контрол. Позволява по-добър контрол на данните.
Подмяна на EDW Езерото от данни може да бъде източник за EDW Допълнение към EDW (не заместване)
схема Схема при четене (няма предварително дефинирани схеми) Схема при запис (предварително дефинирани схеми)
Обработка на данни Помага за бързо поглъщане на нови данни. Отнема много време за въвеждане на ново съдържание.
Детайлност на данните Данни с ниско ниво на детайлност или детайлност. Данни на обобщено или обобщено ниво на детайлност.
Инструменти Може да използва отворен код/инструменти като Hadoop/ Map Reduce Предимно търговски инструменти.

Ползи и рискове от използването на Data Lake

Ето някои основни предимства при използването на Data Lake:

  • Помага напълно при йонизирането на продукта и усъвършенстваните анализи
  • Предлага рентабилна мащабируемост и гъвкавост
  • Предлага стойност от неограничени типове данни
  • Намалява дългосрочните разходи за притежание
  • Позволява икономично съхранение на файлове
  • Бързо адаптивен към промените
  • Основното предимство на езерото с данни е централизация от различни източници на съдържание
  • Потребителите, от различни отдели, могат да бъдат разпръснати по целия свят гъвкав достъп към данните

Риск от използването на Data Lake:

  • След известно време Data Lake може да загуби уместност и инерция
  • Съществува по-голям риск при проектирането на Data Lake
  • Неструктурираните данни могат да доведат до неуправляван хао, неизползваеми данни, различни и сложни инструменти, сътрудничество в цялото предприятие, унифицирани, последователни и общи
  • Той също така увеличава разходите за съхранение и изчисления
  • Няма начин да получите представа от други, които са работили с данните, защото няма отчет за потеклото на откритията на предишни анализатори
  • Най-големият риск от езера от данни е сигурността и контролът на достъпа. Понякога данните могат да бъдат поставени в езеро без никакъв надзор, тъй като някои от данните може да имат поверителност и регулаторни нужди

Oбобщение

  • Data Lake е хранилище за съхранение, което може да съхранява голямо количество структурирани, полуструктурирани и неструктурирани данни.
  • Основната цел на изграждането на езеро от данни е да предложи непречистен изглед на данните на учените по данни.
  • Унифицирано ниво на операции, ниво на обработка, ниво на дестилация и HDFS са важни слоеве на Data Lake Archiтекстура
  • Поглъщане на данни, съхранение на данни, качество на данните, одит на данни, изследване на данни, откриване на данни са някои важни компоненти на Data Lake Archiтекстура
  • Дизайнът на Data Lake трябва да се ръководи от това, което е налично, вместо от това, което се изисква.
  • Data Lake намалява дългосрочните разходи за притежание и позволява икономично съхранение на файлове
  • Най-големият риск от езера от данни е сигурността и контролът на достъпа. Понякога данните могат да бъдат поставени в езеро без никакъв надзор, тъй като някои от данните може да имат поверителност и регулаторна необходимост.