Что такое озеро данных? Его Architecture: Учебное пособие по озеру данных
Что такое озеро данных?
Озеро данных — это хранилище данных, в котором можно хранить большие объемы структурированных, полуструктурированных и неструктурированных данных. Это место для хранения всех типов данных в их собственном формате без фиксированных ограничений на размер учетной записи или файла. Он предлагает большой объем данных для повышения аналитической производительности и встроенной интеграции.
Озеро данных похоже на большой контейнер, очень похожий на настоящие озеро и реки. Точно так же, как в озеро поступает несколько притоков, в озере данных есть структурированные и неструктурированные данные, передаваемые от машины к машине, журналы передаются в режиме реального времени.
Озеро данных демократизирует данные и представляет собой экономичный способ хранения всех данных организации для последующей обработки. Аналитик-исследователь может сосредоточиться на поиске смысловых закономерностей в данных, а не на самих данных.
В отличие от иерархического Хранилище данных где данные хранятся в файлах и папках, озеро данных имеет плоскую архитектуру. Каждому элементу данных в озере данных присваивается уникальный идентификатор и помечается набором метаданных.
Почему озеро данных?
Основная цель создания озера данных — предоставить специалистам по данным неуточненное представление о данных.
Причины использования Data Lake:
- С появлением таких механизмов хранения данных, как Hadoop хранить разрозненную информацию стало проще. Нет необходимости моделировать данные в общекорпоративной схеме с помощью Data Lake.
- С увеличением объема данных, качества данных и метаданных также повышается качество анализа.
- Data Lake обеспечивает гибкость бизнеса
- Машинное обучение а искусственный интеллект можно использовать для составления прибыльных прогнозов.
- Это дает конкурентное преимущество реализующей организации.
- Нет структуры хранилища данных. Data Lake дает 360-градусное представление о клиентах и делает анализ более надежным.
Озеро данных Archiтекстура
На рисунке показана архитектура Business Data Lake. Нижние уровни представляют данные, которые в основном находятся в состоянии покоя, а верхние уровни показывают транзакционные данные в реальном времени. Эти данные проходят через систему без или с небольшой задержкой. Ниже приведены важные уровни в Data Lake Archiтекстура:
- Уровень приема: уровни слева отображают источники данных. Данные можно загружать в озеро данных пакетами или в режиме реального времени.
- Уровень статистики: Уровни справа представляют исследовательскую сторону, где используются идеи системы. SQL, запросы NoSQL или даже Excel можно использовать для анализа данных.
- HDFS это экономичное решение как для структурированных, так и для неструктурированных данных. Это зона приземления для всех данных, находящихся в системе.
- Дистилляционный уровень берет данные из хранилища и преобразует их в структурированные данные для облегчения анализа.
- Уровень обработки запускайте аналитические алгоритмы и запросы пользователей в различных режимах реального времени, в интерактивном режиме, в пакетном режиме, чтобы генерировать структурированные данные для упрощения анализа.
- Уровень унифицированных операций управляет системой управления и мониторинга. Он включает в себя аудит и управление квалификацией, управление данными, управление рабочим процессом.
Озеро ключевых данных Concepts
Ниже приведены ключевые концепции Data Lake, которые необходимо понимать, чтобы полностью понять Data Lake. Archiтекстура
Попадание данных
Прием данных позволяет коннекторам получать данные из разных источников данных и загружать их в озеро данных.
Прием данных поддерживает:
- Все типы структурированных, полуструктурированных и неструктурированных данных.
- Множественные загрузки, такие как пакетная загрузка, в реальном времени, однократная загрузка.
- Многие типы источников данных, такие как базы данных, веб-серверы, электронная почта, IoTи FTP.
Хранение данных
Хранилище данных должно быть масштабируемым, предлагать экономичное хранение и обеспечивать быстрый доступ к исследованию данных. Он должен поддерживать различные форматы данных.
Управление данными
Управление данными — это процесс управления доступностью, удобством использования, безопасностью и целостностью данных, используемых в организации.
Безопасность.
Безопасность должна быть реализована на каждом уровне озера данных. Все начинается с хранения, раскопок и потребления. Основная потребность — прекратить доступ неавторизованных пользователей. Он должен поддерживать различные инструменты для доступа к данным с простым в навигации графическим интерфейсом и информационными панелями.
Аутентификация, учет, авторизация и защита данных — это некоторые важные функции безопасности озера данных.
Качество данных
Качество данных является важным компонентом архитектуры Data Lake. Данные используются для определения ценности бизнеса. Извлечение информации из данных низкого качества приведет к получению информации низкого качества.
Обнаружение данных
Обнаружение данных — еще один важный этап, прежде чем вы сможете приступить к подготовке данных или анализу. На этом этапе для выражения понимания данных используется техника тегирования путем организации и интерпретации данных, поступающих в озеро данных.
Аудит данных
Две основные задачи аудита данных — отслеживание изменений в ключевом наборе данных.
- Отслеживание изменений важных элементов набора данных
- Фиксирует, как/когда/и кто меняет эти элементы.
Аудит данных помогает оценить риски и соответствие требованиям.
Происхождение данных
Этот компонент занимается происхождением данных. В основном речь идет о том, куда он движется с течением времени и что с ним происходит. Это упрощает исправление ошибок в процессе анализа данных от источника до места назначения.
Data Exploration
Это начальный этап анализа данных. Это помогает определить правильный набор данных, который жизненно важен перед началом исследования данных.
Все данные компоненты должны работать вместе, чтобы играть важную роль в построении озера данных, легко развиваться и исследовать окружающую среду.
Этапы зрелости Data Lake
Определение этапов зрелости озера данных различается в разных учебниках. Хотя суть остается той же. После зрелости определение стадии происходит с точки зрения непрофессионала.
Этап 1. Обработка и прием данных в любом масштабе
Этот первый этап зрелости данных включает в себя улучшение способности преобразовывать и анализировать данные. Здесь владельцам бизнеса необходимо найти инструменты в соответствии со своим набором навыков для получения большего количества данных и создания аналитических приложений.
Этап 2. Наращивание аналитической мускулатуры
Это второй этап, который предполагает улучшение способности преобразовывать и анализировать данные. На этом этапе компании используют инструмент, который наиболее соответствует их набору навыков. Они начинают собирать больше данных и создавать приложения. Здесь совместно используются возможности корпоративного хранилища данных и озера данных.
Этап 3. EDW и Data Lake работают в унисон
Этот шаг предполагает передачу данных и аналитики в руки как можно большего числа людей. На этом этапе озеро данных и хранилище данных предприятия начинают работать совместно. Оба играют свою роль в аналитике
Этап 4: Возможности предприятия в озере
На этом этапе зрелости озера данных в озеро данных добавляются корпоративные возможности. Внедрение управления информацией, возможностей управления жизненным циклом информации и управления метаданными. Однако очень немногие организации могут достичь такого уровня зрелости, но в будущем этот показатель будет увеличиваться.
лучшие практики внедрения Data Lake
- Archiструктурные компоненты, их взаимодействие и идентифицированные продукты должны поддерживать собственные типы данных.
- При проектировании озера данных следует исходить из того, что доступно, а не из того, что требуется. Требования к схеме и данным не определены до тех пор, пока они не будут запрошены.
- При проектировании следует руководствоваться одноразовыми компонентами, интегрированными с сервисным API.
- Обнаружение, прием, хранение, администрирование, качество, преобразование и визуализация данных должны управляться независимо.
- Архитектура Data Lake должна быть адаптирована к конкретной отрасли. Он должен гарантировать, что возможности, необходимые для этой области, являются неотъемлемой частью проекта.
- Важно ускорить внедрение вновь обнаруженных источников данных.
- Data Lake помогает индивидуальному управлению получать максимальную выгоду
- Озеро данных должно поддерживать существующие методы и методы управления корпоративными данными.
Проблемы построения озера данных:
- В Data Lake объем данных выше, поэтому процесс должен в большей степени зависеть от программного администрирования.
- Трудно иметь дело с разреженными, неполными и нестабильными данными.
- Более широкий объем набора данных и источников требует более тщательного управления и поддержки данных.
Разница между озерами данных и хранилищем данных
параметры | Озера данных | Хранилище данных |
---|---|---|
Данные | Озера данных хранят все. | Хранилище данных фокусируется только на бизнес-процессах. |
Обработка | Данные в основном необработаны | Высоко обработанные данные. |
Тип данных | Он может быть неструктурированным, полуструктурированным и структурированным. | В основном это табличная форма и структура. |
Сложность задачи | Совместное управление данными | Оптимизирован для поиска данных |
проворство | Высокая гибкость, настройка и перенастройка по мере необходимости. | По сравнению с Data Lake оно менее гибкое и имеет фиксированную конфигурацию. |
Пользователи | Data Lake в основном используется специалистами по анализу данных. | Профессионалы бизнеса широко используют Хранилища данных |
Память | Проектирование озер данных для недорогого хранения. | Используется дорогое хранилище, обеспечивающее быстрое время отклика. |
Безопасность. | Предлагает меньший контроль. | Позволяет лучше контролировать данные. |
Замена ЭДВ | Озеро данных может быть источником для EDW | Дополнение к EDW (не замена) |
Схема | Схема при чтении (без предопределенных схем) | Схема при записи (предопределенные схемы) |
Обработка данных | Помогает быстро усваивать новые данные. | Требует много времени для внедрения нового контента. |
Детализация данных | Данные с низким уровнем детализации или детализации. | Данные на сводном или агрегированном уровне детализации. |
Инструменты | Можно использовать инструменты с открытым исходным кодом, такие как Hadoop/Map сокращения. | В основном коммерческие инструменты. |
Преимущества и риски использования Data Lake
Вот некоторые основные преимущества использования Data Lake:
- Полностью помогает с ионизацией продукта и расширенной аналитикой
- Предлагает экономичную масштабируемость и гибкость
- Предлагает ценность из неограниченного количества типов данных
- Снижает долгосрочную стоимость владения
- Позволяет экономно хранить файлы
- Быстро адаптируется к изменениям
- Основным преимуществом озера данных является централизация различных источников контента
- Пользователи из разных отделов могут быть разбросаны по всему миру. гибкий доступ к данным
Риск использования озера данных:
- Через некоторое время Data Lake может потерять актуальность и динамику.
- При разработке Data Lake существует больший риск.
- Неструктурированные данные могут привести к неуправляемому хаосу, непригодным для использования данным, разрозненным и сложным инструментам, совместной работе в масштабе всего предприятия, унифицированным, согласованным и общим
- Это также увеличивает затраты на хранение и вычисления.
- Невозможно получить информацию от других, которые работали с данными, потому что нет данных о происхождении результатов предыдущих аналитиков.
- Самый большой риск, связанный с озерами данных, — это безопасность и контроль доступа. Иногда данные могут быть помещены в озеро без какого-либо надзора, поскольку некоторые данные могут иметь конфиденциальность и требовать соблюдения нормативных требований.
Резюме
- Озеро данных — это хранилище данных, в котором можно хранить большие объемы структурированных, полуструктурированных и неструктурированных данных.
- Основная цель создания озера данных — предоставить специалистам по данным неуточненное представление о данных.
- Уровень унифицированных операций, уровень обработки, уровень дистилляции и HDFS — важные уровни озера данных. Archiтекстура
- Прием данных, хранение данных, качество данных, аудит данных, исследование данных, обнаружение данных — вот некоторые важные компоненты Data Lake. Archiтекстура
- При проектировании озера данных следует исходить из того, что доступно, а не из того, что требуется.
- Data Lake снижает долгосрочную стоимость владения и обеспечивает экономичное хранение файлов.
- Самый большой риск, связанный с озерами данных, — это безопасность и контроль доступа. Иногда данные могут быть помещены в озеро без какого-либо надзора, поскольку некоторые данные могут требовать конфиденциальности и нормативных требований.