데이터 레이크란 무엇입니까? 그것은 Archi강의: 데이터 레이크 튜토리얼

데이터 레이크란?

데이터 레이크는 대용량의 정형, 반정형, 비정형 데이터를 저장할 수 있는 스토리지 저장소입니다. 계정 크기나 파일에 대한 고정된 제한 없이 모든 유형의 데이터를 기본 형식으로 저장할 수 있는 장소입니다. 분석 성능과 기본 통합을 높이기 위해 많은 양의 데이터를 제공합니다.

데이터 레이크는 실제 호수나 강과 매우 유사한 대형 컨테이너와 같습니다. 호수에 여러 지류가 들어오는 것과 마찬가지로 데이터 레이크에는 구조화된 데이터, 구조화되지 않은 데이터, 기계 대 기계, 로그 플로가 있습니다.wing 실시간으로 통해.

데이터 레이크
데이터 레이크

데이터 레이크는 데이터를 민주화하고 조직의 모든 데이터를 저장하는 비용 효율적인 방법입니다. later 처리. 연구 분석가는 데이터 자체가 아닌 데이터에서 의미 패턴을 찾는 데 집중할 수 있습니다.

계층 구조와 달리 데이터웨어 하우스 데이터가 파일 및 폴더에 저장되는 곳인 Data Lake에는 평면이 있습니다. archi강의. Data Lake의 모든 데이터 요소에는 고유한 식별자가 부여되고 일련의 메타데이터 정보로 태그가 지정됩니다.

왜 데이터 레이크인가?

데이터 레이크를 구축하는 주요 목적은 데이터 과학자에게 정제되지 않은 데이터 뷰를 제공하는 것입니다.

Data Lake를 사용하는 이유는 다음과 같습니다.

  • 다음과 같은 스토리지 엔진이 등장하면서 하둡 서로 다른 정보를 저장하는 것이 쉬워졌습니다. Data Lake를 사용하면 데이터를 전사적 스키마로 모델링할 필요가 없습니다.
  • 데이터 볼륨, 데이터 품질, 메타데이터가 증가함에 따라 분석 품질도 향상됩니다.
  • 데이터 레이크는 비즈니스 민첩성을 제공합니다.
  • 기계 학습 인공 지능을 사용하여 수익성 있는 예측을 할 수 있습니다.
  • 이는 구현 조직에 경쟁 우위를 제공합니다.
  • 데이터 사일로 구조가 없습니다. Data Lake는 고객에 대한 360도 뷰를 제공하고 분석을 더욱 강력하게 만듭니다.

데이터 레이크 Archi강의

데이터 레이크 Archi강의
데이터 레이크 Archi강의

그림은 다음을 보여줍니다. archi비즈니스 데이터 레이크 강의. 하위 수준은 대부분 저장되지 않은 데이터를 나타내고 상위 수준은 실시간 트랜잭션 데이터를 표시합니다. 이 데이터는 대기 시간이 없거나 거의 없이 시스템을 통해 흐릅니다. 폴로wing Data Lake의 중요한 계층입니다. Archi강의:

  1. 수집 계층: 왼쪽의 계층은 데이터 소스를 나타냅니다. 데이터는 일괄적으로 또는 실시간으로 데이터 레이크에 로드될 수 있습니다.
  2. 통찰력 계층: 오른쪽의 계층은 시스템의 통찰력이 사용되는 연구 측면을 나타냅니다. SQL, NoSQL 쿼리 또는 심지어 Excel을 데이터 분석에 사용할 수 있습니다.
  3. HDFS 구조화된 데이터와 구조화되지 않은 데이터 모두를 위한 비용 효율적인 솔루션입니다. 이는 시스템에 저장된 모든 데이터의 랜딩 존입니다.
  4. 증류층 더 쉬운 분석을 위해 스토리지 타이어에서 데이터를 가져와 구조화된 데이터로 변환합니다.
  5. 처리 계층 보다 쉬운 분석을 위해 구조화된 데이터를 생성하기 위해 다양한 실시간, 대화형, 배치로 분석 알고리즘과 사용자 쿼리를 실행합니다.
  6. 통합 운영 계층 시스템 관리 및 모니터링을 관리합니다. 여기에는 감사 및 숙련도 관리, 데이터 관리, 워크 플로우 관리.

주요 데이터 레이크 개념

FOLLOwing Data Lake를 완전히 이해하기 위해 이해해야 하는 Key Data Lake 개념입니다. Archi강의

데이터 레이크의 주요 개념
데이터 레이크의 주요 개념

데이터 수집

데이터 수집을 통해 커넥터는 다양한 데이터 소스에서 데이터를 가져와 데이터 레이크에 로드할 수 있습니다.

데이터 수집은 다음을 지원합니다.

  • 모든 유형의 구조화, 반구조화, 비구조화 데이터.
  • 일괄 처리, 실시간, 일회성 로드와 같은 다중 수집.
  • 데이터베이스, 웹 서버, E와 같은 다양한 유형의 데이터 소스mails, 만약 IoT, 그리고 FTP.

데이터 저장매체

데이터 스토리지는 확장 가능해야 하며 비용 효율적인 스토리지를 제공하고 데이터 탐색에 대한 빠른 액세스를 허용해야 합니다. 다양한 데이터 형식을 지원해야 합니다.

데이터 거버넌스

데이터 거버넌스는 조직에서 사용되는 데이터의 가용성, 유용성, 보안 및 무결성을 관리하는 프로세스입니다.

보안

데이터 레이크의 모든 계층에서 보안을 구현해야 합니다. 저장, 발굴, 소비로 시작됩니다. 기본적인 요구 사항은 승인되지 않은 사용자의 액세스를 차단하는 것입니다. 탐색하기 쉬운 GUI 및 대시보드를 통해 데이터에 액세스할 수 있는 다양한 도구를 지원해야 합니다.

인증, 회계, 권한 부여 및 데이터 보호는 데이터 레이크 보안의 몇 가지 중요한 기능입니다.

데이터 품질

데이터 품질은 Data Lake의 필수 구성 요소입니다. archi강의. 데이터는 정확한 비즈니스 가치를 위해 사용됩니다. 품질이 낮은 데이터에서 통찰력을 추출하면 품질이 낮은 통찰력으로 이어질 것입니다.

데이터 검색

데이터 발견은 데이터 준비 또는 분석을 시작하기 전의 또 다른 중요한 단계입니다. 이 단계에서는 데이터 레이크에 수집된 데이터를 정리하고 해석하여 데이터 이해도를 표현하는 태깅 기법을 사용합니다.

데이터 감사

두 가지 주요 데이터 감사 작업은 주요 데이터 세트의 변경 사항을 추적하는 것입니다.

  1. 중요한 데이터 세트 요소의 변경 사항 추적
  2. 이러한 요소를 어떻게/언제/누가 변경하는지 캡처합니다.

데이터 감사는 위험과 규정 준수를 평가하는 데 도움이 됩니다.

데이터 계보

이 구성 요소는 데이터의 출처를 다룹니다. 주로 시간이 지남에 따라 어디로 이동하고 무슨 일이 일어나는지 다룹니다. 원본에서 대상까지의 데이터 분석 프로세스에서 오류 수정이 쉬워집니다.

데이터 탐색

데이터 분석의 시작 단계이다. 데이터 탐색을 시작하기 전에 올바른 데이터 세트를 식별하는 것이 중요합니다.

데이터 레이크 구축에서 중요한 역할을 하려면 주어진 모든 구성 요소가 함께 작동하여 환경을 쉽게 발전시키고 탐색해야 합니다.

데이터 레이크의 성숙 단계

데이터 레이크 성숙도 단계의 정의는 교과서마다 다릅니다. 핵심은 동일하게 유지되지만. 폴로wing 성숙도, 단계 정의는 일반인의 관점에서 이루어집니다.

데이터 레이크의 성숙 단계
데이터 레이크의 성숙 단계

1단계: 대규모 데이터 처리 및 수집

데이터 성숙도의 첫 번째 단계에는 데이터를 변환하고 분석하는 능력을 향상시키는 것이 포함됩니다. 여기서 비즈니스 소유자는 더 많은 데이터를 얻고 분석 애플리케이션을 구축하기 위해 자신의 기술에 따라 도구를 찾아야 합니다.

2단계: 분석 근육 구축

이는 데이터를 변환하고 분석하는 능력을 향상시키는 두 번째 단계입니다. 이 단계에서 기업은 자신의 기술에 가장 적합한 도구를 사용합니다. 그들은 더 많은 데이터를 수집하고 애플리케이션을 구축하기 시작합니다. 여기서는 엔터프라이즈 데이터 웨어하우스와 데이터 레이크의 기능이 함께 사용됩니다.

3단계: EDW와 Data Lake가 함께 작동합니다.

이 단계에는 가능한 한 많은 사람들의 손에 데이터와 분석을 제공하는 작업이 포함됩니다. 이 단계에서는 데이터 레이크와 엔터프라이즈 데이터 웨어하우스가 통합되어 작동하기 시작합니다. 둘 다 분석에서 각자의 역할을 수행합니다.

4단계: 호수의 엔터프라이즈 역량

데이터 레이크의 성숙 단계에서는 엔터프라이즈 기능이 데이터 레이크에 추가됩니다. 정보 거버넌스, 정보 수명주기 관리 기능 및 메타데이터 관리 채택. 그러나 이 수준의 성숙도에 도달할 수 있는 조직은 거의 없지만, 이 수치는 앞으로 더욱 늘어날 것입니다.

데이터 레이크 구현 모범 사례

  • Archi구조적 구성 요소, 상호 작용 및 식별된 제품은 기본 데이터 유형을 지원해야 합니다.
  • 데이터 레이크의 설계는 필요한 것보다는 사용 가능한 것에 따라 이루어져야 합니다. 스키마 및 데이터 요구 사항은 쿼리될 때까지 정의되지 않습니다.
  • 디자인은 서비스 API와 통합된 일회용 구성 요소를 기준으로 해야 합니다.
  • 데이터 검색, 수집, 저장, 관리, 품질, 변환 및 시각화는 독립적으로 관리되어야 합니다.
  • 데이터 레이크 archi강의는 특정 산업에 맞게 조정되어야 합니다. 해당 도메인에 필요한 기능이 설계의 고유한 부분인지 확인해야 합니다.
  • 새로 검색된 데이터 소스를 더 빠르게 온보딩하는 것이 중요합니다.
  • Data Lake는 맞춤형 관리를 통해 최대 가치를 추출할 수 있도록 지원합니다.
  • 데이터 레이크는 기존 기업 데이터 관리 기술 및 방법을 지원해야 합니다.

데이터 레이크 구축의 과제:

  • Data Lake에서는 데이터 볼륨이 높기 때문에 프로세스가 프로그래밍 방식 관리에 더 의존해야 합니다.
  • 희박하고 불완전하며 휘발성이 있는 데이터를 처리하기가 어렵습니다.
  • 데이터 세트와 소스의 범위가 넓어지면 더 큰 데이터 거버넌스 및 지원이 필요합니다.

데이터 레이크와 데이터 웨어하우스의 차이점

파라미터 데이터 레이크 데이터웨어 하우스
Data 데이터 레이크는 모든 것을 저장합니다. 데이터 웨어하우스는 비즈니스 프로세스에만 중점을 둡니다.
처리 데이터는 주로 처리되지 않습니다. 고도로 처리된 데이터.
데이터 유형 비구조화, 반구조화, 구조화될 수 있습니다. 대부분 표 형식 및 구조로 되어 있습니다.
태스크 데이터 관리 공유 데이터 검색에 최적화됨
민첩 민첩성이 뛰어나며 필요에 따라 구성하고 재구성합니다. 데이터 레이크에 비해 민첩성이 떨어지며 구성이 고정되어 있습니다.
사용자 데이터 레이크는 주로 데이터 과학자가 사용합니다. 비즈니스 전문가들은 데이터 웨어하우스를 널리 사용합니다.
스토리지 저비용 스토리지를 위한 데이터 레이크 설계. 빠른 응답 시간을 제공하는 고가의 스토리지가 사용됩니다.
보안 더 적은 제어 기능을 제공합니다. 데이터를 더 효과적으로 제어할 수 있습니다.
EDW 교체 데이터 레이크는 EDW의 소스가 될 수 있습니다. EDW 보완(교체 아님)
개요 읽기 시 스키마(미리 정의된 스키마 없음) 쓰기 시 스키마(사전 정의된 스키마)
데이터 처리 새로운 데이터를 빠르게 수집하는 데 도움이 됩니다. 새로운 콘텐츠를 소개하는 데 시간이 많이 걸립니다.
데이터 세분성 낮은 수준의 세부정보 또는 세분화된 데이터입니다. 요약 또는 집계된 세부정보 수준의 데이터입니다.
도구 Hadoop/Map Reduce와 같은 오픈 소스/도구를 사용할 수 있습니다. 주로 상업용 도구입니다.

Data Lake 사용의 이점과 위험

Data Lake를 사용하면 다음과 같은 몇 가지 주요 이점을 얻을 수 있습니다.

  • 제품 이온화 및 고급 분석을 완벽하게 지원합니다.
  • 비용 효율적인 확장성과 유연성 제공
  • 무제한 데이터 유형의 가치 제공
  • 장기적인 소유 비용 절감
  • 경제적으로 파일을 저장할 수 있습니다.
  • 변화에 빠르게 적응 가능
  • 데이터 레이크의 가장 큰 장점은 집중 다양한 콘텐츠 소스의
  • 다양한 부서의 사용자가 전 세계에 흩어져 있을 수 있습니다. 유연한 액세스 데이터에

데이터 레이크 사용의 위험:

  • 시간이 지나면 Data Lake는 관련성과 추진력을 잃을 수 있습니다.
  • Data Lake를 설계하는 동안 더 많은 위험이 수반됩니다.
  • 구조화되지 않은 데이터는 통제되지 않은 혼돈, 사용할 수 없는 데이터, 이종 및 통신으로 이어질 수 있습니다.plex 도구, 전사적 협업, 통합, 일관성 및 공통
  • 또한 스토리지 및 비용 계산이 늘어납니다.
  • 이전 분석가가 발견한 결과의 계보에 대한 설명이 없기 때문에 데이터를 사용하여 작업한 다른 사람으로부터 통찰력을 얻을 수 있는 방법이 없습니다.
  • 데이터 레이크의 가장 큰 위험은 보안과 액세스 제어입니다. 일부 데이터에는 개인 정보 보호 및 규제가 필요할 수 있으므로 데이터가 감독 없이 호수에 배치될 수 있습니다.

요약

  • 데이터 레이크는 대용량의 정형, 반정형, 비정형 데이터를 저장할 수 있는 스토리지 저장소입니다.
  • 데이터 레이크를 구축하는 주요 목적은 데이터 과학자에게 정제되지 않은 데이터 뷰를 제공하는 것입니다.
  • 통합 운영 계층, 처리 계층, 증류 계층 및 HDFS는 Data Lake의 중요한 계층입니다. Archi강의
  • 데이터 수집, 데이터 저장, 데이터 품질, 데이터 감사, 데이터 탐색, 데이터 검색은 Data Lake의 중요한 구성 요소입니다. Archi강의
  • 데이터 레이크의 설계는 필요한 것보다는 사용 가능한 것에 따라 이루어져야 합니다.
  • Data Lake는 장기적인 소유 비용을 줄이고 파일을 경제적으로 저장할 수 있습니다.
  • 데이터 레이크의 가장 큰 위험은 보안과 액세스 제어입니다. 일부 데이터에는 개인 정보 보호 및 규제가 필요할 수 있으므로 데이터가 감독 없이 호수에 배치될 수 있습니다.