데이터 레이크와 데이터 웨어하우스 – 차이점
데이터 레이크와 데이터 웨어하우스의 주요 차이점
- Data Lake는 소스 및 구조에 관계없이 모든 데이터를 저장하는 반면, Data Warehouse는 해당 속성과 함께 정량적 지표로 데이터를 저장합니다.
- 데이터 레이크(Data Lake)는 대규모 정형, 반정형, 비정형 데이터를 저장하는 스토리지 저장소인 반면, 데이터 웨어하우스(Data Warehouse)는 데이터를 전략적으로 사용할 수 있는 기술과 구성 요소가 혼합된 것입니다.
- Data Lake는 데이터가 저장된 후 스키마를 정의하는 반면, Data Warehouse는 데이터가 저장되기 전에 스키마를 정의합니다.
- Data Lake는 ELT(Extract Load Transform) 프로세스를 사용하고, Data Warehouse는 ETL(Extract Transform Load) 프로세스를 사용합니다.
- 데이터 레이크와 데이터 웨어하우스를 비교하면, 데이터 레이크는 심층 분석을 원하는 사용자에게 이상적이고, 데이터 웨어하우스는 운영 사용자에게 이상적입니다.

데이터 레이크란?
A 데이터 레이크 대용량의 정형, 반정형, 비정형 데이터를 저장할 수 있는 스토리지 저장소입니다. 계정 크기나 파일에 대한 고정된 제한 없이 모든 유형의 데이터를 기본 형식으로 저장할 수 있는 장소입니다. 향상된 분석 성능과 기본 통합을 위해 많은 양의 데이터를 제공합니다.
데이터 레이크 실제 호수와 강과 매우 유사한 대형 컨테이너와 같습니다. 호수와 마찬가지로 여러 지류가 유입됩니다. 마찬가지로 데이터 레이크에는 구조화된 데이터, 구조화되지 않은 데이터, 머신 간 데이터, 실시간으로 흐르는 로그가 있습니다.
데이터 웨어하우스란 무엇입니까?
데이터웨어 하우스 데이터의 전략적 사용을 위한 기술과 구성 요소의 혼합입니다. 다양한 출처에서 데이터를 수집하고 관리하여 의미 있는 비즈니스 통찰력을 제공합니다. 거래 처리 대신 쿼리 및 분석을 위해 설계된 방대한 양의 정보의 전자적 저장입니다. 데이터를 정보로 변환하는 프로세스입니다.
다음으로 데이터 웨어하우스와 데이터 레이크의 주요 차이점을 알아봅니다.
데이터 레이크와 데이터 웨어하우스의 차이점
데이터 레이크와 데이터 웨어하우스의 주요 차이점은 다음과 같습니다.
파라미터 | 데이터 레이크 | 데이터웨어 하우스 |
---|---|---|
스토리지 | 데이터 레이크에서는 모든 데이터가 소스와 구조에 관계없이 보관됩니다. 데이터는 원시 형식으로 유지됩니다. 사용할 준비가 된 경우에만 변환됩니다. | 데이터 웨어하우스는 트랜잭션 시스템에서 추출된 데이터 또는 속성이 있는 정량적 지표로 구성된 데이터로 구성됩니다. 데이터가 정리되고 변환됩니다. |
연혁 | 빅데이터 기술 데이터 레이크에 사용되는 것은 비교적 새로운 것입니다. | 빅데이터와 달리 데이터 웨어하우스 개념은 수십 년 동안 사용되어 왔습니다. |
데이터 캡처 | 소스 시스템에서 원래 형태로 반정형 및 비정형의 모든 종류의 데이터 및 구조를 캡처합니다. | 구조화된 정보를 캡처하고 데이터 웨어하우스 목적으로 정의된 대로 스키마로 구성합니다. |
데이터 타임라인 | 데이터 레이크는 모든 데이터를 보관할 수 있습니다. 여기에는 현재 사용 중인 데이터뿐만 아니라 향후 사용할 수 있는 데이터도 포함됩니다. 또한, 데이터는 항상 보관되어 과거로 돌아가 분석이 가능합니다. | 데이터 웨어하우스 개발 과정에서는 다양한 데이터 소스를 분석하는 데 상당한 시간이 소요됩니다. |
사용자 | 데이터 레이크는 심층 분석에 빠지는 사용자에게 이상적입니다. 이러한 사용자에는 고급 기능이 필요한 데이터 과학자가 포함됩니다. 분석 도구 예측 모델링, 통계 분석 등의 기능을 갖추고 있습니다. | 데이터웨어하우스는 잘 구성되어 있고, 사용 및 이해가 쉽기 때문에 운영 사용자에게 이상적입니다. |
보관 비용 | 빅데이터 기술에 데이터를 저장하는 것은 데이터 웨어하우스에 데이터를 저장하는 것보다 상대적으로 저렴합니다. | 데이터 웨어하우스에 데이터를 저장하는 데는 비용과 시간이 많이 소요됩니다. |
태스크 | 데이터 레이크에는 모든 데이터와 데이터 유형이 포함될 수 있습니다. 이를 통해 사용자는 변환, 정리 및 구조화 프로세스 이전에 데이터에 액세스할 수 있습니다. | 데이터 웨어하우스는 사전 정의된 데이터 유형에 대해 사전 정의된 질문에 대한 통찰력을 제공할 수 있습니다. |
처리 시간 | 데이터 레이크는 사용자가 데이터가 변환, 정리 및 구조화되기 전에 데이터에 액세스할 수 있도록 합니다. 따라서 사용자는 기존 데이터 웨어하우스에 비해 더 빠르게 결과에 도달할 수 있습니다. | 데이터 웨어하우스는 사전 정의된 데이터 유형에 대해 사전 정의된 질문에 대한 통찰력을 제공합니다. 따라서 데이터 웨어하우스를 변경하려면 더 많은 시간이 필요했습니다. |
스키마의 위치 | 일반적으로 스키마는 데이터가 저장된 후에 정의됩니다. 이는 높은 민첩성과 데이터 캡처 용이성을 제공하지만 프로세스가 끝날 때 작업이 필요합니다. | 일반적으로 스키마는 데이터가 저장되기 전에 정의됩니다. 프로세스 시작 시 작업이 필요하지만 성능, 보안 및 통합을 제공합니다. |
데이터 처리 | 데이터 레이크에서는 ELT(Extract Load Transform) 프로세스를 사용합니다. | 데이터 웨어하우스는 전통적인 방식을 사용합니다. ETL(변환 로드 추출) 프로세스. |
불평 | 데이터는 원시 형식으로 유지됩니다. 사용할 준비가 된 경우에만 변환됩니다. | 데이터 웨어하우스에 대한 가장 큰 불만은 데이터 웨어하우스를 변경하려고 할 때 직면하는 문제 또는 무능력입니다. |
주요 이점 | 이러한 사용자는 기능 이상을 수행해야 할 수 있기 때문에 데이터 웨어하우스를 사용할 가능성이 없기 때문에 다양한 유형의 데이터를 통합하여 완전히 새로운 질문을 제시합니다. | 조직의 대부분 사용자는 운영적입니다. 이러한 유형의 사용자는 보고서와 주요 성과 지표에만 관심이 있습니다. |
데이터 레이크 개념
데이터 레이크는 필요할 때까지 대량의 원시 데이터를 원본 형식으로 보관하는 대규모 저장소 저장소입니다. 데이터 레이크의 모든 데이터 요소에는 고유한 식별자가 부여되고 확장된 메타데이터 태그 세트로 태그가 지정됩니다. 다양한 분석 기능을 제공합니다.
데이터 웨어하우스 개념
데이터웨어 하우스 데이터를 파일이나 폴더에 저장하여 데이터를 구성하고 사용하여 전략적 결정을 내리는 데 도움이 됩니다. 이 저장 시스템은 또한 원자 및 요약 데이터에 대한 다차원적 뷰를 제공합니다. 수행해야 하는 중요한 기능은 다음과 같습니다.
- 데이터 추출
- 데이터 청소
- 데이터 변환
- 데이터 로드 및 새로 고침