데이터 웨어하우스란 무엇입니까? 유형, 정의 및 예
데이터 웨어하우징이란 무엇입니까?
A 데이터웨어 하우징 (DW)는 다양한 소스에서 데이터를 수집하고 관리하여 의미 있는 비즈니스 통찰력을 제공하는 프로세스입니다. 데이터 웨어하우스는 일반적으로 이기종 소스의 비즈니스 데이터를 연결하고 분석하는 데 사용됩니다. 데이터 웨어하우스는 데이터 분석 및 보고를 위해 구축된 BI 시스템의 핵심입니다.
이는 데이터의 전략적 사용을 돕는 기술과 구성 요소의 조합입니다. 이는 거래 처리 대신 쿼리 및 분석을 위해 설계된 비즈니스의 대량 정보의 전자적 저장입니다. 이는 데이터를 정보로 변환하고 사용자에게 적시에 제공하여 차이를 만드는 프로세스입니다.
의사결정 지원 데이터베이스(데이터 웨어하우스)는 조직의 운영 데이터베이스와 별도로 유지 관리됩니다. 그러나 데이터 웨어하우스는 제품이 아니라 환경입니다. 이는 사용자에게 기존 운영 데이터 저장소에 액세스하거나 표시하기 어려운 현재 및 과거 의사결정 지원 정보를 제공하는 정보 시스템의 구조적 구성입니다.
인벤토리 시스템을 위해 3NF로 설계된 데이터베이스에는 서로 관련된 테이블이 많이 있다는 것을 알고 계실 것입니다. 예를 들어 현재 재고 정보에 대한 보고서에는 12개 이상의 결합된 조건이 포함될 수 있습니다. 이로 인해 쿼리 및 보고서의 응답 시간이 빠르게 느려질 수 있습니다. 데이터 웨어하우스는 응답 시간을 줄이고 보고서 및 분석에 대한 쿼리 성능을 향상시키는 데 도움이 되는 새로운 디자인을 제공합니다.
데이터웨어하우스 시스템은 다음 이름으로도 알려져 있습니다.
- 의사결정 지원 시스템(DSS)
- 임원정보시스템
- 경영 정보 시스템
- 비즈니스 인텔리전스 솔루션
- 분석적 응용
- 데이터웨어 하우스
데이터웨어하우스의 역사
데이터웨어하우스는 사용자가 조직의 성과를 이해하고 개선하는 데 도움이 됩니다. 컴퓨터 시스템이 더 복잡해지고 점점 더 많은 양의 정보를 처리해야 함에 따라 데이터를 웨어하우스해야 할 필요성이 커졌습니다. 그러나 데이터 웨어하우징은 새로운 것이 아닙니다.
다음은 데이터 웨어하우스 발전의 몇 가지 주요 이벤트입니다.
- 1960년 - Dartmouth와 General Mills는 공동 연구 프로젝트에서 차원과 사실이라는 용어를 개발했습니다.
- 1970년 - A Nielsen과 IRI가 소매 판매를 위한 차원 데이터 마트를 출시했습니다.
- 1983년 - Tera Data Corporation은 의사결정 지원을 위해 특별히 설계된 데이터베이스 관리 시스템을 출시했습니다.
- 데이터 웨어하우징은 1980년대 후반에 시작되었습니다. IBM 작업자 Paul Murphy와 Barry Devlin은 비즈니스 데이터 웨어하우스를 개발했습니다.
- 그러나 실제 컨셉은 인몬이 제시한 것이다. Bill. 그는 데이터 웨어하우스의 아버지로 여겨진다. 그는 창고 및 기업 정보 공장의 건축, 사용 및 유지 관리에 대한 다양한 주제에 대해 글을 썼습니다.
데이터웨어하우스는 어떻게 작동하나요?
데이터 웨어하우스는 하나 이상의 데이터 소스에서 정보가 도착하는 중앙 저장소 역할을 합니다. 데이터는 트랜잭션 시스템 및 기타 관계형 데이터베이스에서 데이터 웨어하우스로 유입됩니다.
데이터는 다음과 같습니다.
- 구조화 된
- 반구조화
- 비정형 데이터
데이터는 사용자가 비즈니스 인텔리전스 도구, SQL 클라이언트 및 스프레드시트를 통해 데이터 웨어하우스에서 처리된 데이터에 액세스할 수 있도록 처리, 변환 및 수집됩니다. 데이터 웨어하우스는 다양한 소스에서 들어오는 정보를 하나의 포괄적인 데이터베이스로 병합합니다.
이 모든 정보를 한 곳에 병합함으로써 조직은 고객을 보다 전체적으로 분석할 수 있습니다. 이는 사용 가능한 모든 정보를 고려하는 데 도움이 됩니다. 데이터 웨어하우징은 데이터 마이닝을 가능하게 합니다. 데이터 마이닝은 더 높은 매출과 이익으로 이어질 수 있는 데이터 패턴을 찾는 것입니다.
데이터 웨어하우스의 유형
데이터 웨어하우스(DWH)의 세 가지 주요 유형은 다음과 같습니다.
1. 엔터프라이즈 데이터 웨어하우스(EDW):
EDW(Enterprise Data Warehouse)는 중앙 집중식 창고입니다. 전사적으로 의사결정 지원 서비스를 제공합니다. 이는 데이터를 구성하고 표현하기 위한 통합된 접근 방식을 제공합니다. 또한 주제에 따라 데이터를 분류하고 해당 부서에 따라 액세스 권한을 부여하는 기능을 제공합니다.
2. Opera선택적 데이터 저장소:
OperaODS라고도 하는 선택적 데이터 저장소는 데이터 웨어하우스나 OLTP 시스템 모두 조직의 보고 요구 사항을 지원하지 않는 경우 필요한 데이터 저장소일 뿐입니다. ODS에서는 데이터 웨어하우스가 실시간으로 새로 고쳐집니다. 따라서 직원 기록 저장과 같은 일상적인 활동에 널리 선호됩니다.
3. 데이터 마트:
A 데이터 마트 데이터 웨어하우스의 하위 집합입니다. 이는 영업, 재무, 영업 또는 금융과 같은 특정 비즈니스 계열을 위해 특별히 설계되었습니다. 독립 데이터 마트에서는 데이터가 소스로부터 직접 수집될 수 있습니다.
Data Warehouse의 일반 단계
이전에 조직에서는 데이터 웨어하우징을 비교적 간단하게 사용하기 시작했습니다. 그러나 시간이 지나면서 데이터 웨어하우징의 보다 정교한 사용이 시작되었습니다.
데이터웨어하우스(DWH) 사용의 일반적인 단계는 다음과 같습니다.
오프라인 Opera데이터베이스:
이 단계에서는 데이터가 운영 체제에서 다른 서버로 복사됩니다. 이런 방식으로 복사된 데이터의 로딩, 처리 및 보고는 운영 체제의 성능에 영향을 미치지 않습니다.
오프라인 데이터 웨어하우스:
Datawarehouse의 데이터는 정기적으로 업데이트됩니다. Opera데이터베이스. Datawarehouse의 데이터는 Datawarehouse 목표를 충족하도록 매핑되고 변환됩니다.
실시간 데이터 웨어하우스:
이 단계에서는 운영 데이터베이스에서 거래가 발생할 때마다 데이터웨어하우스가 업데이트됩니다. 예를 들어, 항공사 또는 철도 예약 시스템.
통합 데이터 웨어하우스:
이 단계에서는 운영 체제가 트랜잭션을 수행할 때 데이터웨어하우스가 지속적으로 업데이트됩니다. 그런 다음 데이터웨어하우스는 트랜잭션을 생성하여 운영 체제로 다시 전달합니다.
데이터 웨어하우스의 구성요소
데이터 웨어하우스의 네 가지 구성 요소는 다음과 같습니다.
로드 관리자: 로드 관리자는 프런트 컴포넌트라고도 합니다. 웨어하우스로의 데이터 추출 및 로드와 관련된 모든 작업을 수행합니다. 이러한 작업에는 데이터 웨어하우스에 입력할 데이터를 준비하기 위한 변환이 포함됩니다.
창고 관리자 : 창고 관리자는 창고의 데이터 관리와 관련된 작업을 수행합니다. 일관성을 보장하기 위한 데이터 분석, 인덱스 및 뷰 생성, 비정규화 및 집계 생성, 소스 데이터의 변환 및 병합, 데이터 보관 및 베이킹과 같은 작업을 수행합니다.
쿼리 관리자: 쿼리 관리자는 백엔드 구성 요소라고도 합니다. 사용자 쿼리 관리와 관련된 모든 작업을 수행합니다. 이 데이터 웨어하우스 구성 요소의 작업은 쿼리 실행을 예약하기 위한 적절한 테이블에 대한 직접 쿼리입니다.
최종 사용자 액세스 도구:
이는 1. 데이터 보고 2. 쿼리 도구 3. 애플리케이션 개발 도구 4. EIS 도구 5. OLAP 도구 및 데이터 마이닝 도구.
누가 데이터 웨어하우스를 필요로 합니까?
DWH(데이터 웨어하우스)는 다음과 같은 모든 유형의 사용자에게 필요합니다.
- 대량의 데이터에 의존하는 의사결정자
- 여러 데이터 소스에서 정보를 얻기 위해 맞춤형의 복잡한 프로세스를 사용하는 사용자입니다.
- 또한 데이터에 액세스하기 위해 간단한 기술을 원하는 사람들이 사용합니다.
- 또한 의사결정을 위한 체계적인 접근 방식을 원하는 사람들에게도 필수적입니다.
- 사용자가 보고서, 그리드 또는 차트에 필요한 엄청난 양의 데이터에 대한 빠른 성능을 원하는 경우 데이터 웨어하우스가 유용합니다.
- 데이터 웨어하우스는 데이터 흐름 및 그룹화의 '숨겨진 패턴'을 발견하려는 경우 첫 번째 단계입니다.
데이터 웨어하우스는 어떤 용도로 사용되나요?
데이터 웨어하우스가 사용되는 가장 일반적인 부문은 다음과 같습니다.
공기 호스:
항공사 시스템에서는 승무원 배치, 노선 수익성 분석, 상용 고객 프로그램 프로모션 등의 운영 목적으로 사용됩니다.
은행업:
은행 부문에서 데스크에서 사용 가능한 리소스를 효과적으로 관리하는 데 널리 사용됩니다. 일부 은행에서는 시장 조사, 제품 및 운영의 성과 분석에도 사용됩니다.
건강 관리:
의료 부문에서도 데이터 웨어하우스를 사용하여 결과를 전략화 및 예측하고, 환자의 치료 보고서를 생성하고, 제휴 보험 회사, 의료 지원 서비스 등과 데이터를 공유했습니다.
공공 부문:
공공 부문에서는 정보 수집을 위해 데이터 웨어하우스를 사용합니다. 이는 정부 기관이 모든 개인에 대한 세금 기록, 건강 정책 기록을 유지하고 분석하는 데 도움이 됩니다.
투자 및 보험 부문:
이 부문에서 창고는 주로 데이터 패턴과 고객 추세를 분석하고, 시장 움직임을 추적하는 데 활용됩니다.
유지 체인:
소매 체인에서 데이터 웨어하우스는 유통 및 마케팅에 널리 사용됩니다. 또한 품목, 고객 구매 패턴, 프로모션을 추적하는 데 도움이 되며 가격 정책을 결정하는 데에도 사용됩니다.
통신:
이 분야에서는 제품 홍보, 판매 결정, 유통 결정을 위해 데이터 웨어하우스가 활용됩니다.
환대 산업 :
이 업계에서는 창고 서비스를 활용해 고객의 피드백과 여행 패턴을 기반으로 타겟 고객을 대상으로 광고 및 홍보 캠페인을 설계하고 추정합니다.
데이터 웨어하우스 구현 단계
Datawarehouse 구현과 관련된 비즈니스 위험을 해결하는 가장 좋은 방법은 아래와 같은 세 가지 전략을 사용하는 것입니다.
- 기업 전략: 여기서 우리는 현재 아키텍처와 도구를 포함한 기술을 식별합니다. 또한 사실, 차원 및 속성을 식별합니다. 데이터 매핑 및 변환도 전달됩니다.
- 단계적 전달: 데이터웨어하우스 구현은 주제 영역에 따라 단계적으로 이루어져야 합니다. 예약 및 청구와 같은 관련 사업 엔터티를 먼저 구현한 다음 서로 통합해야 합니다.
- 반복적인 프로토타이핑: 구현에 대한 빅뱅 접근 방식보다는 데이터웨어하우스를 반복적으로 개발하고 테스트해야 합니다.
다음은 결과물과 함께 Datawarehouse 구현의 주요 단계입니다.
단계 | 작업 | 산출물 |
---|---|---|
1 | 프로젝트 범위를 정의해야 합니다. | 범위 정의 |
2 | 비즈니스 요구 사항을 결정해야 함 | 논리적 데이터 모델 |
3 | 밝히다 Opera선택적 데이터스토어 요구 사항 | Opera선택적 데이터 저장소 모델 |
4 | 추출 도구 획득 또는 개발 | 도구 및 소프트웨어 추출 |
5 | 데이터 웨어하우스 데이터 요구 사항 정의 | 전환 데이터 모델 |
6 | 문서 누락 데이터 | 할 일 프로젝트 목록 |
7 | 지도 Opera데이터 웨어하우스에 대한 선택적 데이터 저장소 | D/W 데이터 통합 맵 |
8 | 데이터 웨어하우스 데이터베이스 설계 개발 | D/W 데이터베이스 설계 |
9 | 데이터 추출 Opera선택적 데이터 저장소 | 통합 D/W 데이터 추출 |
10 | 데이터 웨어하우스 로드 | 초기 데이터 로드 |
11 | 데이터 웨어하우스 유지 | 지속적인 데이터 액세스 및 후속 로드 |
데이터 웨어하우스 구현을 위한 모범 사례
- 데이터의 일관성, 정확성 및 무결성을 테스트하기 위한 계획을 결정합니다.
- 데이터 웨어하우스는 잘 통합되고, 잘 정의되고, 타임스탬프가 지정되어야 합니다.
- Datawarehouse를 설계하는 동안 올바른 도구를 사용하고, 수명 주기를 준수하고, 데이터 충돌을 주의하고, 자신의 실수가 무엇인지 배울 준비를 하십시오.
- 운영 시스템과 보고서를 절대 교체하지 마십시오.
- 데이터 추출, 정리, 로드에 너무 많은 시간을 소비하지 마십시오.
- Datawarehouse 구현 프로세스에 비즈니스 인력을 포함한 모든 이해관계자가 참여하도록 하세요. 데이터 웨어하우징이 공동/팀 프로젝트임을 확립합니다. 최종 사용자에게 유용하지 않은 데이터 웨어하우스를 만들고 싶지는 않습니다.
- 최종 사용자를 위한 교육 계획을 준비합니다.
데이터 웨어하우스가 필요한 이유는 무엇입니까? 장점 단점
데이터 웨어하우스(DWH)의 장점:
- 데이터 웨어하우스를 사용하면 비즈니스 사용자가 한 곳에서 일부 소스의 중요한 데이터에 빠르게 액세스할 수 있습니다.
- 데이터 웨어하우스는 다양한 부서 간 활동에 대한 일관된 정보를 제공합니다. 또한 임시 보고 및 쿼리도 지원합니다.
- 데이터 웨어하우스는 다양한 데이터 소스를 통합하여 생산 시스템의 스트레스를 줄이는 데 도움이 됩니다.
- 데이터 웨어하우스는 분석 및 보고에 소요되는 총 소요 시간을 줄이는 데 도움이 됩니다.
- 구조 조정 및 통합을 통해 사용자는 보고 및 분석에 더 쉽게 사용할 수 있습니다.
- 데이터 웨어하우스를 통해 사용자는 한 곳에서 여러 소스의 중요한 데이터에 액세스할 수 있습니다. 따라서 여러 소스에서 데이터를 검색하는 사용자의 시간을 절약할 수 있습니다.
- 데이터 웨어하우스는 많은 양의 과거 데이터를 저장합니다. 이를 통해 사용자는 다양한 기간과 추세를 분석하여 미래를 예측할 수 있습니다.
데이터 웨어하우스의 단점:
- 구조화되지 않은 데이터에는 이상적인 옵션이 아닙니다.
- 데이터 웨어하우스의 생성과 구현은 분명 시간이 걸리는 일입니다.
- 데이터 웨어하우스는 상대적으로 빨리 구식이 될 수 있습니다.
- 데이터 유형 및 범위, 데이터 원본 스키마, 인덱스 및 쿼리를 변경하기가 어렵습니다.
- 데이터 웨어하우스는 쉬워 보일 수 있지만 실제로는 일반 사용자에게는 너무 복잡합니다.
- 프로젝트 관리에 대한 최선의 노력에도 불구하고 데이터 웨어하우징 프로젝트 범위는 항상 증가합니다.
- 때때로 창고 사용자는 다른 비즈니스 규칙을 개발할 것입니다.
- 조직은 교육 및 구현 목적을 위해 많은 리소스를 소비해야 합니다.
데이터 웨어하우징의 미래
- 에서 변경 규제 제약 서로 다른 데이터 소스를 결합하는 기능이 제한될 수 있습니다. 이러한 서로 다른 소스에는 저장하기 어려운 구조화되지 않은 데이터가 포함될 수 있습니다.
- 으로 크기 데이터베이스가 커질수록 매우 큰 데이터베이스를 구성하는 것에 대한 추정치도 계속 커집니다. 항상 크기가 증가하는 데이터 웨어하우스 시스템을 구축하고 운영하는 것은 복잡합니다. 오늘날 사용 가능한 하드웨어 및 소프트웨어 리소스로는 많은 양의 데이터를 온라인으로 유지할 수 없습니다.
- 멀티미디어 데이터 텍스트 데이터로 쉽게 조작할 수 없는 반면, 텍스트 정보는 현재 사용 가능한 관계형 소프트웨어로 검색할 수 있습니다. 연구 주제가 될 수 있습니다.
데이터 웨어하우스 도구
시중에는 다양한 데이터 웨어하우징 도구가 나와 있습니다. 가장 눈에 띄는 것은 다음과 같습니다.
1. 마크로직:
MarkLogic은 다양한 엔터프라이즈 기능을 사용하여 데이터 통합을 더 쉽고 빠르게 만드는 유용한 데이터 웨어하우징 솔루션입니다. 이 도구는 매우 복잡한 검색 작업을 수행하는 데 도움이 됩니다. 문서, 관계 및 메타데이터와 같은 다양한 유형의 데이터를 쿼리할 수 있습니다.
https://www.marklogic.com/product/getting-started/
2. Oracle:
Oracle 업계를 선도하는 데이터베이스입니다. 온프레미스와 클라우드 모두에 대한 다양한 데이터웨어하우스 솔루션을 제공합니다. 운영 효율성을 높여 고객 경험을 최적화하는 데 도움이 됩니다.
https://www.oracle.com/index.html
3. Amazon 빨간색Shift:
Amazon Redshift는 데이터웨어하우스 도구입니다. 표준을 사용하여 모든 유형의 데이터를 분석하는 간단하고 비용 효율적인 도구입니다. SQL 그리고 기존 BI 도구. 또한 쿼리 최적화 기술을 사용하여 페타바이트 규모의 구조화된 데이터에 대해 복잡한 쿼리를 실행할 수 있습니다.
https://aws.amazon.com/redshift/?nc2=h_m1
다음은 유용한 전체 목록입니다. 데이터웨어하우스 도구.
주요 학습
- DWH(데이터 웨어하우스)는 EDW(엔터프라이즈 데이터 웨어하우스)라고도 합니다.
- 데이터 웨어하우스는 하나 이상의 데이터 소스에서 정보를 가져오는 중앙 저장소로 정의됩니다.
- 데이터 웨어하우스의 세 가지 주요 유형은 EDW(Enterprise Data Warehouse)입니다. Opera데이터 저장소 및 데이터 마트.
- 데이터웨어하우스의 일반적인 상태는 오프라인입니다. Opera데이터베이스, 오프라인 데이터 웨어하우스, 실시간 데이터 웨어하우스, 통합 데이터 웨어하우스.
- Datawarehouse의 네 가지 주요 구성 요소는 로드 관리자, 창고 관리자, 쿼리 관리자, 최종 사용자 액세스 도구입니다.
- Datawarehouse는 항공, 은행, 의료, 보험, 소매 등 다양한 산업 분야에서 사용됩니다.
- 데이터웨어하우스 구현은 3가지 전략, 즉 엔터프라이즈 전략, 단계별 제공 및 반복적 프로토타입 제작입니다.
- 데이터 웨어하우스를 사용하면 비즈니스 사용자가 한 곳에서 일부 소스의 중요한 데이터에 빠르게 액세스할 수 있습니다.