데이터웨어 하우스 Archi강의, 구성 요소 및 다이어그램 Concepts

데이터웨어 하우스 Concepts

데이터 웨어하우스의 기본 개념은 회사의 의사 결정 및 예측을 위한 단일 진실 버전을 촉진하는 것입니다. 데이터 웨어하우스는 단일 또는 다중 소스의 과거 및 교환 데이터를 포함하는 정보 시스템입니다. 데이터웨어 하우스 Concepts 조직의 보고 및 분석 프로세스를 단순화합니다.

데이터 웨어하우스의 특징

데이터웨어 하우스 Concepts 다음과 같은 특징이 있습니다:

  • 주제 중심
  • 통합
  • 시변
  • 비 휘발성

주제 중심

데이터웨어하우스는 회사의 진행 중인 운영 대신 주제에 대한 정보를 제공하므로 주제 지향적입니다. 이러한 주제는 판매, 마케팅, 유통 등이 될 수 있습니다.

데이터웨어하우스는 진행 중인 작업에 초점을 맞추지 않습니다. 대신 데이터 모델링 및 분석에 중점을 둡니다. 의사 결정. 또한 의사결정에 도움이 되지 않는 데이터를 제외하여 특정 주제에 대한 간단하고 간결한 보기를 제공합니다.

통합

데이터 웨어하우스에서 통합이란 서로 다른 데이터베이스의 모든 유사한 데이터에 대한 공통 측정 단위를 설정하는 것을 의미합니다. 또한 데이터는 공통적이고 보편적으로 허용되는 방식으로 데이터웨어하우스에 저장되어야 합니다.

데이터 웨어하우스는 메인프레임, 관계형 데이터베이스, 플랫 파일 등과 같은 다양한 소스의 데이터를 통합하여 개발됩니다. 또한 일관된 명명 규칙, 형식 및 코딩을 유지해야 합니다.

이 통합은 효과적인 데이터 분석에 도움이 됩니다. 명명 규칙, 속성 측정, 인코딩 구조 등의 일관성을 보장해야 합니다. 다음 예를 고려해 보세요.

데이터 웨어하우스의 특징

위의 예에는 A, B, C라는 세 가지 애플리케이션이 있습니다. 이러한 애플리케이션에 저장된 정보는 성별, 날짜 및 잔액입니다. 그러나 각 애플리케이션의 데이터는 서로 다른 방식으로 저장됩니다.

  • 애플리케이션 A에서 성별 필드는 M 또는 F와 같은 논리값을 저장합니다.
  • 애플리케이션 B에서 성별 필드는 숫자 값이고,
  • 애플리케이션 C 애플리케이션에서는 성별 필드가 문자 값 형식으로 저장됩니다.
  • 날짜와 잔액도 마찬가지입니다.

그러나 변환 및 정리 프로세스 후에는 이 모든 데이터가 공통 형식으로 저장됩니다. 데이터웨어 하우스.

시간에 따른 변화

데이터 웨어하우스의 시간적 지평은 운영 시스템에 비해 상당히 광범위합니다. 데이터 웨어하우스에서 수집된 데이터는 특정 기간으로 인식되며 역사적 관점에서 정보를 제공합니다. 명시적이든 암묵적이든 시간적 요소가 포함됩니다.

Datawarehouse 데이터 표시 시간 차이가 기록 키 구조에 있는 곳 중 하나입니다. DW에 포함된 모든 기본 키에는 암시적으로 또는 명시적으로 시간 요소가 있어야 합니다. 일, 주월 등을 예로 들 수 있습니다.

시간 차이의 또 다른 측면은 데이터가 웨어하우스에 삽입되면 업데이트하거나 변경할 수 없다는 것입니다.

비 휘발성

또한 데이터 웨어하우스는 비휘발성이므로 새 데이터가 입력될 때 이전 데이터가 지워지지 않습니다.

데이터는 읽기 전용이며 주기적으로 새로 고쳐집니다. 이는 또한 과거 데이터를 분석하고 무슨 일이 언제 일어났는지 이해하는 데 도움이 됩니다. 트랜잭션 프로세스, 복구 및 동시성 제어 메커니즘이 필요하지 않습니다.

운영 애플리케이션 환경에서 수행되는 삭제, 업데이트 및 삽입과 같은 활동은 데이터 웨어하우스 환경에서 생략됩니다. 데이터 웨어하우징에서 수행되는 데이터 작업 유형은 두 가지뿐입니다.

  1. 데이터 로딩
  2. 데이터 접근

다음은 애플리케이션과 데이터 웨어하우스의 몇 가지 주요 차이점입니다.

Opera선택적 적용 데이터웨어 하우스
복잡한 프로그램은 최종 제품의 높은 무결성을 유지하는 데이터 업그레이드 프로세스를 보장하기 위해 코딩되어야 합니다. 데이터 업데이트를 하지 않기 때문에 이런 문제는 발생하지 않습니다.
데이터는 최소한의 중복성을 보장하기 위해 정규화된 형식으로 배치됩니다. 데이터는 정규화된 형식으로 저장되지 않습니다.
교착 상태가 매우 복잡하기 때문에 거래, 데이터 복구, 롤백 및 해결 문제를 지원하는 기술이 필요합니다. 이는 상대적인 기술 단순성을 제공합니다.

데이터웨어 하우스 Archi강의

데이터웨어 하우스 Archi강의 여러 소스의 과거 및 교환 데이터를 포함하는 정보 시스템이므로 복잡합니다. 데이터 웨어하우스 계층을 구성하는 데는 단일 계층, 3계층 및 3계층의 XNUMX가지 접근 방식이 있습니다. 이 데이터 웨어하우스의 XNUMX계층 아키텍처는 아래와 같이 설명됩니다.

단일 계층 아키텍처

단일 계층의 목적은 저장된 데이터 양을 최소화하는 것입니다. 이 목표는 데이터 중복을 제거하는 것입니다. 이 아키텍처는 실제로 자주 사용되지 않습니다.

2계층 아키텍처

2계층 아키텍처는 물리적으로 사용 가능한 소스와 데이터웨어하우스를 분리하는 데이터웨어하우스 계층 중 하나입니다. 이 아키텍처는 확장이 불가능하고 많은 수의 최종 사용자를 지원하지도 않습니다. 또한 네트워크 제한으로 인해 연결 문제가 있습니다.

3계층 데이터 웨어하우스 Archi강의

이는 가장 널리 사용되는 Archi데이터 웨어하우스 강의.

Top, Middle, Bottom Tier로 구성됩니다.

  1. 최하위 계층: Datawarehouse 서버의 데이터베이스는 최하위 계층입니다. 일반적으로 관계형 데이터베이스 시스템입니다. 데이터는 백엔드 도구를 사용하여 정리, 변환 및 이 레이어에 로드됩니다.
  2. 중간 계층: 데이터 웨어하우스의 중간 계층은 ROLAP 또는 MOLAP 모델을 사용하여 구현되는 OLAP 서버입니다. 사용자의 경우 이 애플리케이션 계층은 데이터베이스의 추상화된 보기를 제공합니다. 이 계층은 최종 사용자와 데이터베이스 사이의 중재자 역할도 합니다.
  3. 최상위: 최상위 계층은 프런트엔드 클라이언트 계층입니다. 최상위 계층은 연결하고 데이터 웨어하우스에서 데이터를 가져오는 도구와 API입니다. 쿼리 도구, 보고 도구, 관리 쿼리 도구, 분석 도구 및 데이터 마이닝 도구가 될 수 있습니다.

데이터웨어하우스 구성요소

Datawarehouse 구성 요소에 대해 알아보고 Archi아래와 같이 다이어그램을 사용한 데이터 웨어하우스의 구조:

데이터웨어 하우스 Archi강의
데이터웨어 하우스 Archi강의

데이터 웨어하우스는 일부 주요 데이터 웨어하우징 구성 요소로 둘러싸인 중앙 정보 저장소인 RDBMS 서버를 기반으로 하여 전체 환경을 기능적이고 관리 가능하며 액세스 가능하게 만듭니다.

주로 다섯 가지 데이터 웨어하우스 구성 요소가 있습니다.

데이터 웨어하우스 데이터베이스

중앙 데이터베이스는 데이터웨어하우징 환경의 기초입니다. 이 데이터베이스는 다음에서 구현됩니다. RDBMS 기술. 그러나 이러한 종류의 구현은 기존 RDBMS 시스템이 데이터 웨어하우징이 아닌 트랜잭션 데이터베이스 처리에 최적화되어 있다는 사실로 인해 제한됩니다. 예를 들어 임시 쿼리, 다중 테이블 조인, 집계는 리소스를 많이 사용하고 성능을 저하시킵니다.

따라서 데이터베이스에 대한 대체 접근 방식은 아래와 같이 사용됩니다.

  • 데이터웨어하우스에서 관계형 데이터베이스는 확장성을 허용하기 위해 병렬로 배포됩니다. 병렬 관계형 데이터베이스는 또한 다양한 멀티프로세서 구성 또는 대규모 병렬 프로세서에서 공유 메모리 또는 공유 없음 모델을 허용합니다.
  • 새로운 인덱스 구조는 관계형 테이블 스캔을 우회하고 속도를 향상시키는 데 사용됩니다.
  • 관계형 데이터 웨어하우스 모델로 인해 발생하는 모든 제한을 극복하기 위해 다차원 데이터베이스(MDDB)를 사용합니다. 예: Essbase Oracle.

소싱, 획득, 정리 및 변환 도구(ETL)

데이터 소싱, 변환 및 마이그레이션 도구는 데이터웨어하우스에서 데이터를 통합된 형식으로 변환하는 데 필요한 모든 변환, 요약 및 모든 변경을 수행하는 데 사용됩니다. 이를 추출, 변환 및 로드(ETL) 도구라고도 합니다.

기능은 다음과 같습니다.

  • 규제 규정에 따라 데이터를 익명화합니다.
  • 운영 데이터베이스에서 원치 않는 데이터를 제거하여 데이터웨어하우스로 로딩합니다.
  • 다양한 소스에서 도착하는 데이터에 대한 일반 이름과 정의를 검색하고 바꿉니다.
  • 요약 및 파생 데이터 계산
  • 데이터가 누락된 경우 기본값으로 채웁니다.
  • 여러 데이터 소스에서 수신되는 중복된 데이터를 제거합니다.

이러한 추출, 변환 및 로드 도구는 크론 작업, 백그라운드 작업, 코볼 프로그램, 셸 스크립트 등 데이터 웨어하우스의 데이터를 정기적으로 업데이트합니다. 이러한 도구는 메타데이터를 유지하는 데도 도움이 됩니다.

Bowman의 ETL 도구 데이터베이스 및 데이터 이질성 문제를 처리해야 합니다.

메타 데이터

메타데이터라는 이름은 높은 수준의 기술적 데이터 웨어하우징을 암시합니다. Concepts. 그러나 그것은 매우 간단합니다. 메타데이터는 데이터 웨어하우스를 정의하는 데이터에 대한 데이터입니다. 데이터 웨어하우스를 구축, 유지 및 관리하는 데 사용됩니다.

데이터 웨어하우스에서 Archi강의, 메타데이터는 데이터 웨어하우스 데이터의 소스, 용도, 가치, 특징을 규정하므로 중요한 역할을 합니다. 또한 데이터를 변경하고 처리하는 방법도 정의합니다. 데이터 웨어하우스와 밀접하게 연결되어 있습니다.

예를 들어 판매 데이터베이스의 라인에는 다음이 포함될 수 있습니다.

4030 KJ732 299.90

이는 메타를 참조하기 전까지는 의미 없는 데이터입니다.

  • 모델 번호 : 4030
  • 판매 대리점 ID : KJ732
  • 총 판매 금액 $299.90

따라서 메타데이터는 데이터를 지식으로 변환하는 데 필수적인 요소입니다.

메타데이터는 다음 질문에 답하는 데 도움이 됩니다.

  • 데이터 웨어하우스에는 어떤 테이블, 속성 및 키가 포함되어 있나요?
  • 데이터는 어디서 왔나요?
  • 데이터는 몇 번이나 다시 로드됩니까?
  • 클렌징에는 어떤 변형이 적용되었나요?

메타데이터는 다음과 같은 범주로 분류할 수 있습니다.

  1. 기술 메타데이터: Data Warehouse 설계자와 관리자가 사용하는 Warehouse에 대한 정보를 담고 있는 Metadata입니다.
  2. 비즈니스 메타데이터: 이러한 종류의 메타데이터에는 최종 사용자가 데이터 웨어하우스에 저장된 정보를 쉽게 이해할 수 있는 방법을 제공하는 세부 정보가 포함되어 있습니다.

쿼리 도구

데이터 웨어하우징의 주요 목적 중 하나는 기업이 전략적 결정을 내릴 수 있도록 정보를 제공하는 것입니다. 쿼리 도구를 사용하면 사용자가 데이터 웨어하우스 시스템과 상호 작용할 수 있습니다.

이러한 도구는 네 가지 범주로 분류됩니다.

  1. 쿼리 및 보고 도구
  2. 애플리케이션 개발 도구
  3. 데이터 마이닝 도구
  4. OLAP 도구

1. 쿼리 및 보고 도구

쿼리 및 보고 도구는 다음과 같이 더 세분화될 수 있습니다.

  • 보고 도구
  • 관리형 쿼리 도구

보고 도구:

보고 도구 생산 보고 도구와 데스크톱 보고서 작성기로 더 나눌 수 있습니다.

  1. 보고서 작성자: 이러한 종류의 보고 도구는 최종 사용자의 분석을 위해 설계된 도구입니다.
  2. 생산 보고: 이러한 종류의 도구를 사용하면 조직에서 정기적인 운영 보고서를 생성할 수 있습니다. 또한 인쇄 및 계산과 같은 대량 일괄 작업도 지원합니다. 인기 있는 보고 도구로는 Brio, Business Objects가 있습니다. Oracle, PowerSoft, SAS 연구소.

관리형 쿼리 도구:

이러한 종류의 액세스 도구는 사용자와 데이터베이스 사이에 메타 레이어를 삽입하여 최종 사용자가 데이터베이스와 SQL 및 데이터베이스 구조의 문제를 해결하는 데 도움이 됩니다.

2. 애플리케이션 개발 도구

내장된 그래픽 및 분석 도구가 조직의 분석 요구 사항을 충족하지 못하는 경우가 있습니다. 이러한 경우 애플리케이션 개발 도구를 사용하여 사용자 정의 보고서가 개발됩니다.

3. 데이터 마이닝 도구

데이터 마이닝은 대량의 데이터를 마이닝하여 의미 있는 새로운 상관관계, 패턴, 추세를 찾아내는 과정입니다. 데이터 마이닝 도구 이 프로세스를 자동으로 만드는 데 사용됩니다.

4. OLAP 도구

이러한 도구는 다차원 데이터베이스의 개념에 기반을 두고 있습니다. 이를 통해 사용자는 정교하고 복잡한 다차원 뷰를 사용하여 데이터를 분석할 수 있습니다.

데이터 웨어하우스 버스 Archi강의

데이터 웨어하우스 버스는 웨어하우스의 데이터 흐름을 결정합니다. 데이터 웨어하우스의 데이터 흐름은 Inflow, Upflow, Downflow, Outflow 및 Meta flow로 분류할 수 있습니다.

데이터 버스를 설계하는 동안 데이터 마트 전체의 공유 차원, 사실을 고려해야 합니다.

데이터 마트

A 데이터 마트 사용자에게 데이터를 제공하는 데 사용되는 액세스 계층입니다. 구축하는 데 시간과 비용이 적게 들기 때문에 대규모 데이터 웨어하우스의 옵션으로 제시됩니다. 그러나 데이터 마트에 대한 표준 정의는 사람마다 다릅니다.

간단히 말해서 데이터 마트는 데이터 웨어하우스의 자회사입니다. 데이터 마트는 특정 사용자 그룹을 위해 생성된 데이터를 분할하는 데 사용됩니다.

데이터 마트는 데이터웨어하우스와 동일한 데이터베이스에 생성되거나 물리적으로 분리된 데이터베이스에 생성될 수 있습니다.

데이터웨어 하우스 Archi구조 모범 사례

데이터 웨어하우스를 설계하려면 Archi강의를 진행하려면 아래의 모범 사례를 따라야 합니다.

  • 차원 모드, 비정규화 또는 하이브리드 접근 방식이 가능한 정보 검색에 최적화된 데이터 웨어하우스 모델을 사용하세요.
  • Data Warehouse의 하향식 및 상향식 접근 방식으로 적절한 설계 접근 방식을 선택합니다.
  • 데이터가 빠르고 정확하게 처리되는지 확인해야 합니다. 동시에 데이터를 단일 버전의 정보로 통합하는 접근 방식을 취해야 합니다.
  • 데이터 웨어하우스의 데이터 수집 및 정리 프로세스를 신중하게 설계합니다.
  • 데이터 웨어하우스 구성 요소 간 메타데이터 공유를 허용하는 메타데이터 아키텍처 설계
  • 정보 검색 요구가 데이터 추상화 피라미드의 하단에 있거나 액세스해야 할 운영 소스가 여러 개 있는 경우 ODS 모델을 구현하는 것을 고려하세요.
  • 데이터 모델이 단순히 통합되는 것이 아니라 통합되어 있는지 확인해야 합니다. 그런 경우에는 3NF 데이터 모델을 고려해야 합니다. 또한 ETL 및 데이터 정리 도구를 구입하는 데 이상적입니다.

요약

  • 데이터 웨어하우스는 단일 또는 다중 소스의 과거 및 교환 데이터를 포함하는 정보 시스템입니다. 이러한 소스는 기존 데이터 웨어하우스, 클라우드 데이터 웨어하우스 또는 가상 데이터 웨어하우스일 수 있습니다.
  • 데이터웨어하우스는 조직의 지속적인 운영에 대한 정보가 아닌 주제에 대한 정보를 제공하므로 주제 지향적입니다.
  • 데이터 웨어하우스에서 통합이란 서로 다른 데이터베이스의 모든 유사한 데이터에 대한 공통 측정 단위를 설정하는 것을 의미합니다.
  • 또한 데이터 웨어하우스는 비휘발성이므로 새 데이터가 입력될 때 이전 데이터가 지워지지 않습니다.
  • DW의 데이터는 보관 수명이 길기 때문에 데이터웨어하우스는 시변적입니다.
  • 데이터 웨어하우스에는 주로 5가지 구성 요소가 있습니다. Archi강의: 1) 데이터베이스 2) ETL 도구 3) 메타데이터 4) 쿼리 도구 5) DataMarts
  • 쿼리 도구에는 네 가지 주요 범주가 있습니다. 1. 쿼리 및 보고, 도구 2. 응용 프로그램 개발 도구, 3. 데이터 마이닝 도구 4. OLAP 도구
  • 데이터 소싱, 변환 및 마이그레이션 도구는 모든 변환 및 요약을 수행하는 데 사용됩니다.
  • 데이터 웨어하우스에서 Archi강의, 메타데이터는 데이터 웨어하우스 데이터의 소스, 용도, 가치, 특징을 규정하므로 중요한 역할을 합니다.