25년 상위 2025개 ETL 테스트 인터뷰 질문 및 답변
신입생을 위한 ETL 테스트 인터뷰 질문
1) ETL이란 무엇입니까?
데이터웨어하우징 아키텍처에서 ETL은 모든 비즈니스 프로세스의 데이터를 관리하는 중요한 구성 요소입니다. ETL은 다음을 의미합니다. 추출, 변환 그리고 하중. 추출은 데이터베이스에서 데이터를 읽는 프로세스를 수행합니다. 변환은 보고 및 분석에 적합할 수 있는 형식으로 데이터를 변환합니다. 반면 로드는 대상 데이터베이스에 데이터를 쓰는 프로세스를 수행합니다.
👉 무료 PDF 다운로드: ETL 테스트 인터뷰 질문 및 답변
2) ETL 테스트 작업에 무엇이 포함되는지 설명하세요.
ETL 테스트에는 다음이 포함됩니다.
- 데이터가 비즈니스 요구 사항에 따라 올바르게 변환되고 있는지 확인
- 예상된 데이터가 잘림이나 데이터 손실 없이 데이터 웨어하우스에 로드되었는지 확인하세요.
- ETL 애플리케이션이 잘못된 데이터를 보고하고 기본값으로 바꾸는지 확인하세요.
- 확장성과 성능을 향상하려면 예상 시간 프레임에 데이터가 로드되는지 확인하세요.
3) 데이터 웨어하우스 애플리케이션의 유형은 무엇이며 데이터 마이닝과 데이터 웨어하우징의 차이점은 무엇입니까?
데이터 웨어하우스 애플리케이션의 유형은 다음과 같습니다.
- 정보 처리
- 분석 처리
- 데이터 마이닝
데이터 수집 대규모 데이터베이스에서 숨겨진 예측 정보를 추출하고 데이터를 해석하는 프로세스로 정의할 수 있으며, 데이터 웨어하우징은 더 빠른 방식으로 데이터 분석 처리를 위해 데이터 마이닝을 사용할 수 있습니다. 데이터웨어 하우징 여러 소스의 데이터를 하나의 공통 저장소로 집계하는 프로세스입니다.
4) ETL에서 사용되는 다양한 도구는 무엇입니까?
- Cognos 의사결정 스트림
- Oracle 창고 건설업자
- 비즈니스 객체 XI
- SAS 비즈니스 웨어하우스
- SAS Enterprise ETL 서버
5) 사실이란 무엇인가? 사실의 유형은 무엇입니까?
이는 분석할 측정값을 포함하는 다차원 모델의 핵심 구성 요소입니다. 사실은 차원과 관련이 있습니다.
사실의 유형은 다음과 같습니다.
- 첨가제 사실
- 반가 산적 사실
- 비가 산적 사실
6) 큐브와 OLAP 큐브가 무엇인지 설명해주세요.
큐브는 데이터 웨어하우스의 팩트 테이블과 차원으로 구성된 데이터 처리 단위입니다. 다차원적인 분석을 제공합니다.
OLAP는 온라인 분석 처리를 의미하며 OLAP 큐브는 보고 목적으로 대용량 데이터를 다차원 형식으로 저장합니다. 차원별로 분류된 측정값이라는 사실로 구성됩니다.
7) 추적 수준이란 무엇이며 유형은 무엇인지 설명하십시오.
추적 수준은 로그 파일에 저장된 데이터의 양입니다. 추적 수준은 Normal(보통)과 Verbose(자세함) 두 가지로 분류될 수 있습니다. Normal 수준은 추적 수준을 자세히 설명하고 verbose는 각 행의 추적 수준을 설명합니다.
8) 사실의 입자(Grain of Fact)가 무엇인지 설명해주세요.
그레인 팩트는 팩트 정보가 저장되는 수준으로 정의할 수 있습니다. 사실 세분성(Fact Granularity)이라고도 합니다.
9) 사실 없는 사실 스키마가 무엇인지, 측정값이 무엇인지 설명하세요.
측정값이 없는 팩트 테이블을 Factless 팩트 테이블이라고 합니다. 발생한 이벤트 수를 볼 수 있습니다. 예를 들어 회사의 직원 수와 같은 이벤트를 기록하는 데 사용됩니다.
팩트 테이블의 열을 기반으로 하는 숫자 데이터를 측정값이라고 합니다.
10) 변환이란 무엇인지 설명해주세요.
변환은 데이터를 생성, 수정 또는 전달하는 저장소 개체입니다. 변환에는 능동형과 수동형의 두 가지 유형이 있습니다.
경험자를 위한 ETL 개발자 인터뷰 질문 및 답변
11) 조회 변환(Lookup Transformation)의 사용법을 설명해주세요.
조회 변환은 다음에 유용합니다.
- 열 값을 사용하여 테이블에서 관련 값 가져오기
- 느리게 변경되는 차원 테이블 업데이트
- 테이블에 레코드가 이미 존재하는지 확인
12) 파티셔닝, 해시 파티셔닝, 라운드 로빈 파티셔닝이 무엇인지 설명하세요.
성능을 향상시키기 위해 트랜잭션을 세분화하는 것을 파티셔닝이라고 합니다. 파티셔닝을 통해 정보학 다양한 소스에 대한 다중 연결을 생성하는 서버
파티션의 종류는 다음과 같습니다.
라운드 로빈 분할:
- Informatica에서는 데이터가 모든 파티션에 고르게 분산됩니다.
- 처리할 행 수가 거의 동일한 각 파티션에서 이 분할을 적용할 수 있습니다.
해시 파티셔닝:
- 파티션 간에 데이터를 그룹화하기 위해 키를 분할하기 위해 Informatica 서버는 해시 함수를 적용합니다.
- 동일한 파티션에서 동일한 분할 키를 가진 행의 프로세스 그룹을 보장해야 할 때 사용됩니다.
13) DataReader 대상 어댑터를 사용하면 어떤 이점이 있는지 언급해 주세요.
DataReader 대상 어댑터를 사용하면 장점은 ADO 레코드세트 (레코드와 열로 구성)을 메모리에 저장하고 DataReader 인터페이스를 구현하여 DataFlow 작업의 데이터를 노출하므로 다른 애플리케이션이 데이터를 사용할 수 있습니다.
14) SSIS(SQL Server Integration Service)를 사용하여 테이블을 업데이트할 수 있는 방법은 무엇입니까?
SSIS를 사용하여 테이블을 업데이트하려면 가능한 방법은 다음과 같습니다.
- 사용하십시오 SQL 명령
- 스테이징 테이블 사용
- 캐시 사용
- 스크립트 태스크 사용
- MSSQL을 사용하는 경우 업데이트에 전체 데이터베이스 이름을 사용하세요.
15) 조회를 위해 OLEDB(개체 연결 및 포함 데이터베이스) 소스가 아닌 경우 어떻게 하시겠습니까?
조회를 위해 OLEDD가 아닌 소스가 있는 경우 캐시를 사용하여 데이터를 로드하고 이를 소스로 사용해야 합니다.
16) 연결된 변환과 연결되지 않은 변환에서 어떤 경우에 동적 캐시와 정적 캐시를 사용합니까?
- 동적 캐시는 마스터 테이블과 SCD(Slow Change Dimensions) 유형 1을 업데이트해야 할 때 사용됩니다.
- 플랫 파일의 경우 정적 캐시가 사용됩니다.
17) 연결되지 않음 조회와 연결됨 조회의 차이점을 설명하세요.
연결된 조회 | 연결되지 않은 조회 |
---|---|
연결된 조회가 매핑에 참여합니다. | 매핑 시 표현식 변환 대신 조회 함수를 사용할 때 사용됩니다. |
여러 값이 반환될 수 있습니다. | 하나의 출력 포트만 반환합니다. |
다른 변환에 연결하여 값을 반환할 수 있습니다. | 다른 변환을 연결할 수 없습니다 |
연결된 조회에 정적 또는 동적 캐시를 사용할 수 있습니다. | 정적 캐시로만 연결되지 않음 |
연결된 조회는 사용자 정의 기본값을 지원합니다. | 연결되지 않은 조회는 사용자 정의 기본값을 지원하지 않습니다. |
연결된 조회에서는 여러 열이 동일한 행에서 반환되거나 동적 조회 캐시에 삽입될 수 있습니다. | 연결되지 않은 조회는 하나의 반환 포트를 지정하고 각 행에서 하나의 열을 반환합니다. |
18) 데이터소스뷰란 무엇인지 설명해주세요.
데이터 소스 뷰를 사용하면 분석 서비스 데이터베이스에서 사용될 관계형 스키마를 정의할 수 있습니다. 차원과 큐브는 데이터 원본 개체에서 직접 생성되는 대신 데이터 원본 뷰에서 생성됩니다.
19) OLAP 도구와 ETL 도구의 차이점을 설명해주세요.
ETL과 OLAP 도구의 차이점은
ETL 도구 레거시 시스템에서 데이터를 추출하고 일부 데이터 정리 프로세스를 통해 지정된 데이터베이스에 로드하는 것을 의미합니다.
예: 데이터 스테이지, Informatica 등
OLAP은 다방향 모델에서 사용 가능한 OLAP 데이터의 보고 목적으로 사용됩니다.
예: 비즈니스 객체, Cognos 등
20) 추출 방법 SAP Informatica를 사용하는 데이터?
- 추출한 전원 연결 옵션을 사용하면 SAP 인포매티카를 사용한 데이터
- PowerConnect 도구 설치 및 구성
- 소스를 소스 분석기로 가져옵니다. Informatica와 SAP Powerconnect는 게이트웨이 역할을 합니다. 다음 단계는 매핑을 위한 ABAP 코드를 생성하는 것입니다. 그러면 Informatica만이 데이터를 가져올 수 있습니다. SAP
- 외부 시스템에서 소스를 연결하고 가져오려면 Power Connect가 사용됩니다.
21) 파워마트와 파워센터의 차이점을 언급해주세요.
파워 센터 | 파워마트 |
---|---|
엄청난 양의 데이터를 처리한다고 가정 | 적은 양의 데이터를 처리한다고 가정 |
다음과 같은 ERP 소스를 지원합니다. SAP, 피플 소프트 등 | ERP 소스를 지원하지 않습니다. |
로컬 및 글로벌 저장소를 지원합니다. | 로컬 저장소를 지원합니다. |
로컬을 글로벌 저장소로 변환합니다. | 로컬을 글로벌 저장소로 변환하는 사양이 없습니다. |
22) 대기 장소가 무엇이며 대기 장소의 목적은 무엇인지 설명하세요.
데이터 스테이징은 데이터웨어하우스 서버에 데이터를 임시로 보관하는 영역입니다. 데이터 스테이징에는 다음 단계가 포함됩니다.
- 소스 데이터 추출 및 데이터 변환(재구성)
- 데이터 변환(데이터 정리, 가치 변환)
- 대리 키 할당
23) 버스 스키마란 무엇입니까?
다양한 비즈니스 프로세스에서 공통 차원을 식별하기 위해 BUS 스키마가 사용됩니다. 이는 표준화된 정보 정의와 함께 규격을 준수하는 형태로 제공됩니다.
24) 데이터 삭제란 무엇인지 설명해주세요.
데이터 제거는 데이터 웨어하우스에서 데이터를 삭제하는 프로세스입니다. null 값이나 추가 공백이 있는 행과 같은 정크 데이터를 삭제합니다.
25) 스키마 개체가 무엇인지 설명하세요.
스키마 객체는 데이터베이스 데이터를 직접 참조하는 논리적 구조입니다. 스키마 객체에는 테이블, 뷰, 시퀀스 동의어, 인덱스, 클러스터, 함수 패키지 및 데이터베이스 링크가 포함됩니다.
26) Session, Worklet, Mapplet 및 Workflow라는 용어를 설명하세요.
- 맵렛: 변환 세트를 정렬하거나 생성합니다.
- 워크렛: 주어진 특정 작업 세트를 나타냅니다.
- 워크 플로우 : 서버에 작업 실행 방법을 알려주는 일련의 지침입니다.
- 세션: 소스에서 타겟으로 데이터를 이동하는 방법을 서버에 알려주는 매개변수 집합입니다.
이 인터뷰 질문은 당신의 비바(구술)에도 도움이 될 것입니다.