60년 2026개 이상의 데이터 엔지니어 인터뷰 질문 및 답변

다음은 꿈의 직업을 얻기 위한 경험이 풍부한 데이터 엔지니어 후보자를 위한 데이터 엔지니어링 면접 질문과 답변입니다.

 

신입생을 위한 데이터 엔지니어 인터뷰 질문

1) 데이터 엔지니어링에 대해 설명해보세요.

데이터 엔지니어링은 빅데이터에 사용되는 용어입니다. 이는 데이터 수집 및 연구의 적용에 중점을 둡니다. 다양한 소스에서 생성된 데이터는 원시 데이터일 뿐입니다. 데이터 엔지니어링은 이러한 원시 데이터를 유용한 정보로 변환하는 데 도움이 됩니다.


2) 데이터 모델링이란 무엇입니까?

데이터 모델링 복잡한 소프트웨어 설계를 누구나 쉽게 이해할 수 있도록 다이어그램으로 문서화하는 방법입니다. 다양한 데이터 객체와 규칙 간에 연관된 데이터 객체의 개념적 표현입니다.

데이터 모델링


3) 데이터 모델링의 다양한 유형의 디자인 스키마 나열

데이터 모델링에는 크게 1) Star 스키마와 2) Snowflake 스키마의 두 가지 유형이 있습니다.


4) 정형 데이터와 비정형 데이터 구별

구조화된 데이터와 구조화되지 않은 데이터의 차이점은 다음과 같습니다.

매개 변수 구조화 된 데이터 비정형 데이터
스토리지 DBMS 관리되지 않는 파일 구조
Standard ADO.net, ODBC 및 SQL STMP, XML, CSV 및 SMS
통합 도구 ELT(추출, 변환, 로드) 코드를 포함하는 수동 데이터 입력 또는 일괄 처리
스케일링 스키마 확장이 어렵습니다. 스케일링은 매우 쉽습니다.

5) Hadoop 애플리케이션의 모든 구성요소를 설명합니다.

다음은 Hadoop 애플리케이션의 구성 요소:

Hadoop 생태계 및 구성 요소

  • 하둡 공통: Hadoop에서 사용하는 공통 유틸리티 및 라이브러리 세트입니다.
  • HDFS: 이 Hadoop 애플리케이션은 Hadoop 데이터가 저장되는 파일 시스템과 관련됩니다. 높은 대역폭을 갖는 분산 파일 시스템입니다.
  • Hadoop 맵리듀스: 대규모 데이터 처리 제공을 위한 알고리즘을 기반으로 합니다.
  • 하둡 원사: Hadoop 클러스터 내의 리소스 관리에 사용됩니다. 또한 사용자의 작업 스케줄링에도 사용할 수 있습니다.

6) 네임노드란 무엇입니까?

HDFS의 중심입니다. HDFS의 데이터를 저장하고 클러스터 전체에서 다양한 파일을 추적합니다. 여기서 실제 데이터는 저장되지 않습니다. 데이터는 DataNodes에 저장됩니다.


7) Hadoop 스트리밍 정의

지도를 만들고 작업을 줄여 특정 클러스터에 제출할 수 있는 유틸리티입니다.


8) HDFS의 전체 형태는 무엇입니까?

HDFS는 하둡 분산 파일 시스템을 의미합니다.


9) HDFS에서 블록 및 블록 스캐너 정의

블록은 데이터 파일의 가장 작은 단위입니다. Hadoop은 대용량 파일을 자동으로 작은 조각으로 분할합니다.

블록 스캐너는 DataNode에 표시되는 블록 목록을 확인합니다.


10) Block Scanner가 손상된 데이터 블록을 감지하면 어떤 단계가 발생합니까?

Block Scanner가 손상된 데이터 블록을 찾으면 다음 단계가 수행됩니다.

1) 먼저, Block Scanner가 손상된 데이터 블록을 발견하면 DataNode가 NameNode에 보고합니다.

2) NameNode는 손상된 블록의 복제본을 사용하여 새 복제본을 생성하는 프로세스를 시작합니다.

3) 올바른 복제본의 복제 횟수가 복제 인자와 일치하도록 시도합니다. 일치하는 항목이 발견되면 손상된 데이터 블록은 삭제되지 않습니다.


11) NameNode가 DataNode로부터 얻는 두 가지 메시지는 무엇입니까?

NameNode가 DataNode에서 가져오는 두 가지 메시지가 있습니다. 1) 블록 보고와 2) 하트비트입니다.


12) Hadoop의 다양한 XML 구성 파일을 나열합니까?

Hadoop에는 XNUMX개의 XML 구성 파일이 있습니다.

  • Mapred 사이트
  • 핵심 사이트
  • HDFS 사이트
  • 원사 사이트

13) 빅데이터의 XNUMXV는 무엇인가요?

빅데이터의 XNUMXV는 다음과 같습니다.

  • 속도
  • 종류
  • 음량
  • 정확성

14) Hadoop의 기능을 설명하세요.

Hadoop의 중요한 기능은 다음과 같습니다.

  • 프리웨어로 제공되는 오픈 소스 프레임워크입니다.
  • Hadoop은 다양한 유형의 하드웨어와 호환되며 특정 노드 내의 새로운 하드웨어에 쉽게 액세스할 수 있습니다.
  • Hadoop은 보다 빠른 분산 데이터 처리를 지원합니다.
  • 이는 나머지 작업과 독립적인 클러스터에 데이터를 저장합니다.
  • Hadoop을 사용하면 서로 다른 노드가 있는 각 블록에 대해 3개의 복제본을 생성할 수 있습니다.

15) Reducer의 주요 메소드를 설명하세요.

  • setup(): 입력 데이터의 크기, 분산 캐시 등의 매개변수를 구성하는 데 사용됩니다.
  • cleanup(): 이 메서드는 임시 파일을 정리하는 데 사용됩니다.
  • Reduce(): 관련된 감소된 작업과 함께 키당 한 번씩 호출되는 감속기의 핵심입니다.

16) COSHH의 약자는 무엇인가요?

COSHH는 이기종 Hadoop 시스템을 위한 분류 및 최적화 기반 일정의 약자입니다.


17) 스타 스키마 설명

스타 스키마 또는 Star Join 스키마는 가장 간단한 유형의 데이터 웨어하우스 스키마입니다. 구조가 별과 비슷하기 때문에 스타 스키마라고도 합니다. Star 스키마에서 별의 중심에는 하나의 사실 테이블과 여러 개의 관련 차원 테이블이 있을 수 있습니다. 이 스키마는 대규모 데이터 세트를 쿼리하는 데 사용됩니다.


18) 빅데이터 솔루션을 배포하는 방법은 무엇입니까?

빅데이터 솔루션을 배포하려면 다음 단계를 따르세요.

1) RDBMS와 같은 데이터 소스를 사용하여 데이터를 통합하고, SAP, MySQL, 세일즈 포스
2) 추출된 데이터를 NoSQL 데이터베이스 또는 HDFS에 저장합니다.
3) Pig와 같은 처리 프레임워크를 사용하여 빅데이터 솔루션을 배포합니다. Spark및 맵리듀스.


19) FSCK 설명

파일 시스템 검사 또는 FSCK는 HDFS에서 사용하는 명령입니다. FSCK 명령은 파일의 불일치 및 문제를 확인하는 데 사용됩니다.


20) 눈송이 스키마 설명

A 눈송이 스키마 스타 스키마의 확장이며 추가 차원을 추가합니다. 눈꽃(Snowflake)의 모양이 눈꽃(Snowflake)과 같다고 하여 눈꽃(Snowflake)이라고 불립니다. 차원 테이블은 정규화되어 데이터를 추가 테이블로 분할합니다.


21) 별 스키마와 눈송이 스키마 구별

눈송이 스키마
차원 계층은 차원 테이블에 저장됩니다. 각 계층 구조는 별도의 테이블에 저장됩니다.
데이터 중복 가능성이 높습니다. 데이터 중복 가능성은 낮습니다.
매우 단순한 DB 디자인을 가지고 있습니다. 복잡한 DB 디자인을 가지고 있습니다
큐브 처리를 위한 더 빠른 방법 제공 복잡한 조인으로 인해 큐브 처리가 느립니다.

22) Hadoop 분산 파일 시스템 설명

Hadoop은 S3, HFTP FS, FS, HDFS와 같은 확장 가능한 분산 파일 시스템과 함께 작동합니다. Hadoop 분산 파일 시스템은 Google 파일 시스템에서 만들어졌습니다. 이 파일 시스템은 컴퓨터 시스템의 대규모 클러스터에서 쉽게 실행할 수 있도록 설계되었습니다.


23) 데이터 엔지니어의 주요 책임을 설명하세요.

데이터 엔지니어는 많은 책임을 맡습니다. 그들은 데이터의 소스 시스템을 관리합니다. 데이터 엔지니어는 복잡한 데이터 구조를 단순화하고 데이터 중복을 방지합니다. 많은 경우 ELT 및 데이터 변환도 제공합니다.


24) YARN의 전체 형태는 무엇입니까?

YARN의 전체 형태는 Yet Another Resource Negotiator입니다.


25) Hadoop의 다양한 모드 나열

Hadoop의 모드는 1) 독립형 모드 2) 의사 분산 모드 3) 완전 분산 모드입니다.


26) Hadoop에서 보안을 달성하는 방법은 무엇입니까?

Hadoop에서 보안을 구축하려면 다음 단계를 수행하세요.

1) 첫 번째 단계는 클라이언트의 인증 채널을 서버에 확보하는 것입니다. 클라이언트에게 타임스탬프를 제공합니다.
2) 두 번째 단계에서 클라이언트는 수신된 타임스탬프를 사용하여 TGS에 서비스 티켓을 요청합니다.
3) 마지막 단계에서 클라이언트는 특정 서버에 대한 자기 인증을 위해 서비스 티켓을 사용합니다.


27) Hadoop의 하트비트란 무엇입니까?

Hadoop에서는 NameNode와 DataNode가 서로 통신합니다. 하트비트는 DataNode가 NameNode의 존재를 표시하기 위해 정기적으로 보내는 신호입니다.


28) Hadoop에서 NAS와 DAS 구별

NAS DAS
저장 용량은 10입니다.9 10로12 바이트로. 저장 용량은 10입니다.9 바이트로.
GB당 관리 비용은 보통 수준입니다. GB당 관리 비용이 높습니다.
이더넷이나 TCP/IP를 사용하여 데이터를 전송합니다. IDE/SCSI를 사용하여 데이터 전송

29) 데이터 엔지니어가 사용하는 중요한 필드 또는 언어 나열

다음은 데이터 엔지니어가 사용하는 몇 가지 필드 또는 언어입니다.

  • 확률과 선형대수학
  • 기계 학습
  • 추세 분석 및 회귀
  • Hive QL 및 SQL 데이터베이스

30) 빅데이터란 무엇인가?

이는 기존의 데이터 저장 방식으로는 쉽게 처리할 수 없는 대량의 정형 및 비정형 데이터입니다. 데이터 엔지니어는 Hadoop을 사용하여 빅데이터를 관리하고 있습니다.


경험자를 위한 데이터 엔지니어 인터뷰 질문

31) FIFO 스케줄링이란 무엇입니까?

Hadoop 작업 스케줄링 알고리즘입니다. 이 FIFO 스케줄링에서 보고자는 작업 대기열에서 가장 오래된 작업부터 선택합니다.


32) Hadoop에서 작업 추적기, NameNode 및 작업 추적기가 실행되는 기본 포트 번호를 언급하세요.

Hadoop에서 작업 추적기, NameNode 및 작업 추적기가 실행되는 기본 포트 번호는 다음과 같습니다.

  • 작업 추적기는 50060 포트에서 실행됩니다.
  • NameNode는 50070 포트에서 실행됩니다.
  • Job Tracker는 50030 포트에서 실행됩니다.

33) HDFS 데이터 노드에서 블록 스캐너를 비활성화하는 방법

HDFS 데이터 노드에서 블록 스캐너를 비활성화하려면 dfs.datanode.scan.period.hours를 0으로 설정합니다.


34) Hadoop에서 두 노드 사이의 거리를 어떻게 정의합니까?

거리는 가장 가까운 노드까지의 거리의 합과 같습니다. getDistance() 메소드는 두 노드 사이의 거리를 계산하는 데 사용됩니다.


35) Hadoop에서 상용 하드웨어를 사용하는 이유는 무엇입니까?

상용 하드웨어는 구하기 쉽고 저렴합니다. 호환되는 시스템입니다. Windows, MS-DOS 또는 Linux.


36) HDFS에서 복제 인자 정의

복제 인수는 시스템에 있는 파일의 총 복제본 수입니다.


37) 네임노드에는 어떤 데이터가 저장되나요?

네임노드는 블록 정보, 네임스페이스 정보와 같은 HDFS에 대한 메타데이터를 저장합니다.


38) 랙 인식이란 무엇을 의미합니까?

Haddop 클러스터에서 Namenode는 Datanode를 사용하여 근처 랙에 더 가까운 파일을 읽거나 쓰는 동안 네트워크 트래픽을 개선하여 Read 또는 Write 요청을 수행합니다. Namenode는 각 DataNode의 랙 ID를 유지하여 랙 정보를 얻습니다. 이 개념을 Hadoop에서는 랙 인식이라고 합니다.


39) 보조 네임노드의 기능은 무엇입니까?

Secondary NameNode의 기능은 다음과 같습니다.

  • EditLog 및 FsImage 파일의 복사본을 저장하는 FsImage.
  • NameNode 충돌: NameNode가 충돌하면 보조 NameNode의 FsImage를 사용하여 NameNode를 다시 만들 수 있습니다.
  • 체크포인트: HDFS에서 데이터가 손상되지 않았는지 확인하기 위해 보조 NameNode에서 사용됩니다.
  • 업데이트: EditLog 및 FsImage 파일을 자동으로 업데이트합니다. 보조 NameNode의 FsImage 파일을 업데이트된 상태로 유지하는 데 도움이 됩니다.

40) NameNode가 다운되고 사용자가 새 작업을 제출하면 어떻게 되나요?

NameNode는 Hadoop의 단일 실패 지점이므로 사용자가 새 작업을 제출할 수 없고 실행할 수 없습니다. NameNode가 다운되면 작업이 실패할 수 있습니다. 왜냐하면 이 사용자는 작업을 실행하기 전에 NameNode가 다시 시작될 때까지 기다려야 하기 때문입니다.


41) Hadoop에서 리듀서의 기본 단계는 무엇입니까?

Hadoop에는 감속기의 세 가지 기본 단계가 있습니다.

1. Shuffle: 여기서 Reducer는 Mapper의 출력을 복사합니다.

2. 정렬: 정렬 시 Hadoop은 동일한 키를 사용하여 입력을 Reducer로 정렬합니다.

3. 축소: 이 단계에서는 키와 관련된 출력 값을 줄여 데이터를 최종 출력으로 통합합니다.


42) Hadoop이 Context 객체를 사용하는 이유는 무엇입니까?

Hadoop 프레임워크는 나머지 시스템과 상호 작용하기 위해 Mapper 클래스와 함께 Context 객체를 사용합니다. Context 객체는 생성자에서 시스템 구성 세부 정보와 작업을 가져옵니다.

setup(), cleanup() 및 map() 메서드에서 정보를 전달하기 위해 Context 객체를 사용합니다. 이 객체는 맵 작업 중에 중요한 정보를 사용할 수 있게 합니다.


43) Hadoop에서 결합자 정의

Map과 Reduce 사이의 선택적 단계입니다. Combiner는 Map 함수의 출력을 가져와 키 값 쌍을 만들고 Hadoop Reducer에 제출합니다. Combiner의 작업은 Map의 최종 결과를 동일한 키를 가진 요약 레코드로 요약하는 것입니다.


44) HDFS에서 사용할 수 있는 기본 복제 인자는 무엇입니까?

HDFS에서 사용할 수 있는 기본 복제 요소는 XNUMX개입니다. 기본 복제 인자는 각 데이터에 대해 XNUMX개의 복제본이 있음을 나타냅니다.


45) Hadoop에서 데이터 지역성은 무엇을 의미합니까?

빅데이터 시스템에서는 데이터의 크기가 엄청나기 때문에 네트워크를 통해 데이터를 이동하는 것은 의미가 없습니다. 이제 Hadoop은 계산을 데이터에 더 가깝게 이동하려고 합니다. 이렇게 하면 데이터가 저장된 위치에 로컬로 유지됩니다.


46) HDFS에서 밸런서 정의

HDFS에서 밸런서는 관리 직원이 DataNode 전체에서 데이터의 균형을 재조정하고 블록을 과도하게 사용된 노드에서 덜 사용된 노드로 이동하는 데 사용되는 관리 역할입니다.


47) HDFS의 안전 모드 설명

클러스터에서 NameNode의 읽기 전용 모드입니다. 처음에 NameNode는 Safemode에 있습니다. Safemode에서 파일 시스템에 쓰는 것을 방지합니다. 이때 모든 DataNode에서 데이터와 통계를 수집합니다.


48) Apache Hadoop에서 분산 캐시의 중요성은 무엇입니까?

Hadoop에는 애플리케이션에서 사용하는 파일을 캐싱하여 작업 성능을 향상시키는 분산 캐시라는 유용한 유틸리티 기능이 있습니다. 애플리케이션은 JobConf 구성을 사용하여 캐시용 파일을 지정할 수 있습니다.

Hadoop 프레임워크는 이러한 파일을 작업이 실행되어야 하는 노드에 복제합니다. 이는 작업 실행이 시작되기 전에 수행됩니다. 분산 캐시는 읽기 전용 파일은 물론 zip, jar 파일의 배포도 지원합니다.


49) Hive의 Metastore란 무엇입니까?

스키마와 Hive 테이블 위치를 저장합니다.

Hive 테이블은 Metastore에 저장되는 정의, 매핑 및 메타데이터입니다. 이는 JPOX가 지원하는 RDBMS에 저장될 수 있습니다.


50) Hive에서 SerDe는 무엇을 의미합니까?

SerDe는 Serializer 또는 Deserializer의 약칭입니다. Hive에서 SerDe를 사용하면 테이블에서 원하는 형식으로 특정 필드에 데이터를 읽고 쓸 수 있습니다.


51) Hive 데이터 모델에서 사용할 수 있는 구성 요소 나열

Hive 데이터 모델에는 다음과 같은 구성 요소가 있습니다.

  • 테이블
  • 파티션
  • 버킷

52) Hadoop 생태계에서 Hive의 사용을 설명하세요.

Hive는 Hadoop 에코시스템에 저장된 데이터를 관리하는 인터페이스를 제공합니다. Hive는 HBase 테이블을 매핑하고 작업하는 데 사용됩니다. Hive 쿼리는 MapReduce 작업으로 변환되어 MapReduce 작업을 만들고 실행하는 데 관련된 복잡성을 숨깁니다.


53) Hive에서 지원하는 다양한 복합 데이터 유형/컬렉션을 나열하세요.

Hive는 다음과 같은 복잡한 데이터 유형을 지원합니다.

  • 지도
  • 구조
  • 배열
  • 노동 조합

54) Hive의 .hiverc 파일이 어떻게 사용되는지 설명해주세요.

Hive에서는 .hiverc가 초기화 파일입니다. 이 파일은 Hive용 명령줄 인터페이스(CLI)를 시작할 때 처음 로드됩니다. .hiverc 파일에서 매개변수의 초기값을 설정할 수 있습니다.


55) 단일 데이터 파일에 대해 Hive에서 두 개 이상의 테이블을 생성할 수 있습니까?

예, 데이터 파일에 대해 두 개 이상의 테이블 스키마를 생성할 수 있습니다. Hive는 Hive Metastore에 스키마를 저장합니다. 이 스키마를 기반으로 동일한 데이터에서 서로 다른 결과를 검색할 수 있습니다.


56) Hive에서 사용할 수 있는 다양한 SerDe 구현을 설명하세요.

Hive에는 많은 SerDe 구현이 있습니다. 사용자 정의 SerDe 구현을 직접 작성할 수도 있습니다. 다음은 몇 가지 유명한 SerDe 구현입니다.

  • OpenCSVSerde
  • 정규식 SerDe
  • 구분된JSONSerDe
  • ByteStreamTypedSerDe

57) Hive에서 사용할 수 있는 목록 테이블 생성 기능

다음은 테이블 생성 함수 목록입니다.

  • 분해(배열)
  • JSON_튜플()
  • 스택()
  • 분해(지도)

58) Hive의 Skewed 테이블이란 무엇입니까?

기울어진 테이블은 열 값을 더 자주 포함하는 테이블입니다. Hive에서는 생성 중에 테이블을 SKEWED로 지정하면 왜곡된 값이 별도의 파일에 기록되고 나머지 값은 다른 파일로 이동됩니다.


59) create 문으로 생성된 개체를 나열합니다. MySQL.

create 문으로 생성된 객체 MySQL 다음과 같습니다 :

  • 데이터베이스
  • 색인
  • 작업대
  • 사용자
  • 순서
  • 트리거
  • 이벤트
  • 관측
  • 함수

60) 데이터베이스 구조를 보는 방법 MySQL?

데이터베이스 구조를 보려면 MySQL, 당신이 사용할 수있는

DESCRIBE 명령. 이 명령의 구문은 다음과 같습니다. DESCRIBE Table name;.


데이터 엔지니어를 위한 SQL 인터뷰 질문

61) 특정 문자열을 검색하는 방법 MySQL 테이블 열?

정규식 연산자를 사용하여 문자열을 검색합니다. MySQL 열. 여기에서는 다양한 유형의 정규식을 정의하고 정규식을 사용하여 검색할 수도 있습니다.


62) 데이터 분석과 빅데이터가 어떻게 회사 수익을 증가시킬 수 있는지 설명해주세요.

데이터 분석과 빅데이터를 통해 회사 수익을 늘릴 수 있는 방법은 다음과 같습니다.

  • 데이터를 효율적으로 사용하여 비즈니스 성장을 확인하세요.
  • 고객 가치를 높입니다.
  • 인력 수준 예측을 개선하기 위해 분석을 전환합니다.
  • 조직의 생산 비용을 절감합니다.

이 인터뷰 질문은 당신의 비바(구술)에도 도움이 될 것입니다.

이 게시물을 요약하면 다음과 같습니다.