상위 50개 데이터 과학 인터뷰 질문 및 답변(PDF)

꿈의 직업을 얻기 위한 신입 지원자와 경험 많은 지원자를 위한 데이터 과학 면접 질문과 답변은 다음과 같습니다.

 

신입생을 위한 데이터 과학 인터뷰 질문

1. 데이터 과학이란 무엇입니까?

데이터 과학은 다양한 과학적 방법, 알고리즘 및 프로세스를 사용하여 방대한 양의 데이터에서 통찰력을 추출하는 연구 분야입니다. 원시 데이터에서 숨겨진 패턴을 발견하는 데 도움이 됩니다. 데이터 과학이라는 용어는 수학적 통계, 데이터 분석 및 빅 데이터의 진화로 인해 등장했습니다.


2. 데이터 과학과 머신러닝의 차이점은 무엇입니까?

데이터 과학 알고리즘, 도구, 머신 러닝 기술의 조합으로, 주어진 원시 데이터에서 공통적인 숨겨진 패턴을 찾는 데 도움이 됩니다. 반면 머신 러닝은 컴퓨터 과학의 한 분야로, 경험을 통해 자동으로 학습하고 개선하기 위한 시스템 프로그래밍을 다룹니다.

데이터 과학


3. 샘플링 중에 발생할 수 있는 편향의 세 가지 유형을 나열하십시오.

샘플링 과정에는 다음과 같은 세 가지 유형의 편향이 있습니다.

  • 선택 편향
  • 보장 편향 하에서
  • 생존 편향

4. 의사결정나무 알고리즘 논의

의사결정 트리는 널리 사용되는 지도 기계 학습 알고리즘입니다. 주로 회귀(Regression)와 분류(Classification)에 사용됩니다. 데이터세트를 더 작은 하위 집합으로 나눌 수 있습니다. 의사결정나무는 범주형 데이터와 숫자형 데이터를 모두 처리할 수 있습니다.


5. 사전 확률과 우도란 무엇입니까?

사전 확률은 데이터 세트에서 종속 변수의 비율이고 우도는 다른 변수가 있을 때 특정 관찰자를 분류할 확률입니다.


6. 추천 시스템에 대해 설명해주세요.

정보 필터링 기술의 하위 클래스입니다. 이는 사용자가 제품에 부여할 선호도나 평가를 예측하는 데 도움이 됩니다.


7. 선형 모델 사용의 세 가지 단점을 말해 보세요.

선형 모델의 세 가지 단점은 다음과 같습니다.

  • 오류의 선형성 가정.
  • 이진 또는 개수 결과에는 이 모델을 사용할 수 없습니다.
  • 해결할 수 없는 과적합 문제가 많이 있습니다.

8. 리샘플링을 수행해야 하는 이유는 무엇입니까?

리샘플링은 아래와 같은 경우에 수행됩니다.

  • 데이터 포인트 집합에서 임의로 추출하여 대체하거나 접근 가능한 데이터의 하위 집합을 사용하여 표본 통계의 정확도를 추정합니다.
  • 필요한 테스트를 수행할 때 데이터 포인트의 레이블 대체
  • 무작위 하위 집합을 사용하여 모델 검증

9. 다음의 라이브러리 목록을 확인하세요. Python 데이터 분석 및 과학 계산에 사용됩니다.


10. 전력 분석이란 무엇입니까?

검정력 분석은 실험 설계의 필수적인 부분입니다. 이는 특정 수준의 보증을 통해 원인으로부터 주어진 크기의 효과를 알아내는 데 필요한 표본 크기를 결정하는 데 도움이 됩니다. 또한 표본 크기 제약 조건에 특정 확률을 배포할 수도 있습니다.


11. 협업 필터링 설명

관점, 다중 데이터 소스, 다양한 에이전트를 협업하여 올바른 패턴을 검색하는 데 사용되는 협업 필터링입니다.


12. 편견이란 무엇입니까?

편향은 기계 학습 알고리즘이 지나치게 단순화되어 모델에 도입된 오류입니다." 과소적합으로 이어질 수 있습니다.


13. Naive Bayes 알고리즘의 'Naive'에 대해 논의하시겠습니까?

Naive Bayes 알고리즘 모델은 Bayes 정리를 기반으로 합니다. 사건의 확률을 설명합니다. 이는 특정 사건과 관련될 수 있는 조건에 대한 사전 지식을 기반으로 합니다.


14. 선형 회귀란 무엇입니까?

선형 회귀는 두 번째 변수 'B'의 점수로부터 변수 'A'의 점수를 예측하는 통계 프로그래밍 방법입니다. B를 예측 변수라고 하고 A를 기준 변수라고 합니다.


15. 기대값과 평균값의 차이를 명시하세요.

큰 차이는 없지만 두 용어는 서로 다른 맥락에서 사용됩니다. 평균값은 일반적으로 확률 분포를 논의할 때 참조되는 반면 기대값은 확률 변수의 맥락에서 참조됩니다.


16. A/B 테스트를 수행하는 목적은 무엇입니까?

AB 테스트는 A와 B라는 두 가지 변수를 사용하여 무작위 실험을 수행하는 데 사용됩니다. 이 테스트 방법의 목표는 웹 페이지의 변경 사항을 찾아 전략의 결과를 최대화하거나 높이는 것입니다.


17. 앙상블 학습이란 무엇입니까?

앙상블은 모델의 안정성과 예측력을 즉석에서 개선하기 위해 다양한 학습자 세트를 결합하는 방법입니다. Ensemble 학습 방법에는 두 가지 유형이 있습니다.

가방

배깅 방법은 작은 표본 모집단에 유사한 학습자를 구현하는 데 도움이 됩니다. 더 가까운 예측을 하는 데 도움이 됩니다.

증폭

부스팅은 마지막 분류에 따라 관찰의 가중치를 조정할 수 있는 반복적인 방법입니다. 부스팅은 편향 오류를 줄이고 강력한 예측 모델을 구축하는 데 도움이 됩니다.


18. 고유값과 고유벡터를 설명하세요.

고유벡터는 선형 변환을 이해하기 위한 것입니다. 데이터 과학자는 공분산 행렬 또는 상관 관계에 대한 고유 벡터를 계산해야 합니다. 고유값은 압축, 뒤집기 또는 늘이기 등의 특정 선형 변환 동작을 사용하는 방향입니다.


19. 교차 검증이라는 용어 정의

교차 검증은 통계 분석 결과가 독립 데이터세트에 대해 어떻게 일반화되는지 평가하기 위한 검증 기술입니다. 이 방법은 목표가 예측되는 배경에서 사용되며 모델이 얼마나 정확하게 달성할지 추정해야 합니다.


20. 데이터 분석 프로젝트의 단계를 설명하세요.

분석 프로젝트에 포함된 중요한 단계는 다음과 같습니다.

  • 비즈니스 문제 이해
  • 데이터를 탐색하고 신중하게 연구하십시오.
  • 누락된 값을 찾고 변수를 변환하여 모델링할 데이터를 준비합니다.
  • 모델을 실행하고 빅데이터 결과를 분석해 보세요.
  • 새로운 데이터 세트로 모델을 검증합니다.
  • 모델을 구현하고 결과를 추적하여 특정 기간 동안 모델의 성능을 분석합니다.

21. 인공 신경망 토론

인공 신경망(ANN)은 머신 러닝에 혁명을 일으킨 특별한 알고리즘 세트입니다. 변화하는 입력에 따라 적응하는 데 도움이 됩니다. 따라서 네트워크는 출력 기준을 재설계하지 않고도 가능한 최상의 결과를 생성합니다.


22. 역전파란 무엇입니까?

역전파는 신경망 훈련의 핵심입니다. 이전 에포크에서 얻은 오류율에 따라 신경망의 가중치를 조정하는 방법입니다. 을 적절하게 조정하면 오류율을 줄이고 일반화를 높여 모델을 안정적으로 만드는 데 도움이 됩니다.


23. 랜덤 포레스트란 무엇입니까?

랜덤 포레스트는 모든 유형의 회귀 및 분류 작업을 수행하는 데 도움이 되는 기계 학습 방법입니다. 결측값과 이상값을 처리하는 데에도 사용됩니다.


24. 선택 편향의 중요성은 무엇입니까?

선택 편향은 분석할 개인이나 그룹 또는 데이터를 선택할 때 구체적인 무작위화가 이루어지지 않을 때 발생합니다. 이는 주어진 표본이 분석 대상 모집단을 정확하게 나타내지 않는다는 것을 의미합니다.


25. K-means 클러스터링 방법이란 무엇입니까?

K-means 클러스터링은 중요한 비지도 학습 방법입니다. 이는 K 클러스터라고 하는 특정 클러스터 집합을 사용하여 데이터를 분류하는 기술입니다. 이는 데이터에서 유사성을 찾기 위한 그룹화에 사용됩니다.


경험자를 위한 데이터 과학자 인터뷰 질문

26. 데이터 과학과 데이터 분석의 차이점을 설명하세요

데이터 과학자는 데이터 분석가가 실제 비즈니스 시나리오에 적용할 수 있는 귀중한 통찰력을 추출하기 위해 데이터를 분할해야 합니다. 둘 사이의 주요 차이점은 데이터 과학자가 비즈니스 분석가보다 더 많은 기술 지식을 가지고 있다는 것입니다. 게다가 데이터 시각화에 필요한 비즈니스에 대한 이해도 필요하지 않습니다.


27. p-값에 대해 설명해주세요.

통계에서 가설 검정을 수행할 때 p-값을 사용하면 결과의 강도를 확인할 수 있습니다. 0과 1 사이의 숫자입니다. 이 값을 기준으로 특정 결과의 강도를 나타내는 데 도움이 됩니다.


28. 딥러닝이라는 용어를 정의하세요.

딥 러닝은 머신 러닝의 하위 유형입니다. 인공 신경망(ANN)이라는 구조에서 영감을 받은 알고리즘과 관련이 있습니다.


29. 소셜 미디어를 활용하여 기상 상황을 예측하기 위해 데이터를 수집하고 분석하는 방법을 설명하십시오.

Facebook, Twitter, Instagram의 API를 사용하여 소셜 미디어 데이터를 수집할 수 있습니다. 예를 들어 트위터의 경우 트윗 날짜, 리트윗, 팔로어 목록 등과 같은 각 트윗의 기능을 구성할 수 있습니다. 그런 다음 다변량 시계열 모델을 사용하여 날씨 조건을 예측할 수 있습니다.


30. 데이터 과학에서 알고리즘을 언제 업데이트해야 합니까?

다음과 같은 상황에서는 알고리즘을 업데이트해야 합니다.

  • 인프라를 사용하여 데이터 스트림으로 데이터 모델이 발전하기를 원합니다.
  • 기본 데이터 소스가 변경 중입니다. 정상성이 아닌 경우

31. 정규분포란?

정규 분포는 정규 곡선 또는 종형 곡선 형태로 퍼져 있는 연속 변수 집합입니다. 통계에 유용한 연속 확률 분포로 간주할 수 있습니다. 정규분포곡선을 사용할 때 변수와 그 관계를 분석하는 것이 유용합니다.


32. 텍스트 분석에 가장 적합한 언어는 무엇입니까? R 또는 Python?

Python Pandas로 알려진 풍부한 라이브러리로 구성되어 있으므로 텍스트 분석에 더 적합합니다. 높은 수준의 사용이 가능해집니다. 데이터 분석 도구 및 데이터 구조가 있지만 R은 이 기능을 제공하지 않습니다.


33. 데이터 과학자가 통계를 사용하면 얻을 수 있는 이점을 설명하세요.

통계는 데이터 과학자가 고객의 기대에 대해 더 나은 아이디어를 얻는 데 도움이 됩니다. 통계적 방법을 사용하여 데이터 과학자는 소비자 관심, 행동, 참여, 유지 등에 관한 지식을 얻을 수 있습니다. 또한 특정 추론 및 예측을 검증하기 위한 강력한 데이터 모델을 구축하는 데도 도움이 됩니다.


34. 다양한 유형의 딥러닝 프레임워크 이름

  • 파이 토치
  • Microsoft 인지 툴킷
  • TensorFlow
  • CAFFE
  • 연쇄
  • 케 라스

35.오토인코더에 대해 설명해주세요

오토인코더는 학습 네트워크입니다. 입력을 오류 수가 적은 출력으로 변환하는 데 도움이 됩니다. 즉, 출력이 입력에 가능한 한 가까워집니다.


36. 볼츠만 기계 정의

볼츠만 머신은 간단한 학습 알고리즘입니다. 훈련 데이터에서 복잡한 규칙성을 나타내는 피처를 발견하는 데 도움이 됩니다. 이 알고리즘을 사용하면 주어진 문제에 대한 가중치와 수량을 최적화할 수 있습니다.


37. 데이터 정리가 필수적인 이유와 깨끗한 데이터를 유지하기 위해 어떤 방법을 사용하는지 설명하십시오.

더러운 데이터는 종종 잘못된 내부로 이어져 조직의 전망을 손상시킬 수 있습니다. 예를 들어, 타겟 마케팅 캠페인을 실행하려는 경우입니다. 그러나 우리의 데이터는 특정 제품이 타겟 고객의 수요가 있을 것이라는 잘못된 정보를 제공합니다. 캠페인은 실패할 것입니다.


38. 치우친 분포와 균일 분포란 무엇입니까?

편향된 분포는 데이터가 플롯의 어느 한쪽에 분포되어 있는 경우 발생하는 반면 균일 분포는 데이터가 범위 내에서 동일할 때 식별됩니다.


39. 정적 모델에서 과소적합이 발생하는 경우는 무엇입니까?

과소적합은 통계 모델이나 기계 학습 알고리즘이 데이터의 기본 추세를 포착할 수 없을 때 발생합니다.


40. 강화 학습이란 무엇입니까?

강화 학습은 상황을 행동으로 매핑하는 방법에 대한 학습 메커니즘입니다. 최종 결과는 바이너리 보상 신호를 높이는 데 도움이 될 것입니다. 이 방법에서는 학습자에게 어떤 행동을 취해야 하는지 알려주는 대신 어떤 행동이 최대 보상을 제공하는지 발견해야 합니다. 보상/벌칙 메커니즘을 기반으로 하는 방법입니다.


41. 일반적으로 사용되는 알고리즘의 이름을 말하세요.

데이터 과학자가 가장 일반적으로 사용하는 네 가지 알고리즘은 다음과 같습니다.

  • 선형 회귀
  • 로지스틱 회귀
  • 랜덤 포레스트
  • KNN

42. 정밀도란 무엇입니까?

정밀도는 가장 일반적으로 사용되는 오류 측정 기준인 n 분류 메커니즘입니다. 범위는 0~1이며, 1은 100%를 나타냅니다.


43. 단변량 분석이란 무엇입니까?

한 번에 아무 속성에도 적용되지 않는 분석을 일변량 분석이라고 합니다. Box플롯은 널리 사용되는 단변량 모델입니다.


44. 연구 결과에 대한 어려움을 어떻게 극복합니까?

내가 찾은 문제를 극복하려면 토론을 장려하고 리더십을 보여주고 다양한 옵션을 존중해야 합니다.


45. 데이터 과학에서 클러스터 샘플링 기술을 설명하세요

군집 표본 추출 방법은 대상 모집단이 널리 퍼져 연구하기 어렵고, 단순 무작위 표본 추출을 적용할 수 없는 경우에 사용됩니다.


46. ​​검증 세트와 테스트 세트의 차이점 설명

검증 세트는 구축 중인 모델의 과적합을 방지하는 데 도움이 되는 매개변수 선택에 사용되므로 대부분 훈련 세트의 일부로 간주됩니다.

테스트 세트는 훈련된 기계 학습 모델의 성능을 테스트하거나 평가하는 데 사용됩니다.


47. 이항 확률 공식이라는 용어를 설명하십시오.

"이항 분포에는 발생할 확률이 π인 독립적인 사건에 대한 N번 시도에서 가능한 모든 성공 확률이 포함됩니다."


48. 리콜이란 무엇입니까?

재현율은 실제 양성률에 대한 참양성률의 비율입니다. 범위는 0에서 1까지입니다.


49. 정규분포에 대해 토론하라

평균, 중앙값 및 최빈값이 동일하므로 균등하게 분포된 정규 분포입니다.


50. 데이터 세트 작업 중에 중요한 변수를 어떻게 선택할 수 있습니까? 설명하다

다음과 같은 변수 선택 방법을 사용할 수 있습니다.

  • 중요한 변수를 선택하기 전에 상관 변수를 제거하십시오.
  • 선형 회귀를 사용하고 해당 p 값에 의존하는 변수를 선택하십시오.
  • 후방 선택, 전방 선택 및 단계별 선택 사용
  • Xgboost, Random Forest 및 플롯 변수 중요도 차트를 사용합니다.
  • 주어진 기능 세트에 대한 정보 이득을 측정하고 그에 따라 상위 n 기능을 선택합니다.

51. 연속형 변수와 범주형 변수 사이의 상관관계를 파악하는 것이 가능한가요?

예, 공분산 분석 기술을 사용하여 연속형 변수와 범주형 변수 간의 연관성을 파악할 수 있습니다.


52. 범주형 변수를 연속형 변수로 처리하면 더 나은 예측 모델을 얻을 수 있습니까?

예, 범주형 값은 변수가 본질적으로 순서형인 경우에만 연속형 변수로 간주되어야 합니다. 따라서 더 나은 예측 모델입니다.

이 인터뷰 질문은 당신의 비바(구술)에도 도움이 될 것입니다.