データ サイエンスのインタビュー トップ 50 の質問と回答 (PDF)
ここでは、夢の仕事に就くための、新人および経験豊富な候補者向けのデータ サイエンス面接の質問と回答を紹介します。
新人向けのデータ サイエンス面接の質問
1.データサイエンスとは何ですか?
データ サイエンスは、さまざまな科学的手法、アルゴリズム、プロセスを使用して膨大な量のデータから洞察を抽出する研究分野です。生データから隠れたパターンを発見するのに役立ちます。データ サイエンスという用語は、数理統計、データ分析、ビッグ データの進化により生まれました。
2. データサイエンスと機械学習の違いは何ですか?
データサイエンス アルゴリズム、ツール、機械学習技術の組み合わせであり、与えられた生データから共通の隠れたパターンを見つけるのに役立ちます。一方、機械学習は、経験によって自動的に学習し改善するシステムプログラミングを扱うコンピュータサイエンスの分野です。
3. サンプリング中に発生する可能性のあるバイアスを XNUMX 種類挙げてください
サンプリング プロセスには、次の XNUMX 種類のバイアスがあります。
- 選択バイアス
- アンダーカバレッジバイアス
- 生存バイアス
4. デシジョン ツリー アルゴリズムについて話し合う
デシジョン ツリーは、よく使われる教師あり機械学習アルゴリズムです。 主に回帰と分類に使用されます。 これにより、データセットをより小さなサブセットに分割できます。 デシジョン ツリーは、カテゴリ データと数値データの両方を処理できます。
5. 事前確率と尤度とは何ですか?
事前確率はデータセット内の従属変数の割合であり、尤度は他の変数の存在下で特定の観測値を分類する確率です。
6. レコメンダーシステムについて説明しますか?
これは、情報フィルタリング技術のサブクラスです。 これは、ユーザーが製品に与える可能性のある好みや評価を予測するのに役立ちます。
7. 線形モデルを使用する場合の欠点を XNUMX つ挙げてください
線形モデルの XNUMX つの欠点は次のとおりです。
- 誤差の線形性の仮定。
- このモデルはバイナリまたはカウントの結果には使用できません
- 解決できない過学習問題はたくさんあります
8. リサンプリングを実行する必要があるのはなぜですか?
リサンプリングは以下の場合に行われます。
- データポイントのセットからランダムに抽出して置換するか、アクセス可能なデータのサブセットとして使用してサンプル統計の精度を推定する
- 必要なテストを実行するときにデータポイントのラベルを置き換える
- ランダムなサブセットを使用したモデルの検証
9. ライブラリをリストアップする Python データ分析と科学的計算に使用されます。
10. 電力分析とは何ですか?
電力解析は実験計画に不可欠な部分です。 これは、原因から特定のサイズの影響を特定のレベルで保証するために必要なサンプル サイズを決定するのに役立ちます。 また、サンプル サイズの制約内で特定の確率を展開することもできます。
11. 協調フィルタリングについて説明する
協調フィルタリングは、視点、複数のデータ ソース、およびさまざまなエージェントを協調させることによって、正しいパターンを検索するために使用されます。
12. 偏見とは?
バイアスとは、機械学習アルゴリズムが過度に単純化されたためにモデルに導入されたエラーです。」 フィッティング不足につながる可能性があります。
13. ナイーブ ベイズ アルゴリズムの「ナイーブ」について議論しますか?
単純ベイズ アルゴリズム モデルは、ベイズの定理に基づいています。 事象の確率を表します。 それは、その特定のイベントに関連する可能性のある状況に関する事前の知識に基づいています。
14. 線形回帰とは何ですか?
線形回帰は、変数「A」のスコアが XNUMX 番目の変数「B」のスコアから予測される統計的プログラミング手法です。 B は予測変数、A は基準変数と呼ばれます。
15. 期待値と平均値の差を述べます
これらに大きな違いはありませんが、これらの用語はどちらも異なる文脈で使用されます。 平均値は通常、確率分布について議論するときに参照されますが、期待値は確率変数のコンテキストで参照されます。
16. A/B テストを実施する目的は何ですか?
AB テストは、A と B の XNUMX つの変数を使用してランダムな実験を実施するために使用されます。このテスト方法の目的は、戦略の結果を最大化または向上させるための Web ページへの変更を見つけることです。
17. アンサンブル学習とは何ですか?
アンサンブルは、多様な学習者のセットを組み合わせて、モデルの安定性と予測力を即興で高める方法です。 Ensemble の学習方法には次の XNUMX 種類があります。
バギング
バギング法は、小さなサンプル母集団に同様の学習器を実装するのに役立ちます。 より近い予測を行うのに役立ちます。
後押し
ブースティングは、最後の分類に応じて観測値の重みを調整できる反復的な方法です。ブースティングはバイアス エラーを減らし、強力な予測モデルの構築に役立ちます。
18. 固有値と固有ベクトルについて説明する
固有ベクトルは線形変換を理解するためのものです。 データ サイエンティストは、共分散行列または相関の固有ベクトルを計算する必要があります。 固有値は、圧縮、反転、またはストレッチによる特定の線形変換作用を使用した方向です。
19. 相互検証という用語の定義
相互検証は、統計分析の結果が独立したデータセットに対してどのように一般化されるかを評価するための検証手法です。 この方法は、目標が予測されるバックグラウンドで使用され、モデルがどの程度正確に達成できるかを推定する必要があります。
20. データ分析プロジェクトの手順を説明する
分析プロジェクトに含まれる重要な手順は次のとおりです。
- ビジネス上の問題を理解する
- データを探索し、注意深く研究してください。
- 欠損値を見つけて変数を変換することにより、モデリング用のデータを準備します。
- モデルの実行を開始し、ビッグ データの結果を分析します。
- 新しいデータセットを使用してモデルを検証します。
- モデルを実装し、結果を追跡して、特定の期間におけるモデルのパフォーマンスを分析します。
21. 人工ニューラルネットワークについて話し合う
人工ニューラル ネットワーク (ANN) は、機械学習に革命をもたらした特別なアルゴリズムのセットです。変化する入力に応じて適応するのに役立ちます。そのため、ネットワークは出力基準を再設計することなく、可能な限り最良の結果を生成します。
22. 逆伝播とは何ですか?
バックプロパゲーションはニューラル ネット トレーニングの本質です。 これは、前のエポックで得られたエラー率に応じてニューラル ネットの重みを調整する方法です。 を適切に調整すると、エラー率が減少し、一般化が強化されてモデルの信頼性が高まります。
23. ランダムフォレストとは何ですか?
ランダム フォレストは、あらゆる種類の回帰および分類タスクの実行に役立つ機械学習手法です。 欠損値や外れ値の処理にも使用されます。
24. 選択バイアスを持つことの重要性は何ですか?
選択バイアスは、分析対象の個人、グループ、またはデータを選択する際に特定のランダム化が達成されない場合に発生します。 これは、指定されたサンプルが分析対象の母集団を正確に表していないことを示唆しています。
25. K-means クラスタリング法とは何ですか?
K 平均法クラスタリングは、重要な教師なし学習法です。これは、K クラスターと呼ばれる特定のクラスター セットを使用してデータを分類する手法です。データの類似性を調べるためにグループ化するために使用されます。
経験者向けのデータ サイエンティストの面接の質問
26. データサイエンスとデータ分析の違いを説明する
データ サイエンティストは、データをスライスして、データ アナリストが現実世界のビジネス シナリオに適用できる貴重な洞察を抽出する必要があります。 XNUMX つの主な違いは、データ サイエンティストはビジネス アナリストよりも技術的な知識を持っていることです。 さらに、データの視覚化に必要なビジネスの理解は必要ありません。
27. p値について説明してください?
統計で仮説検定を実行する場合、p 値を使用して結果の強さを判断できます。 これは 0 から 1 までの数値です。この値に基づいて、特定の結果の強さを示すのに役立ちます。
28. 深層学習という用語の定義
ディープラーニングは機械学習のサブタイプです。人工ニューラルネットワーク (ANN) と呼ばれる構造にヒントを得たアルゴリズムに関係しています。
29. ソーシャルメディアを利用して気象状況を予測するためのデータの収集と分析の方法を説明します。
Facebook、twitter、Instagram の API を使用してソーシャル メディア データを収集できます。 たとえば、ツイート者の場合、ツイート日、リツイート、フォロワーのリストなどの各ツイートから特徴を構築できます。その後、多変量時系列モデルを使用して気象状況を予測できます。
30. データ サイエンスのアルゴリズムを更新する必要があるのはいつですか?
次の状況ではアルゴリズムを更新する必要があります。
- インフラストラクチャを使用してデータ モデルをデータ ストリームとして進化させたい
- 基礎となるデータ ソースが変化している場合、それが非定常である場合
31. 正規分布とは
正規分布は、正規曲線全体または釣鐘曲線の形状に広がる連続変数のセットです。 これは統計に役立つ連続確率分布と考えることができます。 正規分布曲線を使用する場合、変数とその関係を分析すると便利です。
32. テキスト分析に最適な言語はどれですか? Rまたは Python?
Python パンダと呼ばれる豊富なライブラリで構成されているため、テキスト分析に適しています。これにより、高レベルの データ分析ツール とデータ構造ですが、R はこの機能を提供しません。
33. データサイエンティストが統計を使用するメリットを説明する
統計は、データ サイエンティストが顧客の期待をよりよく理解するのに役立ちます。 統計手法を使用すると、データ サイエンティストは消費者の関心、行動、エンゲージメント、維持などに関する知識を得ることができます。また、特定の推論や予測を検証するための強力なデータ モデルを構築するのにも役立ちます。
34. さまざまなタイプの深層学習フレームワークに名前を付けます
- ピトーチ
- Microsoft コグニティブツールキット
- TensorFlow
- コーヒー
- チェーン
- ケラス
35.オートエンコーダーについて説明する
オートエンコーダは学習ネットワークです。これは、エラーの数を減らして入力を出力に変換するのに役立ちます。つまり、出力は可能な限り入力に近くなります。
36. ボルツマンマシンの定義
ボルツマン マシンはシンプルな学習アルゴリズムです。トレーニング データ内の複雑な規則性を表す特徴を発見するのに役立ちます。このアルゴリズムを使用すると、特定の問題に対する重みと量を最適化できます。
37. データ クレンジングが不可欠な理由と、クリーンなデータを維持するためにどの方法を使用するかを説明します
汚いデータは内部の不正につながることが多く、組織の将来性を損なう可能性があります。 たとえば、ターゲットを絞ったマーケティング キャンペーンを実行したい場合です。 しかし、私たちのデータは、特定の製品がターゲット ユーザーの間で需要があると誤って伝えています。 キャンペーンは失敗します。
38. 偏った分布と均一な分布とは何ですか?
偏った分布は、データがプロットのいずれかの側に分布している場合に発生しますが、一様な分布は、データの広がりが範囲内で等しい場合に識別されます。
39. 静的モデルでアンダーフィッティングが発生する場合は?
アンダーフィッティングは、統計モデルまたは機械学習アルゴリズムがデータの根本的な傾向を捕捉できない場合に発生します。
40. 強化学習とは何ですか?
強化学習は、状況を行動にマッピングする方法に関する学習メカニズムです。 最終結果は、バイナリ報酬シグナルの増加に役立つはずです。 この方法では、学習者はどの行動を取るべきかを指示されるのではなく、どの行動が最大の報酬をもたらすかを発見する必要があります。 この方法は報酬/ペナルティメカニズムに基づいています。
41. よく使われるアルゴリズムを挙げてください。
データ サイエンティストが最もよく使用する XNUMX つのアルゴリズムは次のとおりです。
- 線形回帰
- ロジスティック回帰
- ランダムフォレスト
- KNN
42. 精度とは何ですか?
精度は、分類メカニズムで最も一般的に使用されるエラー メトリックです。 範囲は 0 ~ 1 で、1 は 100% を表します。
43. 単変量解析とは何ですか?
一度にどの属性にも適用されない分析は、単変量分析として知られています。 Boxプロットは広く使用されている一変量モデルです。
44. 発見に対する課題をどのように克服しますか?
私の発見した課題を克服するには、議論を奨励し、リーダーシップを発揮し、さまざまな選択肢を尊重する必要があります。
45. データサイエンスにおけるクラスターサンプリング手法を説明する
クラスター サンプリング法は、対象集団が広範囲に広がっていることを調査するのが困難で、単純なランダム サンプリングを適用できない場合に使用されます。
46. 検証セットとテストセットの違いを説明する
検証セットは、構築中のモデルの過剰適合を回避するのに役立つパラメーターの選択に使用されるため、主にトレーニング セットの一部として考慮されます。
テスト セットは、トレーニングされた機械学習モデルのパフォーマンスをテストまたは評価するために使用されます。
47. 二項確率式という用語について説明しますか?
「二項分布には、発生確率が π である独立したイベントに対する N 回の試行におけるあらゆる成功の確率が含まれています。」
48. リコールとは何ですか?
リコールとは、実際の陽性率に対する真の陽性率の比率です。 範囲は 0 から 1 です。
49. 正規分布について議論する
正規分布は平均値、中央値、最頻値が等しいので均等に分布します。
50. データセットの作業中に重要な変数を選択するにはどうすればよいですか? 説明する
変数選択には次の方法を使用できます。
- 重要な変数を選択する前に相関変数を削除してください
- 線形回帰を使用し、その p 値に依存する変数を選択します。
- 後方選択、前方選択、段階的選択を使用する
- Xgboost、ランダム フォレストを使用し、変数重要度グラフをプロットします。
- 特定の特徴セットの情報ゲインを測定し、それに応じて上位 n 個の特徴を選択します。
51. 連続変数とカテゴリ変数の間の相関関係を捉えることは可能ですか?
はい、共分散分析手法を使用して、連続変数とカテゴリ変数の間の関連性を捉えることができます。
52. カテゴリ変数を連続変数として扱うと、より良い予測モデルが得られますか?
はい、カテゴリ値は、変数が本質的に序数である場合にのみ連続変数と見なされます。 したがって、これはより優れた予測モデルとなります。
これらの面接の質問は、あなたの活力(口頭)にも役立ちます