50 лучших вопросов и ответов на собеседовании по науке о данных (PDF)

Вот вопросы и ответы на собеседовании по Data Science как для новичков, так и для опытных кандидатов, желающих получить работу своей мечты.

 

Вопросы для собеседования по науке о данных для первокурсников

1. Что такое наука о данных?

Наука о данных — это область исследования, которая включает в себя извлечение информации из огромных объемов данных с использованием различных научных методов, алгоритмов и процессов. Это поможет вам обнаружить скрытые закономерности в необработанных данных. Термин «Наука о данных» появился в результате развития математической статистики, анализа данных и больших данных.


2. В чем разница между наукой о данных и машинным обучением?

Наука данных представляет собой комбинацию алгоритмов, инструментов и методов машинного обучения, которая помогает вам находить общие скрытые закономерности на основе исходных данных. Принимая во внимание, что машинное обучение — это отрасль информатики, которая занимается системным программированием для автоматического обучения и совершенствования с опытом.

Наука данных


3. Назовите три типа систематических ошибок, которые могут возникнуть во время выборки.

В процессе выборки существует три типа систематических ошибок:

  • Критерий отбора
  • Предвзятость недостаточного освещения
  • Уклон выживания

4. Обсудить алгоритм дерева решений.

Дерево решений — популярный алгоритм машинного обучения с учителем. Он в основном используется для регрессии и классификации. Это позволяет разбить набор данных на более мелкие подмножества. Дерево решений может обрабатывать как категориальные, так и числовые данные.


5. Что такое априорная вероятность и правдоподобие?

Априорная вероятность — это доля зависимой переменной в наборе данных, а правдоподобие — это вероятность классификации данного наблюдателя в присутствии какой-либо другой переменной.


6. Объясните рекомендательные системы?

Это подкласс методов фильтрации информации. Это помогает вам предсказать предпочтения или оценки, которые пользователи могут дать продукту.


7. Назовите три недостатка использования линейной модели.

Три недостатка линейной модели:

  • Предположение о линейности ошибок.
  • Вы не можете использовать эту модель для двоичных или счетных результатов.
  • Существует множество проблем переобучения, которые он не может решить.

8. Зачем нужно выполнять передискретизацию?

Повторная выборка выполняется в следующих случаях:

  • Оценка точности выборочной статистики путем случайного отбора с заменой из набора точек данных или использования подмножеств доступных данных.
  • Замена меток на точках данных при выполнении необходимых тестов.
  • Проверка моделей с использованием случайных подмножеств

9. Перечислите библиотеки в Python используется для анализа данных и научных вычислений.


10. Что такое анализ мощности?

Анализ мощности является неотъемлемой частью плана эксперимента. Это поможет вам определить размер выборки, необходимый для выяснения влияния заданного размера на причину с определенным уровнем достоверности. Это также позволяет вам использовать определенную вероятность в ограничении размера выборки.


11. Объясните совместную фильтрацию

Совместная фильтрация, используемая для поиска правильных шаблонов с помощью совместных точек зрения, нескольких источников данных и различных агентов.


12. Что такое предвзятость?

Смещение — это ошибка, возникшая в вашей модели из-за чрезмерного упрощения алгоритма машинного обучения». Это может привести к недостаточной оснащенности.


13. Обсудите «наивность» в наивном алгоритме Байеса?

Модель наивного алгоритма Байеса основана на теореме Байеса. Он описывает вероятность события. Он основан на предварительном знании условий, которые могут быть связаны с этим конкретным событием.


14. Что такое линейная регрессия?

Линейная регрессия — это метод статистического программирования, при котором оценка переменной «A» прогнозируется на основе оценки второй переменной «B». B называется переменной-предиктором, а A — критериальной переменной.


15. Укажите разницу между ожидаемым значением и средним значением.

У них не так много различий, но оба эти термина используются в разных контекстах. Среднее значение обычно упоминается, когда вы обсуждаете распределение вероятностей, тогда как ожидаемое значение упоминается в контексте случайной величины.


16. Какова цель проведения A/B-тестирования?

AB-тестирование используется для проведения случайных экспериментов с двумя переменными, A и B. Цель этого метода тестирования — выявить изменения на веб-странице, чтобы максимизировать или увеличить результат стратегии.


17. Что такое ансамблевое обучение?

Ансамбль — это метод объединения разнородной группы учащихся для импровизации над стабильностью и предсказательной силой модели. Два типа методов ансамблевого обучения:

мешковина

Метод пакетирования помогает вам реализовать похожих обучающихся на небольших выборках. Это поможет вам сделать более точные прогнозы.

Стимулирование

Повышение — это итеративный метод, который позволяет корректировать вес наблюдения в зависимости от последней классификации. Повышение уменьшает ошибку смещения и помогает создавать надежные прогнозные модели.


18. Объясните собственное значение и собственный вектор.

Собственные векторы предназначены для понимания линейных преобразований. Специалисту по обработке данных необходимо вычислить собственные векторы для ковариационной матрицы или корреляции. Собственные значения — это направления использования определенных действий линейного преобразования путем сжатия, переворота или растяжения.


19. Дайте определение термину перекрестная проверка.

Перекрестная проверка — это метод проверки, позволяющий оценить, как результаты статистического анализа будут обобщаться для независимого набора данных. Этот метод используется в тех случаях, когда цель прогнозируется и необходимо оценить, насколько точно будет выполнена модель.


20. Объясните шаги проекта анализа данных.

Ниже приведены важные этапы аналитического проекта:

  • Поймите проблему бизнеса
  • Изучите данные и внимательно изучите их.
  • Подготовьте данные для моделирования, найдя пропущенные значения и преобразовав переменные.
  • Запустите модель и проанализируйте результат больших данных.
  • Проверьте модель с новым набором данных.
  • Внедрите модель и отслеживайте результат, чтобы проанализировать эффективность модели за определенный период.

21. Обсудите искусственные нейронные сети.

Искусственные нейронные сети (ИНС) — это особый набор алгоритмов, которые произвели революцию в машинном обучении. Это помогает вам адаптироваться в соответствии с меняющимися входными данными. Таким образом, сеть генерирует наилучший возможный результат без изменения критериев вывода.


22. Что такое обратное распространение?

Обратное распространение ошибки — это суть обучения нейронной сети. Это метод настройки весов нейронной сети в зависимости от частоты ошибок, полученной в предыдущую эпоху. Правильная настройка помогает снизить частоту ошибок и сделать модель надежной за счет повышения ее обобщения.


23. Что такое случайный лес?

Случайный лес — это метод машинного обучения, который помогает выполнять все типы задач регрессии и классификации. Он также используется для обработки пропущенных значений и выбросов.


24. В чем важность предвзятости отбора?

Систематическая ошибка отбора возникает, когда не достигается конкретная рандомизация при выборе отдельных лиц, групп или данных для анализа. Это говорит о том, что данная выборка не совсем представляет популяцию, которую предполагалось проанализировать.


25. Что такое метод кластеризации K-средних?

Кластеризация K-средних является важным методом обучения без учителя. Это метод классификации данных с использованием определенного набора кластеров, который называется K-кластерами. Он используется для группировки, чтобы выявить сходство данных.


Вопросы на собеседовании с Data Scientist для опытных

26. Объясните разницу между наукой о данных и аналитикой данных.

Ученые, работающие с данными, должны анализировать данные, чтобы извлечь ценную информацию, которую аналитик данных может применить к реальным бизнес-сценариям. Основное различие между ними заключается в том, что специалисты по данным имеют больше технических знаний, чем бизнес-аналитики. Более того, им не нужно понимание бизнеса, необходимое для визуализации данных.


27. Объясните значение p?

Когда вы проводите проверку гипотезы в статистике, значение p позволяет вам определить силу ваших результатов. Это числовое число от 0 до 1. На основании значения оно поможет вам обозначить силу конкретного результата.


28. Дайте определение термину глубокое обучение.

Глубокое обучение — это подтип машинного обучения. Речь идет об алгоритмах, вдохновленных структурой, называемой искусственными нейронными сетями (ИНС).


29. Объясните метод сбора и анализа данных для использования социальных сетей для прогнозирования погодных условий.

Вы можете собирать данные социальных сетей, используя API Facebook, Twitter и Instagram. Например, для твиттера мы можем построить такие функции из каждого твита, как дата публикации в Твиттере, ретвиты, список подписчиков и т. д. Затем вы можете использовать многомерную модель временных рядов для прогнозирования погодных условий.


30. Когда нужно обновить алгоритм в Data science?

Вам необходимо обновить алгоритм в следующей ситуации:

  • Вы хотите, чтобы ваша модель данных развивалась как потоки данных с использованием инфраструктуры.
  • Базовый источник данных меняется, если он нестационарный

31. Что такое нормальное распределение

Нормальное распределение — это набор непрерывных переменных, разбросанных по нормальной кривой или в форме колоколообразной кривой. Вы можете рассматривать это как непрерывное распределение вероятностей, которое полезно в статистике. Полезно анализировать переменные и их взаимосвязи, когда мы используем кривую нормального распределения.


32. Какой язык лучше всего подходит для текстовой аналитики? Р или Python?

Python больше подойдет для текстовой аналитики, поскольку состоит из богатой библиотеки, известной как pandas. Это позволяет использовать высокоуровневый инструменты анализа данных и структуры данных, тогда как R не предлагает этой функции.


33. Объясните преимущества использования статистики специалистами по данным.

Статистика помогает специалисту по данным получить лучшее представление об ожиданиях клиентов. Используя статистический метод, ученые, работающие с данными, могут получить знания об интересе, поведении, вовлеченности, удержании потребителей и т. д. Это также поможет вам построить мощные модели данных для проверки определенных выводов и прогнозов.


34. Назовите различные типы фреймворков глубокого обучения.

  • Питорч
  • Microsoft Когнитивный инструментарий
  • TensorFlow
  • Кафе
  • Цепник
  • Keras

35. Объяснение автокодировщика

Автоэнкодеры — это обучающиеся сети. Это помогает вам преобразовывать входные данные в выходные с меньшим количеством ошибок. Это означает, что вы получите вывод, максимально приближенный к вводу.


36. Определить машину Больцмана.

Машины Больцмана — это простой алгоритм обучения. Это поможет вам обнаружить те функции, которые представляют собой сложные закономерности в обучающих данных. Этот алгоритм позволяет оптимизировать веса и количество для данной задачи.


37. Объясните, почему очистка данных важна и какой метод вы используете для поддержания чистоты данных.

Грязные данные часто приводят к неправильной внутренней информации, что может нанести ущерб перспективам любой организации. Например, если вы хотите провести целевую маркетинговую кампанию. Однако наши данные неверно говорят вам о том, что конкретный продукт будет востребован вашей целевой аудиторией; кампания провалится.


38. Что такое неравномерное и равномерное распределение?

Неравномерное распределение возникает, когда данные распределяются по любой из сторон графика, тогда как равномерное распределение определяется, когда распределение данных одинаково в диапазоне.


39. Когда в статической модели происходит недостаточное оснащение?

Недостаточное соответствие происходит, когда статистическая модель или алгоритм машинного обучения не могут уловить основную тенденцию данных.


40. Что такое обучение с подкреплением?

Обучение с подкреплением — это механизм обучения тому, как сопоставлять ситуации с действиями. Конечный результат должен помочь вам увеличить сигнал двоичного вознаграждения. В этом методе учащемуся не говорят, какое действие предпринять, а вместо этого он должен выяснить, какое действие предлагает максимальную награду. Поскольку этот метод основан на механизме вознаграждения/штрафа.


41. Назовите часто используемые алгоритмы.

Четыре наиболее часто используемых алгоритма Data Scientist:

  • Линейная регрессия
  • Логистическая регрессия
  • Случайный Лес
  • КНН

42. Что такое точность?

Точность является наиболее часто используемой метрикой ошибок в механизме классификации. Его диапазон от 0 до 1, где 1 соответствует 100 %.


43. Что такое одномерный анализ?

Анализ, который одновременно не применяется ни к одному атрибуту, известен как одномерный анализ. Boxсюжет широко используется, одномерная модель.


44. Как вы преодолеваете трудности с получением результатов?

Чтобы преодолеть проблемы, с которыми я столкнулся, необходимо поощрять обсуждение, демонстрировать лидерство и уважение к различным вариантам.


45. Объясните технику кластерной выборки в области науки о данных.

Метод кластерной выборки используется, когда сложно изучить распределение целевой совокупности и невозможно применить простую случайную выборку.


46. ​​Укажите разницу между набором проверки и набором тестов.

Набор проверки в основном рассматривается как часть обучающего набора, поскольку он используется для выбора параметров, что помогает избежать переобучения строящейся модели.

В то время как набор тестов используется для тестирования или оценки производительности обученной модели машинного обучения.


47. Объясните термин «Формула биномиальной вероятности»?

«Биномиальное распределение содержит вероятности каждого возможного успеха в N испытаниях для независимых событий, вероятность возникновения которых равна π».


48. Что такое отзыв?

Отзыв — это отношение истинно положительного показателя к фактическому положительному показателю. Оно варьируется от 0 до 1.


49. Обсудите нормальное распределение

Нормальное распределение распределено одинаково, поэтому среднее значение, медиана и мода равны.


50. Как можно выбрать важные переменные, работая над набором данных? Объяснять

Вы можете использовать следующие методы выбора переменных:

  • Удалите коррелирующие переменные, прежде чем выбирать важные переменные.
  • Используйте линейную регрессию и выберите переменные, которые зависят от этих значений p.
  • Используйте обратный, прямой выбор и пошаговый выбор
  • Используйте Xgboost, Random Forest и постройте диаграмму важности переменных.
  • Измерьте прирост информации для данного набора функций и выберите n лучших функций соответственно.

51. Можно ли уловить корреляцию между непрерывной и категориальной переменной?

Да, мы можем использовать метод ковариационного анализа, чтобы выявить связь между непрерывными и категориальными переменными.


52. Если рассматривать категориальную переменную как непрерывную, то модель прогнозирования станет лучше?

Да, категориальное значение следует рассматривать как непрерывную переменную только в том случае, если переменная является порядковой по своей природе. Так что это лучшая прогнозирующая модель.

Эти вопросы для собеседования также помогут вам в устной речи.