50 найкращих запитань і відповідей на інтерв’ю Data Science (PDF)

Ось питання та відповіді на співбесіді з Data Science для нових і досвідчених кандидатів, щоб отримати роботу своєї мрії.

 

Запитання для співбесіди з науковими даними для першокурсників

1. Що таке Data Science?

Наука про дані – це область дослідження, яка передбачає отримання інформації з величезних масивів даних за допомогою різних наукових методів, алгоритмів і процесів. Це допомагає вам виявити приховані закономірності в необроблених даних. Термін Data Science з’явився внаслідок еволюції математичної статистики, аналізу даних і великих даних.


2. Яка різниця між наукою про дані та машинним навчанням?

наука даних це поєднання алгоритмів, інструментів і технік машинного навчання, які допомагають вам знаходити загальні приховані закономірності з заданих необроблених даних. Тоді як машинне навчання – це галузь інформатики, яка займається системним програмуванням для автоматичного навчання та вдосконалення з досвідом.

наука даних


3. Назвіть три типи зміщень, які можуть виникнути під час відбору проб

У процесі вибірки існує три типи зміщень, а саме:

  • Упередженість відбору
  • Недостатнє упередження
  • Упередженість виживання

4. Обговоріть алгоритм дерева рішень

Дерево рішень — це популярний контрольований алгоритм машинного навчання. Він в основному використовується для регресії та класифікації. Це дозволяє розбити набір даних на менші підмножини. Дерево рішень може обробляти як категоріальні, так і числові дані.


5. Що таке попередня ймовірність і ймовірність?

Попередня ймовірність — це частка залежної змінної в наборі даних, а ймовірність — це ймовірність класифікації даного спостережника за наявності іншої змінної.


6. Поясніть системи рекомендацій?

Це підклас методів фільтрації інформації. Це допомагає передбачити переваги або оцінки, які користувачі, ймовірно, дадуть продукту.


7. Назвіть три недоліки використання лінійної моделі

Три недоліки лінійної моделі:

  • Припущення про лінійність похибок.
  • Цю модель не можна використовувати для результатів у двійковому чи підрахунковому вигляді
  • Є багато проблем із переобладнанням, які він не може вирішити

8. Для чого потрібно виконувати ресемплінг?

Повторний відбір проводиться в наведених нижче випадках:

  • Оцінка точності вибіркової статистики шляхом випадкового відбору із заміною з набору точок даних або використання як підмножини доступних даних
  • Заміна міток на точках даних при виконанні необхідних тестів
  • Перевірка моделей за допомогою випадкових підмножин

9. Перелічіть бібліотеки в Python використовується для аналізу даних і наукових обчислень.


10. Що таке аналіз потужності?

Аналіз потужності є невід’ємною частиною плану експерименту. Це допомагає вам визначити розмір вибірки, необхідний для з’ясування впливу певного розміру на причину з певним рівнем достовірності. Це також дозволяє розгорнути певну ймовірність у обмеженні розміру вибірки.


11. Поясніть спільну фільтрацію

Спільна фільтрація, яка використовується для пошуку правильних шаблонів за допомогою спільних точок зору, кількох джерел даних і різних агентів.


12. Що таке упередженість?

Зміщення – це помилка, допущена у вашу модель через надмірне спрощення алгоритму машинного навчання». Це може призвести до недоотримання.


13. Обговоріть «Наївний» алгоритм Наївного Байєса?

Модель простого алгоритму Байєса базується на теоремі Байєса. Він описує ймовірність події. Він базується на попередніх знаннях про умови, які можуть бути пов’язані з цією конкретною подією.


14. Що таке лінійна регресія?

Лінійна регресія — це метод статистичного програмування, у якому оцінка змінної «A» прогнозується на основі оцінки другої змінної «B». B називають змінною-предиктором, а A — змінною-критеріалом.


15. Вкажіть різницю між очікуваним значенням і середнім значенням

Між ними не так багато відмінностей, але обидва ці терміни використовуються в різних контекстах. Середнє значення зазвичай мається на увазі, коли ви обговорюєте розподіл ймовірностей, тоді як очікуване значення згадується в контексті випадкової змінної.


16. Яка мета проведення A/B тестування?

Тестування AB використовувалося для проведення випадкових експериментів із двома змінними, A та B. Мета цього методу тестування — знайти зміни на веб-сторінці, щоб максимізувати або збільшити результат стратегії.


17. Що таке ансамблеве навчання?

Ансамбль — це метод об’єднання різноманітних учнів разом для імпровізації щодо стабільності та прогностичної сили моделі. Два типи методів навчання в ансамблі:

Багування

Метод мішків допомагає вам застосовувати схожих учнів на невеликих вибірках. Це допоможе вам зробити точніші прогнози.

Підсилення

Підвищення — це ітеративний метод, який дозволяє регулювати вагу спостереження залежно від останньої класифікації. Підвищення зменшує помилку зміщення та допомагає вам створювати надійні прогнозні моделі.


18. Поясніть власне значення та власний вектор

Власні вектори призначені для розуміння лінійних перетворень. Фахівцю з обробки даних потрібно обчислити власні вектори для коваріаційної матриці або кореляції. Власні значення — це напрямки вздовж за допомогою конкретних актів лінійного перетворення шляхом стиснення, перевертання або розтягування.


19. Дайте визначення терміну перехресна перевірка

Перехресна перевірка — це метод перевірки для оцінки того, як результати статистичного аналізу будуть узагальнюватися для незалежного набору даних. Цей метод використовується в умовах, коли мета прогнозується, і потрібно оцінити, наскільки точно модель буде досягнута.


20. Поясніть кроки для проекту аналізу даних

Нижче наведено важливі етапи аналітичного проекту:

  • Зрозумійте проблему бізнесу
  • Вивчіть дані та уважно їх вивчіть.
  • Підготуйте дані для моделювання, знайшовши відсутні значення та перетворивши змінні.
  • Розпочніть запуск моделі та проаналізуйте результат Big data.
  • Перевірте модель за допомогою нового набору даних.
  • Впровадити модель і відстежити результат, щоб проаналізувати ефективність моделі за певний період.

21. Обговоріть штучні нейронні мережі

Штучні нейронні мережі (ШНМ) — це особливий набір алгоритмів, які зробили революцію в машинному навчанні. Це допомагає вам адаптуватися відповідно до змін вхідних даних. Таким чином, мережа генерує найкращий можливий результат без зміни критеріїв виходу.


22. Що таке зворотне поширення?

Зворотне розповсюдження є суттю навчання нейронної мережі. Це метод налаштування ваг нейронної мережі залежно від рівня помилок, отриманого в попередній період. Правильне налаштування допомагає зменшити кількість помилок і зробити модель надійною за рахунок збільшення її узагальнення.


23. Що таке випадковий ліс?

Випадковий ліс — це метод машинного навчання, який допомагає вам виконувати всі типи завдань регресії та класифікації. Він також використовується для обробки відсутніх значень і викидних значень.


24. Яка важливість упередженості відбору?

Зміщення відбору виникає, коли під час відбору окремих осіб, груп чи даних для аналізу не досягнуто спеціальної рандомізації. Це свідчить про те, що наведена вибірка не точно представляє популяцію, яку було призначено для аналізу.


25. Що таке метод кластеризації K-середніх?

Кластеризація K-означає важливий метод навчання без нагляду. Це метод класифікації даних за допомогою певного набору кластерів, який називається K кластерами. Він розгортається для групування, щоб виявити подібність даних.


Питання для співбесіди для досвідчених фахівців з даних

26. Поясніть різницю між Data Science та Data Analytics

Фахівцям із обробки даних потрібно розділяти дані, щоб отримати цінну інформацію, яку аналітик може застосувати до реальних бізнес-сценаріїв. Основна відмінність між ними полягає в тому, що дослідники даних мають більше технічних знань, ніж бізнес-аналітики. Крім того, їм не потрібне розуміння бізнесу, необхідного для візуалізації даних.


27. Поясніть р-значення?

Коли ви проводите перевірку гіпотези в статистиці, p-значення дозволяє визначити силу ваших результатів. Це числове число від 0 до 1. На основі значення воно допоможе вам позначити силу конкретного результату.


28. Дайте визначення терміну глибоке навчання

Глибоке навчання є підтипом машинного навчання. Це пов’язано з алгоритмами, натхненними структурою під назвою штучні нейронні мережі (ШНМ).


29. Поясніть метод збору та аналізу даних для використання соціальних мереж для прогнозування погодних умов.

Ви можете збирати дані соціальних мереж за допомогою Facebook, Twitter, API Instagram. Наприклад, для твітера ми можемо побудувати функцію з кожного твіту, як-от дату твіту, ретвіти, список підписників тощо. Потім ви можете використовувати модель багатовимірного часового ряду для прогнозування погодних умов.


30. Коли потрібно оновити алгоритм в Data science?

Вам потрібно оновити алгоритм у такій ситуації:

  • Ви хочете, щоб ваша модель даних розвивалася як потоки даних за допомогою інфраструктури
  • Базове джерело даних змінюється, якщо воно нестаціонарне

31. Що таке нормальний розподіл

Нормальний розподіл — це набір неперервних змінних, розподілених по нормальній кривій або у формі дзвоноподібної кривої. Ви можете розглядати це як безперервний розподіл ймовірностей, який корисний у статистиці. Корисно аналізувати змінні та їхні зв’язки, коли ми використовуємо криву нормального розподілу.


32. Яка мова найкраща для аналізу тексту? R або Python?

Python більше підходить для текстової аналітики, оскільки складається з багатої бібліотеки, відомої як pandas. Це дозволяє використовувати високорівневі інструменти аналізу даних і структури даних, тоді як R не пропонує цієї функції.


33. Поясніть переваги використання статистики Data Scientists

Статистика допомагає Data Scientist отримати краще уявлення про очікування клієнтів. За допомогою статистичного методу спеціалісти з даних можуть отримати знання щодо інтересів споживачів, поведінки, залученості, утримання тощо. Це також допоможе вам створити потужні моделі даних для перевірки певних висновків і прогнозів.


34. Назвіть різні типи Deep Learning Frameworks

  • Піторх
  • Microsoft Когнітивний інструментарій
  • TensorFlow
  • Кафе
  • Ланцюжок
  • Керас

35. Поясніть Auto-Encoder

Автокодери навчаються мережам. Це допомагає вам перетворювати вхідні дані на виходи з меншою кількістю помилок. Це означає, що вихідні дані будуть максимально наближеними до вхідних.


36. Дайте визначення машини Больцмана

Машини Больцмана - це простий алгоритм навчання. Це допомагає вам виявити ті особливості, які представляють складні закономірності в навчальних даних. Цей алгоритм дозволяє оптимізувати ваги та кількість для заданої задачі.


37. Поясніть, чому очищення даних є важливим і який метод ви використовуєте для підтримки чистоти даних

Брудні дані часто призводять до некоректного внутрішнього, що може зашкодити перспективам будь-якої організації. Наприклад, якщо ви хочете провести цільову маркетингову кампанію. Однак наші дані невірно говорять вам про те, що конкретний продукт буде користуватися попитом у вашої цільової аудиторії; кампанія провалиться.


38. Що таке спотворений і рівномірний розподіл?

Скошений розподіл виникає, коли дані розподіляються з будь-якої сторони графіка, тоді як рівномірний розподіл визначається, коли дані розподіляються однаково в діапазоні.


39. Коли виникає недооблаштування в статичній моделі?

Недостатність виникає, коли статистична модель або алгоритм машинного навчання не в змозі охопити основну тенденцію даних.


40. Що таке навчання з підкріпленням?

Навчання з підкріпленням — це механізм навчання тому, як зіставляти ситуації з діями. Кінцевий результат повинен допомогти вам збільшити двійковий сигнал винагороди. У цьому методі учневі не повідомляють, яку дію виконати, а замість цього він повинен визначити, яка дія пропонує максимальну винагороду. Оскільки цей метод заснований на механізмі винагороди/штрафу.


41. Назвіть часто використовувані алгоритми.

Чотири найпоширеніші алгоритми Data scientist:

  • Лінійна регресія
  • Логістична регресія
  • Випадковий ліс
  • КНН

42. Що таке точність?

Точність є найбільш часто використовуваним показником помилки в механізмі класифікації. Його діапазон становить від 0 до 1, де 1 означає 100%


43. Що таке однофакторний аналіз?

Аналіз, який не застосовується до жодного атрибута одночасно, називається однофакторним аналізом. BoxСюжет широко використовується, одноваріантна модель.


44. Як ви долаєте проблеми, пов'язані з вашими відкриттями?

Для того, щоб подолати труднощі мого відкриття, потрібно заохочувати дискусію, демонструвати лідерство та поважати різні варіанти.


45. Поясніть техніку кластерної вибірки в Data science

Метод кластерної вибірки використовується, коли важко вивчити цільову сукупність, а проста випадкова вибірка не може бути застосована.


46. ​​Вкажіть різницю між перевірочним набором і тестовим набором

Набір перевірки здебільшого вважається частиною навчального набору, оскільки він використовується для вибору параметрів, що допомагає вам уникнути переобладнання моделі, що будується.

У той час як тестовий набір використовується для тестування або оцінки продуктивності навченої моделі машинного навчання.


47. Поясніть термін формула біноміальної ймовірності?

«Біноміальний розподіл містить імовірності кожного можливого успіху в N випробуваннях для незалежних подій, які мають ймовірність π».


48. Що таке відкликання?

Відкликання – це відношення дійсного позитивного показника до фактичного позитивного показника. Він коливається від 0 до 1.


49. Обговоріть нормальний розподіл

Нормальний розподіл рівномірно розподілений, тому середнє, медіана та мода рівні.


50. Як під час роботи над набором даних вибрати важливі змінні? Поясніть

Ви можете використовувати наступні методи вибору змінних:

  • Видаліть корельовані змінні перед вибором важливих змінних
  • Використовуйте лінійну регресію та виберіть змінні, які залежать від цього значення p.
  • Використовуйте вибір у напрямку назад, вперед і поетапний вибір
  • Використовуйте Xgboost, Random Forest і побудуйте діаграму важливості змінної.
  • Виміряйте приріст інформації для заданого набору функцій і виберіть відповідно n найпопулярніших функцій.

51. Чи можна вловити кореляцію між безперервною та категоріальною змінною?

Так, ми можемо використовувати техніку коваріаційного аналізу, щоб виявити зв’язок між безперервними та категоріальними змінними.


52. Розгляд категоріальної змінної як безперервної змінної призведе до кращої прогнозної моделі?

Так, категоріальне значення слід розглядати як безперервну змінну лише тоді, коли змінна має порядковий характер. Отже, це краща прогностична модель.

Ці запитання для співбесіди також допоможуть вам у життєдіяльності (усному)