Топ 50 въпроса и отговора за интервю за Data Science (PDF)
Ето въпроси и отговори за интервю за Data Science за по-свежи и опитни кандидати, за да получат мечтаната работа.
Въпроси за интервю за Data Science за първокурсници
1. Какво е Data Science?
Data Science е област на изследване, която включва извличане на прозрения от огромни количества данни с помощта на различни научни методи, алгоритми и процеси. Помага ви да откриете скрити модели от необработените данни. Терминът Data Science се появи поради еволюцията на математическата статистика, анализа на данни и големите данни.
2. Каква е разликата между Data Science и Machine Learning?
Science Data е комбинация от алгоритми, инструменти и техника за машинно обучение, която ви помага да намерите общи скрити модели от дадените необработени данни. Докато машинното обучение е клон на компютърните науки, който се занимава със системно програмиране за автоматично учене и подобряване с опит.
3. Назовете три вида отклонения, които могат да възникнат по време на вземането на проби
В процеса на вземане на проби има три вида отклонения, които са:
- Отклонение при избора
- Недостатъчно покритие
- Пристрастие към оцеляването
4. Обсъдете алгоритъма на дървото на решенията
Дървото на решенията е популярен контролиран алгоритъм за машинно обучение. Използва се главно за регресия и класификация. Той позволява разделяне на набор от данни на по-малки подмножества. Дървото на решенията може да обработва както категорични, така и числови данни.
5. Какво е предварителна вероятност и вероятност?
Предишна вероятност е делът на зависимата променлива в набора от данни, докато вероятността е вероятността за класифициране на даден наблюдател в присъствието на друга променлива.
6. Обяснете системите за препоръчване?
Това е подклас от техники за филтриране на информация. Помага ви да предвидите предпочитанията или оценките, които потребителите вероятно ще дадат на даден продукт.
7. Посочете три недостатъка от използването на линеен модел
Три недостатъка на линейния модел са:
- Допускането за линейност на грешките.
- Не можете да използвате този модел за двоични или преброителни резултати
- Има много проблеми с прекомерното оборудване, които не може да реши
8. Защо трябва да извършите повторна проба?
Повторно вземане на проби се извършва в следните случаи:
- Оценяване на точността на извадкова статистика чрез теглене на случаен принцип със замяна от набор от точки от данни или използване като подмножества от достъпни данни
- Подмяна на етикети върху точки от данни при извършване на необходимите тестове
- Валидиране на модели чрез използване на произволни подмножества
9. Избройте библиотеките в Python използвани за анализ на данни и научни изчисления.
10. Какво е анализ на мощността?
Анализът на мощността е неразделна част от експерименталния план. Помага ви да определите размера на извадката, който е необходим, за да откриете ефекта на даден размер от причина със специфично ниво на сигурност. Той също така ви позволява да разположите определена вероятност в ограничение на размера на извадката.
11. Обяснете съвместното филтриране
Съвместно филтриране, използвано за търсене на правилни модели чрез съвместни гледни точки, множество източници на данни и различни агенти.
12. Какво е пристрастие?
Пристрастността е грешка, въведена във вашия модел поради прекаленото опростяване на алгоритъм за машинно обучение.“ Може да доведе до недостатъчно оборудване.
13. Обсъдете „Наивно“ в алгоритъм на Наивен Бейс?
Моделът на наивния алгоритъм на Bayes се основава на теоремата на Bayes. Описва вероятността от събитие. Базира се на предварителни познания за условия, които могат да бъдат свързани с това конкретно събитие.
14. Какво е линейна регресия?
Линейната регресия е метод за статистическо програмиране, при който резултатът на променлива „A“ се прогнозира от резултата на втора променлива „B“. B се нарича предикторна променлива, а A като критериална променлива.
15. Посочете разликата между очакваната стойност и средната стойност
Те не са много разлики, но и двата термина се използват в различен контекст. Средната стойност обикновено се споменава, когато обсъждате вероятностно разпределение, докато очакваната стойност се споменава в контекста на случайна променлива.
16. Каква е целта на провеждането на A/B тестване?
AB тестване, използвано за провеждане на произволни експерименти с две променливи, A и B. Целта на този метод на тестване е да се открият промени в уеб страница, за да се увеличи или увеличи резултатът от дадена стратегия.
17. Какво е ансамбълно обучение?
Ансамбълът е метод за комбиниране на разнообразен набор от обучаеми заедно, за да импровизират върху стабилността и предсказващата сила на модела. Два вида методи за обучение в ансамбъл са:
зебло
Методът на пакетиране ви помага да внедрите подобни обучаеми върху малки извадкови популации. Помага ви да правите по-близки прогнози.
Увеличаване
Повишаването е итеративен метод, който ви позволява да коригирате тежестта на наблюдение в зависимост от последната класификация. Увеличаването намалява грешката на отклонението и ви помага да изградите силни прогнозни модели.
18. Обяснете собствената стойност и собствения вектор
Собствените вектори са за разбиране на линейните трансформации. Специалистът по данни трябва да изчисли собствените вектори за ковариационна матрица или корелация. Собствените стойности са посоките, използващи специфични линейни трансформационни действия чрез компресиране, обръщане или разтягане.
19. Дефинирайте термина кръстосано валидиране
Кръстосаното валидиране е техника за валидиране за оценка на това как резултатите от статистическия анализ ще се обобщят за независим набор от данни. Този метод се използва в среди, където целта е прогнозирана и трябва да се прецени колко точно моделът ще я постигне.
20. Обяснете стъпките за проект за анализ на данни
Следните са важни стъпки, включени в един аналитичен проект:
- Разберете бизнес проблема
- Разгледайте данните и ги проучете внимателно.
- Подгответе данните за моделиране чрез намиране на липсващи стойности и трансформиране на променливи.
- Започнете да изпълнявате модела и анализирайте резултата от големи данни.
- Валидирайте модела с нов набор от данни.
- Внедрете модела и проследете резултата, за да анализирате ефективността на модела за определен период.
21. Обсъдете изкуствените невронни мрежи
Изкуствените невронни мрежи (ANN) са специален набор от алгоритми, които направиха революция в машинното обучение. Помага ви да се адаптирате според променящия се вход. Така че мрежата генерира възможно най-добрия резултат, без да препроектира изходните критерии.
22. Какво е обратно разпространение?
Обратното разпространение е същността на обучението на невронни мрежи. Това е методът за настройка на теглата на невронна мрежа в зависимост от процента на грешка, получен в предишната епоха. Правилната настройка на ви помага да намалите процента грешки и да направите модела надежден чрез увеличаване на неговата генерализация.
23. Какво е произволна гора?
Случайната гора е метод за машинно обучение, който ви помага да изпълнявате всички видове задачи за регресия и класификация. Използва се и за третиране на липсващи стойности и извънредни стойности.
24. Какво е значението на пристрастието при подбор?
Пристрастност при избора възниква, когато няма специфична рандомизация, постигната при избиране на индивиди, групи или данни за анализ. Това предполага, че дадената извадка не представлява точно популацията, която е била предназначена за анализ.
25. Какво представлява методът за групиране на K-средните?
K-означава клъстерирането е важен метод за обучение без надзор. Това е техниката за класифициране на данни с помощта на определен набор от клъстери, който се нарича K клъстери. Той се използва за групиране, за да се установи сходството в данните.
Въпроси за интервю за учен по данни за опитни
26. Обяснете разликата между Data Science и Data Analytics
Специалистите по данни трябва да разделят данните, за да извлекат ценни прозрения, които анализаторът на данни може да приложи към бизнес сценарии от реалния свят. Основната разлика между двете е, че учените по данни имат повече технически познания от бизнес анализаторите. Освен това те не се нуждаят от разбиране на бизнеса, необходим за визуализация на данни.
27. Обяснете p-стойността?
Когато провеждате тест на хипотеза в статистиката, p-стойността ви позволява да определите силата на вашите резултати. Това е цифрово число между 0 и 1. Въз основа на стойността ще ви помогне да означите силата на конкретния резултат.
28. Дефинирайте термина дълбоко обучение
Дълбокото обучение е подвид на машинното обучение. Занимава се с алгоритми, вдъхновени от структурата, наречена изкуствени невронни мрежи (ANN).
29. Обяснете метода за събиране и анализ на данни за използване на социалните медии за прогнозиране на метеорологичните условия.
Можете да събирате данни от социални медии, като използвате API на Facebook, twitter и Instagram. Например, за туитъра можем да изградим характеристика от всеки туит като дата на туитване, ретуитове, списък с последователи и т.н. След това можете да използвате модел на многовариантна времева серия, за да предвидите метеорологичните условия.
30. Кога трябва да актуализирате алгоритъма в Data science?
Трябва да актуализирате алгоритъм в следната ситуация:
- Искате вашият модел на данни да се развива като потоци от данни, използващи инфраструктура
- Основният източник на данни се променя, ако е нестационарен
31. Какво е нормално разпределение
Нормалното разпределение е набор от непрекъсната променлива, разположена върху нормална крива или във формата на камбановидна крива. Можете да го разглеждате като непрекъснато разпределение на вероятностите, което е полезно в статистиката. Полезно е да анализираме променливите и техните връзки, когато използваме кривата на нормалното разпределение.
32. Кой език е най-подходящ за текстови анализи? R или Python?
Python ще бъде по-подходящ за текстови анализи, тъй като се състои от богата библиотека, известна като pandas. Позволява ви да използвате високо ниво инструменти за анализ на данни и структури от данни, докато R не предлага тази функция.
33. Обяснете ползите от използването на статистика от Data Scientists
Статистиката помага на Data scientist да получи по-добра представа за очакванията на клиента. С помощта на статистическия метод специалистите по данни могат да получат информация относно потребителския интерес, поведение, ангажираност, задържане и т.н. Той също така ви помага да изградите мощни модели на данни за валидиране на определени заключения и прогнози.
34. Назовете различни видове рамки за задълбочено обучение
- Питорх
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- Верига
- Keras
35. Обяснете Auto-Encoder
Автокодерите са обучаващи мрежи. Помага ви да трансформирате входовете в изходи с по-малко грешки. Това означава, че изходът ще бъде възможно най-близо до входа.
36. Дефинирайте машината на Болцман
Болцмановите машини са прост алгоритъм за обучение. Помага ви да откриете тези характеристики, които представляват сложни закономерности в данните за обучение. Този алгоритъм ви позволява да оптимизирате теглата и количеството за дадения проблем.
37. Обяснете защо почистването на данни е от съществено значение и кой метод използвате за поддържане на чисти данни
Мръсните данни често водят до грешни вътре, което може да навреди на перспективата на всяка организация. Например, ако искате да проведете целева маркетингова кампания. Нашите данни обаче неправилно ви казват, че конкретен продукт ще бъде търсен от вашата целева аудитория; кампанията ще се провали.
38. Какво е изкривено разпределение и равномерно разпределение?
Изкривено разпределение възниква, когато данните са разпределени от която и да е страна на диаграмата, докато равномерното разпределение се идентифицира, когато данните са разпределени еднакво в диапазона.
39. Кога се получава недостатъчно прилягане в статичен модел?
Недостатъчното приспособяване възниква, когато статистически модел или алгоритъм за машинно обучение не е в състояние да улови основната тенденция на данните.
40. Какво е учене с подсилване?
Обучението с подсилване е механизъм за обучение за това как да съпоставите ситуациите с действията. Крайният резултат трябва да ви помогне да увеличите бинарния сигнал за награда. При този метод на обучаемия не се казва какво действие да предприеме, а вместо това трябва да открие кое действие предлага максимална награда. Тъй като този метод се основава на механизма за награда/наказание.
41. Назовете често използвани алгоритми.
Четири най-често използвани алгоритъма от Data scientist са:
- Линейна регресия
- Логистична регресия
- Случайна гора
- KNN
42. Какво е прецизност?
Прецизността е най-често използваният показател за грешка е n механизъм за класифициране. Диапазонът му е от 0 до 1, където 1 представлява 100%
43. Какво е едномерен анализ?
Анализ, който не се прилага към нито един атрибут в даден момент, е известен като едномерен анализ. Boxplot е широко използван, едновариантен модел.
44. Как преодолявате предизвикателствата пред вашите открития?
За да преодолея предизвикателствата на моето откритие, трябва да насърчавам дискусията, да демонстрирам лидерство и да зачитам различни възможности.
45. Обяснете техниката за вземане на проби от клъстери в Data science
Методът на клъстерна извадка се използва, когато е предизвикателство да се проучи целевата популация, разпръсната в цялата страна, и не може да се приложи проста случайна извадка.
46. Посочете разликата между валидиращ набор и тестов набор
Набор за валидиране, който се счита най-вече за част от набора за обучение, тъй като се използва за избор на параметри, което ви помага да избегнете пренастройването на изграждания модел.
Докато тестовият набор се използва за тестване или оценка на ефективността на обучен модел за машинно обучение.
47. Обяснете термина формула за биномна вероятност?
„Биномното разпределение съдържа вероятностите за всеки възможен успех при N изпитания за независими събития, които имат вероятност π да се появят.“
48. Какво е отзоваване?
Отзоваването е съотношение на истинския положителен процент спрямо действителния положителен процент. Варира от 0 до 1.
49. Обсъдете нормалното разпределение
Нормалното разпределение е равномерно разпределено като такова средната стойност, медианата и модата са равни.
50. Докато работите върху набор от данни, как можете да изберете важни променливи? Обяснете
Можете да използвате следните методи за избор на променливи:
- Премахнете корелираните променливи, преди да изберете важни променливи
- Използвайте линейна регресия и изберете променливи, които зависят от тези p стойности.
- Използвайте селекция назад, напред и стъпкова селекция
- Използвайте Xgboost, Random Forest и начертайте диаграма с променлива важност.
- Измерете придобиването на информация за дадения набор от характеристики и изберете най-добрите n функции съответно.
51. Възможно ли е да се улови корелацията между непрекъсната и категорична променлива?
Да, можем да използваме техниката на анализ на ковариацията, за да уловим връзката между непрекъснати и категорични променливи.
52. Третирането на категорична променлива като непрекъсната променлива би довело до по-добър предсказващ модел?
Да, категоричната стойност трябва да се разглежда като непрекъсната променлива само когато променливата е ординална по природа. Така че това е по-добър прогнозен модел.
Тези въпроси за интервюто също ще ви помогнат във вашата viva (устна)