50 najpopularniejszych pytań i odpowiedzi do rozmów kwalifikacyjnych dotyczących analityki danych (PDF)

Oto pytania i odpowiedzi dotyczące rozmów kwalifikacyjnych w Data Science, przeznaczone zarówno dla świeżych, jak i doświadczonych kandydatów, którzy chcą zdobyć wymarzoną pracę.

 

Pytania do wywiadu dotyczącego analityki danych dla nowicjuszy

1. Co to jest nauka o danych?

Data Science to dziedzina nauki, która obejmuje wydobywanie spostrzeżeń z ogromnych ilości danych przy użyciu różnych naukowych metod, algorytmów i procesów. Pomaga odkryć ukryte wzorce z surowych danych. Termin Data Science pojawił się z powodu ewolucji statystyki matematycznej, analizy danych i dużych zbiorów danych.


2. Jaka jest różnica między nauką o danych a uczeniem maszynowym?

Nauka danych to połączenie algorytmów, narzędzi i techniki uczenia maszynowego, które pomaga znaleźć wspólne ukryte wzorce z podanych surowych danych. Podczas gdy uczenie maszynowe jest gałęzią informatyki, która zajmuje się programowaniem systemów w celu automatycznego uczenia się i doskonalenia wraz z doświadczeniem.

Nauka danych


3. Wymień trzy rodzaje błędu systematycznego, który może wystąpić podczas próbkowania

W procesie pobierania próbek występują trzy rodzaje błędów, którymi są:

  • Odchylenie wyboru
  • Niedostateczne pokrycie
  • Błąd przeżywalności

4. Omów algorytm drzewa decyzyjnego

Drzewo decyzyjne to popularny nadzorowany algorytm uczenia maszynowego. Stosowany jest głównie do regresji i klasyfikacji. Umożliwia podzielenie zbioru danych na mniejsze podzbiory. Drzewo decyzyjne może obsługiwać zarówno dane kategoryczne, jak i numeryczne.


5. Jakie jest prawdopodobieństwo i prawdopodobieństwo wcześniejsze?

Prawdopodobieństwo a priori to proporcja zmiennej zależnej w zbiorze danych, natomiast prawdopodobieństwo to prawdopodobieństwo sklasyfikowania danego obserwatora w obecności innej zmiennej.


6. Wyjaśnij systemy rekomendujące?

Jest to podklasa technik filtrowania informacji. Pomaga przewidzieć preferencje lub oceny, jakie użytkownicy prawdopodobnie wystawią produktowi.


7. Wymień trzy wady stosowania modelu liniowego

Trzy wady modelu liniowego to:

  • Założenie liniowości błędów.
  • Nie można używać tego modelu do wyników binarnych ani zliczania
  • Jest mnóstwo problemów związanych z nadmiernym dopasowaniem, których nie da się rozwiązać

8. Dlaczego musisz wykonać ponowne próbkowanie?

Ponowne próbkowanie odbywa się w poniższych przypadkach:

  • Oszacowanie dokładności statystyk próby poprzez losowe wybieranie ze zwracaniem z zestawu punktów danych lub używanie jako podzbiorów dostępnych danych
  • Zastępowanie etykiet punktów danych podczas wykonywania niezbędnych testów
  • Walidacja modeli przy użyciu losowych podzbiorów

9. Wymień biblioteki w Python wykorzystywane do analizy danych i obliczeń naukowych.


10. Co to jest analiza mocy?

Analiza mocy jest integralną częścią projektu eksperymentu. Pomaga określić wielkość próby, wymaga ustalenia wpływu danej wielkości na przyczynę z określonym poziomem pewności. Umożliwia także zastosowanie określonego prawdopodobieństwa w ograniczeniu wielkości próby.


11. Wyjaśnij filtrowanie zespołowe

Filtrowanie zespołowe używane do wyszukiwania prawidłowych wzorców poprzez współpracę punktów widzenia, wielu źródeł danych i różnych agentów.


12. Co to jest stronniczość?

Odchylenie to błąd wprowadzony do modelu z powodu nadmiernego uproszczenia algorytmu uczenia maszynowego. Może to prowadzić do niedopasowania.


13. Omów „naiwność” w algorytmie Naiwnego Bayesa?

Model Naiwnego Algorytmu Bayesa opiera się na Twierdzeniu Bayesa. Opisuje prawdopodobieństwo zdarzenia. Opiera się na wcześniejszej wiedzy o warunkach, które mogą być związane z tym konkretnym zdarzeniem.


14. Co to jest regresja liniowa?

Regresja liniowa to metoda programowania statystycznego, w której wynik zmiennej „A” jest przewidywany na podstawie wyniku drugiej zmiennej „B”. B jest określane jako zmienna predykcyjna, a A jako zmienna kryterialna.


15. Podaj różnicę pomiędzy wartością oczekiwaną a wartością średnią

Nie jest to wiele różnic, ale oba te terminy są używane w różnych kontekstach. O średniej wartości mówi się zazwyczaj, gdy omawia się rozkład prawdopodobieństwa, natomiast o wartości oczekiwanej mówi się w kontekście zmiennej losowej.


16. Jaki jest cel przeprowadzania testów A/B?

Testowanie AB służy do przeprowadzania losowych eksperymentów z dwiema zmiennymi, A i B. Celem tej metody testowania jest wykrycie zmian na stronie internetowej w celu maksymalizacji lub zwiększenia wyniku strategii.


17. Czym jest nauka zespołowa?

Zespół to metoda łączenia zróżnicowanej grupy uczniów w celu improwizacji w zakresie stabilności i mocy predykcyjnej modelu. Dwa rodzaje metod uczenia się zespołowego to:

Parcianka

Metoda pakowania pomaga wdrożyć podobnych uczniów w małych próbnych populacjach. Pomaga w dokonywaniu bliższych przewidywań.

Zwiększanie

Boosting to iteracyjna metoda, która pozwala dostosować wagę obserwacji w zależności od ostatniej klasyfikacji. Boosting zmniejsza błąd stronniczości i pomaga budować silne modele predykcyjne.


18. Wyjaśnij wartość własną i wektor własny

Wektory własne służą do zrozumienia transformacji liniowych. Analityk danych musi obliczyć wektory własne dla macierzy kowariancji lub korelacji. Wartości własne to kierunki wykorzystania określonych aktów transformacji liniowej poprzez ściskanie, odwracanie lub rozciąganie.


19. Zdefiniuj termin walidacja krzyżowa

Walidacja krzyżowa to technika walidacji służąca do oceny, w jaki sposób wyniki analizy statystycznej zostaną uogólnione dla niezależnego zbioru danych. Metodę tę stosuje się w środowiskach, w których prognozowany jest cel i należy oszacować, jak dokładnie model osiągnie.


20. Wyjaśnij etapy projektu analizy danych

Poniżej przedstawiono ważne kroki obejmujące projekt analityczny:

  • Zrozum problem biznesowy
  • Przeglądaj dane i przestudiuj je uważnie.
  • Przygotuj dane do modelowania, znajdując brakujące wartości i przekształcając zmienne.
  • Rozpocznij uruchamianie modelu i przeanalizuj wynik Big Data.
  • Zweryfikuj model z nowym zestawem danych.
  • Zaimplementuj model i śledź wyniki, aby analizować wydajność modelu w określonym okresie.

21. Omów sztuczne sieci neuronowe

Sztuczne sieci neuronowe (ANN) to specjalny zestaw algorytmów, które zrewolucjonizowały uczenie maszynowe. Pomagają one dostosowywać się do zmieniających się danych wejściowych. Sieć generuje więc najlepszy możliwy wynik bez przeprojektowywania kryteriów wyjściowych.


22. Co to jest propagacja wsteczna?

Propagacja wsteczna jest istotą treningu sieci neuronowych. Jest to metoda dostrajania wag sieci neuronowej w zależności od poziomu błędu uzyskanego w poprzedniej epoce. Właściwe dostrojenie pomaga zmniejszyć liczbę błędów i zwiększyć niezawodność modelu poprzez zwiększenie jego uogólnienia.


23. Co to jest losowy las?

Losowy las to metoda uczenia maszynowego, która pomaga wykonywać wszelkiego rodzaju zadania regresyjne i klasyfikacyjne. Służy również do leczenia brakujących wartości i wartości odstających.


24. Jakie znaczenie ma stronniczość selekcji?

Błąd selekcji ma miejsce, gdy podczas wybierania osób, grup lub danych do analizy nie ma określonej randomizacji. Sugeruje to, że podana próba nie odzwierciedla dokładnie populacji, która miała być poddana analizie.


25. Na czym polega metoda klasteryzacji K-średnich?

Klastrowanie metodą K-means jest ważną metodą uczenia bez nadzoru. Jest to technika klasyfikowania danych przy użyciu pewnego zestawu klastrów, który nazywa się K klastrami. Jest ona stosowana do grupowania w celu znalezienia podobieństwa w danych.


Pytania do wywiadu z analitykiem danych dla doświadczonych

26. Wyjaśnij różnicę pomiędzy nauką o danych a analityką danych

Analitycy danych muszą dzielić dane, aby wyodrębnić cenne spostrzeżenia, które analityk danych może zastosować w rzeczywistych scenariuszach biznesowych. Główna różnica między nimi polega na tym, że analitycy danych mają większą wiedzę techniczną niż analitycy biznesowi. Co więcej, nie potrzebują wiedzy biznesowej wymaganej do wizualizacji danych.


27. Wyjaśnij wartość p?

Kiedy przeprowadzasz test hipotezy w statystyce, wartość p pozwala określić siłę wyników. Jest to liczba numeryczna z zakresu od 0 do 1. Na podstawie wartości pomoże Ci określić siłę konkretnego wyniku.


28. Zdefiniuj pojęcie głębokiego uczenia się

Deep Learning jest podtypem uczenia maszynowego. Zajmuje się algorytmami inspirowanymi strukturą zwaną sztucznymi sieciami neuronowymi (ANN).


29. Wyjaśnij metodę gromadzenia i analizowania danych w celu wykorzystania mediów społecznościowych do przewidywania stanu pogody.

Możesz zbierać dane z mediów społecznościowych za pomocą Facebooka, Twittera i API Instagrama. Na przykład w przypadku głośnika wysokotonowego możemy na podstawie każdego tweeta skonstruować funkcję, taką jak data tweeta, retweety, lista obserwujących itp. Następnie możesz użyć wielowymiarowego modelu szeregów czasowych, aby przewidzieć warunki pogodowe.


30. Kiedy należy zaktualizować algorytm w Data Science?

Należy zaktualizować algorytm w następującej sytuacji:

  • Chcesz, aby Twój model danych ewoluował w postaci strumieni danych korzystających z infrastruktury
  • Podstawowe źródło danych zmienia się, jeśli jest niestacjonarne

31. Co to jest rozkład normalny

Rozkład normalny to zbiór zmiennych ciągłych rozłożonych na krzywej normalnej lub w kształcie krzywej dzwonowej. Można to uznać za ciągły rozkład prawdopodobieństwa, który jest przydatny w statystyce. Przydatna jest analiza zmiennych i ich zależności, gdy korzystamy z krzywej rozkładu normalnego.


32. Który język jest najlepszy do analizy tekstu? R lub Python?

Python będzie bardziej odpowiedni do analizy tekstu, ponieważ składa się z bogatej biblioteki znanej jako pandy. Pozwala na korzystanie z wysokiego poziomu narzędzia do analizy danych i struktury danych, podczas gdy R nie oferuje tej funkcji.


33. Wyjaśnij korzyści płynące ze stosowania statystyk przez analityków danych

Statystyki pomagają analitykom danych lepiej poznać oczekiwania klientów. Korzystając z metody statystycznej, badacze danych mogą uzyskać wiedzę na temat zainteresowań, zachowań, zaangażowania, retencji konsumentów itp. Pomaga to również w budowaniu wydajnych modeli danych w celu sprawdzenia określonych wniosków i przewidywań.


34. Wymień różne typy struktur głębokiego uczenia się

  • pytorch
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Kawa
  • Łańcuchowy
  • Keras

35.Wyjaśnij automatyczny koder

Autoenkodery to uczące się sieci. Pomagają przekształcać dane wejściowe w dane wyjściowe z mniejszą liczbą błędów. Oznacza to, że dane wyjściowe będą jak najbardziej zbliżone do danych wejściowych.


36. Zdefiniuj maszynę Boltzmanna

Maszyny Boltzmanna to prosty algorytm uczenia się. Pomaga odkryć te cechy, które reprezentują złożone regularności w danych treningowych. Ten algorytm pozwala zoptymalizować wagi i ilość dla danego problemu.


37. Wyjaśnij, dlaczego czyszczenie danych jest niezbędne i jakiej metody używasz, aby utrzymać czyste dane

Brudne dane często prowadzą do nieprawidłowego wnętrza, co może zaszkodzić perspektywom każdej organizacji. Na przykład, jeśli chcesz przeprowadzić ukierunkowaną kampanię marketingową. Jednak nasze dane błędnie mówią, że konkretny produkt będzie poszukiwany wśród Twojej grupy docelowej; kampania zakończy się niepowodzeniem.


38. Co to jest dystrybucja skośna i dystrybucja jednolita?

Rozkład skośny występuje, gdy dane są rozłożone po jednej stronie wykresu, natomiast rozkład równomierny jest identyfikowany, gdy rozłożenie danych jest równe w zakresie.


39. Kiedy w modelu statycznym występuje niedopasowanie?

Niedopasowanie ma miejsce, gdy model statystyczny lub algorytm uczenia maszynowego nie jest w stanie uchwycić podstawowego trendu danych.


40. Czym jest uczenie się przez wzmacnianie?

Uczenie się przez wzmacnianie to mechanizm uczenia się dotyczący tego, jak przyporządkować sytuacje do działań. Wynik końcowy powinien pomóc Ci zwiększyć binarny sygnał nagrody. W tej metodzie uczeń nie jest informowany, jakie działanie ma podjąć, ale zamiast tego musi odkryć, które działanie zapewnia maksymalną nagrodę. Ponieważ jest to metoda oparta na mechanizmie nagrody/kary.


41. Podaj nazwy powszechnie stosowanych algorytmów.

Cztery najczęściej używane algorytmy przez analityków danych to:

  • Regresja liniowa
  • Regresja logistyczna
  • Losowy las
  • KNN

42. Co to jest precyzja?

Precyzja jest najczęściej stosowaną miarą błędu w mechanizmie klasyfikacji. Jego zakres wynosi od 0 do 1, gdzie 1 oznacza 100%


43. Co to jest analiza jednowymiarowa?

Analiza, która nie jest stosowana do żadnego atrybutu na raz, nazywana jest analizą jednowymiarową. Boxwykres jest szeroko stosowanym modelem jednowymiarowym.


44. Jak przezwyciężasz wyzwania związane ze swoimi ustaleniami?

Aby przezwyciężyć wyzwania związane z moim znalezieniem, należy zachęcać do dyskusji, wykazywać przywództwo i szanować różne opcje.


45. Wyjaśnij technikę próbkowania klastrowego w nauce o danych

Metodę próbkowania klastrowego stosuje się, gdy trudno jest zbadać rozproszoną populację docelową i nie można zastosować prostego losowego próbkowania.


46. ​​Podaj różnicę pomiędzy zbiorem walidacyjnym a zbiorem testowym

Zestaw walidacyjny jest najczęściej uważany za część zestawu szkoleniowego, ponieważ służy do wyboru parametrów, co pomaga uniknąć nadmiernego dopasowania budowanego modelu.

Podczas gdy zestaw testowy służy do testowania lub oceny wydajności wyszkolonego modelu uczenia maszynowego.


47. Wyjaśnij pojęcie wzór na prawdopodobieństwo dwumianowe?

„Rozkład dwumianowy zawiera prawdopodobieństwa każdego możliwego sukcesu w N próbach dla niezależnych zdarzeń, których prawdopodobieństwo wystąpienia wynosi π”.


48. Co to jest wycofanie?

Wycofanie to stosunek prawdziwie dodatniej stopy do rzeczywistej stopy dodatniej. Waha się od 0 do 1.


49. Omów rozkład normalny

Rozkład normalny równomiernie rozłożony, średnia, mediana i moda są równe.


50. Jak pracując na zbiorze danych możesz wybrać ważne zmienne? Wyjaśnić

Możesz użyć następujących metod wyboru zmiennych:

  • Usuń skorelowane zmienne przed wybraniem ważnych zmiennych
  • Użyj regresji liniowej i wybierz zmienne, które zależą od tych wartości p.
  • Użyj wyboru wstecznego, wyboru do przodu i wyboru krok po kroku
  • Użyj Xgboost, Random Forest i wykreśl wykres ważności zmiennych.
  • Zmierz przyrost informacji dla danego zestawu funkcji i wybierz odpowiednio n najlepszych funkcji.

51. Czy można uchwycić korelację pomiędzy zmienną ciągłą a kategoryczną?

Tak, możemy zastosować analizę kowariancji, aby uchwycić związek między zmiennymi ciągłymi i kategorycznymi.


52. Traktowanie zmiennej kategorycznej jako zmiennej ciągłej dałoby lepszy model predykcyjny?

Tak, wartość kategoryczną należy uważać za zmienną ciągłą tylko wtedy, gdy zmienna ma charakter porządkowy. Jest to więc lepszy model predykcyjny.

Te pytania podczas rozmowy kwalifikacyjnej pomogą również w Twoim życiu (ustach)