Die 50 wichtigsten Fragen und Antworten zu Data Science-Interviews (PDF)

Hier finden Sie Fragen und Antworten zu Data Science-Interviews für neue und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.

 

Fragen zum Data Science-Interview für Studienanfänger

1. Was ist Datenwissenschaft?

Data Science ist der Studienbereich, bei dem es darum geht, mithilfe verschiedener wissenschaftlicher Methoden, Algorithmen und Prozesse Erkenntnisse aus riesigen Datenmengen zu gewinnen. Es hilft Ihnen, versteckte Muster aus den Rohdaten zu entdecken. Der Begriff Data Science ist aufgrund der Entwicklung der mathematischen Statistik, Datenanalyse und Big Data entstanden.


2. Was ist der Unterschied zwischen Data Science und maschinellem Lernen?

Daten Wissenschaft ist eine Kombination aus Algorithmen, Werkzeugen und Techniken des maschinellen Lernens, die Ihnen hilft, häufige versteckte Muster aus den gegebenen Rohdaten zu finden. Während maschinelles Lernen ein Zweig der Informatik ist, der sich mit der Systemprogrammierung befasst, um automatisch zu lernen und sich durch Erfahrung zu verbessern.

Daten Wissenschaft


3. Nennen Sie drei Arten von Verzerrungen, die bei der Stichprobe auftreten können

Beim Stichprobenverfahren gibt es drei Arten von Verzerrungen:

  • Selektionsvorspannung
  • Under Coverage Bias
  • Überlebensvoreingenommenheit

4. Besprechen Sie den Entscheidungsbaum-Algorithmus

Ein Entscheidungsbaum ist ein beliebter überwachter Algorithmus für maschinelles Lernen. Es wird hauptsächlich zur Regression und Klassifizierung verwendet. Es ermöglicht die Aufteilung eines Datensatzes in kleinere Teilmengen. Der Entscheidungsbaum kann sowohl kategoriale als auch numerische Daten verarbeiten.


5. Was ist die A-priori-Wahrscheinlichkeit und -Likelihood?

Die A-priori-Wahrscheinlichkeit ist der Anteil der abhängigen Variablen im Datensatz, während die Wahrscheinlichkeit die Wahrscheinlichkeit ist, einen bestimmten Beobachter in Gegenwart einer anderen Variablen zu klassifizieren.


6. Empfehlungssysteme erklären?

Es handelt sich um eine Unterklasse von Informationsfiltertechniken. Es hilft Ihnen, die Präferenzen oder Bewertungen vorherzusagen, die Benutzer einem Produkt wahrscheinlich geben werden.


7. Nennen Sie drei Nachteile der Verwendung eines linearen Modells

Drei Nachteile des linearen Modells sind:

  • Die Annahme der Linearität der Fehler.
  • Sie können dieses Modell nicht für binäre Ergebnisse oder Zählergebnisse verwenden
  • Es gibt viele Überanpassungsprobleme, die es nicht lösen kann

8. Warum müssen Sie ein Resampling durchführen?

Das Resampling wird in den unten angegebenen Fällen durchgeführt:

  • Schätzung der Genauigkeit von Stichprobenstatistiken durch Drawing zufällig mit Ersetzung aus einer Menge des Datenpunkts oder Verwendung als Teilmengen zugänglicher Daten
  • Ersetzen von Beschriftungen an Datenpunkten bei der Durchführung notwendiger Tests
  • Validierung von Modellen mithilfe zufälliger Teilmengen

9. Listen Sie die Bibliotheken in Python auf, die für Datenanalyse und wissenschaftliche Berechnungen verwendet werden.


10. Was ist Leistungsanalyse?

Die Leistungsanalyse ist ein integraler Bestandteil des Versuchsdesigns. Es hilft Ihnen, die Stichprobengröße zu bestimmen, die erforderlich ist, um die Auswirkung einer bestimmten Größe aus einer Ursache mit einem bestimmten Maß an Sicherheit herauszufinden. Sie können damit auch eine bestimmte Wahrscheinlichkeit in einer Stichprobengrößenbeschränkung einsetzen.


11. Erklären Sie die kollaborative Filterung

Kollaborative Filterung zur Suche nach korrekten Mustern durch die Zusammenarbeit von Standpunkten, mehreren Datenquellen und verschiedenen Agenten.


12. Was ist Voreingenommenheit?

Bias ist ein Fehler, der in Ihrem Modell aufgrund der übermäßigen Vereinfachung eines Algorithmus für maschinelles Lernen entsteht.“ Es kann zu einer Unteranpassung kommen.


13. „Naiv“ in einem Naive-Bayes-Algorithmus diskutieren?

Das Modell des Naive-Bayes-Algorithmus basiert auf dem Bayes-Theorem. Es beschreibt die Wahrscheinlichkeit eines Ereignisses. Es basiert auf Vorkenntnissen über Bedingungen, die mit diesem bestimmten Ereignis zusammenhängen könnten.


14. Was ist eine lineare Regression?

Die lineare Regression ist eine statistische Programmiermethode, bei der der Wert einer Variablen „A“ aus dem Wert einer zweiten Variablen „B“ vorhergesagt wird. B wird als Prädiktorvariable und A als Kriteriumsvariable bezeichnet.


15. Geben Sie die Differenz zwischen Erwartungswert und Mittelwert an

Es gibt keine großen Unterschiede, aber beide Begriffe werden in unterschiedlichen Zusammenhängen verwendet. Wenn Sie eine Wahrscheinlichkeitsverteilung diskutieren, wird im Allgemeinen auf den Mittelwert Bezug genommen, während im Kontext einer Zufallsvariablen auf den Erwartungswert Bezug genommen wird.


16. Was ist das Ziel der Durchführung von A/B-Tests?

AB-Tests werden verwendet, um Zufallsexperimente mit zwei Variablen, A und B, durchzuführen. Das Ziel dieser Testmethode besteht darin, Änderungen an einer Webseite herauszufinden, um das Ergebnis einer Strategie zu maximieren oder zu steigern.


17. Was ist Ensemble-Lernen?

Das Ensemble ist eine Methode, eine unterschiedliche Gruppe von Lernenden zusammenzuführen, um die Stabilität und Vorhersagekraft des Modells zu verbessern. Zwei Arten von Ensemble-Lernmethoden sind:

Bagging

Die Bagging-Methode hilft Ihnen, ähnliche Lernende in kleinen Stichprobenpopulationen zu implementieren. Es hilft Ihnen, genauere Vorhersagen zu treffen.

Stärkung

Boosting ist eine iterative Methode, mit der Sie die Gewichtung einer Beobachtung abhängig von der letzten Klassifizierung anpassen können. Boosting verringert den Bias-Fehler und hilft Ihnen, starke Vorhersagemodelle zu erstellen.


18. Erklären Sie Eigenwert und Eigenvektor

Eigenvektoren dienen dem Verständnis linearer Transformationen. Datenwissenschaftler müssen die Eigenvektoren für eine Kovarianzmatrix oder Korrelation berechnen. Eigenwerte sind die Richtungen entlang bestimmter linearer Transformationsvorgänge durch Komprimieren, Spiegeln oder Strecken.


19. Definieren Sie den Begriff Kreuzvalidierung

Kreuzvalidierung ist eine Validierungstechnik zur Bewertung, wie sich die Ergebnisse einer statistischen Analyse für einen unabhängigen Datensatz verallgemeinern lassen. Diese Methode wird in Situationen verwendet, in denen das Ziel vorhergesagt wird und man abschätzen muss, wie genau ein Modell die Ergebnisse erreichen wird.


20. Erklären Sie die Schritte für ein Datenanalyseprojekt

Die folgendenwing sind wichtige Schritte in einem Analytics-Projekt:

  • Verstehen Sie das Geschäftsproblem
  • Erkunden Sie die Daten und studieren Sie sie sorgfältig.
  • Bereiten Sie die Daten für die Modellierung vor, indem Sie fehlende Werte finden und Variablen transformieren.
  • Beginnen Sie mit der Ausführung des Modells und analysieren Sie das Big-Data-Ergebnis.
  • Validieren Sie das Modell mit neuem Datensatz.
  • Implementieren Sie das Modell und verfolgen Sie das Ergebnis, um die Leistung des Modells für einen bestimmten Zeitraum zu analysieren.

21. Besprechen Sie künstliche neuronale Netze

Künstliche neuronale Netze (KNN) sind spezielle Algorithmen, die das maschinelle Lernen revolutioniert haben. Es hilft Ihnen, sich an veränderte Eingaben anzupassen. So generiert das Netzwerk das bestmögliche Ergebnis, ohne die Ausgabekriterien neu zu gestalten.


22. Was ist Backpropagation?

Die Rückausbreitung ist die Essenz des neuronalen Netztrainings. Dabei handelt es sich um die Methode zur Abstimmung der Gewichte eines neuronalen Netzes in Abhängigkeit von der Fehlerrate, die in der vorherigen Epoche ermittelt wurde. Durch die richtige Abstimmung können Sie Fehlerraten reduzieren und das Modell durch eine stärkere Verallgemeinerung zuverlässig machen.


23. Was ist ein Random Forest?

Random Forest ist eine Methode des maschinellen Lernens, die Sie bei der Durchführung aller Arten von Regressions- und Klassifizierungsaufgaben unterstützt. Es wird auch zur Behandlung fehlender Werte und Ausreißerwerte verwendet.


24. Welche Bedeutung hat ein Selektionsbias?

Eine Selektionsverzerrung tritt auf, wenn bei der Auswahl von Einzelpersonen, Gruppen oder Daten, die analysiert werden sollen, keine spezifische Randomisierung erreicht wird. Dies deutet darauf hin, dass die gegebene Stichprobe nicht genau die Population repräsentiert, die analysiert werden sollte.


25. Was ist die K-Means-Clustering-Methode?

K-Means-Clustering ist eine wichtige unbeaufsichtigte Lernmethode. Dabei handelt es sich um eine Technik zur Klassifizierung von Daten anhand eines bestimmten Satzes von Clustern, die als K-Cluster bezeichnet werden. Es wird zur Gruppierung eingesetzt, um die Ähnlichkeit der Daten herauszufinden.


Fragen zum Data Scientist-Interview für Erfahrene

26. Erklären Sie den Unterschied zwischen Data Science und Data Analytics

Datenwissenschaftler müssen Daten aufschlüsseln, um wertvolle Erkenntnisse zu gewinnen, die ein Datenanalyst auf reale Geschäftsszenarien anwenden kann. Der Hauptunterschied zwischen den beiden besteht darin, dass Datenwissenschaftler über mehr technische Kenntnisse verfügen als Geschäftsanalysten. Darüber hinaus benötigen sie kein Verständnis für das Geschäft, das für die Datenvisualisierung erforderlich ist.


27. p-Wert erklären?

Wenn Sie in der Statistik einen Hypothesentest durchführen, können Sie anhand eines p-Werts die Stärke Ihrer Ergebnisse bestimmen. Es handelt sich um eine numerische Zahl zwischen 0 und 1. Anhand des Werts können Sie die Stärke des spezifischen Ergebnisses ermitteln.


28. Definieren Sie den Begriff Deep Learning

Deep Learning ist eine Unterart des maschinellen Lernens. Dabei geht es um Algorithmen, die von der Struktur der sogenannten künstlichen neuronalen Netze (KNN) inspiriert sind.


29. Erklären Sie die Methode zum Sammeln und Analysieren von Daten, um mithilfe sozialer Medien die Wetterbedingungen vorherzusagen.

Sie können Social-Media-Daten über die APIs von Facebook, Twitter und Instagram sammeln. Für den Tweeter können wir beispielsweise aus jedem Tweet eine Funktion erstellen, z. B. das getwitterte Datum, Retweets, die Liste der Follower usw. Anschließend können Sie ein multivariates Zeitreihenmodell verwenden, um die Wetterbedingungen vorherzusagen.


30. Wann müssen Sie den Algorithmus in Data Science aktualisieren?

Sie müssen im Folgenden einen Algorithmus aktualisierenwing Lage:

  • Sie möchten, dass sich Ihr Datenmodell mithilfe der Infrastruktur als Datenströme weiterentwickelt
  • Die zugrunde liegende Datenquelle ändert sich, wenn es sich um Nichtstationarität handelt

31. Was ist Normalverteilung?

Eine Normalverteilung ist ein Satz kontinuierlicher Variablen, die über eine Normalkurve oder in Form einer Glockenkurve verteilt sind. Sie können es als kontinuierliche Wahrscheinlichkeitsverteilung betrachten, die in der Statistik nützlich ist. Es ist nützlich, die Variablen und ihre Beziehungen zu analysieren, wenn wir die Normalverteilungskurve verwenden.


32. Welche Sprache eignet sich am besten für die Textanalyse? R oder Python?

Python eignet sich besser für die Textanalyse, da es aus einer umfangreichen Bibliothek namens Pandas besteht. Es ermöglicht Ihnen die Verwendung auf hohem Niveau Datenanalyse-Tools und Datenstrukturen, während R diese Funktion nicht bietet.


33. Erklären Sie die Vorteile der Verwendung von Statistiken durch Datenwissenschaftler

Statistiken helfen Datenwissenschaftlern, eine bessere Vorstellung von den Erwartungen der Kunden zu bekommen. Mit der statistischen Methode können Datenwissenschaftler Erkenntnisse über Verbraucherinteressen, Verhalten, Engagement, Bindung usw. gewinnen. Sie hilft Ihnen auch dabei, leistungsstarke Datenmodelle zu erstellen, um bestimmte Schlussfolgerungen und Vorhersagen zu validieren.


34. Nennen Sie verschiedene Arten von Deep Learning Frameworks

  • Pytorch
  • Microsoft Kognitives Toolkit
  • TensorFlow
  • Caffe
  • Kettenspanner
  • Keras

35.Erklären Sie den Auto-Encoder

Autoencoder sind lernende Netzwerke. Es hilft Ihnen, Eingaben mit weniger Fehlern in Ausgaben umzuwandeln. Dies bedeutet, dass die Ausgabe so nah wie möglich an der Eingabe ist.


36. Definieren Sie die Boltzmann-Maschine

Boltzmann-Maschinen sind ein einfacher Lernalgorithmus. Es hilft Ihnen, die Funktionen zu entdecken, die com repräsentierenplex Regelmäßigkeiten in den Trainingsdaten. Mit diesem Algorithmus können Sie die Gewichte und die Menge für das gegebene Problem optimieren.


37. Erklären Sie, warum die Datenbereinigung unerlässlich ist und welche Methode Sie zur Aufrechterhaltung sauberer Daten verwenden

Schmutzige Daten führen oft zu falschen Daten, was den Erfolg eines jeden Unternehmens schädigen kann. Zum Beispiel, wenn Sie eine gezielte Marketingkampagne durchführen möchten. Unsere Daten sagen Ihnen jedoch fälschlicherweise, dass ein bestimmtes Produkt bei Ihrer Zielgruppe gefragt sein wird; Die Kampagne wird scheitern.


38. Was ist Schiefverteilung und Gleichverteilung?

Eine schiefe Verteilung tritt auf, wenn die Daten auf einer Seite des Diagramms verteilt sind, wohingegen eine gleichmäßige Verteilung erkannt wird, wenn die Daten im Bereich gleich verteilt sind.


39. Wann kommt es in einem statischen Modell zu einer Unteranpassung?

Eine Unteranpassung tritt auf, wenn ein statistisches Modell oder ein Algorithmus für maschinelles Lernen nicht in der Lage ist, den zugrunde liegenden Trend der Daten zu erfassen.


40. Was ist Reinforcement Learning?

Reinforcement Learning ist ein Lernmechanismus darüber, wie man Situationen auf Aktionen abbildet. Das Endergebnis sollte Ihnen dabei helfen, das binäre Belohnungssignal zu erhöhen. Bei dieser Methode wird einem Lernenden nicht gesagt, welche Aktion er ausführen soll, sondern er muss herausfinden, welche Aktion die maximale Belohnung bietet. Da diese Methode auf dem Belohnungs-/Strafmechanismus basiert.


41. Nennen Sie häufig verwendete Algorithmen.

Die vier am häufigsten von Datenwissenschaftlern verwendeten Algorithmen sind:

  • Lineare Regression
  • Logistische Regression
  • Zufälliger Wald
  • KNN

42. Was ist Präzision?

Präzision ist die am häufigsten verwendete Fehlermetrik im N-Klassifizierungsmechanismus. Der Bereich reicht von 0 bis 1, wobei 1 100 % darstellt.


43. Was ist eine univariate Analyse?

Eine Analyse, die auf kein Attribut gleichzeitig angewendet wird, wird als univariate Analyse bezeichnet. BoxPlot ist ein weit verbreitetes, univariates Modell.


44. Wie überwinden Sie Herausforderungen bei Ihren Erkenntnissen?

Um die Herausforderungen meines Erachtens zu meistern, muss man Diskussionen anregen, Führungsqualitäten zeigen und verschiedene Optionen respektieren.


45. Erklären Sie die Cluster-Sampling-Technik in der Datenwissenschaft

Eine Cluster-Stichprobenmethode wird verwendet, wenn es schwierig ist, die Verteilung der Zielpopulation zu untersuchen, und eine einfache Zufallsstichprobe nicht angewendet werden kann.


46. ​​Nennen Sie den Unterschied zwischen einem Validierungssatz und einem Testsatz

Ein Validierungssatz, der meist als Teil des Trainingssatzes betrachtet wird, da er für die Parameterauswahl verwendet wird, die Ihnen hilft, eine Überanpassung des zu erstellenden Modells zu vermeiden.

Während ein Testsatz zum Testen oder Bewerten der Leistung eines trainierten Modells für maschinelles Lernen verwendet wird.


47. Erklären Sie den Begriff binomiale Wahrscheinlichkeitsformel?

„Die Binomialverteilung enthält die Wahrscheinlichkeiten jedes möglichen Erfolgs bei N Versuchen für unabhängige Ereignisse, deren Eintrittswahrscheinlichkeit π beträgt.“


48. Was ist ein Rückruf?

Ein Rückruf ist ein Verhältnis der echten positiven Rate zur tatsächlichen positiven Rate. Der Wert liegt zwischen 0 und 1.


49. Besprechen Sie die Normalverteilung

Normalverteilung gleichverteilt, daher sind Mittelwert, Median und Modus gleich.


50. Wie können Sie bei der Arbeit an einem Datensatz wichtige Variablen auswählen? Erklären

Following Methoden der Variablenauswahl, die Sie verwenden können:

  • Entfernen Sie die korrelierten Variablen, bevor Sie wichtige Variablen auswählen
  • Verwenden Sie die lineare Regression und wählen Sie Variablen aus, die von diesen p-Werten abhängen.
  • Use Backward, Forward Selection, and Stepwise Auswahl
  • Verwenden Sie Xgboost, Random Forest und zeichnen Sie ein Variablenwichtigkeitsdiagramm.
  • Messen Sie den Informationsgewinn für den gegebenen Funktionssatz und wählen Sie die Top-n-Funktionen entsprechend aus.

51. Ist es möglich, die Korrelation zwischen kontinuierlicher und kategorialer Variable zu erfassen?

Ja, wir können die Technik der Kovarianzanalyse verwenden, um den Zusammenhang zwischen kontinuierlichen und kategorialen Variablen zu erfassen.


52. Würde die Behandlung einer kategorialen Variablen als kontinuierliche Variable zu einem besseren Vorhersagemodell führen?

Ja, der kategoriale Wert sollte nur dann als kontinuierliche Variable betrachtet werden, wenn die Variable ordinaler Natur ist. Es handelt sich also um ein besseres Vorhersagemodell.

Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung