Die 50 wichtigsten Fragen und Antworten zu Data Science-Interviews (PDF)
Hier finden Sie Fragen und Antworten zu Data Science-Interviews für neue und erfahrene Kandidaten, die ihren Traumjob bekommen möchten.
Fragen zum Data Science-Interview für Studienanfänger
1. Was ist Datenwissenschaft?
Data Science ist das Studiengebiet, in dem es darum geht, mithilfe verschiedener wissenschaftlicher Methoden, Algorithmen und Prozesse Erkenntnisse aus riesigen Datenmengen zu gewinnen. Es hilft Ihnen, versteckte Muster in den Rohdaten zu entdecken. Der Begriff Data Science entstand aufgrund der Entwicklung der mathematischen Statistik, der Datenanalyse und von Big Data.
2. Was ist der Unterschied zwischen Data Science und maschinellem Lernen?
Daten Wissenschaft ist eine Kombination aus Algorithmen, Tools und maschinellen Lerntechniken, die Ihnen dabei helfen, in den gegebenen Rohdaten häufige versteckte Muster zu finden. Maschinelles Lernen hingegen ist ein Zweig der Informatik, der sich mit der Systemprogrammierung beschäftigt, um automatisch zu lernen und sich durch Erfahrung zu verbessern.
3. Nennen Sie drei Arten von Verzerrungen, die bei der Stichprobe auftreten können
Beim Stichprobenverfahren gibt es drei Arten von Verzerrungen:
- Selektionsvorspannung
- Under Coverage Bias
- Überlebensvoreingenommenheit
4. Besprechen Sie den Entscheidungsbaum-Algorithmus
Ein Entscheidungsbaum ist ein beliebter überwachter Algorithmus für maschinelles Lernen. Es wird hauptsächlich zur Regression und Klassifizierung verwendet. Es ermöglicht die Aufteilung eines Datensatzes in kleinere Teilmengen. Der Entscheidungsbaum kann sowohl kategoriale als auch numerische Daten verarbeiten.
5. Was ist die A-priori-Wahrscheinlichkeit und -Likelihood?
Die A-priori-Wahrscheinlichkeit ist der Anteil der abhängigen Variablen im Datensatz, während die Wahrscheinlichkeit die Wahrscheinlichkeit ist, einen bestimmten Beobachter in Gegenwart einer anderen Variablen zu klassifizieren.
6. Empfehlungssysteme erklären?
Es handelt sich um eine Unterklasse von Informationsfiltertechniken. Es hilft Ihnen, die Präferenzen oder Bewertungen vorherzusagen, die Benutzer einem Produkt wahrscheinlich geben werden.
7. Nennen Sie drei Nachteile der Verwendung eines linearen Modells
Drei Nachteile des linearen Modells sind:
- Die Annahme der Linearität der Fehler.
- Sie können dieses Modell nicht für binäre Ergebnisse oder Zählergebnisse verwenden
- Es gibt viele Überanpassungsprobleme, die es nicht lösen kann
8. Warum müssen Sie ein Resampling durchführen?
Das Resampling wird in den unten angegebenen Fällen durchgeführt:
- Schätzen der Genauigkeit von Stichprobenstatistiken durch zufälliges Ziehen mit Zurücklegen aus einer Menge von Datenpunkten oder durch Verwendung von Teilmengen zugänglicher Daten
- Ersetzen von Beschriftungen an Datenpunkten bei der Durchführung notwendiger Tests
- Validierung von Modellen mithilfe zufälliger Teilmengen
9. Listen Sie die Bibliotheken auf in Python wird für Datenanalysen und wissenschaftliche Berechnungen verwendet.
10. Was ist Leistungsanalyse?
Die Leistungsanalyse ist ein integraler Bestandteil des Versuchsdesigns. Es hilft Ihnen, die Stichprobengröße zu bestimmen, die erforderlich ist, um die Auswirkung einer bestimmten Größe aus einer Ursache mit einem bestimmten Maß an Sicherheit herauszufinden. Sie können damit auch eine bestimmte Wahrscheinlichkeit in einer Stichprobengrößenbeschränkung einsetzen.
11. Erklären Sie die kollaborative Filterung
Kollaborative Filterung zur Suche nach korrekten Mustern durch die Zusammenarbeit von Standpunkten, mehreren Datenquellen und verschiedenen Agenten.
12. Was ist Voreingenommenheit?
Bias ist ein Fehler, der in Ihrem Modell aufgrund der übermäßigen Vereinfachung eines Algorithmus für maschinelles Lernen entsteht.“ Es kann zu einer Unteranpassung kommen.
13. „Naiv“ in einem Naive-Bayes-Algorithmus diskutieren?
Das Modell des Naive-Bayes-Algorithmus basiert auf dem Bayes-Theorem. Es beschreibt die Wahrscheinlichkeit eines Ereignisses. Es basiert auf Vorkenntnissen über Bedingungen, die mit diesem bestimmten Ereignis zusammenhängen könnten.
14. Was ist eine lineare Regression?
Die lineare Regression ist eine statistische Programmiermethode, bei der der Wert einer Variablen „A“ aus dem Wert einer zweiten Variablen „B“ vorhergesagt wird. B wird als Prädiktorvariable und A als Kriteriumsvariable bezeichnet.
15. Geben Sie die Differenz zwischen Erwartungswert und Mittelwert an
Es gibt keine großen Unterschiede, aber beide Begriffe werden in unterschiedlichen Zusammenhängen verwendet. Wenn Sie eine Wahrscheinlichkeitsverteilung diskutieren, wird im Allgemeinen auf den Mittelwert Bezug genommen, während im Kontext einer Zufallsvariablen auf den Erwartungswert Bezug genommen wird.
16. Was ist das Ziel der Durchführung von A/B-Tests?
AB-Tests werden verwendet, um Zufallsexperimente mit zwei Variablen, A und B, durchzuführen. Das Ziel dieser Testmethode besteht darin, Änderungen an einer Webseite herauszufinden, um das Ergebnis einer Strategie zu maximieren oder zu steigern.
17. Was ist Ensemble-Lernen?
Das Ensemble ist eine Methode, eine unterschiedliche Gruppe von Lernenden zusammenzuführen, um die Stabilität und Vorhersagekraft des Modells zu verbessern. Zwei Arten von Ensemble-Lernmethoden sind:
Bagging
Die Bagging-Methode hilft Ihnen, ähnliche Lernende in kleinen Stichprobenpopulationen zu implementieren. Es hilft Ihnen, genauere Vorhersagen zu treffen.
Stärkung
Boosting ist eine iterative Methode, mit der Sie die Gewichtung einer Beobachtung abhängig von der letzten Klassifizierung anpassen können. Boosting verringert den Bias-Fehler und hilft Ihnen beim Erstellen starker Vorhersagemodelle.
18. Erklären Sie Eigenwert und Eigenvektor
Eigenvektoren dienen dem Verständnis linearer Transformationen. Datenwissenschaftler müssen die Eigenvektoren für eine Kovarianzmatrix oder Korrelation berechnen. Eigenwerte sind die Richtungen entlang bestimmter linearer Transformationsvorgänge durch Komprimieren, Spiegeln oder Strecken.
19. Definieren Sie den Begriff Kreuzvalidierung
Kreuzvalidierung ist eine Validierungstechnik zur Bewertung, wie sich die Ergebnisse einer statistischen Analyse für einen unabhängigen Datensatz verallgemeinern lassen. Diese Methode wird in Situationen verwendet, in denen das Ziel vorhergesagt wird und man abschätzen muss, wie genau ein Modell die Ergebnisse erreichen wird.
20. Erklären Sie die Schritte für ein Datenanalyseprojekt
Im Folgenden sind die wichtigen Schritte eines Analytics-Projekts aufgeführt:
- Verstehen Sie das Geschäftsproblem
- Erkunden Sie die Daten und studieren Sie sie sorgfältig.
- Bereiten Sie die Daten für die Modellierung vor, indem Sie fehlende Werte finden und Variablen transformieren.
- Beginnen Sie mit der Ausführung des Modells und analysieren Sie das Big-Data-Ergebnis.
- Validieren Sie das Modell mit neuem Datensatz.
- Implementieren Sie das Modell und verfolgen Sie das Ergebnis, um die Leistung des Modells für einen bestimmten Zeitraum zu analysieren.
21. Besprechen Sie künstliche neuronale Netze
Künstliche neuronale Netze (KNN) sind ein spezieller Satz von Algorithmen, die das maschinelle Lernen revolutioniert haben. Sie helfen Ihnen, sich an veränderte Eingaben anzupassen. So generiert das Netz das bestmögliche Ergebnis, ohne die Ausgabekriterien neu zu gestalten.
22. Was ist Backpropagation?
Die Rückausbreitung ist die Essenz des neuronalen Netztrainings. Dabei handelt es sich um die Methode zur Abstimmung der Gewichte eines neuronalen Netzes in Abhängigkeit von der Fehlerrate, die in der vorherigen Epoche ermittelt wurde. Durch die richtige Abstimmung können Sie Fehlerraten reduzieren und das Modell durch eine stärkere Verallgemeinerung zuverlässig machen.
23. Was ist ein Random Forest?
Random Forest ist eine Methode des maschinellen Lernens, die Sie bei der Durchführung aller Arten von Regressions- und Klassifizierungsaufgaben unterstützt. Es wird auch zur Behandlung fehlender Werte und Ausreißerwerte verwendet.
24. Welche Bedeutung hat ein Selektionsbias?
Eine Selektionsverzerrung tritt auf, wenn bei der Auswahl von Einzelpersonen, Gruppen oder Daten, die analysiert werden sollen, keine spezifische Randomisierung erreicht wird. Dies deutet darauf hin, dass die gegebene Stichprobe nicht genau die Population repräsentiert, die analysiert werden sollte.
25. Was ist die K-Means-Clustermethode?
K-Means-Clustering ist eine wichtige Methode des unüberwachten Lernens. Dabei handelt es sich um eine Technik zum Klassifizieren von Daten mithilfe einer bestimmten Gruppe von Clustern, die als K-Cluster bezeichnet werden. Sie wird zum Gruppieren eingesetzt, um die Ähnlichkeit in den Daten herauszufinden.
Fragen zum Data Scientist-Interview für Erfahrene
26. Erklären Sie den Unterschied zwischen Data Science und Data Analytics
Datenwissenschaftler müssen Daten aufschlüsseln, um wertvolle Erkenntnisse zu gewinnen, die ein Datenanalyst auf reale Geschäftsszenarien anwenden kann. Der Hauptunterschied zwischen den beiden besteht darin, dass Datenwissenschaftler über mehr technische Kenntnisse verfügen als Geschäftsanalysten. Darüber hinaus benötigen sie kein Verständnis für das Geschäft, das für die Datenvisualisierung erforderlich ist.
27. p-Wert erklären?
Wenn Sie in der Statistik einen Hypothesentest durchführen, können Sie anhand eines p-Werts die Stärke Ihrer Ergebnisse bestimmen. Es handelt sich um eine numerische Zahl zwischen 0 und 1. Anhand des Werts können Sie die Stärke des spezifischen Ergebnisses ermitteln.
28. Definieren Sie den Begriff Deep Learning
Deep Learning ist eine Unterart des maschinellen Lernens. Dabei geht es um Algorithmen, die von Strukturen sogenannter künstlicher neuronaler Netze (KNN) inspiriert sind.
29. Erklären Sie die Methode zum Sammeln und Analysieren von Daten, um mithilfe sozialer Medien die Wetterbedingungen vorherzusagen.
Sie können Social-Media-Daten über die APIs von Facebook, Twitter und Instagram sammeln. Für den Tweeter können wir beispielsweise aus jedem Tweet eine Funktion erstellen, z. B. das getwitterte Datum, Retweets, die Liste der Follower usw. Anschließend können Sie ein multivariates Zeitreihenmodell verwenden, um die Wetterbedingungen vorherzusagen.
30. Wann müssen Sie den Algorithmus in Data Science aktualisieren?
In der folgenden Situation müssen Sie einen Algorithmus aktualisieren:
- Sie möchten, dass sich Ihr Datenmodell mithilfe der Infrastruktur als Datenströme weiterentwickelt
- Die zugrunde liegende Datenquelle ändert sich, wenn es sich um Nichtstationarität handelt
31. Was ist Normalverteilung?
Eine Normalverteilung ist ein Satz kontinuierlicher Variablen, die über eine Normalkurve oder in Form einer Glockenkurve verteilt sind. Sie können es als kontinuierliche Wahrscheinlichkeitsverteilung betrachten, die in der Statistik nützlich ist. Es ist nützlich, die Variablen und ihre Beziehungen zu analysieren, wenn wir die Normalverteilungskurve verwenden.
32. Welche Sprache eignet sich am besten für die Textanalyse? R oder Python?
Python ist besser für Textanalysen geeignet, da es aus einer umfangreichen Bibliothek namens Pandas besteht. Es ermöglicht Ihnen die Verwendung von hochrangigen Datenanalyse-Tools und Datenstrukturen, während R diese Funktion nicht bietet.
33. Erklären Sie die Vorteile der Verwendung von Statistiken durch Datenwissenschaftler
Statistiken helfen Datenwissenschaftlern, eine bessere Vorstellung von den Erwartungen der Kunden zu bekommen. Mit der statistischen Methode können Datenwissenschaftler Erkenntnisse über Verbraucherinteressen, Verhalten, Engagement, Bindung usw. gewinnen. Sie hilft Ihnen auch dabei, leistungsstarke Datenmodelle zu erstellen, um bestimmte Schlussfolgerungen und Vorhersagen zu validieren.
34. Nennen Sie verschiedene Arten von Deep Learning Frameworks
- Pytorch
- Microsoft Kognitives Toolkit
- TensorFlow
- Caffe
- Kettenspanner
- Keras
35.Erklären Sie den Auto-Encoder
Autoencoder sind lernende Netzwerke. Sie helfen Ihnen, Eingaben mit weniger Fehlern in Ausgaben umzuwandeln. Das bedeutet, dass Sie eine Ausgabe erhalten, die so nah wie möglich an der Eingabe ist.
36. Definieren Sie die Boltzmann-Maschine
Boltzmann-Maschinen sind ein einfacher Lernalgorithmus. Er hilft Ihnen, jene Merkmale zu entdecken, die komplexe Regelmäßigkeiten in den Trainingsdaten darstellen. Mit diesem Algorithmus können Sie die Gewichte und die Menge für das gegebene Problem optimieren.
37. Erklären Sie, warum die Datenbereinigung unerlässlich ist und welche Methode Sie zur Aufrechterhaltung sauberer Daten verwenden
Schmutzige Daten führen oft zu falschen Daten, was den Erfolg eines jeden Unternehmens schädigen kann. Zum Beispiel, wenn Sie eine gezielte Marketingkampagne durchführen möchten. Unsere Daten sagen Ihnen jedoch fälschlicherweise, dass ein bestimmtes Produkt bei Ihrer Zielgruppe gefragt sein wird; Die Kampagne wird scheitern.
38. Was ist Schiefverteilung und Gleichverteilung?
Eine schiefe Verteilung tritt auf, wenn die Daten auf einer Seite des Diagramms verteilt sind, wohingegen eine gleichmäßige Verteilung erkannt wird, wenn die Daten im Bereich gleich verteilt sind.
39. Wann kommt es in einem statischen Modell zu einer Unteranpassung?
Eine Unteranpassung tritt auf, wenn ein statistisches Modell oder ein Algorithmus für maschinelles Lernen nicht in der Lage ist, den zugrunde liegenden Trend der Daten zu erfassen.
40. Was ist Reinforcement Learning?
Reinforcement Learning ist ein Lernmechanismus darüber, wie man Situationen auf Aktionen abbildet. Das Endergebnis sollte Ihnen dabei helfen, das binäre Belohnungssignal zu erhöhen. Bei dieser Methode wird einem Lernenden nicht gesagt, welche Aktion er ausführen soll, sondern er muss herausfinden, welche Aktion die maximale Belohnung bietet. Da diese Methode auf dem Belohnungs-/Strafmechanismus basiert.
41. Nennen Sie häufig verwendete Algorithmen.
Die vier am häufigsten von Datenwissenschaftlern verwendeten Algorithmen sind:
- Lineare Regression
- Logistische Regression
- Zufälliger Wald
- KNN
42. Was ist Präzision?
Präzision ist die am häufigsten verwendete Fehlermetrik im N-Klassifizierungsmechanismus. Der Bereich reicht von 0 bis 1, wobei 1 100 % darstellt.
43. Was ist eine univariate Analyse?
Eine Analyse, die auf kein Attribut gleichzeitig angewendet wird, wird als univariate Analyse bezeichnet. BoxPlot ist ein weit verbreitetes, univariates Modell.
44. Wie überwinden Sie Herausforderungen bei Ihren Erkenntnissen?
Um die Herausforderungen meines Erachtens zu meistern, muss man Diskussionen anregen, Führungsqualitäten zeigen und verschiedene Optionen respektieren.
45. Erklären Sie die Cluster-Sampling-Technik in der Datenwissenschaft
Wenn die Untersuchung einer verteilten Zielpopulation schwierig ist und eine einfache Zufallsstichprobe nicht angewendet werden kann, kommt die Methode der Clusterstichprobennahme zum Einsatz.
46. Nennen Sie den Unterschied zwischen einem Validierungssatz und einem Testsatz
Ein Validierungssatz, der meist als Teil des Trainingssatzes betrachtet wird, da er für die Parameterauswahl verwendet wird, die Ihnen hilft, eine Überanpassung des zu erstellenden Modells zu vermeiden.
Während ein Testsatz zum Testen oder Bewerten der Leistung eines trainierten Modells für maschinelles Lernen verwendet wird.
47. Erklären Sie den Begriff binomiale Wahrscheinlichkeitsformel?
„Die Binomialverteilung enthält die Wahrscheinlichkeiten jedes möglichen Erfolgs bei N Versuchen für unabhängige Ereignisse, deren Eintrittswahrscheinlichkeit π beträgt.“
48. Was ist ein Rückruf?
Ein Rückruf ist ein Verhältnis der echten positiven Rate zur tatsächlichen positiven Rate. Der Wert liegt zwischen 0 und 1.
49. Besprechen Sie die Normalverteilung
Normalverteilung gleichverteilt, daher sind Mittelwert, Median und Modus gleich.
50. Wie können Sie bei der Arbeit an einem Datensatz wichtige Variablen auswählen? Erklären
Folgende Methoden der Variablenauswahl können Sie nutzen:
- Entfernen Sie die korrelierten Variablen, bevor Sie wichtige Variablen auswählen
- Verwenden Sie die lineare Regression und wählen Sie Variablen aus, die von diesen p-Werten abhängen.
- Verwenden Sie die Rückwärts-, Vorwärts- und schrittweise Auswahl
- Verwenden Sie Xgboost, Random Forest und zeichnen Sie ein Variablenwichtigkeitsdiagramm.
- Messen Sie den Informationsgewinn für den gegebenen Funktionssatz und wählen Sie die Top-n-Funktionen entsprechend aus.
51. Ist es möglich, die Korrelation zwischen kontinuierlicher und kategorialer Variable zu erfassen?
Ja, wir können die Technik der Kovarianzanalyse verwenden, um den Zusammenhang zwischen kontinuierlichen und kategorialen Variablen zu erfassen.
52. Würde die Behandlung einer kategorialen Variablen als kontinuierliche Variable zu einem besseren Vorhersagemodell führen?
Ja, der kategoriale Wert sollte nur dann als kontinuierliche Variable betrachtet werden, wenn die Variable ordinaler Natur ist. Es handelt sich also um ein besseres Vorhersagemodell.
Diese Interviewfragen helfen auch bei Ihrer mündlichen Prüfung