Die 50 wichtigsten Fragen und Antworten zu Data Science-Interviews (PDF)

Hier finden Sie Fragen und Antworten zu Data Science-Interviews fรผr neue und erfahrene Kandidaten, die ihren Traumjob bekommen mรถchten.

 

Fragen zum Data Science-Interview fรผr Studienanfรคnger

1. Was ist Datenwissenschaft?

Data Science ist das Studiengebiet, in dem es darum geht, mithilfe verschiedener wissenschaftlicher Methoden, Algorithmen und Prozesse Erkenntnisse aus riesigen Datenmengen zu gewinnen. Es hilft Ihnen, versteckte Muster in den Rohdaten zu entdecken. Der Begriff Data Science entstand aufgrund der Entwicklung der mathematischen Statistik, der Datenanalyse und von Big Data.


2. Was ist der Unterschied zwischen Data Science und maschinellem Lernen?

Daten Wissenschaft ist eine Kombination aus Algorithmen, Tools und maschinellen Lerntechniken, die Ihnen dabei helfen, in den gegebenen Rohdaten hรคufige versteckte Muster zu finden. Maschinelles Lernen hingegen ist ein Zweig der Informatik, der sich mit der Systemprogrammierung beschรคftigt, um automatisch zu lernen und sich durch Erfahrung zu verbessern.

Daten Wissenschaft


3. Nennen Sie drei Arten von Verzerrungen, die bei der Stichprobe auftreten kรถnnen

Beim Stichprobenverfahren gibt es drei Arten von Verzerrungen:

  • Selektionsvorspannung
  • Under Coverage Bias
  • รœberlebensvoreingenommenheit

4. Besprechen Sie den Entscheidungsbaum-Algorithmus

Ein Entscheidungsbaum ist ein beliebter รผberwachter Algorithmus fรผr maschinelles Lernen. Es wird hauptsรคchlich zur Regression und Klassifizierung verwendet. Es ermรถglicht die Aufteilung eines Datensatzes in kleinere Teilmengen. Der Entscheidungsbaum kann sowohl kategoriale als auch numerische Daten verarbeiten.


5. Was ist die A-priori-Wahrscheinlichkeit und -Likelihood?

Die A-priori-Wahrscheinlichkeit ist der Anteil der abhรคngigen Variablen im Datensatz, wรคhrend die Wahrscheinlichkeit die Wahrscheinlichkeit ist, einen bestimmten Beobachter in Gegenwart einer anderen Variablen zu klassifizieren.


6. Empfehlungssysteme erklรคren?

Es handelt sich um eine Unterklasse von Informationsfiltertechniken. Es hilft Ihnen, die Prรคferenzen oder Bewertungen vorherzusagen, die Benutzer einem Produkt wahrscheinlich geben werden.


7. Nennen Sie drei Nachteile der Verwendung eines linearen Modells

Drei Nachteile des linearen Modells sind:

  • Die Annahme der Linearitรคt der Fehler.
  • Sie kรถnnen dieses Modell nicht fรผr binรคre Ergebnisse oder Zรคhlergebnisse verwenden
  • Es gibt viele รœberanpassungsprobleme, die es nicht lรถsen kann

8. Warum mรผssen Sie ein Resampling durchfรผhren?

Das Resampling wird in den unten angegebenen Fรคllen durchgefรผhrt:

  • Schรคtzen der Genauigkeit von Stichprobenstatistiken durch zufรคlliges Ziehen mit Zurรผcklegen aus einer Menge von Datenpunkten oder durch Verwendung von Teilmengen zugรคnglicher Daten
  • Ersetzen von Beschriftungen an Datenpunkten bei der Durchfรผhrung notwendiger Tests
  • Validierung von Modellen mithilfe zufรคlliger Teilmengen

9. Listen Sie die Bibliotheken auf in Python wird fรผr Datenanalysen und wissenschaftliche Berechnungen verwendet.


10. Was ist Leistungsanalyse?

Die Leistungsanalyse ist ein integraler Bestandteil des Versuchsdesigns. Es hilft Ihnen, die StichprobengrรถรŸe zu bestimmen, die erforderlich ist, um die Auswirkung einer bestimmten GrรถรŸe aus einer Ursache mit einem bestimmten MaรŸ an Sicherheit herauszufinden. Sie kรถnnen damit auch eine bestimmte Wahrscheinlichkeit in einer StichprobengrรถรŸenbeschrรคnkung einsetzen.


11. Erklรคren Sie die kollaborative Filterung

Kollaborative Filterung zur Suche nach korrekten Mustern durch die Zusammenarbeit von Standpunkten, mehreren Datenquellen und verschiedenen Agenten.


12. Was ist Voreingenommenheit?

Bias ist ein Fehler, der in Ihrem Modell aufgrund der รผbermรครŸigen Vereinfachung eines Algorithmus fรผr maschinelles Lernen entsteht.โ€œ Es kann zu einer Unteranpassung kommen.


13. โ€žNaivโ€œ in einem Naive-Bayes-Algorithmus diskutieren?

Das Modell des Naive-Bayes-Algorithmus basiert auf dem Bayes-Theorem. Es beschreibt die Wahrscheinlichkeit eines Ereignisses. Es basiert auf Vorkenntnissen รผber Bedingungen, die mit diesem bestimmten Ereignis zusammenhรคngen kรถnnten.


14. Was ist eine lineare Regression?

Die lineare Regression ist eine statistische Programmiermethode, bei der der Wert einer Variablen โ€žAโ€œ aus dem Wert einer zweiten Variablen โ€žBโ€œ vorhergesagt wird. B wird als Prรคdiktorvariable und A als Kriteriumsvariable bezeichnet.


15. Geben Sie die Differenz zwischen Erwartungswert und Mittelwert an

Es gibt keine groรŸen Unterschiede, aber beide Begriffe werden in unterschiedlichen Zusammenhรคngen verwendet. Wenn Sie eine Wahrscheinlichkeitsverteilung diskutieren, wird im Allgemeinen auf den Mittelwert Bezug genommen, wรคhrend im Kontext einer Zufallsvariablen auf den Erwartungswert Bezug genommen wird.


16. Was ist das Ziel der Durchfรผhrung von A/B-Tests?

AB-Tests werden verwendet, um Zufallsexperimente mit zwei Variablen, A und B, durchzufรผhren. Das Ziel dieser Testmethode besteht darin, ร„nderungen an einer Webseite herauszufinden, um das Ergebnis einer Strategie zu maximieren oder zu steigern.


17. Was ist Ensemble-Lernen?

Das Ensemble ist eine Methode, eine unterschiedliche Gruppe von Lernenden zusammenzufรผhren, um die Stabilitรคt und Vorhersagekraft des Modells zu verbessern. Zwei Arten von Ensemble-Lernmethoden sind:

Bagging

Die Bagging-Methode hilft Ihnen, รคhnliche Lernende in kleinen Stichprobenpopulationen zu implementieren. Es hilft Ihnen, genauere Vorhersagen zu treffen.

Stรคrkung

Boosting ist eine iterative Methode, mit der Sie die Gewichtung einer Beobachtung abhรคngig von der letzten Klassifizierung anpassen kรถnnen. Boosting verringert den Bias-Fehler und hilft Ihnen beim Erstellen starker Vorhersagemodelle.


18. Erklรคren Sie Eigenwert und Eigenvektor

Eigenvektoren dienen dem Verstรคndnis linearer Transformationen. Datenwissenschaftler mรผssen die Eigenvektoren fรผr eine Kovarianzmatrix oder Korrelation berechnen. Eigenwerte sind die Richtungen entlang bestimmter linearer Transformationsvorgรคnge durch Komprimieren, Spiegeln oder Strecken.


19. Definieren Sie den Begriff Kreuzvalidierung

Kreuzvalidierung ist eine Validierungstechnik zur Bewertung, wie sich die Ergebnisse einer statistischen Analyse fรผr einen unabhรคngigen Datensatz verallgemeinern lassen. Diese Methode wird in Situationen verwendet, in denen das Ziel vorhergesagt wird und man abschรคtzen muss, wie genau ein Modell die Ergebnisse erreichen wird.


20. Erklรคren Sie die Schritte fรผr ein Datenanalyseprojekt

Im Folgenden sind die wichtigen Schritte eines Analytics-Projekts aufgefรผhrt:

  • Verstehen Sie das Geschรคftsproblem
  • Erkunden Sie die Daten und studieren Sie sie sorgfรคltig.
  • Bereiten Sie die Daten fรผr die Modellierung vor, indem Sie fehlende Werte finden und Variablen transformieren.
  • Beginnen Sie mit der Ausfรผhrung des Modells und analysieren Sie das Big-Data-Ergebnis.
  • Validieren Sie das Modell mit neuem Datensatz.
  • Implementieren Sie das Modell und verfolgen Sie das Ergebnis, um die Leistung des Modells fรผr einen bestimmten Zeitraum zu analysieren.

21. Besprechen Sie kรผnstliche neuronale Netze

Kรผnstliche neuronale Netze (KNN) sind ein spezieller Satz von Algorithmen, die das maschinelle Lernen revolutioniert haben. Sie helfen Ihnen, sich an verรคnderte Eingaben anzupassen. So generiert das Netz das bestmรถgliche Ergebnis, ohne die Ausgabekriterien neu zu gestalten.


22. Was ist Backpropagation?

Die Rรผckausbreitung ist die Essenz des neuronalen Netztrainings. Dabei handelt es sich um die Methode zur Abstimmung der Gewichte eines neuronalen Netzes in Abhรคngigkeit von der Fehlerrate, die in der vorherigen Epoche ermittelt wurde. Durch die richtige Abstimmung kรถnnen Sie Fehlerraten reduzieren und das Modell durch eine stรคrkere Verallgemeinerung zuverlรคssig machen.


23. Was ist ein Random Forest?

Random Forest ist eine Methode des maschinellen Lernens, die Sie bei der Durchfรผhrung aller Arten von Regressions- und Klassifizierungsaufgaben unterstรผtzt. Es wird auch zur Behandlung fehlender Werte und AusreiรŸerwerte verwendet.


24. Welche Bedeutung hat ein Selektionsbias?

Eine Selektionsverzerrung tritt auf, wenn bei der Auswahl von Einzelpersonen, Gruppen oder Daten, die analysiert werden sollen, keine spezifische Randomisierung erreicht wird. Dies deutet darauf hin, dass die gegebene Stichprobe nicht genau die Population reprรคsentiert, die analysiert werden sollte.


25. Was ist die K-Means-Clustermethode?

K-Means-Clustering ist eine wichtige Methode des unรผberwachten Lernens. Dabei handelt es sich um eine Technik zum Klassifizieren von Daten mithilfe einer bestimmten Gruppe von Clustern, die als K-Cluster bezeichnet werden. Sie wird zum Gruppieren eingesetzt, um die ร„hnlichkeit in den Daten herauszufinden.


Fragen zum Data Scientist-Interview fรผr Erfahrene

26. Erklรคren Sie den Unterschied zwischen Data Science und Data Analytics

Datenwissenschaftler mรผssen Daten aufschlรผsseln, um wertvolle Erkenntnisse zu gewinnen, die ein Datenanalyst auf reale Geschรคftsszenarien anwenden kann. Der Hauptunterschied zwischen den beiden besteht darin, dass Datenwissenschaftler รผber mehr technische Kenntnisse verfรผgen als Geschรคftsanalysten. Darรผber hinaus benรถtigen sie kein Verstรคndnis fรผr das Geschรคft, das fรผr die Datenvisualisierung erforderlich ist.


27. p-Wert erklรคren?

Wenn Sie in der Statistik einen Hypothesentest durchfรผhren, kรถnnen Sie anhand eines p-Werts die Stรคrke Ihrer Ergebnisse bestimmen. Es handelt sich um eine numerische Zahl zwischen 0 und 1. Anhand des Werts kรถnnen Sie die Stรคrke des spezifischen Ergebnisses ermitteln.


28. Definieren Sie den Begriff Deep Learning

Deep Learning ist eine Unterart des maschinellen Lernens. Dabei geht es um Algorithmen, die von Strukturen sogenannter kรผnstlicher neuronaler Netze (KNN) inspiriert sind.


29. Erklรคren Sie die Methode zum Sammeln und Analysieren von Daten, um mithilfe sozialer Medien die Wetterbedingungen vorherzusagen.

Sie kรถnnen Social-Media-Daten รผber die APIs von Facebook, Twitter und Instagram sammeln. Fรผr den Tweeter kรถnnen wir beispielsweise aus jedem Tweet eine Funktion erstellen, z. B. das getwitterte Datum, Retweets, die Liste der Follower usw. AnschlieรŸend kรถnnen Sie ein multivariates Zeitreihenmodell verwenden, um die Wetterbedingungen vorherzusagen.


30. Wann mรผssen Sie den Algorithmus in Data Science aktualisieren?

In der folgenden Situation mรผssen Sie einen Algorithmus aktualisieren:

  • Sie mรถchten, dass sich Ihr Datenmodell mithilfe der Infrastruktur als Datenstrรถme weiterentwickelt
  • Die zugrunde liegende Datenquelle รคndert sich, wenn es sich um Nichtstationaritรคt handelt

31. Was ist Normalverteilung?

Eine Normalverteilung ist ein Satz kontinuierlicher Variablen, die รผber eine Normalkurve oder in Form einer Glockenkurve verteilt sind. Sie kรถnnen es als kontinuierliche Wahrscheinlichkeitsverteilung betrachten, die in der Statistik nรผtzlich ist. Es ist nรผtzlich, die Variablen und ihre Beziehungen zu analysieren, wenn wir die Normalverteilungskurve verwenden.


32. Welche Sprache eignet sich am besten fรผr die Textanalyse? R oder Python?

Python ist besser fรผr Textanalysen geeignet, da es aus einer umfangreichen Bibliothek namens Pandas besteht. Es ermรถglicht Ihnen die Verwendung von hochrangigen Datenanalyse-Tools und Datenstrukturen, wรคhrend R diese Funktion nicht bietet.


33. Erklรคren Sie die Vorteile der Verwendung von Statistiken durch Datenwissenschaftler

Statistiken helfen Datenwissenschaftlern, eine bessere Vorstellung von den Erwartungen der Kunden zu bekommen. Mit der statistischen Methode kรถnnen Datenwissenschaftler Erkenntnisse รผber Verbraucherinteressen, Verhalten, Engagement, Bindung usw. gewinnen. Sie hilft Ihnen auch dabei, leistungsstarke Datenmodelle zu erstellen, um bestimmte Schlussfolgerungen und Vorhersagen zu validieren.


34. Nennen Sie verschiedene Arten von Deep Learning Frameworks

  • Pytorch
  • Microsoft Kognitives Toolkit
  • TensorFlow
  • Caffe
  • Kettenspanner
  • Keras

35.Erklรคren Sie den Auto-Encoder

Autoencoder sind lernende Netzwerke. Sie helfen Ihnen, Eingaben mit weniger Fehlern in Ausgaben umzuwandeln. Das bedeutet, dass Sie eine Ausgabe erhalten, die so nah wie mรถglich an der Eingabe ist.


36. Definieren Sie die Boltzmann-Maschine

Boltzmann-Maschinen sind ein einfacher Lernalgorithmus. Er hilft Ihnen, jene Merkmale zu entdecken, die komplexe RegelmรครŸigkeiten in den Trainingsdaten darstellen. Mit diesem Algorithmus kรถnnen Sie die Gewichte und die Menge fรผr das gegebene Problem optimieren.


37. Erklรคren Sie, warum die Datenbereinigung unerlรคsslich ist und welche Methode Sie zur Aufrechterhaltung sauberer Daten verwenden

Schmutzige Daten fรผhren oft zu falschen Daten, was den Erfolg eines jeden Unternehmens schรคdigen kann. Zum Beispiel, wenn Sie eine gezielte Marketingkampagne durchfรผhren mรถchten. Unsere Daten sagen Ihnen jedoch fรคlschlicherweise, dass ein bestimmtes Produkt bei Ihrer Zielgruppe gefragt sein wird; Die Kampagne wird scheitern.


38. Was ist Schiefverteilung und Gleichverteilung?

Eine schiefe Verteilung tritt auf, wenn die Daten auf einer Seite des Diagramms verteilt sind, wohingegen eine gleichmรครŸige Verteilung erkannt wird, wenn die Daten im Bereich gleich verteilt sind.


39. Wann kommt es in einem statischen Modell zu einer Unteranpassung?

Eine Unteranpassung tritt auf, wenn ein statistisches Modell oder ein Algorithmus fรผr maschinelles Lernen nicht in der Lage ist, den zugrunde liegenden Trend der Daten zu erfassen.


40. Was ist Reinforcement Learning?

Reinforcement Learning ist ein Lernmechanismus darรผber, wie man Situationen auf Aktionen abbildet. Das Endergebnis sollte Ihnen dabei helfen, das binรคre Belohnungssignal zu erhรถhen. Bei dieser Methode wird einem Lernenden nicht gesagt, welche Aktion er ausfรผhren soll, sondern er muss herausfinden, welche Aktion die maximale Belohnung bietet. Da diese Methode auf dem Belohnungs-/Strafmechanismus basiert.


41. Nennen Sie hรคufig verwendete Algorithmen.

Die vier am hรคufigsten von Datenwissenschaftlern verwendeten Algorithmen sind:

  • Lineare Regression
  • Logistische Regression
  • Zufรคlliger Wald
  • KNN

42. Was ist Prรคzision?

Prรคzision ist die am hรคufigsten verwendete Fehlermetrik im N-Klassifizierungsmechanismus. Der Bereich reicht von 0 bis 1, wobei 1 100 % darstellt.


43. Was ist eine univariate Analyse?

Eine Analyse, die auf kein Attribut gleichzeitig angewendet wird, wird als univariate Analyse bezeichnet. BoxPlot ist ein weit verbreitetes, univariates Modell.


44. Wie รผberwinden Sie Herausforderungen bei Ihren Erkenntnissen?

Um die Herausforderungen meines Erachtens zu meistern, muss man Diskussionen anregen, Fรผhrungsqualitรคten zeigen und verschiedene Optionen respektieren.


45. Erklรคren Sie die Cluster-Sampling-Technik in der Datenwissenschaft

Wenn die Untersuchung einer verteilten Zielpopulation schwierig ist und eine einfache Zufallsstichprobe nicht angewendet werden kann, kommt die Methode der Clusterstichprobennahme zum Einsatz.


46. โ€‹โ€‹Nennen Sie den Unterschied zwischen einem Validierungssatz und einem Testsatz

Ein Validierungssatz, der meist als Teil des Trainingssatzes betrachtet wird, da er fรผr die Parameterauswahl verwendet wird, die Ihnen hilft, eine รœberanpassung des zu erstellenden Modells zu vermeiden.

Wรคhrend ein Testsatz zum Testen oder Bewerten der Leistung eines trainierten Modells fรผr maschinelles Lernen verwendet wird.


47. Erklรคren Sie den Begriff binomiale Wahrscheinlichkeitsformel?

โ€žDie Binomialverteilung enthรคlt die Wahrscheinlichkeiten jedes mรถglichen Erfolgs bei N Versuchen fรผr unabhรคngige Ereignisse, deren Eintrittswahrscheinlichkeit ฯ€ betrรคgt.โ€œ


48. Was ist ein Rรผckruf?

Ein Rรผckruf ist ein Verhรคltnis der echten positiven Rate zur tatsรคchlichen positiven Rate. Der Wert liegt zwischen 0 und 1.


49. Besprechen Sie die Normalverteilung

Normalverteilung gleichverteilt, daher sind Mittelwert, Median und Modus gleich.


50. Wie kรถnnen Sie bei der Arbeit an einem Datensatz wichtige Variablen auswรคhlen? Erklรคren

Folgende Methoden der Variablenauswahl kรถnnen Sie nutzen:

  • Entfernen Sie die korrelierten Variablen, bevor Sie wichtige Variablen auswรคhlen
  • Verwenden Sie die lineare Regression und wรคhlen Sie Variablen aus, die von diesen p-Werten abhรคngen.
  • Verwenden Sie die Rรผckwรคrts-, Vorwรคrts- und schrittweise Auswahl
  • Verwenden Sie Xgboost, Random Forest und zeichnen Sie ein Variablenwichtigkeitsdiagramm.
  • Messen Sie den Informationsgewinn fรผr den gegebenen Funktionssatz und wรคhlen Sie die Top-n-Funktionen entsprechend aus.

51. Ist es mรถglich, die Korrelation zwischen kontinuierlicher und kategorialer Variable zu erfassen?

Ja, wir kรถnnen die Technik der Kovarianzanalyse verwenden, um den Zusammenhang zwischen kontinuierlichen und kategorialen Variablen zu erfassen.


52. Wรผrde die Behandlung einer kategorialen Variablen als kontinuierliche Variable zu einem besseren Vorhersagemodell fรผhren?

Ja, der kategoriale Wert sollte nur dann als kontinuierliche Variable betrachtet werden, wenn die Variable ordinaler Natur ist. Es handelt sich also um ein besseres Vorhersagemodell.

Diese Interviewfragen helfen auch bei Ihrer mรผndlichen Prรผfung

Fassen Sie diesen Beitrag mit folgenden Worten zusammen: