Top 50 des questions et réponses d'entretien en science des données (PDF)

Voici les questions et réponses d'entretien en science des données pour les candidats les plus récents et les plus expérimentés pour obtenir l'emploi de leurs rêves.

 

Questions d'entretien sur la science des données pour les débutants

1. Qu'est-ce que la science des données ?

La science des données est le domaine d'étude qui consiste à extraire des informations à partir de grandes quantités de données à l'aide de diverses méthodes, algorithmes et processus scientifiques. Il vous aide à découvrir des modèles cachés à partir des données brutes. Le terme Data Science est apparu en raison de l’évolution des statistiques mathématiques, de l’analyse des données et du Big Data.


2. Quelle est la différence entre la science des données et l’apprentissage automatique ?

Sciences des données est une combinaison d'algorithmes, d'outils et de techniques d'apprentissage automatique qui vous aide à trouver des modèles cachés communs à partir des données brutes fournies. Alors que l’apprentissage automatique est une branche de l’informatique qui traite de la programmation système pour apprendre et s’améliorer automatiquement avec l’expérience.

Sciences des données


3. Nommez trois types de biais qui peuvent survenir lors de l'échantillonnage

Dans le processus d’échantillonnage, il existe trois types de biais, à savoir :

  • Biais de séléction
  • Biais de sous-couverture
  • Biais de survie

4. Discutez de l'algorithme de l'arbre de décision

Un arbre de décision est un algorithme d’apprentissage automatique supervisé populaire. Il est principalement utilisé pour la régression et la classification. Il permet de décomposer un ensemble de données en sous-ensembles plus petits. L'arbre de décision peut gérer à la fois des données catégorielles et numériques.


5. Qu'est-ce que la probabilité et la vraisemblance antérieures ?

La probabilité préalable est la proportion de la variable dépendante dans l'ensemble de données, tandis que la vraisemblance est la probabilité de classer un observateur donné en présence d'une autre variable.


6. Expliquer les systèmes de recommandation ?

Il s'agit d'une sous-classe de techniques de filtrage d'informations. Il vous aide à prédire les préférences ou les notes que les utilisateurs sont susceptibles d'accorder à un produit.


7. Nommez trois inconvénients de l’utilisation d’un modèle linéaire

Les trois inconvénients du modèle linéaire sont :

  • L'hypothèse de linéarité des erreurs.
  • Vous ne pouvez pas utiliser ce modèle pour des résultats binaires ou comptés
  • Il existe de nombreux problèmes de surapprentissage qu'il ne peut pas résoudre

8. Pourquoi devez-vous effectuer un rééchantillonnage ?

Le rééchantillonnage est effectué dans les cas ci-dessous :

  • Estimation de l'exactitude des statistiques d'échantillon par dessinwing de manière aléatoire avec remplacement à partir d'un ensemble de points de données ou utilisation comme sous-ensembles de données accessibles
  • Remplacement des étiquettes sur les points de données lors de l'exécution des tests nécessaires
  • Valider des modèles à l'aide de sous-ensembles aléatoires

9. Répertoriez les bibliothèques Python utilisées pour l'analyse des données et les calculs scientifiques.


10. Qu'est-ce que l'analyse de puissance ?

L'analyse de puissance fait partie intégrante de la conception expérimentale. Il vous aide à déterminer la taille d'échantillon nécessaire pour découvrir l'effet d'une taille donnée à partir d'une cause avec un niveau d'assurance spécifique. Il permet également de déployer une probabilité particulière dans une contrainte de taille d'échantillon.


11. Expliquer le filtrage collaboratif

Filtrage collaboratif utilisé pour rechercher des modèles corrects en collaborant avec des points de vue, plusieurs sources de données et divers agents.


12. Qu'est-ce que le biais ?

Le biais est une erreur introduite dans votre modèle en raison de la simplification excessive d'un algorithme d'apprentissage automatique. Cela peut conduire à un sous-apprentissage.


13. Discutez de « Naive » dans un algorithme Naive Bayes ?

Le modèle de l’algorithme Naive Bayes est basé sur le théorème de Bayes. Il décrit la probabilité d'un événement. Il est basé sur une connaissance préalable des conditions qui pourraient être liées à cet événement spécifique.


14. Qu'est-ce qu'une régression linéaire ?

La régression linéaire est une méthode de programmation statistique dans laquelle le score d'une variable « A » est prédit à partir du score d'une deuxième variable « B ». B est appelé variable prédictive et A comme variable critère.


15. Indiquer la différence entre la valeur attendue et la valeur moyenne

Il n’y a pas beaucoup de différences, mais ces deux termes sont utilisés dans des contextes différents. La valeur moyenne est généralement évoquée lorsque vous discutez d'une distribution de probabilité, tandis que la valeur attendue est évoquée dans le contexte d'une variable aléatoire.


16. Quel est l'objectif de la réalisation de tests A/B ?

Les tests AB sont utilisés pour mener des expériences aléatoires avec deux variables, A et B. Le but de cette méthode de test est de découvrir les modifications apportées à une page Web afin de maximiser ou d'augmenter les résultats d'une stratégie.


17. Qu'est-ce que l'apprentissage d'ensemble ?

L’ensemble est une méthode permettant de combiner un ensemble diversifié d’apprenants pour improviser sur la stabilité et la puissance prédictive du modèle. Il existe deux types de méthodes d'apprentissage d'ensemble :

Bagging

La méthode de bagging vous aide à mettre en œuvre des apprenants similaires sur de petits échantillons de populations. Cela vous aide à faire des prédictions plus proches.

Stimuler

Le boosting est une méthode itérative qui permet d'ajuster le poids d'une observation en fonction de la dernière classification. Le boosting diminue l'erreur de biais et vous aide à créer des modèles prédictifs solides.


18. Expliquez la valeur propre et le vecteur propre

Les vecteurs propres servent à comprendre les transformations linéaires. Les data scientists doivent calculer les vecteurs propres pour une matrice de covariance ou une corrélation. Les valeurs propres sont les directions qui utilisent des actes de transformation linéaire spécifiques par compression, retournement ou étirement.


19. Définir le terme validation croisée

La validation croisée est une technique de validation permettant d'évaluer la manière dont les résultats de l'analyse statistique se généraliseront pour un ensemble de données indépendant. Cette méthode est utilisée dans les contextes où l'objectif est prévu et où il faut estimer la précision avec laquelle un modèle accomplira.


20. Expliquer les étapes d'un projet d'analyse de données

Le following sont des étapes importantes impliquées dans un projet d’analyse :

  • Comprendre la problématique Business
  • Explorez les données et étudiez-les attentivement.
  • Préparez les données pour la modélisation en recherchant les valeurs manquantes et en transformant les variables.
  • Commencez à exécuter le modèle et analysez le résultat du Big Data.
  • Validez le modèle avec un nouvel ensemble de données.
  • Implémentez le modèle et suivez le résultat pour analyser les performances du modèle pour une période spécifique.

21. Discutez des réseaux de neurones artificiels

Les réseaux de neurones artificiels (ANN) sont un ensemble spécial d'algorithmes qui ont révolutionné l'apprentissage automatique. Il vous aide à vous adapter en fonction de l’évolution des entrées. Ainsi, le réseau génère le meilleur résultat possible sans repenser les critères de sortie.


22. Qu’est-ce que la rétro-propagation ?

La rétro-propagation est l’essence même de l’entraînement des réseaux neuronaux. C'est la méthode de réglage des poids d'un réseau neuronal qui dépend du taux d'erreur obtenu à l'époque précédente. Un réglage approprié du vous aide à réduire les taux d'erreur et à rendre le modèle fiable en augmentant sa généralisation.


23. Qu'est-ce qu'une forêt aléatoire ?

Random forest est une méthode d'apprentissage automatique qui vous aide à effectuer tous les types de tâches de régression et de classification. Il est également utilisé pour traiter les valeurs manquantes et les valeurs aberrantes.


24. Quelle est l’importance d’avoir un biais de sélection ?

Le biais de sélection se produit lorsqu'aucune randomisation spécifique n'est réalisée lors de la sélection des individus, des groupes ou des données à analyser. Cela suggère que l’échantillon donné ne représente pas exactement la population qui était censée être analysée.


25. Qu'est-ce que la méthode de clustering K-means ?

Le clustering K-means est une méthode d’apprentissage non supervisée importante. C'est la technique de classification des données à l'aide d'un certain ensemble de clusters appelé K clusters. Il est déployé pour le regroupement afin de découvrir la similarité des données.


Questions d'entretien de Data Scientist pour les expérimentés

26. Expliquez la différence entre la science des données et l'analyse des données

Les Data Scientists doivent découper les données pour en extraire des informations précieuses qu’un analyste de données peut appliquer à des scénarios commerciaux réels. La principale différence entre les deux est que les data scientists ont plus de connaissances techniques que les analystes commerciaux. De plus, ils n'ont pas besoin d'une compréhension de l'activité requise pour la visualisation des données.


27. Expliquez la valeur p ?

Lorsque vous effectuez un test d'hypothèse en statistiques, une valeur p vous permet de déterminer la force de vos résultats. Il s'agit d'un nombre numérique compris entre 0 et 1. En fonction de la valeur, il vous aidera à indiquer la force du résultat spécifique.


28. Définir le terme apprentissage profond

Le Deep Learning est un sous-type d’apprentissage automatique. Il s'agit d'algorithmes inspirés de la structure appelée réseaux de neurones artificiels (ANN).


29. Expliquer la méthode de collecte et d'analyse des données pour utiliser les médias sociaux pour prédire les conditions météorologiques.

Vous pouvez collecter des données sur les réseaux sociaux à l'aide des API de Facebook, Twitter et Instagram. Par exemple, pour le tweeter, nous pouvons construire une fonctionnalité à partir de chaque tweet comme la date du tweet, les retweets, la liste des abonnés, etc. Vous pouvez ensuite utiliser un modèle de série chronologique multivarié pour prédire les conditions météorologiques.


30. Quand faut-il mettre à jour l’algorithme en Data science ?

Vous devez mettre à jour un algorithme dans la suitewing situation:

  • Vous souhaitez que votre modèle de données évolue au fur et à mesure des flux de données utilisant l'infrastructure
  • La source de données sous-jacente changeS'il s'agit de non-stationnarité

31. Qu'est-ce que la distribution normale

Une distribution normale est un ensemble d'une variable continue répartie sur une courbe normale ou sous la forme d'une courbe en cloche. Vous pouvez le considérer comme une distribution de probabilité continue utile en statistiques. Il est utile d'analyser les variables et leurs relations lorsque nous utilisons la courbe de distribution normale.


32. Quelle langue est la meilleure pour l’analyse de texte ? R ou Python ?

Python sera plus adapté à l'analyse de texte car il consiste en une riche bibliothèque connue sous le nom de pandas. Il vous permet d'utiliser un haut niveau outils d'analyse de données et les structures de données, alors que R n'offre pas cette fonctionnalité.


33. Expliquer les avantages de l'utilisation des statistiques par les Data Scientists

Les statistiques aident le Data scientist à avoir une meilleure idée des attentes des clients. En utilisant la méthode statistique, les Data Scientists peuvent acquérir des connaissances sur l'intérêt, le comportement, l'engagement, la rétention, etc. des consommateurs. Cela vous aide également à créer des modèles de données puissants pour valider certaines inférences et prédictions.


34. Nommez différents types de cadres d'apprentissage profond

  • Pytorche
  • Microsoft Boîte à outils cognitive
  • TensorFlow
  • Caffe
  • Chaîneur
  • Keras

35.Expliquez l'encodeur automatique

Les auto-encodeurs sont des réseaux d'apprentissage. Il vous aide à transformer les entrées en sorties avec moins d’erreurs. Cela signifie que vous obtiendrez une sortie aussi proche que possible de l’entrée.


36. Définir la machine Boltzmann

Les machines Boltzmann sont un algorithme d'apprentissage simple. Il vous aide à découvrir les fonctionnalités qui représentent complex régularités dans les données d’entraînement. Cet algorithme vous permet d'optimiser les poids et la quantité pour le problème donné.


37. Expliquez pourquoi le nettoyage des données est essentiel et quelle méthode vous utilisez pour maintenir des données propres

Des données sales conduisent souvent à des informations incorrectes, ce qui peut nuire aux perspectives de toute organisation. Par exemple, si vous souhaitez lancer une campagne marketing ciblée. Cependant, nos données vous indiquent à tort qu'un produit spécifique sera demandé par votre public cible ; la campagne échouera.


38. Qu'est-ce que la distribution asymétrique et la distribution uniforme ?

Une distribution asymétrique se produit lorsque les données sont distribuées d'un côté du graphique, alors qu'une distribution uniforme est identifiée lorsque les données sont réparties de manière égale dans la plage.


39. Quand un sous-ajustement se produit dans un modèle statique ?

Le sous-ajustement se produit lorsqu'un modèle statistique ou un algorithme d'apprentissage automatique n'est pas en mesure de capturer la tendance sous-jacente des données.


40. Qu'est-ce que l'apprentissage par renforcement ?

L'apprentissage par renforcement est un mécanisme d'apprentissage sur la façon de mapper les situations aux actions. Le résultat final devrait vous aider à augmenter le signal de récompense binaire. Dans cette méthode, on ne dit pas à l’apprenant quelle action entreprendre mais il doit plutôt découvrir quelle action offre une récompense maximale. Comme cette méthode basée sur le mécanisme récompense/pénalité.


41. Nommez les algorithmes couramment utilisés.

Les quatre algorithmes les plus couramment utilisés par les Data Scientists sont :

  • Régression linéaire
  • Régression logistique
  • Forêt aléatoire
  • KN

42. Qu'est-ce que la précision ?

La précision est la mesure d’erreur la plus couramment utilisée dans le mécanisme de classification n. Sa plage va de 0 à 1, où 1 représente 100 %


43. Qu'est-ce qu'une analyse univariée ?

Une analyse qui n’est appliquée à aucun attribut à la fois est appelée analyse univariée. BoxL'intrigue est un modèle univarié largement utilisé.


44. Comment surmontez-vous les défis liés à vos découvertes ?

Afin de surmonter les défis que j'ai découverts, il faut encourager la discussion, faire preuve de leadership et respecter les différentes options.


45. Expliquer la technique d'échantillonnage en grappes en science des données

Une méthode d'échantillonnage en grappes est utilisée lorsqu'il est difficile d'étudier la population cible répartie et qu'un échantillonnage aléatoire simple ne peut pas être appliqué.


46. ​​Indiquer la différence entre un ensemble de validation et un ensemble de test

Un ensemble de validation est principalement considéré comme faisant partie de l'ensemble de formation car il est utilisé pour la sélection des paramètres, ce qui vous aide à éviter le surajustement du modèle en cours de construction.

Tandis qu'un ensemble de tests est utilisé pour tester ou évaluer les performances d'un modèle d'apprentissage automatique formé.


47. Expliquez le terme formule de probabilité binomiale ?

"La distribution binomiale contient les probabilités de chaque succès possible sur N essais pour des événements indépendants qui ont une probabilité de π de se produire."


48. Qu'est-ce qu'un rappel ?

Un rappel est un rapport entre le taux de positivité réelle et le taux de positivité réel. Il varie de 0 à 1.


49. Discutez de la distribution normale

Distribution normale également répartie, de sorte que la moyenne, la médiane et le mode sont égaux.


50. Lorsque vous travaillez sur un ensemble de données, comment pouvez-vous sélectionner des variables importantes ? Expliquer

Following méthodes de sélection de variables que vous pouvez utiliser :

  • Supprimez les variables corrélées avant de sélectionner les variables importantes
  • Utilisez la régression linéaire et sélectionnez les variables qui dépendent de ces valeurs p.
  • Utiliser la sélection en arrière, en avant et la sélection par étapes
  • Utilisez Xgboost, Random Forest et tracez un graphique d'importance des variables.
  • Mesurez le gain d'informations pour l'ensemble de fonctionnalités donné et sélectionnez les n principales fonctionnalités en conséquence.

51. Est-il possible de capturer la corrélation entre les variables continues et catégorielles ?

Oui, nous pouvons utiliser la technique d'analyse de covariance pour capturer l'association entre les variables continues et catégorielles.


52. Traiter une variable catégorielle comme une variable continue donnerait lieu à un meilleur modèle prédictif ?

Oui, la valeur catégorielle doit être considérée comme une variable continue uniquement lorsque la variable est de nature ordinale. C'est donc un meilleur modèle prédictif.

Ces questions d'entretien vous aideront également dans votre soutenance