Las 50 preguntas y respuestas principales de la entrevista sobre ciencia de datos (PDF)
Aquí hay preguntas y respuestas de la entrevista sobre ciencia de datos para que los candidatos más nuevos y experimentados consigan el trabajo de sus sueños.
Preguntas de la entrevista sobre ciencia de datos para principiantes
1. ¿Qué es la ciencia de datos?
La ciencia de datos es el área de estudio que implica extraer información de grandes cantidades de datos mediante diversos métodos, algoritmos y procesos científicos. Te ayuda a descubrir patrones ocultos a partir de los datos sin procesar. El término ciencia de datos surgió debido a la evolución de las estadísticas matemáticas, el análisis de datos y el big data.
2. ¿Cuál es la diferencia entre ciencia de datos y aprendizaje automático?
Data science es una combinación de algoritmos, herramientas y técnicas de aprendizaje automático que le ayudan a encontrar patrones ocultos comunes a partir de los datos sin procesar proporcionados. Mientras que el aprendizaje automático es una rama de la informática que se ocupa de la programación de sistemas para aprender y mejorar automáticamente con la experiencia.
3. Nombra tres tipos de sesgos que pueden ocurrir durante el muestreo.
En el proceso de muestreo existen tres tipos de sesgos, que son:
- Sesgo de selección
- Bajo sesgo de cobertura
- Sesgo de supervivencia
4. Discutir el algoritmo del árbol de decisión
Un árbol de decisión es un algoritmo popular de aprendizaje automático supervisado. Se utiliza principalmente para regresión y clasificación. Permite dividir un conjunto de datos en subconjuntos más pequeños. El árbol de decisión puede manejar datos tanto categóricos como numéricos.
5. ¿Qué es la probabilidad previa y la verosimilitud?
La probabilidad previa es la proporción de la variable dependiente en el conjunto de datos, mientras que la probabilidad es la probabilidad de clasificar a un observador determinado en presencia de alguna otra variable.
6. ¿Explicar los sistemas de recomendación?
Es una subclase de técnicas de filtrado de información. Le ayuda a predecir las preferencias o valoraciones que los usuarios probablemente le darán a un producto.
7. Nombra tres desventajas de usar un modelo lineal.
Tres desventajas del modelo lineal son:
- El supuesto de linealidad de los errores.
- No puedes usar este modelo para resultados binarios o de conteo.
- Hay muchos problemas de sobreajuste que no puede resolver
8. ¿Por qué es necesario realizar un remuestreo?
El remuestreo se realiza en los casos que se indican a continuación:
- Estimación de la precisión de las estadísticas de muestra extrayendo aleatoriamente con reemplazo de un conjunto de puntos de datos o utilizando subconjuntos de datos accesibles
- Sustituir etiquetas en puntos de datos al realizar las pruebas necesarias
- Validar modelos mediante el uso de subconjuntos aleatorios
9. Enumere las bibliotecas en Python utilizado para análisis de datos y cálculos científicos.
- Ciencia
- pandas
- matplotlib
- NumPy
- cienciakit
- nacido en el mar
10. ¿Qué es el análisis de potencia?
El análisis de potencia es una parte integral del diseño experimental. Le ayuda a determinar el tamaño de muestra necesario para descubrir el efecto de un tamaño determinado de una causa con un nivel de seguridad específico. También le permite implementar una probabilidad particular en una restricción de tamaño de muestra.
11. Explicar el filtrado colaborativo.
Filtrado colaborativo utilizado para buscar patrones correctos mediante la colaboración de puntos de vista, múltiples fuentes de datos y varios agentes.
12. ¿Qué es el sesgo?
El sesgo es un error introducido en su modelo debido a la simplificación excesiva de un algoritmo de aprendizaje automático”. Puede provocar un desajuste.
13. ¿Discutir 'ingenuo' en un algoritmo Naive Bayes?
El modelo del algoritmo Naive Bayes se basa en el teorema de Bayes. Describe la probabilidad de un evento. Se basa en el conocimiento previo de las condiciones que podrían estar relacionadas con ese evento específico.
14. ¿Qué es una regresión lineal?
La regresión lineal es un método de programación estadística en el que la puntuación de una variable "A" se predice a partir de la puntuación de una segunda variable "B". B se denomina variable predictora y A variable criterio.
15. Indique la diferencia entre el valor esperado y el valor medio.
No hay muchas diferencias, pero ambos términos se usan en contextos diferentes. Generalmente se hace referencia al valor medio cuando se habla de una distribución de probabilidad, mientras que al valor esperado se hace referencia en el contexto de una variable aleatoria.
16. ¿Cuál es el objetivo de realizar Testing A/B?
Las pruebas AB se utilizan para realizar experimentos aleatorios con dos variables, A y B. El objetivo de este método de prueba es descubrir cambios en una página web para maximizar o aumentar el resultado de una estrategia.
17. ¿Qué es el aprendizaje conjunto?
El conjunto es un método para combinar un conjunto diverso de alumnos para improvisar sobre la estabilidad y el poder predictivo del modelo. Dos tipos de métodos de aprendizaje Ensemble son:
Harpillera
El método de embolsado le ayuda a implementar alumnos similares en poblaciones de muestra pequeñas. Le ayuda a hacer predicciones más cercanas.
Impulsa
El boosting es un método iterativo que permite ajustar el peso de una observación en función de la última clasificación. El boosting disminuye el error de sesgo y ayuda a crear modelos predictivos sólidos.
18. Explique el valor propio y el vector propio
Los vectores propios sirven para comprender las transformaciones lineales. Los científicos de datos necesitan calcular los vectores propios de una matriz de covarianza o correlación. Los valores propios son las direcciones a lo largo del uso de actos de transformación lineal específicos comprimiendo, volteando o estirando.
19. Defina el término validación cruzada.
La validación cruzada es una técnica de validación para evaluar cómo se generalizarán los resultados del análisis estadístico para un conjunto de datos independiente. Este método se utiliza en entornos donde se pronostica el objetivo y es necesario estimar con qué precisión se logrará un modelo.
20. Explica los pasos para un proyecto de análisis de datos.
Los siguientes son pasos importantes involucrados en un proyecto de análisis:
- Comprender el problema empresarial
- Explore los datos y estúdielos detenidamente.
- Prepare los datos para modelar encontrando valores faltantes y transformando variables.
- Comience a ejecutar el modelo y analice el resultado de Big data.
- Validar el modelo con un nuevo conjunto de datos.
- Implemente el modelo y realice un seguimiento del resultado para analizar el rendimiento del modelo durante un período específico.
21. Discutir las redes neuronales artificiales
Las redes neuronales artificiales (RNA) son un conjunto especial de algoritmos que han revolucionado el aprendizaje automático. Le ayuda a adaptarse según los cambios de entrada. Entonces la red genera el mejor resultado posible sin rediseñar los criterios de salida.
22. ¿Qué es la propagación hacia atrás?
La retropropagación es la esencia del entrenamiento de redes neuronales. Es el método para ajustar los pesos de una red neuronal en función de la tasa de error obtenida en la época anterior. El ajuste adecuado de ayuda a reducir las tasas de error y a hacer que el modelo sea confiable al aumentar su generalización.
23. ¿Qué es un bosque aleatorio?
El bosque aleatorio es un método de aprendizaje automático que le ayuda a realizar todo tipo de tareas de regresión y clasificación. También se utiliza para tratar valores perdidos y valores atípicos.
24. ¿Cuál es la importancia de tener un sesgo de selección?
El sesgo de selección ocurre cuando no se logra una aleatorización específica al seleccionar individuos, grupos o datos para analizar. Sugiere que la muestra dada no representa exactamente la población que se pretendía analizar.
25. ¿Qué es el método de agrupamiento K-means?
La agrupación en K-medias es un importante método de aprendizaje no supervisado. Es una técnica de clasificación de datos utilizando un determinado conjunto de grupos denominados grupos K. Se utiliza para agrupar y determinar la similitud de los datos.
Preguntas de la entrevista para científicos de datos para experimentados
26. Explique la diferencia entre ciencia de datos y análisis de datos.
Los científicos de datos necesitan dividir los datos para extraer información valiosa que un analista de datos puede aplicar a escenarios empresariales del mundo real. La principal diferencia entre los dos es que los científicos de datos tienen más conocimientos técnicos que los analistas de negocios. Además, no necesitan comprender el negocio necesario para la visualización de datos.
27. ¿Explica el valor p?
Cuando realiza una prueba de hipótesis en estadística, un valor p le permite determinar la solidez de sus resultados. Es un número numérico entre 0 y 1. Según el valor, le ayudará a indicar la solidez del resultado específico.
28. Defina el término aprendizaje profundo
El aprendizaje profundo es un subtipo del aprendizaje automático. Se ocupa de algoritmos inspirados en la estructura denominada redes neuronales artificiales (RNA).
29. Explique el método para recopilar y analizar datos para usar las redes sociales para predecir las condiciones climáticas.
Puede recopilar datos de redes sociales utilizando Facebook, Twitter y las API de Instagram. Por ejemplo, para el tweeter, podemos construir una característica a partir de cada tweet, como la fecha del tweet, retweets, lista de seguidores, etc. Luego, puede usar un modelo de series de tiempo multivariado para predecir las condiciones climáticas.
30. ¿Cuándo es necesario actualizar el algoritmo en ciencia de datos?
Necesita actualizar un algoritmo en la siguiente situación:
- Quiere que su modelo de datos evolucione como flujos de datos utilizando infraestructura
- La fuente de datos subyacente está cambiando si no es estacionaria.
31. ¿Qué es la distribución normal?
Una distribución normal es un conjunto de variables continuas distribuidas a lo largo de una curva normal o en forma de campana. Puede considerarlo como una distribución de probabilidad continua que es útil en estadística. Es útil analizar las variables y sus relaciones cuando utilizamos la curva de distribución normal.
32. ¿Qué idioma es mejor para el análisis de texto? R o Python?
Python Será más adecuado para análisis de texto, ya que consta de una rica biblioteca conocida como pandas. Le permite utilizar alto nivel. herramientas de análisis de datos y estructuras de datos, mientras que R no ofrece esta característica.
33. Explicar los beneficios del uso de estadísticas por parte de científicos de datos.
Las estadísticas ayudan a los científicos de datos a tener una mejor idea de las expectativas del cliente. Utilizando el método estadístico, los científicos de datos pueden obtener conocimientos sobre el interés, el comportamiento, el compromiso, la retención, etc. del consumidor. También le ayuda a crear modelos de datos potentes para validar ciertas inferencias y predicciones.
34. Nombra varios tipos de marcos de aprendizaje profundo.
- Pytorch
- Microsoft Kit de herramientas cognitivas
- TensorFlow
- Caffe
- Chainer
- Keras
35.Explicar el codificador automático
Los autocodificadores son redes de aprendizaje que te ayudan a transformar las entradas en salidas con menos errores, lo que significa que obtendrás una salida lo más parecida posible a la entrada.
36. Definir la máquina de Boltzmann
Las máquinas de Boltzmann son un algoritmo de aprendizaje simple que ayuda a descubrir las características que representan regularidades complejas en los datos de entrenamiento. Este algoritmo permite optimizar los pesos y la cantidad para el problema dado.
37. Explique por qué la limpieza de datos es esencial y qué método utiliza para mantener los datos limpios.
Los datos sucios a menudo conducen a información incorrecta, lo que puede dañar las perspectivas de cualquier organización. Por ejemplo, si desea ejecutar una campaña de marketing dirigida. Sin embargo, nuestros datos le indican incorrectamente que un producto específico tendrá demanda entre su público objetivo; la campaña fracasará.
38. ¿Qué es la distribución sesgada y la distribución uniforme?
La distribución sesgada ocurre cuando los datos se distribuyen en cualquier lado de la gráfica, mientras que la distribución uniforme se identifica cuando los datos se distribuyen en el mismo rango.
39. ¿Cuándo se produce un desajuste en un modelo estático?
El desajuste ocurre cuando un modelo estadístico o un algoritmo de aprendizaje automático no puede capturar la tendencia subyacente de los datos.
40. ¿Qué es el aprendizaje por refuerzo?
El aprendizaje por refuerzo es un mecanismo de aprendizaje sobre cómo mapear situaciones en acciones. El resultado final debería ayudarle a aumentar la señal de recompensa binaria. En este método, al alumno no se le dice qué acción tomar, sino que debe descubrir qué acción ofrece la máxima recompensa. Como este método se basa en el mecanismo de recompensa/pena.
41. Nombra los algoritmos comúnmente utilizados.
Los cuatro algoritmos más utilizados por los científicos de datos son:
- Regresión lineal
- Regresión logística
- Bosque al azar
- knn
42. ¿Qué es la precisión?
La precisión es la métrica de error más utilizada como mecanismo de clasificación. Su rango es de 0 a 1, donde 1 representa el 100%.
43. ¿Qué es un análisis univariado?
Un análisis que no se aplica a ningún atributo a la vez se conoce como análisis univariado. BoxLa trama es un modelo univariado ampliamente utilizado.
44. ¿Cómo superas los desafíos a tus hallazgos?
Para superar los desafíos que considero es necesario fomentar el debate, demostrar liderazgo y respetar las diferentes opciones.
45. Explique la técnica de muestreo por conglomerados en la ciencia de datos.
Se utiliza un método de muestreo por conglomerados cuando resulta difícil estudiar una población objetivo dispersa y no se puede aplicar un muestreo aleatorio simple.
46. Indique la diferencia entre un conjunto de validación y un conjunto de prueba
Un conjunto de validación considerado principalmente como parte del conjunto de entrenamiento, ya que se utiliza para la selección de parámetros, lo que ayuda a evitar el sobreajuste del modelo que se está construyendo.
Mientras que un conjunto de pruebas se utiliza para probar o evaluar el rendimiento de un modelo de aprendizaje automático entrenado.
47. ¿Explique el término Fórmula de probabilidad binomial?
"La distribución binomial contiene las probabilidades de cada éxito posible en N ensayos para eventos independientes que tienen una probabilidad de π de ocurrir".
48. ¿Qué es un retiro del mercado?
Un retiro del mercado es una relación entre la tasa positiva verdadera y la tasa positiva real. Va de 0 a 1.
49. Discuta la distribución normal.
Distribución normal igualmente distribuida, por lo que la media, la mediana y la moda son iguales.
50. Mientras trabajas en un conjunto de datos, ¿cómo puedes seleccionar variables importantes? Explicar
Puedes utilizar los siguientes métodos de selección de variables:
- Elimine las variables correlacionadas antes de seleccionar variables importantes.
- Utilice la regresión lineal y seleccione variables que dependan de esos valores de p.
- Utilice la selección hacia atrás, hacia adelante y la selección por pasos
- Utilice Xgboost, Random Forest y trace un gráfico de importancia de variables.
- Mida la ganancia de información para el conjunto de funciones determinado y seleccione las n funciones principales en consecuencia.
51. ¿Es posible capturar la correlación entre variable continua y categórica?
Sí, podemos utilizar la técnica del análisis de covarianza para capturar la asociación entre variables continuas y categóricas.
52. ¿Tratar una variable categórica como una variable continua daría como resultado un mejor modelo predictivo?
Sí, el valor categórico debe considerarse como una variable continua sólo cuando la variable es de naturaleza ordinal. Por tanto, es un mejor modelo predictivo.
Estas preguntas de la entrevista también te ayudarán en tu viva(orals)