Las 50 preguntas y respuestas principales de la entrevista sobre ciencia de datos (PDF)
Aquรญ hay preguntas y respuestas de la entrevista sobre ciencia de datos para que los candidatos mรกs nuevos y experimentados consigan el trabajo de sus sueรฑos.
Preguntas de la entrevista sobre ciencia de datos para principiantes
1. ยฟQuรฉ es la ciencia de datos?
La ciencia de datos es el รกrea de estudio que implica extraer informaciรณn de grandes cantidades de datos mediante diversos mรฉtodos, algoritmos y procesos cientรญficos. Te ayuda a descubrir patrones ocultos a partir de los datos sin procesar. El tรฉrmino ciencia de datos surgiรณ debido a la evoluciรณn de las estadรญsticas matemรกticas, el anรกlisis de datos y el big data.
2. ยฟCuรกl es la diferencia entre ciencia de datos y aprendizaje automรกtico?
Data science es una combinaciรณn de algoritmos, herramientas y tรฉcnicas de aprendizaje automรกtico que le ayudan a encontrar patrones ocultos comunes a partir de los datos sin procesar proporcionados. Mientras que el aprendizaje automรกtico es una rama de la informรกtica que se ocupa de la programaciรณn de sistemas para aprender y mejorar automรกticamente con la experiencia.

3. Nombra tres tipos de sesgos que pueden ocurrir durante el muestreo.
En el proceso de muestreo existen tres tipos de sesgos, que son:
- Sesgo de selecciรณn
- Bajo sesgo de cobertura
- Sesgo de supervivencia
4. Discutir el algoritmo del รกrbol de decisiรณn
Un รกrbol de decisiรณn es un algoritmo popular de aprendizaje automรกtico supervisado. Se utiliza principalmente para regresiรณn y clasificaciรณn. Permite dividir un conjunto de datos en subconjuntos mรกs pequeรฑos. El รกrbol de decisiรณn puede manejar datos tanto categรณricos como numรฉricos.
5. ยฟQuรฉ es la probabilidad previa y la verosimilitud?
La probabilidad previa es la proporciรณn de la variable dependiente en el conjunto de datos, mientras que la probabilidad es la probabilidad de clasificar a un observador determinado en presencia de alguna otra variable.
6. ยฟExplicar los sistemas de recomendaciรณn?
Es una subclase de tรฉcnicas de filtrado de informaciรณn. Le ayuda a predecir las preferencias o valoraciones que los usuarios probablemente le darรกn a un producto.
7. Nombra tres desventajas de usar un modelo lineal.
Tres desventajas del modelo lineal son:
- El supuesto de linealidad de los errores.
- No puedes usar este modelo para resultados binarios o de conteo.
- Hay muchos problemas de sobreajuste que no puede resolver
8. ยฟPor quรฉ es necesario realizar un remuestreo?
El remuestreo se realiza en los casos que se indican a continuaciรณn:
- Estimaciรณn de la precisiรณn de las estadรญsticas de muestra extrayendo aleatoriamente con reemplazo de un conjunto de puntos de datos o utilizando subconjuntos de datos accesibles
- Sustituir etiquetas en puntos de datos al realizar las pruebas necesarias
- Validar modelos mediante el uso de subconjuntos aleatorios
9. Enumere las bibliotecas en Python utilizado para anรกlisis de datos y cรกlculos cientรญficos.
- Ciencia
- pandas
- matplotlib
- NumPy
- cienciakit
- nacido en el mar
10. ยฟQuรฉ es el anรกlisis de potencia?
El anรกlisis de potencia es una parte integral del diseรฑo experimental. Le ayuda a determinar el tamaรฑo de muestra necesario para descubrir el efecto de un tamaรฑo determinado de una causa con un nivel de seguridad especรญfico. Tambiรฉn le permite implementar una probabilidad particular en una restricciรณn de tamaรฑo de muestra.
11. Explicar el filtrado colaborativo.
Filtrado colaborativo utilizado para buscar patrones correctos mediante la colaboraciรณn de puntos de vista, mรบltiples fuentes de datos y varios agentes.
12. ยฟQuรฉ es el sesgo?
El sesgo es un error introducido en su modelo debido a la simplificaciรณn excesiva de un algoritmo de aprendizaje automรกticoโ. Puede provocar un desajuste.
13. ยฟDiscutir 'ingenuo' en un algoritmo Naive Bayes?
El modelo del algoritmo Naive Bayes se basa en el teorema de Bayes. Describe la probabilidad de un evento. Se basa en el conocimiento previo de las condiciones que podrรญan estar relacionadas con ese evento especรญfico.
14. ยฟQuรฉ es una regresiรณn lineal?
La regresiรณn lineal es un mรฉtodo de programaciรณn estadรญstica en el que la puntuaciรณn de una variable "A" se predice a partir de la puntuaciรณn de una segunda variable "B". B se denomina variable predictora y A variable criterio.
15. Indique la diferencia entre el valor esperado y el valor medio.
No hay muchas diferencias, pero ambos tรฉrminos se usan en contextos diferentes. Generalmente se hace referencia al valor medio cuando se habla de una distribuciรณn de probabilidad, mientras que al valor esperado se hace referencia en el contexto de una variable aleatoria.
16. ยฟCuรกl es el objetivo de realizar Testing A/B?
Las pruebas AB se utilizan para realizar experimentos aleatorios con dos variables, A y B. El objetivo de este mรฉtodo de prueba es descubrir cambios en una pรกgina web para maximizar o aumentar el resultado de una estrategia.
17. ยฟQuรฉ es el aprendizaje conjunto?
El conjunto es un mรฉtodo para combinar un conjunto diverso de alumnos para improvisar sobre la estabilidad y el poder predictivo del modelo. Dos tipos de mรฉtodos de aprendizaje Ensemble son:
Harpillera
El mรฉtodo de embolsado le ayuda a implementar alumnos similares en poblaciones de muestra pequeรฑas. Le ayuda a hacer predicciones mรกs cercanas.
Impulsa
El boosting es un mรฉtodo iterativo que permite ajustar el peso de una observaciรณn en funciรณn de la รบltima clasificaciรณn. El boosting disminuye el error de sesgo y ayuda a crear modelos predictivos sรณlidos.
18. Explique el valor propio y el vector propio
Los vectores propios sirven para comprender las transformaciones lineales. Los cientรญficos de datos necesitan calcular los vectores propios de una matriz de covarianza o correlaciรณn. Los valores propios son las direcciones a lo largo del uso de actos de transformaciรณn lineal especรญficos comprimiendo, volteando o estirando.
19. Defina el tรฉrmino validaciรณn cruzada.
La validaciรณn cruzada es una tรฉcnica de validaciรณn para evaluar cรณmo se generalizarรกn los resultados del anรกlisis estadรญstico para un conjunto de datos independiente. Este mรฉtodo se utiliza en entornos donde se pronostica el objetivo y es necesario estimar con quรฉ precisiรณn se lograrรก un modelo.
20. Explica los pasos para un proyecto de anรกlisis de datos.
Los siguientes son pasos importantes involucrados en un proyecto de anรกlisis:
- Comprender el problema empresarial
- Explore los datos y estรบdielos detenidamente.
- Prepare los datos para modelar encontrando valores faltantes y transformando variables.
- Comience a ejecutar el modelo y analice el resultado de Big data.
- Validar el modelo con un nuevo conjunto de datos.
- Implemente el modelo y realice un seguimiento del resultado para analizar el rendimiento del modelo durante un perรญodo especรญfico.
21. Discutir las redes neuronales artificiales
Las redes neuronales artificiales (RNA) son un conjunto especial de algoritmos que han revolucionado el aprendizaje automรกtico. Le ayuda a adaptarse segรบn los cambios de entrada. Entonces la red genera el mejor resultado posible sin rediseรฑar los criterios de salida.
22. ยฟQuรฉ es la propagaciรณn hacia atrรกs?
La retropropagaciรณn es la esencia del entrenamiento de redes neuronales. Es el mรฉtodo para ajustar los pesos de una red neuronal en funciรณn de la tasa de error obtenida en la รฉpoca anterior. El ajuste adecuado de ayuda a reducir las tasas de error y a hacer que el modelo sea confiable al aumentar su generalizaciรณn.
23. ยฟQuรฉ es un bosque aleatorio?
El bosque aleatorio es un mรฉtodo de aprendizaje automรกtico que le ayuda a realizar todo tipo de tareas de regresiรณn y clasificaciรณn. Tambiรฉn se utiliza para tratar valores perdidos y valores atรญpicos.
24. ยฟCuรกl es la importancia de tener un sesgo de selecciรณn?
El sesgo de selecciรณn ocurre cuando no se logra una aleatorizaciรณn especรญfica al seleccionar individuos, grupos o datos para analizar. Sugiere que la muestra dada no representa exactamente la poblaciรณn que se pretendรญa analizar.
25. ยฟQuรฉ es el mรฉtodo de agrupamiento K-means?
La agrupaciรณn en K-medias es un importante mรฉtodo de aprendizaje no supervisado. Es una tรฉcnica de clasificaciรณn de datos utilizando un determinado conjunto de grupos denominados grupos K. Se utiliza para agrupar y determinar la similitud de los datos.
Preguntas de la entrevista para cientรญficos de datos para experimentados
26. Explique la diferencia entre ciencia de datos y anรกlisis de datos.
Los cientรญficos de datos necesitan dividir los datos para extraer informaciรณn valiosa que un analista de datos puede aplicar a escenarios empresariales del mundo real. La principal diferencia entre los dos es que los cientรญficos de datos tienen mรกs conocimientos tรฉcnicos que los analistas de negocios. Ademรกs, no necesitan comprender el negocio necesario para la visualizaciรณn de datos.
27. ยฟExplica el valor p?
Cuando realiza una prueba de hipรณtesis en estadรญstica, un valor p le permite determinar la solidez de sus resultados. Es un nรบmero numรฉrico entre 0 y 1. Segรบn el valor, le ayudarรก a indicar la solidez del resultado especรญfico.
28. Defina el tรฉrmino aprendizaje profundo
El aprendizaje profundo es un subtipo del aprendizaje automรกtico. Se ocupa de algoritmos inspirados en la estructura denominada redes neuronales artificiales (RNA).
29. Explique el mรฉtodo para recopilar y analizar datos para usar las redes sociales para predecir las condiciones climรกticas.
Puede recopilar datos de redes sociales utilizando Facebook, Twitter y las API de Instagram. Por ejemplo, para el tweeter, podemos construir una caracterรญstica a partir de cada tweet, como la fecha del tweet, retweets, lista de seguidores, etc. Luego, puede usar un modelo de series de tiempo multivariado para predecir las condiciones climรกticas.
30. ยฟCuรกndo es necesario actualizar el algoritmo en ciencia de datos?
Necesita actualizar un algoritmo en la siguiente situaciรณn:
- Quiere que su modelo de datos evolucione como flujos de datos utilizando infraestructura
- La fuente de datos subyacente estรก cambiando si no es estacionaria.
31. ยฟQuรฉ es la distribuciรณn normal?
Una distribuciรณn normal es un conjunto de variables continuas distribuidas a lo largo de una curva normal o en forma de campana. Puede considerarlo como una distribuciรณn de probabilidad continua que es รบtil en estadรญstica. Es รบtil analizar las variables y sus relaciones cuando utilizamos la curva de distribuciรณn normal.
32. ยฟQuรฉ idioma es mejor para el anรกlisis de texto? R o Python?
Python Serรก mรกs adecuado para anรกlisis de texto, ya que consta de una rica biblioteca conocida como pandas. Le permite utilizar alto nivel. herramientas de anรกlisis de datos y estructuras de datos, mientras que R no ofrece esta caracterรญstica.
33. Explicar los beneficios del uso de estadรญsticas por parte de cientรญficos de datos.
Las estadรญsticas ayudan a los cientรญficos de datos a tener una mejor idea de las expectativas del cliente. Utilizando el mรฉtodo estadรญstico, los cientรญficos de datos pueden obtener conocimientos sobre el interรฉs, el comportamiento, el compromiso, la retenciรณn, etc. del consumidor. Tambiรฉn le ayuda a crear modelos de datos potentes para validar ciertas inferencias y predicciones.
34. Nombra varios tipos de marcos de aprendizaje profundo.
- Pytorch
- Microsoft Kit de herramientas cognitivas
- TensorFlow
- Caffe
- Chainer
- Keras
35.Explicar el codificador automรกtico
Los autocodificadores son redes de aprendizaje que te ayudan a transformar las entradas en salidas con menos errores, lo que significa que obtendrรกs una salida lo mรกs parecida posible a la entrada.
36. Definir la mรกquina de Boltzmann
Las mรกquinas de Boltzmann son un algoritmo de aprendizaje simple que ayuda a descubrir las caracterรญsticas que representan regularidades complejas en los datos de entrenamiento. Este algoritmo permite optimizar los pesos y la cantidad para el problema dado.
37. Explique por quรฉ la limpieza de datos es esencial y quรฉ mรฉtodo utiliza para mantener los datos limpios.
Los datos sucios a menudo conducen a informaciรณn incorrecta, lo que puede daรฑar las perspectivas de cualquier organizaciรณn. Por ejemplo, si desea ejecutar una campaรฑa de marketing dirigida. Sin embargo, nuestros datos le indican incorrectamente que un producto especรญfico tendrรก demanda entre su pรบblico objetivo; la campaรฑa fracasarรก.
38. ยฟQuรฉ es la distribuciรณn sesgada y la distribuciรณn uniforme?
La distribuciรณn sesgada ocurre cuando los datos se distribuyen en cualquier lado de la grรกfica, mientras que la distribuciรณn uniforme se identifica cuando los datos se distribuyen en el mismo rango.
39. ยฟCuรกndo se produce un desajuste en un modelo estรกtico?
El desajuste ocurre cuando un modelo estadรญstico o un algoritmo de aprendizaje automรกtico no puede capturar la tendencia subyacente de los datos.
40. ยฟQuรฉ es el aprendizaje por refuerzo?
El aprendizaje por refuerzo es un mecanismo de aprendizaje sobre cรณmo mapear situaciones en acciones. El resultado final deberรญa ayudarle a aumentar la seรฑal de recompensa binaria. En este mรฉtodo, al alumno no se le dice quรฉ acciรณn tomar, sino que debe descubrir quรฉ acciรณn ofrece la mรกxima recompensa. Como este mรฉtodo se basa en el mecanismo de recompensa/pena.
41. Nombra los algoritmos comรบnmente utilizados.
Los cuatro algoritmos mรกs utilizados por los cientรญficos de datos son:
- Regresiรณn lineal
- Regresiรณn logรญstica
- Bosque al azar
- knn
42. ยฟQuรฉ es la precisiรณn?
La precisiรณn es la mรฉtrica de error mรกs utilizada como mecanismo de clasificaciรณn. Su rango es de 0 a 1, donde 1 representa el 100%.
43. ยฟQuรฉ es un anรกlisis univariado?
Un anรกlisis que no se aplica a ningรบn atributo a la vez se conoce como anรกlisis univariado. BoxLa trama es un modelo univariado ampliamente utilizado.
44. ยฟCรณmo superas los desafรญos a tus hallazgos?
Para superar los desafรญos que considero es necesario fomentar el debate, demostrar liderazgo y respetar las diferentes opciones.
45. Explique la tรฉcnica de muestreo por conglomerados en la ciencia de datos.
Se utiliza un mรฉtodo de muestreo por conglomerados cuando resulta difรญcil estudiar una poblaciรณn objetivo dispersa y no se puede aplicar un muestreo aleatorio simple.
46. โโIndique la diferencia entre un conjunto de validaciรณn y un conjunto de prueba
Un conjunto de validaciรณn considerado principalmente como parte del conjunto de entrenamiento, ya que se utiliza para la selecciรณn de parรกmetros, lo que ayuda a evitar el sobreajuste del modelo que se estรก construyendo.
Mientras que un conjunto de pruebas se utiliza para probar o evaluar el rendimiento de un modelo de aprendizaje automรกtico entrenado.
47. ยฟExplique el tรฉrmino Fรณrmula de probabilidad binomial?
"La distribuciรณn binomial contiene las probabilidades de cada รฉxito posible en N ensayos para eventos independientes que tienen una probabilidad de ฯ de ocurrir".
48. ยฟQuรฉ es un retiro del mercado?
Un retiro del mercado es una relaciรณn entre la tasa positiva verdadera y la tasa positiva real. Va de 0 a 1.
49. Discuta la distribuciรณn normal.
Distribuciรณn normal igualmente distribuida, por lo que la media, la mediana y la moda son iguales.
50. Mientras trabajas en un conjunto de datos, ยฟcรณmo puedes seleccionar variables importantes? Explicar
Puedes utilizar los siguientes mรฉtodos de selecciรณn de variables:
- Elimine las variables correlacionadas antes de seleccionar variables importantes.
- Utilice la regresiรณn lineal y seleccione variables que dependan de esos valores de p.
- Utilice la selecciรณn hacia atrรกs, hacia adelante y la selecciรณn por pasos
- Utilice Xgboost, Random Forest y trace un grรกfico de importancia de variables.
- Mida la ganancia de informaciรณn para el conjunto de funciones determinado y seleccione las n funciones principales en consecuencia.
51. ยฟEs posible capturar la correlaciรณn entre variable continua y categรณrica?
Sรญ, podemos utilizar la tรฉcnica del anรกlisis de covarianza para capturar la asociaciรณn entre variables continuas y categรณricas.
52. ยฟTratar una variable categรณrica como una variable continua darรญa como resultado un mejor modelo predictivo?
Sรญ, el valor categรณrico debe considerarse como una variable continua sรณlo cuando la variable es de naturaleza ordinal. Por tanto, es un mejor modelo predictivo.
Estas preguntas de la entrevista tambiรฉn te ayudarรกn en tu viva(orals)
