As 50 principais perguntas e respostas da entrevista sobre ciência de dados (PDF)
Aqui estão as perguntas e respostas da entrevista de Data Science para candidatos mais novos e experientes para conseguir o emprego dos sonhos.
Perguntas da entrevista sobre ciência de dados para calouros
1. O que é Ciência de Dados?
Ciência de Dados é a área de estudo que envolve a extração de insights de grandes quantidades de dados usando vários métodos, algoritmos e processos científicos. Ajuda você a descobrir padrões ocultos nos dados brutos. O termo Data Science surgiu devido à evolução da estatística matemática, da análise de dados e do big data.
2. Qual é a diferença entre ciência de dados e aprendizado de máquina?
Ciência dados é uma combinação de algoritmos, ferramentas e técnicas de aprendizado de máquina que ajudam você a encontrar padrões ocultos comuns a partir dos dados brutos fornecidos. Considerando que o aprendizado de máquina é um ramo da ciência da computação que lida com a programação de sistemas para aprender e melhorar automaticamente com a experiência.
3. Cite três tipos de vieses que podem ocorrer durante a amostragem
No processo de amostragem, existem três tipos de vieses, que são:
- Viés de seleção
- Viés de subcobertura
- Viés de sobrevivência
4. Discuta o algoritmo da Árvore de Decisão
Uma árvore de decisão é um algoritmo popular de aprendizado de máquina supervisionado. É usado principalmente para regressão e classificação. Ele permite dividir um conjunto de dados em subconjuntos menores. A árvore de decisão pode lidar com dados categóricos e numéricos.
5. O que é probabilidade e probabilidade anteriores?
A probabilidade anterior é a proporção da variável dependente no conjunto de dados, enquanto a probabilidade é a probabilidade de classificar um determinado observador na presença de alguma outra variável.
6. Explique os sistemas de recomendação?
É uma subclasse de técnicas de filtragem de informações. Ajuda a prever as preferências ou classificações que os usuários provavelmente darão a um produto.
7. Cite três desvantagens de usar um modelo linear
Três desvantagens do modelo linear são:
- A suposição de linearidade dos erros.
- Você não pode usar este modelo para resultados binários ou de contagem
- Existem muitos problemas de overfitting que não podem ser resolvidos
8. Por que é necessário realizar a reamostragem?
A reamostragem é feita nos casos indicados abaixo:
- Estimar a precisão das estatísticas da amostra extraindo aleatoriamente com substituição de um conjunto de pontos de dados ou usando como subconjuntos de dados acessíveis
- Substituindo rótulos em pontos de dados ao realizar os testes necessários
- Validando modelos usando subconjuntos aleatórios
9. Liste as bibliotecas em Python usado para análise de dados e cálculos científicos.
- SciPy
- Pandas
- matplotlib
- NumPy
- SciKitGenericName
- marinho
10. O que é Análise de Potência?
A análise de potência é parte integrante do projeto experimental. Ajuda a determinar o tamanho da amostra necessário para descobrir o efeito de um determinado tamanho de uma causa com um nível específico de garantia. Também permite implantar uma probabilidade específica em uma restrição de tamanho de amostra.
11. Explique a filtragem colaborativa
Filtragem colaborativa usada para procurar padrões corretos por meio da colaboração de pontos de vista, múltiplas fontes de dados e vários agentes.
12. O que é preconceito?
Viés é um erro introduzido em seu modelo devido à simplificação excessiva de um algoritmo de aprendizado de máquina.” Isso pode levar ao subajuste.
13. Discuta 'Ingênuo' em um algoritmo Naive Bayes?
O modelo do Algoritmo Naive Bayes é baseado no Teorema de Bayes. Descreve a probabilidade de um evento. Baseia-se no conhecimento prévio das condições que podem estar relacionadas a esse evento específico.
14. O que é regressão linear?
A regressão linear é um método de programação estatística onde a pontuação de uma variável 'A' é prevista a partir da pontuação de uma segunda variável 'B'. B é referida como variável preditora e A como variável critério.
15. Indique a diferença entre o valor esperado e o valor médio
Não há muitas diferenças, mas ambos os termos são usados em contextos diferentes. O valor médio é geralmente referido quando você está discutindo uma distribuição de probabilidade, enquanto o valor esperado é referido no contexto de uma variável aleatória.
16. Qual o objetivo de realizar testes A/B?
O teste AB é usado para conduzir experimentos aleatórios com duas variáveis, A e B. O objetivo deste método de teste é descobrir alterações em uma página da web para maximizar ou aumentar o resultado de uma estratégia.
17. O que é aprendizagem em conjunto?
O conjunto é um método de combinar um conjunto diversificado de alunos para improvisar sobre a estabilidade e o poder preditivo do modelo. Dois tipos de métodos de aprendizagem Ensemble são:
Bagging
O método Bagging ajuda você a implementar alunos semelhantes em pequenas populações de amostra. Isso ajuda você a fazer previsões mais próximas.
Impulsionar
Boosting é um método iterativo que permite ajustar o peso de uma observação dependendo da última classificação. O reforço diminui o erro de polarização e ajuda a construir modelos preditivos fortes.
18. Explique autovalor e autovetor
Os autovetores servem para compreender transformações lineares. O cientista de dados precisa calcular os autovetores para uma matriz de covariância ou correlação. Autovalores são as direções usando atos de transformação linear específicos por meio de compressão, inversão ou alongamento.
19. Defina o termo validação cruzada
A validação cruzada é uma técnica de validação para avaliar como os resultados da análise estatística serão generalizados para um conjunto de dados independente. Este método é usado em cenários onde o objetivo é previsto e é necessário estimar a precisão com que um modelo será alcançado.
20. Explique as etapas de um projeto de análise de dados
A seguir estão etapas importantes envolvidas em um projeto de análise:
- Entenda o problema do negócio
- Explore os dados e estude-os cuidadosamente.
- Prepare os dados para modelagem encontrando valores ausentes e transformando variáveis.
- Comece a executar o modelo e analise o resultado do Big data.
- Valide o modelo com novo conjunto de dados.
- Implemente o modelo e acompanhe o resultado para analisar o desempenho do modelo em um período específico.
21. Discuta Redes Neurais Artificiais
Redes Neurais Artificiais (RNA) são um conjunto especial de algoritmos que revolucionaram o aprendizado de máquina. Ajuda você a se adaptar de acordo com as mudanças de entrada. Assim a rede gera o melhor resultado possível sem redesenhar os critérios de saída.
22. O que é retropropagação?
A retropropagação é a essência do treinamento da rede neural. É o método de ajustar os pesos de uma rede neural dependendo da taxa de erro obtida na época anterior. O ajuste adequado do ajuda a reduzir as taxas de erro e a tornar o modelo confiável, aumentando sua generalização.
23. O que é uma Floresta Aleatória?
Floresta aleatória é um método de aprendizado de máquina que ajuda você a realizar todos os tipos de tarefas de regressão e classificação. Também é usado para tratar valores ausentes e valores discrepantes.
24. Qual é a importância de ter um viés de seleção?
O viés de seleção ocorre quando não há randomização específica alcançada durante a escolha de indivíduos ou grupos ou dados a serem analisados. Sugere que a amostra dada não representa exatamente a população que se pretendia analisar.
25. Qual é o método de agrupamento K-means?
O agrupamento K-means é um importante método de aprendizagem não supervisionado. É a técnica de classificação de dados usando um determinado conjunto de clusters denominado K clusters. Ele é implantado para agrupamento para descobrir a semelhança nos dados.
Perguntas da entrevista com cientistas de dados para experientes
26. Explique a diferença entre Data Science e Data Analytics
Os cientistas de dados precisam dividir os dados para extrair insights valiosos que um analista de dados possa aplicar a cenários de negócios do mundo real. A principal diferença entre os dois é que os cientistas de dados possuem mais conhecimento técnico do que os analistas de negócios. Além disso, eles não precisam de um entendimento do negócio necessário para a visualização de dados.
27. Explique o valor p?
Quando você conduz um teste de hipótese em estatística, um valor p permite determinar a força de seus resultados. É um número numérico entre 0 e 1. Com base no valor, ele o ajudará a denotar a força do resultado específico.
28. Defina o termo aprendizagem profunda
Deep Learning é um subtipo de aprendizado de máquina. Trata-se de algoritmos inspirados na estrutura chamada redes neurais artificiais (RNA).
29. Explique o método de recolha e análise de dados para utilizar as redes sociais para prever as condições meteorológicas.
Você pode coletar dados de mídia social usando Facebook, Twitter, APIs do Instagram. Por exemplo, para o tweeter, podemos construir um recurso de cada tweet, como data do tweet, retuítes, lista de seguidores, etc. Em seguida, você pode usar um modelo multivariado de série temporal para prever as condições climáticas.
30. Quando você precisa atualizar o algoritmo em Ciência de Dados?
Você precisa atualizar um algoritmo na seguinte situação:
- Você deseja que seu modelo de dados evolua como fluxos de dados usando infraestrutura
- A fonte de dados subjacente está mudandoSe não for estacionária
31. O que é distribuição normal
Uma distribuição normal é um conjunto de uma variável contínua espalhada ao longo de uma curva normal ou na forma de uma curva em sino. Você pode considerá-la como uma distribuição de probabilidade contínua que é útil em estatísticas. É útil analisar as variáveis e suas relações quando utilizamos a curva de distribuição normal.
32. Qual idioma é melhor para análise de texto? R ou Python?
Python será mais adequado para análise de texto, pois consiste em uma rica biblioteca conhecida como pandas. Ele permite que você use alto nível ferramentas de análise de dados e estruturas de dados, enquanto R não oferece esse recurso.
33. Explique os benefícios do uso de estatísticas por cientistas de dados
As estatísticas ajudam o cientista de dados a ter uma ideia melhor das expectativas do cliente. Usando o método estatístico, os cientistas de dados podem obter conhecimento sobre o interesse, comportamento, engajamento, retenção do consumidor, etc. Também ajuda a construir modelos de dados poderosos para validar certas inferências e previsões.
34. Cite vários tipos de estruturas de aprendizado profundo
- lanterna
- Microsoft Kit de ferramentas cognitivas
- TensorFlow
- Caffe
- Encadeador
- Keras
35.Explicar o codificador automático
Autoencoders são redes de aprendizagem. Ajuda a transformar entradas em saídas com menos erros. Isso significa que você obterá a saída o mais próximo possível da entrada.
36. Defina a Máquina Boltzmann
As máquinas Boltzmann são um algoritmo de aprendizagem simples. Ajuda você a descobrir os recursos que representam regularidades complexas nos dados de treinamento. Este algoritmo permite otimizar os pesos e a quantidade para um determinado problema.
37. Explique por que a limpeza de dados é essencial e qual método você usa para manter os dados limpos
Dados sujos muitas vezes levam a informações internas incorretas, o que pode prejudicar a perspectiva de qualquer organização. Por exemplo, se você deseja realizar uma campanha de marketing direcionada. No entanto, nossos dados informam incorretamente que um produto específico será muito procurado por seu público-alvo; a campanha irá falhar.
38. O que é distribuição distorcida e distribuição uniforme?
A distribuição distorcida ocorre quando os dados são distribuídos em qualquer lado do gráfico, enquanto a distribuição uniforme é identificada quando os dados são espalhados são iguais no intervalo.
39. Quando ocorre underfitting em um modelo estático?
O underfitting ocorre quando um modelo estatístico ou algoritmo de aprendizado de máquina não é capaz de capturar a tendência subjacente dos dados.
40. O que é aprendizado por reforço?
O Aprendizado por Reforço é um mecanismo de aprendizagem sobre como mapear situações em ações. O resultado final deve ajudá-lo a aumentar o sinal de recompensa binária. Neste método, o aluno não é informado sobre qual ação tomar, mas deve descobrir qual ação oferece a recompensa máxima. Como este método é baseado no mecanismo de recompensa/penalidade.
41. Cite os algoritmos comumente usados.
Quatro algoritmos mais comumente usados pelo cientista de dados são:
- Regressão linear
- Regressão logística
- Floresta Aleatória
- KNN
42. O que é precisão?
A precisão é a métrica de erro mais comumente usada em um mecanismo de classificação. Seu intervalo é de 0 a 1, onde 1 representa 100%
43. O que é uma análise univariada?
Uma análise que não é aplicada a nenhum atributo por vez é conhecida como análise univariada. Boxplot é um modelo univariado amplamente utilizado.
44. Como você supera os desafios às suas descobertas?
Para superar os desafios que encontro, é necessário incentivar a discussão, demonstrar liderança e respeitar as diferentes opções.
45. Explique a técnica de amostragem por conglomerados em ciência de dados
Um método de amostragem por conglomerados é usado quando é difícil estudar a população-alvo espalhada e a amostragem aleatória simples não pode ser aplicada.
46. Indique a diferença entre um conjunto de validação e um conjunto de teste
Um conjunto de validação considerado principalmente como parte do conjunto de treinamento, pois é usado para seleção de parâmetros, o que ajuda a evitar ajuste excessivo do modelo que está sendo construído.
Enquanto um conjunto de testes é usado para testar ou avaliar o desempenho de um modelo de aprendizado de máquina treinado.
47. Explique o termo Fórmula de Probabilidade Binomial?
“A distribuição binomial contém as probabilidades de cada sucesso possível em N tentativas para eventos independentes que têm uma probabilidade de ocorrência de π.”
48. O que é um recall?
Um recall é uma proporção entre a taxa positiva verdadeira e a taxa positiva real. Varia de 0 a 1.
49. Discuta a distribuição normal
Distribuição normal distribuída igualmente, como tal, a média, mediana e moda são iguais.
50. Ao trabalhar num conjunto de dados, como você pode selecionar variáveis importantes? Explicar
Os seguintes métodos de seleção de variáveis você pode usar:
- Remova as variáveis correlacionadas antes de selecionar variáveis importantes
- Use regressão linear e selecione variáveis que dependem desses valores de p.
- Use seleção para trás, para frente e seleção passo a passo
- Use Xgboost, Random Forest e plote o gráfico de importância variável.
- Meça o ganho de informações para um determinado conjunto de recursos e selecione os n principais recursos de acordo.
51. É possível capturar a correlação entre variável contínua e categórica?
Sim, podemos utilizar a técnica de análise de covariância para capturar a associação entre variáveis contínuas e categóricas.
52. Tratar uma variável categórica como uma variável contínua resultaria em um modelo preditivo melhor?
Sim, o valor categórico deve ser considerado como uma variável contínua somente quando a variável for de natureza ordinal. Portanto, é um modelo preditivo melhor.
Essas perguntas da entrevista também ajudarão em sua viva (oral)