Le 50 principali domande e risposte dell'intervista sulla scienza dei dati (PDF)

Ecco le domande e le risposte al colloquio di Data Science per i candidati più freschi ed esperti che vogliono ottenere il lavoro dei loro sogni.

 

Domande di intervista sulla scienza dei dati per le matricole

1. Che cos'è la scienza dei dati?

La scienza dei dati è l'area di studio che prevede l'estrazione di informazioni da grandi quantità di dati utilizzando vari metodi, algoritmi e processi scientifici. Ti aiuta a scoprire modelli nascosti dai dati grezzi. Il termine Data Science è emerso a causa dell’evoluzione della statistica matematica, dell’analisi dei dati e dei big data.


2. Qual è la differenza tra scienza dei dati e apprendimento automatico?

Science Data è una combinazione di algoritmi, strumenti e tecniche di apprendimento automatico che ti aiutano a trovare modelli nascosti comuni dai dati grezzi forniti. Mentre il Machine Learning è una branca dell’informatica, che si occupa della programmazione di sistemi per apprendere automaticamente e migliorare con l’esperienza.

Science Data


3. Nominare tre tipi di distorsioni che possono verificarsi durante il campionamento

Nel processo di campionamento, ci sono tre tipi di bias, che sono:

  • Bias di selezione
  • Sotto copertura bias
  • Pregiudizi di sopravvivenza

4. Discutere l'algoritmo dell'albero decisionale

Un albero decisionale è un popolare algoritmo di apprendimento automatico supervisionato. Viene utilizzato principalmente per la regressione e la classificazione. Consente di suddividere un set di dati in sottoinsiemi più piccoli. L'albero decisionale può gestire sia dati categorici che numerici.


5. Cos'è la probabilità a priori e la verosimiglianza?

La probabilità a priori è la proporzione della variabile dipendente nell'insieme di dati mentre la probabilità è la probabilità di classificare un dato osservatore in presenza di qualche altra variabile.


6. Spiegare i sistemi di raccomandazione?

È una sottoclasse di tecniche di filtraggio delle informazioni. Ti aiuta a prevedere le preferenze o le valutazioni che gli utenti potrebbero dare a un prodotto.


7. Elenca tre svantaggi derivanti dall'utilizzo di un modello lineare

Tre svantaggi del modello lineare sono:

  • L'ipotesi di linearità degli errori.
  • Non è possibile utilizzare questo modello per risultati binari o di conteggio
  • Ci sono molti problemi di overfitting che non può risolvere

8. Perché è necessario eseguire il ricampionamento?

Il ricampionamento viene eseguito nei casi indicati di seguito:

  • Stima dell'accuratezza delle statistiche campione estraendo casualmente con sostituzione da un set di punti dati o utilizzando come sottoinsiemi di dati accessibili
  • Sostituzione delle etichette sui punti dati durante l'esecuzione dei test necessari
  • Convalida dei modelli utilizzando sottoinsiemi casuali

9. Elenca le biblioteche in Python utilizzato per l'analisi dei dati e i calcoli scientifici.


10. Cos'è l'analisi della potenza?

L’analisi di potenza è parte integrante del disegno sperimentale. Ti aiuta a determinare la dimensione del campione necessaria per scoprire l'effetto di una determinata dimensione da una causa con uno specifico livello di sicurezza. Consente inoltre di distribuire una particolare probabilità in un vincolo di dimensione del campione.


11. Spiegare il filtraggio collaborativo

Filtraggio collaborativo utilizzato per cercare modelli corretti collaborando con punti di vista, più origini dati e vari agenti.


12. Che cos'è il pregiudizio?

Il bias è un errore introdotto nel tuo modello a causa dell’eccessiva semplificazione di un algoritmo di apprendimento automatico”. Può portare a un sottoadattamento.


13. Discutere "Naive" in un algoritmo Naive Bayes?

Il modello dell’algoritmo Naive Bayes si basa sul teorema di Bayes. Descrive la probabilità di un evento. Si basa sulla conoscenza preventiva delle condizioni che potrebbero essere correlate a quell'evento specifico.


14. Cos'è una regressione lineare?

La regressione lineare è un metodo di programmazione statistica in cui il punteggio di una variabile "A" viene previsto dal punteggio di una seconda variabile "B". B viene definita variabile predittrice e A variabile criterio.


15. Indicare la differenza tra il valore atteso e il valore medio

Non ci sono molte differenze, ma entrambi questi termini sono usati in contesti diversi. Il valore medio viene generalmente indicato quando si discute di una distribuzione di probabilità, mentre il valore atteso viene indicato nel contesto di una variabile casuale.


16. Qual è lo scopo di condurre A/B Testing?

Il test AB viene utilizzato per condurre esperimenti casuali con due variabili, A e B. L'obiettivo di questo metodo di test è scoprire le modifiche a una pagina Web per massimizzare o aumentare il risultato di una strategia.


17. Cos'è l'apprendimento d'insieme?

L'ensemble è un metodo per combinare insieme un gruppo diversificato di studenti per improvvisare sulla stabilità e sul potere predittivo del modello. Due tipi di metodi di apprendimento Ensemble sono:

insacco

Il metodo di insaccamento ti aiuta a implementare studenti simili su piccole popolazioni campione. Ti aiuta a fare previsioni più vicine.

Promuovere

Il potenziamento è un metodo iterativo che consente di regolare il peso di un'osservazione in base all'ultima classificazione. Il potenziamento riduce l'errore di bias e aiuta a costruire modelli predittivi efficaci.


18. Spiegare autovalore e autovettore

Gli autovettori servono per comprendere le trasformazioni lineari. Gli scienziati dei dati devono calcolare gli autovettori per una matrice di covarianza o correlazione. Gli autovalori sono le direzioni lungo l'utilizzo di specifici atti di trasformazione lineare mediante compressione, capovolgimento o allungamento.


19. Definire il termine convalida incrociata

La convalida incrociata è una tecnica di convalida per valutare come i risultati dell'analisi statistica si generalizzeranno per un set di dati indipendente. Questo metodo viene utilizzato in contesti in cui l'obiettivo è previsto ed è necessario stimare la precisione con cui un modello sarà raggiunto.


20. Spiegare i passaggi per un progetto di analisi dei dati

Di seguito sono riportati i passaggi importanti coinvolti in un progetto di analisi:

  • Comprendere il problema aziendale
  • Esplora i dati e studiali attentamente.
  • Preparare i dati per la modellazione trovando i valori mancanti e trasformando le variabili.
  • Inizia a eseguire il modello e analizza il risultato dei Big Data.
  • Convalidare il modello con il nuovo set di dati.
  • Implementa il modello e monitora il risultato per analizzare le prestazioni del modello per un periodo specifico.

21. Discutere delle reti neurali artificiali

Le reti neurali artificiali (ANN) sono un insieme speciale di algoritmi che hanno rivoluzionato l'apprendimento automatico. Ti aiuta ad adattarti in base al cambiamento degli input. Quindi la rete genera il miglior risultato possibile senza ridisegnare i criteri di output.


22. Cos'è la propagazione posteriore?

La propagazione all’indietro è l’essenza dell’addestramento della rete neurale. È il metodo per regolare i pesi di una rete neurale in base al tasso di errore ottenuto nell'epoca precedente. Una corretta messa a punto del modello aiuta a ridurre i tassi di errore e a rendere il modello affidabile aumentandone la generalizzazione.


23. Cos'è una foresta casuale?

La foresta casuale è un metodo di apprendimento automatico che ti aiuta a eseguire tutti i tipi di attività di regressione e classificazione. Viene utilizzato anche per trattare valori mancanti e valori anomali.


24. Qual è l'importanza di avere un bias di selezione?

Il bias di selezione si verifica quando non viene raggiunta una randomizzazione specifica durante la scelta degli individui, dei gruppi o dei dati da analizzare. Ciò suggerisce che il campione fornito non rappresenta esattamente la popolazione che si intendeva analizzare.


25. Qual è il metodo di clustering K-means?

K-means clustering è un importante metodo di apprendimento non supervisionato. È la tecnica di classificazione dei dati utilizzando un determinato insieme di cluster chiamato K cluster. Viene utilizzato per il raggruppamento per scoprire la somiglianza nei dati.


Domande di intervista per data scientist per esperti

26. Spiegare la differenza tra Data Science e Data Analytics

I data scientist devono suddividere i dati per estrarre informazioni preziose che un analista di dati può applicare a scenari aziendali reali. La differenza principale tra i due è che i data scientist hanno più conoscenze tecniche rispetto agli analisti aziendali. Inoltre, non hanno bisogno di comprendere il business richiesto per la visualizzazione dei dati.


27. Spiegare il valore p?

Quando conduci un test di ipotesi in statistica, un valore p ti consente di determinare la forza dei tuoi risultati. È un numero numerico compreso tra 0 e 1. In base al valore ti aiuterà a denotare la forza del risultato specifico.


28. Definire il termine apprendimento profondo

Il Deep Learning è un sottotipo di machine learning. Si occupa di algoritmi ispirati alla struttura chiamata reti neurali artificiali (ANN).


29. Spiegare il metodo per raccogliere e analizzare i dati per utilizzare i social media per prevedere le condizioni meteorologiche.

Puoi raccogliere dati sui social media utilizzando Facebook, Twitter e le API di Instagram. Ad esempio, per il tweeter, possiamo costruire una funzionalità da ogni tweet come la data del tweet, i retweet, l'elenco dei follower, ecc. Quindi puoi utilizzare un modello di serie temporali multivariato per prevedere le condizioni meteorologiche.


30. Quando è necessario aggiornare l'algoritmo in Data science?

È necessario aggiornare un algoritmo nella seguente situazione:

  • Desideri che il tuo modello di dati si evolva come flussi di dati utilizzando l'infrastruttura
  • L'origine dati sottostante sta cambiandoSe non è stazionaria

31. Cos'è la distribuzione normale

Una distribuzione normale è un insieme di variabili continue distribuite lungo una curva normale o a forma di curva a campana. Puoi considerarlo come una distribuzione di probabilità continua utile in statistica. È utile analizzare le variabili e le loro relazioni quando utilizziamo la curva di distribuzione normale.


32. Quale linguaggio è migliore per l'analisi del testo? R o Python?

Python sarà più adatto per l'analisi del testo poiché consiste in una ricca libreria nota come panda. Ti consente di utilizzare l'alto livello strumenti di analisi dei dati e strutture dati, mentre R non offre questa funzionalità.


33. Spiegare i vantaggi dell'utilizzo delle statistiche da parte dei Data Scientist

Le statistiche aiutano i data scientist a farsi un'idea migliore delle aspettative del cliente. Utilizzando il metodo statistico, i Data Scientist possono acquisire conoscenze relative all'interesse, al comportamento, al coinvolgimento, alla fidelizzazione dei consumatori, ecc. Ti aiuta anche a costruire potenti modelli di dati per convalidare determinate inferenze e previsioni.


34. Nomina vari tipi di framework di deep learning

  • Pitorcia
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • catena
  • Keras

35.Spiegare il codificatore automatico

Gli autocodificatori sono reti di apprendimento. Ti aiuta a trasformare gli input in output con un minor numero di errori. Ciò significa che otterrai un output il più vicino possibile all'input.


36. Definire la Macchina di Boltzmann

Le macchine di Boltzmann sono un semplice algoritmo di apprendimento. Ti aiutano a scoprire quelle caratteristiche che rappresentano regolarità complesse nei dati di training. Questo algoritmo ti consente di ottimizzare i pesi e la quantità per il problema dato.


37. Spiega perché la pulizia dei dati è essenziale e quale metodo utilizzi per mantenere i dati puliti

I dati sporchi spesso portano a dati errati, che possono danneggiare la prospettiva di qualsiasi organizzazione. Ad esempio, se desideri eseguire una campagna di marketing mirata. Tuttavia, i nostri dati ti dicono erroneamente che un prodotto specifico sarà richiesto dal tuo pubblico di destinazione; la campagna fallirà.


38. Cos'è la distribuzione distorta e la distribuzione uniforme?

La distribuzione obliqua si verifica quando i dati vengono distribuiti su un lato qualsiasi del grafico, mentre la distribuzione uniforme viene identificata quando i dati vengono distribuiti in modo uguale nell'intervallo.


39. Quando si verifica un underfitting in un modello statico?

L'underfitting si verifica quando un modello statistico o un algoritmo di apprendimento automatico non è in grado di catturare la tendenza sottostante dei dati.


40. Cos'è l'apprendimento per rinforzo?

L’apprendimento per rinforzo è un meccanismo di apprendimento su come associare le situazioni alle azioni. Il risultato finale dovrebbe aiutarti ad aumentare il segnale di ricompensa binaria. In questo metodo, allo studente non viene detto quale azione intraprendere ma deve invece scoprire quale azione offre la massima ricompensa. Poiché questo metodo si basa sul meccanismo di ricompensa/penalità.


41. Nomina gli algoritmi comunemente usati.

I quattro algoritmi più comunemente utilizzati dai Data Scientist sono:

  • Regressione lineare
  • Regressione logistica
  • Foresta casuale
  • KNN

42. Cos'è la precisione?

La precisione è la metrica di errore più comunemente utilizzata come meccanismo di classificazione. Il suo intervallo va da 0 a 1, dove 1 rappresenta il 100%


43. Cos'è un'analisi univariata?

Un'analisi che non viene applicata a nessun attributo alla volta è nota come analisi univariata. Boxla trama è ampiamente utilizzata, modello univariato.


44. Come superi le sfide relative alle tue scoperte?

Per superare le sfide che ho trovato è necessario incoraggiare la discussione, dimostrare leadership e rispettare le diverse opzioni.


45. Spiegare la tecnica di campionamento dei cluster nella scienza dei dati

Un metodo di campionamento a grappolo viene utilizzato quando è difficile studiare la popolazione target distribuita e non è possibile applicare il campionamento casuale semplice.


46. ​​Dichiara la differenza tra un set di convalida e un set di test

Un set di convalida considerato principalmente come parte del set di training poiché viene utilizzato per la selezione dei parametri che aiuta a evitare l'adattamento eccessivo del modello in fase di creazione.

Mentre un set di test viene utilizzato per testare o valutare le prestazioni di un modello di machine learning addestrato.


47. Spiegare il termine Formula di probabilità binomiale?

“La distribuzione binomiale contiene le probabilità di ogni possibile successo su N prove per eventi indipendenti che hanno una probabilità pari a π di verificarsi.”


48. Cos'è un richiamo?

Un richiamo è un rapporto tra il tasso di positività reale e il tasso di positività effettiva. Varia da 0 a 1.


49. Discuti la distribuzione normale

Distribuzione normale equamente distribuita in quanto tale la media, la mediana e la moda sono uguali.


50. Mentre lavori su un set di dati, come puoi selezionare variabili importanti? Spiegare

È possibile utilizzare i seguenti metodi di selezione delle variabili:

  • Rimuovere le variabili correlate prima di selezionare variabili importanti
  • Utilizzare la regressione lineare e selezionare le variabili che dipendono da tali valori p.
  • Utilizzare la selezione all'indietro, in avanti e la selezione graduale
  • Utilizza Xgboost, Random Forest e traccia il grafico dell'importanza delle variabili.
  • Misura il guadagno di informazioni per un determinato insieme di funzionalità e seleziona le prime n funzionalità di conseguenza.

51. È possibile catturare la correlazione tra variabile continua e categoriale?

Sì, possiamo utilizzare la tecnica dell'analisi della covarianza per catturare l'associazione tra variabili continue e categoriali.


52. Trattare una variabile categoriale come una variabile continua si tradurrebbe in un modello predittivo migliore?

Sì, il valore categoriale deve essere considerato come una variabile continua solo quando la variabile è di natura ordinale. Quindi è un modello predittivo migliore.

Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)