Le 50 principali domande e risposte dell'intervista sulla scienza dei dati (PDF)

Ecco le domande e le risposte al colloquio di Data Science per i candidati piรน freschi ed esperti che vogliono ottenere il lavoro dei loro sogni.

 

Domande di intervista sulla scienza dei dati per le matricole

1. Che cos'รจ la scienza dei dati?

La scienza dei dati รจ l'area di studio che prevede l'estrazione di informazioni da grandi quantitร  di dati utilizzando vari metodi, algoritmi e processi scientifici. Ti aiuta a scoprire modelli nascosti dai dati grezzi. Il termine Data Science รจ emerso a causa dellโ€™evoluzione della statistica matematica, dellโ€™analisi dei dati e dei big data.


2. Qual รจ la differenza tra scienza dei dati e apprendimento automatico?

Science Data รจ una combinazione di algoritmi, strumenti e tecniche di apprendimento automatico che ti aiutano a trovare modelli nascosti comuni dai dati grezzi forniti. Mentre il Machine Learning รจ una branca dellโ€™informatica, che si occupa della programmazione di sistemi per apprendere automaticamente e migliorare con lโ€™esperienza.

Science Data


3. Nominare tre tipi di distorsioni che possono verificarsi durante il campionamento

Nel processo di campionamento, ci sono tre tipi di bias, che sono:

  • Bias di selezione
  • Sotto copertura bias
  • Pregiudizi di sopravvivenza

4. Discutere l'algoritmo dell'albero decisionale

Un albero decisionale รจ un popolare algoritmo di apprendimento automatico supervisionato. Viene utilizzato principalmente per la regressione e la classificazione. Consente di suddividere un set di dati in sottoinsiemi piรน piccoli. L'albero decisionale puรฒ gestire sia dati categorici che numerici.


5. Cos'รจ la probabilitร  a priori e la verosimiglianza?

La probabilitร  a priori รจ la proporzione della variabile dipendente nell'insieme di dati mentre la probabilitร  รจ la probabilitร  di classificare un dato osservatore in presenza di qualche altra variabile.


6. Spiegare i sistemi di raccomandazione?

รˆ una sottoclasse di tecniche di filtraggio delle informazioni. Ti aiuta a prevedere le preferenze o le valutazioni che gli utenti potrebbero dare a un prodotto.


7. Elenca tre svantaggi derivanti dall'utilizzo di un modello lineare

Tre svantaggi del modello lineare sono:

  • L'ipotesi di linearitร  degli errori.
  • Non รจ possibile utilizzare questo modello per risultati binari o di conteggio
  • Ci sono molti problemi di overfitting che non puรฒ risolvere

8. Perchรฉ รจ necessario eseguire il ricampionamento?

Il ricampionamento viene eseguito nei casi indicati di seguito:

  • Stima dell'accuratezza delle statistiche campione estraendo casualmente con sostituzione da un set di punti dati o utilizzando come sottoinsiemi di dati accessibili
  • Sostituzione delle etichette sui punti dati durante l'esecuzione dei test necessari
  • Convalida dei modelli utilizzando sottoinsiemi casuali

9. Elenca le biblioteche in Python utilizzato per l'analisi dei dati e i calcoli scientifici.


10. Cos'รจ l'analisi della potenza?

Lโ€™analisi di potenza รจ parte integrante del disegno sperimentale. Ti aiuta a determinare la dimensione del campione necessaria per scoprire l'effetto di una determinata dimensione da una causa con uno specifico livello di sicurezza. Consente inoltre di distribuire una particolare probabilitร  in un vincolo di dimensione del campione.


11. Spiegare il filtraggio collaborativo

Filtraggio collaborativo utilizzato per cercare modelli corretti collaborando con punti di vista, piรน origini dati e vari agenti.


12. Che cos'รจ il pregiudizio?

Il bias รจ un errore introdotto nel tuo modello a causa dellโ€™eccessiva semplificazione di un algoritmo di apprendimento automaticoโ€. Puรฒ portare a un sottoadattamento.


13. Discutere "Naive" in un algoritmo Naive Bayes?

Il modello dellโ€™algoritmo Naive Bayes si basa sul teorema di Bayes. Descrive la probabilitร  di un evento. Si basa sulla conoscenza preventiva delle condizioni che potrebbero essere correlate a quell'evento specifico.


14. Cos'รจ una regressione lineare?

La regressione lineare รจ un metodo di programmazione statistica in cui il punteggio di una variabile "A" viene previsto dal punteggio di una seconda variabile "B". B viene definita variabile predittrice e A variabile criterio.


15. Indicare la differenza tra il valore atteso e il valore medio

Non ci sono molte differenze, ma entrambi questi termini sono usati in contesti diversi. Il valore medio viene generalmente indicato quando si discute di una distribuzione di probabilitร , mentre il valore atteso viene indicato nel contesto di una variabile casuale.


16. Qual รจ lo scopo di condurre A/B Testing?

Il test AB viene utilizzato per condurre esperimenti casuali con due variabili, A e B. L'obiettivo di questo metodo di test รจ scoprire le modifiche a una pagina Web per massimizzare o aumentare il risultato di una strategia.


17. Cos'รจ l'apprendimento d'insieme?

L'ensemble รจ un metodo per combinare insieme un gruppo diversificato di studenti per improvvisare sulla stabilitร  e sul potere predittivo del modello. Due tipi di metodi di apprendimento Ensemble sono:

insacco

Il metodo di insaccamento ti aiuta a implementare studenti simili su piccole popolazioni campione. Ti aiuta a fare previsioni piรน vicine.

Promuovere

Il potenziamento รจ un metodo iterativo che consente di regolare il peso di un'osservazione in base all'ultima classificazione. Il potenziamento riduce l'errore di bias e aiuta a costruire modelli predittivi efficaci.


18. Spiegare autovalore e autovettore

Gli autovettori servono per comprendere le trasformazioni lineari. Gli scienziati dei dati devono calcolare gli autovettori per una matrice di covarianza o correlazione. Gli autovalori sono le direzioni lungo l'utilizzo di specifici atti di trasformazione lineare mediante compressione, capovolgimento o allungamento.


19. Definire il termine convalida incrociata

La convalida incrociata รจ una tecnica di convalida per valutare come i risultati dell'analisi statistica si generalizzeranno per un set di dati indipendente. Questo metodo viene utilizzato in contesti in cui l'obiettivo รจ previsto ed รจ necessario stimare la precisione con cui un modello sarร  raggiunto.


20. Spiegare i passaggi per un progetto di analisi dei dati

Di seguito sono riportati i passaggi importanti coinvolti in un progetto di analisi:

  • Comprendere il problema aziendale
  • Esplora i dati e studiali attentamente.
  • Preparare i dati per la modellazione trovando i valori mancanti e trasformando le variabili.
  • Inizia a eseguire il modello e analizza il risultato dei Big Data.
  • Convalidare il modello con il nuovo set di dati.
  • Implementa il modello e monitora il risultato per analizzare le prestazioni del modello per un periodo specifico.

21. Discutere delle reti neurali artificiali

Le reti neurali artificiali (ANN) sono un insieme speciale di algoritmi che hanno rivoluzionato l'apprendimento automatico. Ti aiuta ad adattarti in base al cambiamento degli input. Quindi la rete genera il miglior risultato possibile senza ridisegnare i criteri di output.


22. Cos'รจ la propagazione posteriore?

La propagazione allโ€™indietro รจ lโ€™essenza dellโ€™addestramento della rete neurale. รˆ il metodo per regolare i pesi di una rete neurale in base al tasso di errore ottenuto nell'epoca precedente. Una corretta messa a punto del modello aiuta a ridurre i tassi di errore e a rendere il modello affidabile aumentandone la generalizzazione.


23. Cos'รจ una foresta casuale?

La foresta casuale รจ un metodo di apprendimento automatico che ti aiuta a eseguire tutti i tipi di attivitร  di regressione e classificazione. Viene utilizzato anche per trattare valori mancanti e valori anomali.


24. Qual รจ l'importanza di avere un bias di selezione?

Il bias di selezione si verifica quando non viene raggiunta una randomizzazione specifica durante la scelta degli individui, dei gruppi o dei dati da analizzare. Ciรฒ suggerisce che il campione fornito non rappresenta esattamente la popolazione che si intendeva analizzare.


25. Qual รจ il metodo di clustering K-means?

K-means clustering รจ un importante metodo di apprendimento non supervisionato. รˆ la tecnica di classificazione dei dati utilizzando un determinato insieme di cluster chiamato K cluster. Viene utilizzato per il raggruppamento per scoprire la somiglianza nei dati.


Domande di intervista per data scientist per esperti

26. Spiegare la differenza tra Data Science e Data Analytics

I data scientist devono suddividere i dati per estrarre informazioni preziose che un analista di dati puรฒ applicare a scenari aziendali reali. La differenza principale tra i due รจ che i data scientist hanno piรน conoscenze tecniche rispetto agli analisti aziendali. Inoltre, non hanno bisogno di comprendere il business richiesto per la visualizzazione dei dati.


27. Spiegare il valore p?

Quando conduci un test di ipotesi in statistica, un valore p ti consente di determinare la forza dei tuoi risultati. รˆ un numero numerico compreso tra 0 e 1. In base al valore ti aiuterร  a denotare la forza del risultato specifico.


28. Definire il termine apprendimento profondo

Il Deep Learning รจ un sottotipo di machine learning. Si occupa di algoritmi ispirati alla struttura chiamata reti neurali artificiali (ANN).


29. Spiegare il metodo per raccogliere e analizzare i dati per utilizzare i social media per prevedere le condizioni meteorologiche.

Puoi raccogliere dati sui social media utilizzando Facebook, Twitter e le API di Instagram. Ad esempio, per il tweeter, possiamo costruire una funzionalitร  da ogni tweet come la data del tweet, i retweet, l'elenco dei follower, ecc. Quindi puoi utilizzare un modello di serie temporali multivariato per prevedere le condizioni meteorologiche.


30. Quando รจ necessario aggiornare l'algoritmo in Data science?

รˆ necessario aggiornare un algoritmo nella seguente situazione:

  • Desideri che il tuo modello di dati si evolva come flussi di dati utilizzando l'infrastruttura
  • L'origine dati sottostante sta cambiandoSe non รจ stazionaria

31. Cos'รจ la distribuzione normale

Una distribuzione normale รจ un insieme di variabili continue distribuite lungo una curva normale o a forma di curva a campana. Puoi considerarlo come una distribuzione di probabilitร  continua utile in statistica. รˆ utile analizzare le variabili e le loro relazioni quando utilizziamo la curva di distribuzione normale.


32. Quale linguaggio รจ migliore per l'analisi del testo? R o Python?

Python sarร  piรน adatto per l'analisi del testo poichรฉ consiste in una ricca libreria nota come panda. Ti consente di utilizzare l'alto livello strumenti di analisi dei dati e strutture dati, mentre R non offre questa funzionalitร .


33. Spiegare i vantaggi dell'utilizzo delle statistiche da parte dei Data Scientist

Le statistiche aiutano i data scientist a farsi un'idea migliore delle aspettative del cliente. Utilizzando il metodo statistico, i Data Scientist possono acquisire conoscenze relative all'interesse, al comportamento, al coinvolgimento, alla fidelizzazione dei consumatori, ecc. Ti aiuta anche a costruire potenti modelli di dati per convalidare determinate inferenze e previsioni.


34. Nomina vari tipi di framework di deep learning

  • Pitorcia
  • Microsoft Cognitive Toolkit
  • TensorFlow
  • Caffe
  • catena
  • Keras

35.Spiegare il codificatore automatico

Gli autocodificatori sono reti di apprendimento. Ti aiuta a trasformare gli input in output con un minor numero di errori. Ciรฒ significa che otterrai un output il piรน vicino possibile all'input.


36. Definire la Macchina di Boltzmann

Le macchine di Boltzmann sono un semplice algoritmo di apprendimento. Ti aiutano a scoprire quelle caratteristiche che rappresentano regolaritร  complesse nei dati di training. Questo algoritmo ti consente di ottimizzare i pesi e la quantitร  per il problema dato.


37. Spiega perchรฉ la pulizia dei dati รจ essenziale e quale metodo utilizzi per mantenere i dati puliti

I dati sporchi spesso portano a dati errati, che possono danneggiare la prospettiva di qualsiasi organizzazione. Ad esempio, se desideri eseguire una campagna di marketing mirata. Tuttavia, i nostri dati ti dicono erroneamente che un prodotto specifico sarร  richiesto dal tuo pubblico di destinazione; la campagna fallirร .


38. Cos'รจ la distribuzione distorta e la distribuzione uniforme?

La distribuzione obliqua si verifica quando i dati vengono distribuiti su un lato qualsiasi del grafico, mentre la distribuzione uniforme viene identificata quando i dati vengono distribuiti in modo uguale nell'intervallo.


39. Quando si verifica un underfitting in un modello statico?

L'underfitting si verifica quando un modello statistico o un algoritmo di apprendimento automatico non รจ in grado di catturare la tendenza sottostante dei dati.


40. Cos'รจ l'apprendimento per rinforzo?

Lโ€™apprendimento per rinforzo รจ un meccanismo di apprendimento su come associare le situazioni alle azioni. Il risultato finale dovrebbe aiutarti ad aumentare il segnale di ricompensa binaria. In questo metodo, allo studente non viene detto quale azione intraprendere ma deve invece scoprire quale azione offre la massima ricompensa. Poichรฉ questo metodo si basa sul meccanismo di ricompensa/penalitร .


41. Nomina gli algoritmi comunemente usati.

I quattro algoritmi piรน comunemente utilizzati dai Data Scientist sono:

  • Regressione lineare
  • Regressione logistica
  • Foresta casuale
  • KNN

42. Cos'รจ la precisione?

La precisione รจ la metrica di errore piรน comunemente utilizzata come meccanismo di classificazione. Il suo intervallo va da 0 a 1, dove 1 rappresenta il 100%


43. Cos'รจ un'analisi univariata?

Un'analisi che non viene applicata a nessun attributo alla volta รจ nota come analisi univariata. Boxla trama รจ ampiamente utilizzata, modello univariato.


44. Come superi le sfide relative alle tue scoperte?

Per superare le sfide che ho trovato รจ necessario incoraggiare la discussione, dimostrare leadership e rispettare le diverse opzioni.


45. Spiegare la tecnica di campionamento dei cluster nella scienza dei dati

Un metodo di campionamento a grappolo viene utilizzato quando รจ difficile studiare la popolazione target distribuita e non รจ possibile applicare il campionamento casuale semplice.


46. โ€‹โ€‹Dichiara la differenza tra un set di convalida e un set di test

Un set di convalida considerato principalmente come parte del set di training poichรฉ viene utilizzato per la selezione dei parametri che aiuta a evitare l'adattamento eccessivo del modello in fase di creazione.

Mentre un set di test viene utilizzato per testare o valutare le prestazioni di un modello di machine learning addestrato.


47. Spiegare il termine Formula di probabilitร  binomiale?

โ€œLa distribuzione binomiale contiene le probabilitร  di ogni possibile successo su N prove per eventi indipendenti che hanno una probabilitร  pari a ฯ€ di verificarsi.โ€


48. Cos'รจ un richiamo?

Un richiamo รจ un rapporto tra il tasso di positivitร  reale e il tasso di positivitร  effettiva. Varia da 0 a 1.


49. Discuti la distribuzione normale

Distribuzione normale equamente distribuita in quanto tale la media, la mediana e la moda sono uguali.


50. Mentre lavori su un set di dati, come puoi selezionare variabili importanti? Spiegare

รˆ possibile utilizzare i seguenti metodi di selezione delle variabili:

  • Rimuovere le variabili correlate prima di selezionare variabili importanti
  • Utilizzare la regressione lineare e selezionare le variabili che dipendono da tali valori p.
  • Utilizzare la selezione all'indietro, in avanti e la selezione graduale
  • Utilizza Xgboost, Random Forest e traccia il grafico dell'importanza delle variabili.
  • Misura il guadagno di informazioni per un determinato insieme di funzionalitร  e seleziona le prime n funzionalitร  di conseguenza.

51. รˆ possibile catturare la correlazione tra variabile continua e categoriale?

Sรฌ, possiamo utilizzare la tecnica dell'analisi della covarianza per catturare l'associazione tra variabili continue e categoriali.


52. Trattare una variabile categoriale come una variabile continua si tradurrebbe in un modello predittivo migliore?

Sรฌ, il valore categoriale deve essere considerato come una variabile continua solo quando la variabile รจ di natura ordinale. Quindi รจ un modello predittivo migliore.

Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)

Riassumi questo post con: