Le 50 principali domande e risposte dell'intervista sulla scienza dei dati (PDF)
Ecco le domande e le risposte al colloquio di Data Science per i candidati piรน freschi ed esperti che vogliono ottenere il lavoro dei loro sogni.
Domande di intervista sulla scienza dei dati per le matricole
1. Che cos'รจ la scienza dei dati?
La scienza dei dati รจ l'area di studio che prevede l'estrazione di informazioni da grandi quantitร di dati utilizzando vari metodi, algoritmi e processi scientifici. Ti aiuta a scoprire modelli nascosti dai dati grezzi. Il termine Data Science รจ emerso a causa dellโevoluzione della statistica matematica, dellโanalisi dei dati e dei big data.
2. Qual รจ la differenza tra scienza dei dati e apprendimento automatico?
Science Data รจ una combinazione di algoritmi, strumenti e tecniche di apprendimento automatico che ti aiutano a trovare modelli nascosti comuni dai dati grezzi forniti. Mentre il Machine Learning รจ una branca dellโinformatica, che si occupa della programmazione di sistemi per apprendere automaticamente e migliorare con lโesperienza.
3. Nominare tre tipi di distorsioni che possono verificarsi durante il campionamento
Nel processo di campionamento, ci sono tre tipi di bias, che sono:
- Bias di selezione
- Sotto copertura bias
- Pregiudizi di sopravvivenza
4. Discutere l'algoritmo dell'albero decisionale
Un albero decisionale รจ un popolare algoritmo di apprendimento automatico supervisionato. Viene utilizzato principalmente per la regressione e la classificazione. Consente di suddividere un set di dati in sottoinsiemi piรน piccoli. L'albero decisionale puรฒ gestire sia dati categorici che numerici.
5. Cos'รจ la probabilitร a priori e la verosimiglianza?
La probabilitร a priori รจ la proporzione della variabile dipendente nell'insieme di dati mentre la probabilitร รจ la probabilitร di classificare un dato osservatore in presenza di qualche altra variabile.
6. Spiegare i sistemi di raccomandazione?
ร una sottoclasse di tecniche di filtraggio delle informazioni. Ti aiuta a prevedere le preferenze o le valutazioni che gli utenti potrebbero dare a un prodotto.
7. Elenca tre svantaggi derivanti dall'utilizzo di un modello lineare
Tre svantaggi del modello lineare sono:
- L'ipotesi di linearitร degli errori.
- Non รจ possibile utilizzare questo modello per risultati binari o di conteggio
- Ci sono molti problemi di overfitting che non puรฒ risolvere
8. Perchรฉ รจ necessario eseguire il ricampionamento?
Il ricampionamento viene eseguito nei casi indicati di seguito:
- Stima dell'accuratezza delle statistiche campione estraendo casualmente con sostituzione da un set di punti dati o utilizzando come sottoinsiemi di dati accessibili
- Sostituzione delle etichette sui punti dati durante l'esecuzione dei test necessari
- Convalida dei modelli utilizzando sottoinsiemi casuali
9. Elenca le biblioteche in Python utilizzato per l'analisi dei dati e i calcoli scientifici.
10. Cos'รจ l'analisi della potenza?
Lโanalisi di potenza รจ parte integrante del disegno sperimentale. Ti aiuta a determinare la dimensione del campione necessaria per scoprire l'effetto di una determinata dimensione da una causa con uno specifico livello di sicurezza. Consente inoltre di distribuire una particolare probabilitร in un vincolo di dimensione del campione.
11. Spiegare il filtraggio collaborativo
Filtraggio collaborativo utilizzato per cercare modelli corretti collaborando con punti di vista, piรน origini dati e vari agenti.
12. Che cos'รจ il pregiudizio?
Il bias รจ un errore introdotto nel tuo modello a causa dellโeccessiva semplificazione di un algoritmo di apprendimento automaticoโ. Puรฒ portare a un sottoadattamento.
13. Discutere "Naive" in un algoritmo Naive Bayes?
Il modello dellโalgoritmo Naive Bayes si basa sul teorema di Bayes. Descrive la probabilitร di un evento. Si basa sulla conoscenza preventiva delle condizioni che potrebbero essere correlate a quell'evento specifico.
14. Cos'รจ una regressione lineare?
La regressione lineare รจ un metodo di programmazione statistica in cui il punteggio di una variabile "A" viene previsto dal punteggio di una seconda variabile "B". B viene definita variabile predittrice e A variabile criterio.
15. Indicare la differenza tra il valore atteso e il valore medio
Non ci sono molte differenze, ma entrambi questi termini sono usati in contesti diversi. Il valore medio viene generalmente indicato quando si discute di una distribuzione di probabilitร , mentre il valore atteso viene indicato nel contesto di una variabile casuale.
16. Qual รจ lo scopo di condurre A/B Testing?
Il test AB viene utilizzato per condurre esperimenti casuali con due variabili, A e B. L'obiettivo di questo metodo di test รจ scoprire le modifiche a una pagina Web per massimizzare o aumentare il risultato di una strategia.
17. Cos'รจ l'apprendimento d'insieme?
L'ensemble รจ un metodo per combinare insieme un gruppo diversificato di studenti per improvvisare sulla stabilitร e sul potere predittivo del modello. Due tipi di metodi di apprendimento Ensemble sono:
insacco
Il metodo di insaccamento ti aiuta a implementare studenti simili su piccole popolazioni campione. Ti aiuta a fare previsioni piรน vicine.
Promuovere
Il potenziamento รจ un metodo iterativo che consente di regolare il peso di un'osservazione in base all'ultima classificazione. Il potenziamento riduce l'errore di bias e aiuta a costruire modelli predittivi efficaci.
18. Spiegare autovalore e autovettore
Gli autovettori servono per comprendere le trasformazioni lineari. Gli scienziati dei dati devono calcolare gli autovettori per una matrice di covarianza o correlazione. Gli autovalori sono le direzioni lungo l'utilizzo di specifici atti di trasformazione lineare mediante compressione, capovolgimento o allungamento.
19. Definire il termine convalida incrociata
La convalida incrociata รจ una tecnica di convalida per valutare come i risultati dell'analisi statistica si generalizzeranno per un set di dati indipendente. Questo metodo viene utilizzato in contesti in cui l'obiettivo รจ previsto ed รจ necessario stimare la precisione con cui un modello sarร raggiunto.
20. Spiegare i passaggi per un progetto di analisi dei dati
Di seguito sono riportati i passaggi importanti coinvolti in un progetto di analisi:
- Comprendere il problema aziendale
- Esplora i dati e studiali attentamente.
- Preparare i dati per la modellazione trovando i valori mancanti e trasformando le variabili.
- Inizia a eseguire il modello e analizza il risultato dei Big Data.
- Convalidare il modello con il nuovo set di dati.
- Implementa il modello e monitora il risultato per analizzare le prestazioni del modello per un periodo specifico.
21. Discutere delle reti neurali artificiali
Le reti neurali artificiali (ANN) sono un insieme speciale di algoritmi che hanno rivoluzionato l'apprendimento automatico. Ti aiuta ad adattarti in base al cambiamento degli input. Quindi la rete genera il miglior risultato possibile senza ridisegnare i criteri di output.
22. Cos'รจ la propagazione posteriore?
La propagazione allโindietro รจ lโessenza dellโaddestramento della rete neurale. ร il metodo per regolare i pesi di una rete neurale in base al tasso di errore ottenuto nell'epoca precedente. Una corretta messa a punto del modello aiuta a ridurre i tassi di errore e a rendere il modello affidabile aumentandone la generalizzazione.
23. Cos'รจ una foresta casuale?
La foresta casuale รจ un metodo di apprendimento automatico che ti aiuta a eseguire tutti i tipi di attivitร di regressione e classificazione. Viene utilizzato anche per trattare valori mancanti e valori anomali.
24. Qual รจ l'importanza di avere un bias di selezione?
Il bias di selezione si verifica quando non viene raggiunta una randomizzazione specifica durante la scelta degli individui, dei gruppi o dei dati da analizzare. Ciรฒ suggerisce che il campione fornito non rappresenta esattamente la popolazione che si intendeva analizzare.
25. Qual รจ il metodo di clustering K-means?
K-means clustering รจ un importante metodo di apprendimento non supervisionato. ร la tecnica di classificazione dei dati utilizzando un determinato insieme di cluster chiamato K cluster. Viene utilizzato per il raggruppamento per scoprire la somiglianza nei dati.
Domande di intervista per data scientist per esperti
26. Spiegare la differenza tra Data Science e Data Analytics
I data scientist devono suddividere i dati per estrarre informazioni preziose che un analista di dati puรฒ applicare a scenari aziendali reali. La differenza principale tra i due รจ che i data scientist hanno piรน conoscenze tecniche rispetto agli analisti aziendali. Inoltre, non hanno bisogno di comprendere il business richiesto per la visualizzazione dei dati.
27. Spiegare il valore p?
Quando conduci un test di ipotesi in statistica, un valore p ti consente di determinare la forza dei tuoi risultati. ร un numero numerico compreso tra 0 e 1. In base al valore ti aiuterร a denotare la forza del risultato specifico.
28. Definire il termine apprendimento profondo
Il Deep Learning รจ un sottotipo di machine learning. Si occupa di algoritmi ispirati alla struttura chiamata reti neurali artificiali (ANN).
29. Spiegare il metodo per raccogliere e analizzare i dati per utilizzare i social media per prevedere le condizioni meteorologiche.
Puoi raccogliere dati sui social media utilizzando Facebook, Twitter e le API di Instagram. Ad esempio, per il tweeter, possiamo costruire una funzionalitร da ogni tweet come la data del tweet, i retweet, l'elenco dei follower, ecc. Quindi puoi utilizzare un modello di serie temporali multivariato per prevedere le condizioni meteorologiche.
30. Quando รจ necessario aggiornare l'algoritmo in Data science?
ร necessario aggiornare un algoritmo nella seguente situazione:
- Desideri che il tuo modello di dati si evolva come flussi di dati utilizzando l'infrastruttura
- L'origine dati sottostante sta cambiandoSe non รจ stazionaria
31. Cos'รจ la distribuzione normale
Una distribuzione normale รจ un insieme di variabili continue distribuite lungo una curva normale o a forma di curva a campana. Puoi considerarlo come una distribuzione di probabilitร continua utile in statistica. ร utile analizzare le variabili e le loro relazioni quando utilizziamo la curva di distribuzione normale.
32. Quale linguaggio รจ migliore per l'analisi del testo? R o Python?
Python sarร piรน adatto per l'analisi del testo poichรฉ consiste in una ricca libreria nota come panda. Ti consente di utilizzare l'alto livello strumenti di analisi dei dati e strutture dati, mentre R non offre questa funzionalitร .
33. Spiegare i vantaggi dell'utilizzo delle statistiche da parte dei Data Scientist
Le statistiche aiutano i data scientist a farsi un'idea migliore delle aspettative del cliente. Utilizzando il metodo statistico, i Data Scientist possono acquisire conoscenze relative all'interesse, al comportamento, al coinvolgimento, alla fidelizzazione dei consumatori, ecc. Ti aiuta anche a costruire potenti modelli di dati per convalidare determinate inferenze e previsioni.
34. Nomina vari tipi di framework di deep learning
- Pitorcia
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- catena
- Keras
35.Spiegare il codificatore automatico
Gli autocodificatori sono reti di apprendimento. Ti aiuta a trasformare gli input in output con un minor numero di errori. Ciรฒ significa che otterrai un output il piรน vicino possibile all'input.
36. Definire la Macchina di Boltzmann
Le macchine di Boltzmann sono un semplice algoritmo di apprendimento. Ti aiutano a scoprire quelle caratteristiche che rappresentano regolaritร complesse nei dati di training. Questo algoritmo ti consente di ottimizzare i pesi e la quantitร per il problema dato.
37. Spiega perchรฉ la pulizia dei dati รจ essenziale e quale metodo utilizzi per mantenere i dati puliti
I dati sporchi spesso portano a dati errati, che possono danneggiare la prospettiva di qualsiasi organizzazione. Ad esempio, se desideri eseguire una campagna di marketing mirata. Tuttavia, i nostri dati ti dicono erroneamente che un prodotto specifico sarร richiesto dal tuo pubblico di destinazione; la campagna fallirร .
38. Cos'รจ la distribuzione distorta e la distribuzione uniforme?
La distribuzione obliqua si verifica quando i dati vengono distribuiti su un lato qualsiasi del grafico, mentre la distribuzione uniforme viene identificata quando i dati vengono distribuiti in modo uguale nell'intervallo.
39. Quando si verifica un underfitting in un modello statico?
L'underfitting si verifica quando un modello statistico o un algoritmo di apprendimento automatico non รจ in grado di catturare la tendenza sottostante dei dati.
40. Cos'รจ l'apprendimento per rinforzo?
Lโapprendimento per rinforzo รจ un meccanismo di apprendimento su come associare le situazioni alle azioni. Il risultato finale dovrebbe aiutarti ad aumentare il segnale di ricompensa binaria. In questo metodo, allo studente non viene detto quale azione intraprendere ma deve invece scoprire quale azione offre la massima ricompensa. Poichรฉ questo metodo si basa sul meccanismo di ricompensa/penalitร .
41. Nomina gli algoritmi comunemente usati.
I quattro algoritmi piรน comunemente utilizzati dai Data Scientist sono:
- Regressione lineare
- Regressione logistica
- Foresta casuale
- KNN
42. Cos'รจ la precisione?
La precisione รจ la metrica di errore piรน comunemente utilizzata come meccanismo di classificazione. Il suo intervallo va da 0 a 1, dove 1 rappresenta il 100%
43. Cos'รจ un'analisi univariata?
Un'analisi che non viene applicata a nessun attributo alla volta รจ nota come analisi univariata. Boxla trama รจ ampiamente utilizzata, modello univariato.
44. Come superi le sfide relative alle tue scoperte?
Per superare le sfide che ho trovato รจ necessario incoraggiare la discussione, dimostrare leadership e rispettare le diverse opzioni.
45. Spiegare la tecnica di campionamento dei cluster nella scienza dei dati
Un metodo di campionamento a grappolo viene utilizzato quando รจ difficile studiare la popolazione target distribuita e non รจ possibile applicare il campionamento casuale semplice.
46. โโDichiara la differenza tra un set di convalida e un set di test
Un set di convalida considerato principalmente come parte del set di training poichรฉ viene utilizzato per la selezione dei parametri che aiuta a evitare l'adattamento eccessivo del modello in fase di creazione.
Mentre un set di test viene utilizzato per testare o valutare le prestazioni di un modello di machine learning addestrato.
47. Spiegare il termine Formula di probabilitร binomiale?
โLa distribuzione binomiale contiene le probabilitร di ogni possibile successo su N prove per eventi indipendenti che hanno una probabilitร pari a ฯ di verificarsi.โ
48. Cos'รจ un richiamo?
Un richiamo รจ un rapporto tra il tasso di positivitร reale e il tasso di positivitร effettiva. Varia da 0 a 1.
49. Discuti la distribuzione normale
Distribuzione normale equamente distribuita in quanto tale la media, la mediana e la moda sono uguali.
50. Mentre lavori su un set di dati, come puoi selezionare variabili importanti? Spiegare
ร possibile utilizzare i seguenti metodi di selezione delle variabili:
- Rimuovere le variabili correlate prima di selezionare variabili importanti
- Utilizzare la regressione lineare e selezionare le variabili che dipendono da tali valori p.
- Utilizzare la selezione all'indietro, in avanti e la selezione graduale
- Utilizza Xgboost, Random Forest e traccia il grafico dell'importanza delle variabili.
- Misura il guadagno di informazioni per un determinato insieme di funzionalitร e seleziona le prime n funzionalitร di conseguenza.
51. ร possibile catturare la correlazione tra variabile continua e categoriale?
Sรฌ, possiamo utilizzare la tecnica dell'analisi della covarianza per catturare l'associazione tra variabili continue e categoriali.
52. Trattare una variabile categoriale come una variabile continua si tradurrebbe in un modello predittivo migliore?
Sรฌ, il valore categoriale deve essere considerato come una variabile continua solo quando la variabile รจ di natura ordinale. Quindi รจ un modello predittivo migliore.
Queste domande del colloquio ti aiuteranno anche nel tuo viva(orale)

