Οι κορυφαίες 50 ερωτήσεις και απαντήσεις συνεντεύξεων της Επιστήμης Δεδομένων (PDF)

Ακολουθούν ερωτήσεις και απαντήσεις συνέντευξης Data Science για πιο φρέσκους αλλά και έμπειρους υποψηφίους για να πάρουν τη δουλειά των ονείρων τους.

 

Ερωτήσεις Συνέντευξης Επιστήμης Δεδομένων για Φροντιστές

1. Τι είναι η Επιστήμη των Δεδομένων;

Η Επιστήμη Δεδομένων είναι ο τομέας μελέτης που περιλαμβάνει την εξαγωγή γνώσεων από τεράστιες ποσότητες δεδομένων χρησιμοποιώντας διάφορες επιστημονικές μεθόδους, αλγόριθμους και διαδικασίες. Σας βοηθά να ανακαλύψετε κρυφά μοτίβα από τα ακατέργαστα δεδομένα. Ο όρος Επιστήμη Δεδομένων εμφανίστηκε λόγω της εξέλιξης των μαθηματικών στατιστικών, της ανάλυσης δεδομένων και των μεγάλων δεδομένων.


2. Ποια είναι η διαφορά μεταξύ Επιστήμης Δεδομένων και Μηχανικής Μάθησης;

Επιστήμη δεδομένων είναι ένας συνδυασμός αλγορίθμων, εργαλείων και τεχνικής μηχανικής μάθησης που σας βοηθά να βρείτε κοινά κρυφά μοτίβα από τα δεδομένα ακατέργαστων δεδομένων. Ενώ η μηχανική μάθηση είναι ένας κλάδος της επιστήμης των υπολογιστών, που ασχολείται με τον προγραμματισμό συστημάτων για αυτόματη μάθηση και βελτίωση με την εμπειρία.

Επιστήμη δεδομένων


3. Ονομάστε τρεις τύπους προκαταλήψεων που μπορεί να προκύψουν κατά τη δειγματοληψία

Στη διαδικασία δειγματοληψίας, υπάρχουν τρεις τύποι προκαταλήψεων, οι οποίοι είναι:

  • Μεροληψία επιλογής
  • Μεροληψία υπό κάλυψη
  • Μεροληψία επιβίωσης

4. Συζητήστε τον αλγόριθμο Δένδρου Αποφάσεων

Ένα δέντρο αποφάσεων είναι ένας δημοφιλής εποπτευόμενος αλγόριθμος μηχανικής μάθησης. Χρησιμοποιείται κυρίως για παλινδρόμηση και ταξινόμηση. Επιτρέπει τη διάσπαση ενός συνόλου δεδομένων σε μικρότερα υποσύνολα. Το δέντρο αποφάσεων μπορεί να χειριστεί τόσο κατηγορικά όσο και αριθμητικά δεδομένα.


5. Τι είναι η Προγενέστερη πιθανότητα και πιθανότητα;

Η προηγούμενη πιθανότητα είναι η αναλογία της εξαρτημένης μεταβλητής στο σύνολο δεδομένων ενώ η πιθανότητα είναι η πιθανότητα ταξινόμησης ενός δεδομένου παρατηρητή παρουσία κάποιας άλλης μεταβλητής.


6. Εξηγήστε τα Συστήματα Προτάσεων;

Είναι μια υποκατηγορία τεχνικών φιλτραρίσματος πληροφοριών. Σας βοηθά να προβλέψετε τις προτιμήσεις ή τις αξιολογήσεις που είναι πιθανό να δώσουν οι χρήστες σε ένα προϊόν.


7. Να αναφέρετε τρία μειονεκτήματα της χρήσης ενός γραμμικού μοντέλου

Τρία μειονεκτήματα του γραμμικού μοντέλου είναι:

  • Η υπόθεση της γραμμικότητας των σφαλμάτων.
  • Δεν μπορείτε να χρησιμοποιήσετε αυτό το μοντέλο για δυαδικά ή μετρημένα αποτελέσματα
  • Υπάρχουν πολλά προβλήματα υπερβολικής προσαρμογής που δεν μπορεί να λύσει

8. Γιατί χρειάζεται να πραγματοποιήσετε επαναδειγματοληψία;

Η επαναδειγματοληψία γίνεται στις παρακάτω περιπτώσεις:

  • Εκτίμηση της ακρίβειας των στατιστικών δειγμάτων με τυχαία σχεδίαση με αντικατάσταση από ένα σύνολο σημείου δεδομένων ή χρησιμοποιώντας ως υποσύνολα προσβάσιμων δεδομένων
  • Αντικατάσταση ετικετών σε σημεία δεδομένων κατά την εκτέλεση των απαραίτητων δοκιμών
  • Επικύρωση μοντέλων χρησιμοποιώντας τυχαία υποσύνολα

9. Καταγράψτε τις βιβλιοθήκες σε Python χρησιμοποιείται για Ανάλυση Δεδομένων και Επιστημονικούς Υπολογισμούς.


10. Τι είναι η Ανάλυση ισχύος;

Η ανάλυση ισχύος αποτελεί αναπόσπαστο μέρος του πειραματικού σχεδιασμού. Σας βοηθά να προσδιορίσετε το μέγεθος του δείγματος που απαιτείται για να μάθετε την επίδραση ενός δεδομένου μεγέθους από μια αιτία με συγκεκριμένο επίπεδο βεβαιότητας. Σας επιτρέπει επίσης να αναπτύξετε μια συγκεκριμένη πιθανότητα σε έναν περιορισμό μεγέθους δείγματος.


11. Εξηγήστε το Συνεργατικό φιλτράρισμα

Συνεργατικό φιλτράρισμα που χρησιμοποιείται για την αναζήτηση σωστών μοτίβων από συνεργαζόμενες απόψεις, πολλαπλές πηγές δεδομένων και διάφορους παράγοντες.


12. Τι είναι η προκατάληψη;

Η προκατάληψη είναι ένα σφάλμα που εισήχθη στο μοντέλο σας λόγω της υπεραπλούστευσης ενός αλγορίθμου μηχανικής μάθησης. Μπορεί να οδηγήσει σε υποκατάσταση.


13. Συζητήστε το «Naive» σε έναν αλγόριθμο Naive Bayes;

Το μοντέλο του αλγόριθμου Naive Bayes βασίζεται στο θεώρημα Bayes. Περιγράφει την πιθανότητα ενός γεγονότος. Βασίζεται σε προηγούμενη γνώση των συνθηκών που μπορεί να σχετίζονται με το συγκεκριμένο γεγονός.


14. Τι είναι η Γραμμική παλινδρόμηση;

Η γραμμική παλινδρόμηση είναι μια μέθοδος στατιστικού προγραμματισμού όπου η βαθμολογία μιας μεταβλητής «Α» προβλέπεται από τη βαθμολογία μιας δεύτερης μεταβλητής «Β». Το B αναφέρεται ως η μεταβλητή πρόβλεψης και η A ως η μεταβλητή κριτηρίου.


15. Δηλώστε τη διαφορά μεταξύ της αναμενόμενης τιμής και της μέσης τιμής

Δεν είναι πολλές διαφορές, αλλά και οι δύο αυτοί όροι χρησιμοποιούνται σε διαφορετικά πλαίσια. Η μέση τιμή αναφέρεται γενικά όταν συζητάτε μια κατανομή πιθανότητας, ενώ η αναμενόμενη τιμή αναφέρεται στο πλαίσιο μιας τυχαίας μεταβλητής.


16. Ποιος είναι ο στόχος της διεξαγωγής δοκιμών A/B;

Η δοκιμή AB χρησιμοποιείται για τη διεξαγωγή τυχαίων πειραμάτων με δύο μεταβλητές, την Α και τη Β. Ο στόχος αυτής της μεθόδου δοκιμής είναι να ανακαλύψει αλλαγές σε μια ιστοσελίδα για να μεγιστοποιήσει ή να αυξήσει το αποτέλεσμα μιας στρατηγικής.


17. Τι είναι το Ensemble Learning;

Το σύνολο είναι μια μέθοδος συνδυασμού διαφορετικών ομάδων μαθητών μαζί για να αυτοσχεδιάσουν σχετικά με τη σταθερότητα και την προγνωστική δύναμη του μοντέλου. Δύο τύποι μεθόδων εκμάθησης Ensemble είναι:

Σακκόπανο

Η μέθοδος bagging σάς βοηθά να εφαρμόσετε παρόμοιους μαθητές σε μικρούς πληθυσμούς δειγμάτων. Σας βοηθά να κάνετε πιο κοντινές προβλέψεις.

Ενίσχυση

Η ενίσχυση είναι μια επαναληπτική μέθοδος που σας επιτρέπει να προσαρμόσετε το βάρος μιας παρατήρησης εξαρτάται από την τελευταία ταξινόμηση. Η ενίσχυση μειώνει το σφάλμα προκατάληψης και σας βοηθά να δημιουργήσετε ισχυρά μοντέλα πρόβλεψης.


18. Εξηγήστε Ιδιοτιμή και Ιδιοδιάνυσμα

Τα ιδιοδιανύσματα προορίζονται για την κατανόηση γραμμικών μετασχηματισμών. Ο επιστήμονας δεδομένων πρέπει να υπολογίσει τα ιδιοδιανύσματα για έναν πίνακα συνδιακύμανσης ή συσχέτιση. Οι ιδιοτιμές είναι οι κατευθύνσεις κατά τη χρήση συγκεκριμένων ενεργειών γραμμικού μετασχηματισμού με συμπίεση, αναστροφή ή τέντωμα.


19. Ορίστε τον όρο διασταυρούμενη επικύρωση

Η διασταυρούμενη επικύρωση είναι μια τεχνική επικύρωσης για την αξιολόγηση του τρόπου με τον οποίο θα γενικευθούν τα αποτελέσματα της στατιστικής ανάλυσης για ένα ανεξάρτητο σύνολο δεδομένων. Αυτή η μέθοδος χρησιμοποιείται σε υπόβαθρα όπου ο στόχος προβλέπεται και πρέπει να εκτιμηθεί πόσο ακριβή θα επιτύχει ένα μοντέλο.


20. Εξηγήστε τα βήματα για ένα έργο ανάλυσης δεδομένων

Τα ακόλουθα είναι σημαντικά βήματα που εμπλέκονται σε ένα έργο ανάλυσης:

  • Κατανοήστε το επιχειρηματικό πρόβλημα
  • Εξερευνήστε τα δεδομένα και μελετήστε τα προσεκτικά.
  • Προετοιμάστε τα δεδομένα για μοντελοποίηση βρίσκοντας τιμές που λείπουν και μετασχηματίζοντας μεταβλητές.
  • Ξεκινήστε την εκτέλεση του μοντέλου και αναλύστε το αποτέλεσμα Big data.
  • Επικυρώστε το μοντέλο με νέο σύνολο δεδομένων.
  • Εφαρμόστε το μοντέλο και παρακολουθήστε το αποτέλεσμα για να αναλύσετε την απόδοση του μοντέλου για μια συγκεκριμένη περίοδο.

21. Συζητήστε τα τεχνητά νευρωνικά δίκτυα

Τα τεχνητά νευρωνικά δίκτυα (ANN) είναι ένα ειδικό σύνολο αλγορίθμων που έχουν φέρει επανάσταση στη μηχανική μάθηση. Σας βοηθά να προσαρμόζεστε ανάλογα με την αλλαγή εισόδου. Έτσι το δίκτυο παράγει το καλύτερο δυνατό αποτέλεσμα χωρίς να επανασχεδιάσει τα κριτήρια εξόδου.


22. Τι είναι η Back Propagation;

Η αντίστροφη διάδοση είναι η ουσία της εκπαίδευσης του νευρικού δικτύου. Είναι η μέθοδος συντονισμού των βαρών ενός νευρωνικού δικτύου που εξαρτώνται από το ποσοστό σφάλματος που λήφθηκε στην προηγούμενη εποχή. Ο σωστός συντονισμός του σάς βοηθά να μειώσετε τα ποσοστά σφαλμάτων και να κάνετε το μοντέλο αξιόπιστο αυξάνοντας τη γενίκευσή του.


23. Τι είναι ένα Τυχαίο Δάσος;

Το Random Forest είναι μια μέθοδος μηχανικής εκμάθησης που σας βοηθά να εκτελέσετε όλους τους τύπους εργασιών παλινδρόμησης και ταξινόμησης. Χρησιμοποιείται επίσης για τη θεραπεία τιμών που λείπουν και ακραίων τιμών.


24. Ποια είναι η σημασία της μεροληψίας επιλογής;

Η προκατάληψη επιλογής εμφανίζεται όταν δεν επιτυγχάνεται συγκεκριμένη τυχαιοποίηση κατά την επιλογή ατόμων ή ομάδων ή δεδομένων προς ανάλυση. Υποδηλώνει ότι το δεδομένο δείγμα δεν αντιπροσωπεύει ακριβώς τον πληθυσμό που επρόκειτο να αναλυθεί.


25. Τι είναι η μέθοδος ομαδοποίησης K-means;

Η ομαδοποίηση K-means είναι μια σημαντική μέθοδος μάθησης χωρίς επίβλεψη. Είναι η τεχνική της ταξινόμησης δεδομένων χρησιμοποιώντας ένα συγκεκριμένο σύνολο συστάδων που ονομάζονται συστάδες K. Αναπτύσσεται για ομαδοποίηση για να διαπιστωθεί η ομοιότητα στα δεδομένα.


Data Scientist Συνέντευξη Ερωτήσεις για Έμπειρους

26. Εξηγήστε τη διαφορά μεταξύ Data Science και Data Analytics

Οι επιστήμονες δεδομένων πρέπει να τεμαχίσουν δεδομένα για να εξαγάγουν πολύτιμες γνώσεις που ένας αναλυτής δεδομένων μπορεί να εφαρμόσει σε επιχειρηματικά σενάρια πραγματικού κόσμου. Η κύρια διαφορά μεταξύ των δύο είναι ότι οι επιστήμονες δεδομένων έχουν περισσότερες τεχνικές γνώσεις από τους αναλυτές επιχειρήσεων. Επιπλέον, δεν χρειάζονται κατανόηση της επιχείρησης που απαιτείται για την οπτικοποίηση δεδομένων.


27. Εξηγήστε την τιμή p;

Όταν διεξάγετε μια δοκιμή υποθέσεων στα στατιστικά στοιχεία, μια τιμή p σας επιτρέπει να προσδιορίσετε την ισχύ των αποτελεσμάτων σας. Είναι ένας αριθμητικός αριθμός μεταξύ 0 και 1. Με βάση την τιμή θα σας βοηθήσει να υποδηλώσετε την ισχύ του συγκεκριμένου αποτελέσματος.


28. Ορίστε τον όρο βαθιά μάθηση

Το Deep Learning είναι ένας υποτύπος μηχανικής μάθησης. Ασχολείται με αλγόριθμους εμπνευσμένους από τη δομή που ονομάζεται τεχνητά νευρωνικά δίκτυα (ANN).


29. Εξηγήστε τη μέθοδο συλλογής και ανάλυσης δεδομένων για τη χρήση των μέσων κοινωνικής δικτύωσης για την πρόβλεψη της καιρικής κατάστασης.

Μπορείτε να συλλέξετε δεδομένα μέσων κοινωνικής δικτύωσης χρησιμοποιώντας το Facebook, το twitter, το API του Instagram. Για παράδειγμα, για το tweeter, μπορούμε να δημιουργήσουμε ένα χαρακτηριστικό από κάθε tweet, όπως ημερομηνία tweet, retweets, λίστα ακολούθων κ.λπ. Στη συνέχεια, μπορείτε να χρησιμοποιήσετε ένα μοντέλο πολυμεταβλητής χρονοσειράς για να προβλέψετε την κατάσταση του καιρού.


30. Πότε χρειάζεται να ενημερώσετε τον αλγόριθμο στην επιστήμη δεδομένων;

Πρέπει να ενημερώσετε έναν αλγόριθμο στην ακόλουθη περίπτωση:

  • Θέλετε το μοντέλο δεδομένων σας να εξελίσσεται ως ροές δεδομένων χρησιμοποιώντας υποδομή
  • Η υποκείμενη πηγή δεδομένων αλλάζει, εάν δεν είναι σταθερή

31. Τι είναι η Κανονική Κατανομή

Μια κανονική κατανομή είναι ένα σύνολο συνεχούς μεταβλητής που απλώνεται σε μια κανονική καμπύλη ή σε σχήμα καμπύλης καμπάνας. Μπορείτε να το θεωρήσετε ως μια συνεχή κατανομή πιθανοτήτων που είναι χρήσιμη στη στατιστική. Είναι χρήσιμο να αναλύουμε τις μεταβλητές και τις σχέσεις τους όταν χρησιμοποιούμε την καμπύλη κανονικής κατανομής.


32. Ποια γλώσσα είναι η καλύτερη για ανάλυση κειμένου; R ή Python?

Python θα είναι πιο κατάλληλο για ανάλυση κειμένου καθώς αποτελείται από μια πλούσια βιβλιοθήκη γνωστή ως pandas. Σας επιτρέπει να χρησιμοποιείτε υψηλού επιπέδου εργαλεία ανάλυσης δεδομένων και δομές δεδομένων, ενώ το R δεν προσφέρει αυτή τη δυνατότητα.


33. Εξηγήστε τα οφέλη από τη χρήση στατιστικών από Επιστήμονες Δεδομένων

Οι στατιστικές βοηθούν τον επιστήμονα δεδομένων να αποκτήσει μια καλύτερη ιδέα για τις προσδοκίες του πελάτη. Χρησιμοποιώντας τη στατιστική μέθοδο Οι Επιστήμονες Δεδομένων μπορούν να λάβουν γνώσεις σχετικά με το ενδιαφέρον των καταναλωτών, τη συμπεριφορά, τη δέσμευση, τη διατήρηση κ.λπ. Σας βοηθά επίσης να δημιουργήσετε ισχυρά μοντέλα δεδομένων για να επικυρώσετε ορισμένα συμπεράσματα και προβλέψεις.


34. Ονομάστε διάφορους τύπους πλαισίων βαθιάς μάθησης

  • pytorch
  • Microsoft Γνωσιακή εργαλειοθήκη
  • TensorFlow
  • Καφετέρια
  • Chainer
  • Keras

35.Εξηγήστε το Auto-Encoder

Οι αυτόματες κωδικοποιητές είναι δίκτυα εκμάθησης. Σας βοηθά να μετατρέψετε τις εισόδους σε εξόδους με λιγότερους αριθμούς σφαλμάτων. Αυτό σημαίνει ότι η έξοδος θα είναι όσο το δυνατόν πιο κοντά στην είσοδο.


36. Ορίστε τη μηχανή Boltzmann

Οι μηχανές Boltzmann είναι ένας απλός αλγόριθμος εκμάθησης. Σας βοηθά να ανακαλύψετε εκείνα τα χαρακτηριστικά που αντιπροσωπεύουν πολύπλοκες κανονικότητες στα δεδομένα εκπαίδευσης. Αυτός ο αλγόριθμος σας επιτρέπει να βελτιστοποιήσετε τα βάρη και την ποσότητα για το δεδομένο πρόβλημα.


37. Εξηγήστε γιατί είναι απαραίτητος ο Καθαρισμός Δεδομένων και ποια μέθοδο χρησιμοποιείτε για τη διατήρηση καθαρών δεδομένων

Τα βρώμικα δεδομένα συχνά οδηγούν σε εσφαλμένο εσωτερικό, το οποίο μπορεί να βλάψει την προοπτική οποιουδήποτε οργανισμού. Για παράδειγμα, εάν θέλετε να εκτελέσετε μια στοχευμένη καμπάνια μάρκετινγκ. Ωστόσο, τα δεδομένα μας λανθασμένα σας λένε ότι ένα συγκεκριμένο προϊόν θα είναι σε ζήτηση στο κοινό-στόχο σας. η εκστρατεία θα αποτύχει.


38. Τι είναι λοξή Κατανομή & ομοιόμορφη κατανομή;

Η λοξή κατανομή εμφανίζεται όταν τα δεδομένα κατανέμονται σε οποιαδήποτε πλευρά της γραφικής παράστασης, ενώ η ομοιόμορφη κατανομή αναγνωρίζεται όταν τα δεδομένα είναι ίσα στο εύρος.


39. Πότε εμφανίζεται υποπροσαρμογή σε ένα στατικό μοντέλο;

Η υποπροσαρμογή συμβαίνει όταν ένα στατιστικό μοντέλο ή ένας αλγόριθμος μηχανικής μάθησης δεν είναι σε θέση να καταγράψει την υποκείμενη τάση των δεδομένων.


40. Τι είναι η ενισχυτική μάθηση;

Η Ενισχυτική Μάθηση είναι ένας μηχανισμός μάθησης σχετικά με τον τρόπο χαρτογράφησης καταστάσεων σε ενέργειες. Το τελικό αποτέλεσμα θα σας βοηθήσει να αυξήσετε το δυαδικό σήμα ανταμοιβής. Σε αυτή τη μέθοδο, ο μαθητής δεν ενημερώνεται ποια ενέργεια να κάνει, αλλά πρέπει να ανακαλύψει ποια ενέργεια προσφέρει τη μέγιστη ανταμοιβή. Καθώς αυτή η μέθοδος βασίζεται στον μηχανισμό επιβράβευσης/ποινών.


41. Ονομάστε αλγόριθμους που χρησιμοποιούνται συνήθως.

Τέσσερις πιο συχνά χρησιμοποιούμενοι αλγόριθμοι από τον Data scientist είναι:

  • Γραμμικής παλινδρόμησης
  • Λογιστική παλινδρόμηση
  • Τυχαίο Δάσος
  • ΚΝΝ

42. Τι είναι η ακρίβεια;

Η ακρίβεια είναι η πιο συχνά χρησιμοποιούμενη μέτρηση σφάλματος είναι n μηχανισμός ταξινόμησης. Το εύρος του είναι από 0 έως 1, όπου το 1 αντιπροσωπεύει το 100%


43. Τι είναι η μονομεταβλητή ανάλυση;

Μια ανάλυση που εφαρμόζεται σε κανένα χαρακτηριστικό κάθε φορά είναι γνωστή ως μονομεταβλητή ανάλυση. Boxοικόπεδο χρησιμοποιείται ευρέως, μονομεταβλητό μοντέλο.


44. Πώς ξεπερνάτε τις προκλήσεις στα ευρήματά σας;

Για να ξεπεράσω τις προκλήσεις της ανακάλυψής μου πρέπει να ενθαρρύνω τη συζήτηση, να επιδεικνύω ηγεσία και να σέβομαι τις διαφορετικές επιλογές.


45. Εξηγήστε την τεχνική δειγματοληψίας συστάδων στην επιστήμη των δεδομένων

Χρησιμοποιείται μια μέθοδος δειγματοληψίας σε ομάδες όταν είναι δύσκολο να μελετηθεί ο κατανεμημένος πληθυσμός-στόχος και δεν μπορεί να εφαρμοστεί απλή τυχαία δειγματοληψία.


46. ​​Δηλώστε τη διαφορά μεταξύ ενός συνόλου επικύρωσης και ενός συνόλου δοκιμής

Ένα σύνολο επικύρωσης θεωρείται ως επί το πλείστον μέρος του συνόλου εκπαίδευσης καθώς χρησιμοποιείται για την επιλογή παραμέτρων που σας βοηθά να αποφύγετε την υπερβολική προσαρμογή του μοντέλου που κατασκευάζεται.

Ενώ ένα σύνολο δοκιμής χρησιμοποιείται για τη δοκιμή ή την αξιολόγηση της απόδοσης ενός εκπαιδευμένου μοντέλου μηχανικής εκμάθησης.


47. Εξηγήστε τον όρο Διωνυμικός Τύπος Πιθανοτήτων;

"Η διωνυμική κατανομή περιέχει τις πιθανότητες κάθε πιθανής επιτυχίας σε Ν δοκιμές για ανεξάρτητα γεγονότα που έχουν πιθανότητα π να συμβούν."


48. Τι είναι η ανάκληση;

Η ανάκληση είναι μια αναλογία του πραγματικού θετικού επιτοκίου έναντι του πραγματικού θετικού επιτοκίου. Κυμαίνεται από 0 έως 1.


49. Συζητήστε την κανονική κατανομή

Η κανονική κατανομή ισόποσα κατανεμημένη, ο μέσος όρος, ο διάμεσος και ο τρόπος λειτουργίας είναι ίσοι.


50. Ενώ εργάζεστε σε ένα σύνολο δεδομένων, πώς μπορείτε να επιλέξετε σημαντικές μεταβλητές; Εξηγώ

Μπορείτε να χρησιμοποιήσετε τις ακόλουθες μεθόδους επιλογής μεταβλητών:

  • Καταργήστε τις συσχετισμένες μεταβλητές πριν επιλέξετε σημαντικές μεταβλητές
  • Χρησιμοποιήστε γραμμική παλινδρόμηση και επιλέξτε μεταβλητές που εξαρτώνται από αυτές τις τιμές p.
  • Χρησιμοποιήστε την Επιλογή προς τα πίσω, προς τα εμπρός και την επιλογή σταδιακά
  • Χρησιμοποιήστε το Xgboost, το Random Forest και το γράφημα μεταβλητής σημασίας.
  • Μετρήστε το κέρδος πληροφοριών για το δεδομένο σύνολο χαρακτηριστικών και επιλέξτε αντίστοιχα κορυφαία n χαρακτηριστικά.

51. Είναι δυνατόν να αποτυπωθεί η συσχέτιση μεταξύ συνεχούς και κατηγορικής μεταβλητής;

Ναι, μπορούμε να χρησιμοποιήσουμε την τεχνική ανάλυσης συνδιακύμανσης για να συλλάβουμε τη συσχέτιση μεταξύ συνεχών και κατηγορικών μεταβλητών.


52. Η αντιμετώπιση μιας κατηγορικής μεταβλητής ως συνεχούς μεταβλητής θα είχε ως αποτέλεσμα ένα καλύτερο προγνωστικό μοντέλο;

Ναι, η κατηγορική τιμή θα πρέπει να θεωρείται ως συνεχής μεταβλητή μόνο όταν η μεταβλητή είναι τακτικής φύσης. Άρα είναι ένα καλύτερο προγνωστικό μοντέλο.

Αυτές οι ερωτήσεις συνέντευξης θα βοηθήσουν επίσης στο viva (προφορικά) σας