60+ Ερωτήσεις και Απαντήσεις Συνέντευξης Μηχανικού Δεδομένων το 2024
Ερωτήσεις Συνέντευξης Μηχανικού Δεδομένων για Φροντιστές
1) Εξηγήστε το Data Engineering.
Η μηχανική δεδομένων είναι ένας όρος που χρησιμοποιείται στα μεγάλα δεδομένα. Επικεντρώνεται στην εφαρμογή της συλλογής δεδομένων και της έρευνας. Τα δεδομένα που παράγονται από διάφορες πηγές είναι απλώς ακατέργαστα δεδομένα. Η μηχανική δεδομένων βοηθά στη μετατροπή αυτών των ακατέργαστων δεδομένων σε χρήσιμες πληροφορίες.
2) Τι είναι το Data Modelling;
Μοντελοποίηση δεδομένων είναι η μέθοδος τεκμηρίωσης σύνθετου σχεδιασμού λογισμικού ως διαγράμματος, ώστε ο καθένας να μπορεί εύκολα να κατανοήσει. Είναι μια εννοιολογική αναπαράσταση αντικειμένων δεδομένων που συνδέονται μεταξύ διαφόρων αντικειμένων δεδομένων και κανόνων.
3) Καταγράψτε διάφορους τύπους σχημάτων σχεδίασης στο Data Modeling
Υπάρχουν κυρίως δύο τύποι σχημάτων στη μοντελοποίηση δεδομένων: 1) Σχήμα αστεριών και 2) σχήμα νιφάδας χιονιού.
4) Διάκριση μεταξύ δομημένων και μη δομημένων δεδομένων
Ακολουθεί μια διαφορά μεταξύ δομημένων και μη δομημένων δεδομένων:
Παράμετρος | Δομημένα δεδομένα | Μη δομημένα δεδομένα |
---|---|---|
Αποθηκευτικός χώρος | DBMS | Μη διαχειριζόμενες δομές αρχείων |
Βασική | ADO.net, ODBC και SQL | STMP, XML, CSV και SMS |
Εργαλείο ενσωμάτωσης | ELT (Εξαγωγή, Μετασχηματισμός, Φόρτωση) | Χειροκίνητη εισαγωγή δεδομένων ή ομαδική επεξεργασία που περιλαμβάνει κωδικούς |
απολέπιση | Η κλιμάκωση του σχήματος είναι δύσκολη | Η κλιμάκωση είναι πολύ εύκολη. |
5) Εξηγήστε όλα τα στοιχεία μιας εφαρμογής Hadoop
Ακολουθούν τα στοιχεία της εφαρμογής Hadoop:
- Hadoop Common: Είναι ένα κοινό σύνολο βοηθητικών προγραμμάτων και βιβλιοθηκών που χρησιμοποιούνται από το Hadoop.
- HDFS: Αυτή η εφαρμογή Hadoop σχετίζεται με το σύστημα αρχείων στο οποίο αποθηκεύονται τα δεδομένα Hadoop. Είναι ένα κατανεμημένο σύστημα αρχείων με υψηλό εύρος ζώνης.
- Hadoop MapReduce: Βασίζεται σύμφωνα με τον αλγόριθμο για την παροχή επεξεργασίας δεδομένων μεγάλης κλίμακας.
- ΝΗΜΑ Hadoop: Χρησιμοποιείται για τη διαχείριση πόρων μέσα στο σύμπλεγμα Hadoop. Μπορεί επίσης να χρησιμοποιηθεί για προγραμματισμό εργασιών για χρήστες.
6) Τι είναι το NameNode;
Είναι το κεντρικό στοιχείο του HDFS. Αποθηκεύει δεδομένα HDFS και παρακολουθεί διάφορα αρχεία σε όλα τα συμπλέγματα. Εδώ, τα πραγματικά δεδομένα δεν αποθηκεύονται. Τα δεδομένα αποθηκεύονται σε DataNodes.
7) Ορίστε τη ροή Hadoop
Είναι ένα βοηθητικό πρόγραμμα που επιτρέπει τη δημιουργία του χάρτη και Μειώνει τις θέσεις εργασίας και τις υποβάλλει σε ένα συγκεκριμένο σύμπλεγμα.
8) Ποια είναι η πλήρης μορφή του HDFS;
Το HDFS σημαίνει Hadoop Distributed File System.
9) Ορίστε το Block and Block Scanner στο HDFS
Τα μπλοκ είναι η μικρότερη μονάδα ενός αρχείου δεδομένων. Το Hadoop χωρίζει αυτόματα τεράστια αρχεία σε μικρά κομμάτια.
Το Block Scanner επαληθεύει τη λίστα των μπλοκ που παρουσιάζονται σε έναν DataNode.
10) Ποια είναι τα βήματα που συμβαίνουν όταν το Block Scanner εντοπίζει ένα κατεστραμμένο μπλοκ δεδομένων;
Ακολουθούν τα βήματα που συμβαίνουν όταν το Block Scanner εντοπίσει ένα κατεστραμμένο μπλοκ δεδομένων:
1) Πρώτα απ 'όλα, όταν το Block Scanner εντοπίσει ένα κατεστραμμένο μπλοκ δεδομένων, το DataNode αναφέρει στο NameNode
2) Το NameNode ξεκινά τη διαδικασία δημιουργίας ενός νέου αντιγράφου χρησιμοποιώντας ένα αντίγραφο του κατεστραμμένου μπλοκ.
3) Ο αριθμός αντιγράφων των σωστών αντιγράφων προσπαθεί να ταιριάζει με τον παράγοντα αναπαραγωγής. Εάν η αντιστοίχιση βρέθηκε κατεστραμμένο μπλοκ δεδομένων δεν θα διαγραφεί.
11) Ονομάστε δύο μηνύματα που λαμβάνει το NameNode από το DataNode;
Υπάρχουν δύο μηνύματα που λαμβάνει το NameNode από το DataNode. Είναι 1) Αναφορά αποκλεισμού και 2) Χτύπος καρδιάς.
12) Αναφέρετε διάφορα αρχεία διαμόρφωσης XML στο Hadoop;
Υπάρχουν πέντε αρχεία διαμόρφωσης XML στο Hadoop:
- Mapred-site
- Κεντρική τοποθεσία
- Ιστότοπος HDFS
- Νήματα-site
13) Τι είναι τέσσερα V των μεγάλων δεδομένων;
Τέσσερα V των μεγάλων δεδομένων είναι:
- Ταχύτητα
- Ποικιλία
- Τόμος
- Φιλαλήθεια
14) Εξηγήστε τα χαρακτηριστικά του Hadoop
Σημαντικά χαρακτηριστικά του Hadoop είναι:
- Είναι ένα πλαίσιο ανοιχτού κώδικα που είναι διαθέσιμο δωρεάν λογισμικό.
- Το Hadoop είναι συμβατό με πολλούς τύπους υλικού και εύκολη πρόσβαση σε νέο υλικό μέσα σε έναν συγκεκριμένο κόμβο.
- Το Hadoop υποστηρίζει ταχύτερα κατανεμημένη επεξεργασία δεδομένων.
- Αποθηκεύει τα δεδομένα στο σύμπλεγμα, το οποίο είναι ανεξάρτητο από τις υπόλοιπες λειτουργίες.
- Το Hadoop επιτρέπει τη δημιουργία 3 αντιγράφων για κάθε μπλοκ με διαφορετικούς κόμβους.
15) Εξηγήστε τις κύριες μεθόδους του Reducer
- setup (): Χρησιμοποιείται για τη διαμόρφωση παραμέτρων όπως το μέγεθος των δεδομένων εισόδου και η κατανεμημένη κρυφή μνήμη.
- cleanup(): Αυτή η μέθοδος χρησιμοποιείται για τον καθαρισμό προσωρινών αρχείων.
- reduce(): Είναι μια καρδιά του μειωτήρα που καλείται μία φορά ανά κλειδί με τη σχετική μειωμένη εργασία
16) Ποια είναι η συντομογραφία του COSHH;
Η συντομογραφία του COSHH είναι Classification and Optimization based Schedule for Heterogeneous Hadoop Systems.
17) Εξηγήστε το Star Schema
Σχήμα αστεριών ή Star Join Schema είναι ο απλούστερος τύπος σχήματος Data Warehouse. Είναι γνωστό ως σχήμα αστεριών επειδή η δομή του μοιάζει με αστέρι. Στο σχήμα Star, το κέντρο του αστεριού μπορεί να έχει έναν πίνακα γεγονότων και πολλαπλούς σχετικούς πίνακα διαστάσεων. Αυτό το σχήμα χρησιμοποιείται για την αναζήτηση μεγάλων συνόλων δεδομένων.
18) Πώς να αναπτύξετε μια λύση μεγάλων δεδομένων;
Ακολουθήστε τα παρακάτω βήματα για να αναπτύξετε μια λύση μεγάλων δεδομένων.
1) Ενσωματώστε δεδομένα χρησιμοποιώντας πηγές δεδομένων όπως το RDBMS, SAP, MySQL, Salesforce
2) Αποθηκεύστε τα δεδομένα που εξήχθησαν είτε στη βάση δεδομένων NoSQL είτε σε HDFS.
3) Ανάπτυξη λύσεων μεγάλων δεδομένων χρησιμοποιώντας πλαίσια επεξεργασίας όπως το Pig, Sparkκαι MapReduce.
19) Εξηγήστε το FSCK
Έλεγχος συστήματος αρχείων ή FSCK είναι η εντολή που χρησιμοποιείται από το HDFS. Η εντολή FSCK χρησιμοποιείται για τον έλεγχο ασυνεπειών και προβλημάτων στο αρχείο.
20) Εξηγήστε το Σχήμα Νιφάδας Χιονιού
A Σχέδιο νιφάδας χιονιού είναι μια επέκταση ενός σχήματος αστεριών και προσθέτει πρόσθετες διαστάσεις. Ονομάζεται ως νιφάδα χιονιού επειδή το διάγραμμα του μοιάζει με νιφάδα χιονιού. Οι πίνακες διαστάσεων είναι κανονικοποιημένοι, που χωρίζει τα δεδομένα σε πρόσθετους πίνακες.
21) Διακρίνετε το Σχήμα Star και Snowflake
Αστέρι | Σχήμα SnowFlake |
Οι ιεραρχίες διαστάσεων αποθηκεύονται στον πίνακα διαστάσεων. | Κάθε ιεραρχία αποθηκεύεται σε ξεχωριστούς πίνακες. |
Οι πιθανότητες πλεονασμού δεδομένων είναι υψηλές | Οι πιθανότητες πλεονασμού δεδομένων είναι μικρές. |
Έχει πολύ απλό σχεδιασμό DB | Έχει πολύπλοκο σχεδιασμό DB |
Παρέχετε έναν ταχύτερο τρόπο επεξεργασίας κύβου | Η επεξεργασία του κύβου είναι αργή λόγω της σύνθετης ένωσης. |
22) Εξηγήστε το κατανεμημένο σύστημα αρχείων Hadoop
Το Hadoop λειτουργεί με κλιμακούμενα κατανεμημένα συστήματα αρχείων όπως S3, HFTP FS, FS και HDFS. Το κατανεμημένο σύστημα αρχείων Hadoop δημιουργείται στο σύστημα αρχείων Google. Αυτό το σύστημα αρχείων έχει σχεδιαστεί με τέτοιο τρόπο ώστε να μπορεί εύκολα να εκτελεστεί σε ένα μεγάλο σύμπλεγμα του συστήματος υπολογιστή.
23) Εξηγήστε τις κύριες αρμοδιότητες ενός μηχανικού δεδομένων
Οι μηχανικοί δεδομένων έχουν πολλές ευθύνες. Διαχειρίζονται το σύστημα πηγής δεδομένων. Οι μηχανικοί δεδομένων απλοποιούν πολύπλοκες δομές δεδομένων και αποτρέπουν την επανάληψη των δεδομένων. Πολλές φορές παρέχουν επίσης ELT και μετασχηματισμό δεδομένων.
24) Ποια είναι η πλήρης μορφή του ΝΗΜΑΤΟΣ;
Η πλήρης μορφή του YARN είναι ένας ακόμη διαπραγματευτής πόρων.
25) Καταγράψτε διάφορες λειτουργίες στο Hadoop
Οι λειτουργίες στο Hadoop είναι 1) Αυτόνομη λειτουργία 2) Ψευδοκατανεμημένη λειτουργία 3) Πλήρως κατανεμημένη λειτουργία.
26) Πώς να επιτύχετε ασφάλεια στο Hadoop;
Εκτελέστε τα παρακάτω βήματα για να επιτύχετε ασφάλεια στο Hadoop:
1) Το πρώτο βήμα είναι να ασφαλίσετε το κανάλι ελέγχου ταυτότητας του πελάτη στον διακομιστή. Δώστε χρονική σήμανση στον πελάτη.
2) Στο δεύτερο βήμα, ο πελάτης χρησιμοποιεί τη λαμβανόμενη χρονική σήμανση για να ζητήσει TGS για εισιτήριο υπηρεσίας.
3) Στο τελευταίο βήμα, ο πελάτης χρησιμοποιεί εισιτήριο υπηρεσίας για αυτοέλεγχο σε έναν συγκεκριμένο διακομιστή.
27) Τι είναι το Heartbeat στο Hadoop;
Στο Hadoop, το NameNode και το DataNode επικοινωνούν μεταξύ τους. Το Heartbeat είναι το σήμα που αποστέλλεται από το DataNode στο NameNode σε τακτική βάση για να δείξει την παρουσία του.
28) Διακρίνετε μεταξύ NAS και DAS στο Hadoop
NAS | DAS |
Η χωρητικότητα αποθήκευσης είναι 109 να 1012 σε byte. | Η χωρητικότητα αποθήκευσης είναι 109 σε byte. |
Το κόστος διαχείρισης ανά GB είναι μέτριο. | Το κόστος διαχείρισης ανά GB είναι υψηλό. |
Μετάδοση δεδομένων με χρήση Ethernet ή TCP/IP. | Μετάδοση δεδομένων χρησιμοποιώντας IDE/SCSI |
29) Καταγράψτε σημαντικά πεδία ή γλώσσες που χρησιμοποιούνται από τον μηχανικό δεδομένων
Ακολουθούν μερικά πεδία ή γλώσσες που χρησιμοποιούνται από τον μηχανικό δεδομένων:
- Πιθανότητες καθώς και γραμμική άλγεβρα
- Εκμάθηση μηχανών
- Ανάλυση τάσεων και παλινδρόμηση
- Hive βάσεις δεδομένων QL και SQL
30) Τι είναι τα Big Data;
Είναι ένας μεγάλος όγκος δομημένων και μη δομημένων δεδομένων, τα οποία δεν μπορούν εύκολα να υποβληθούν σε επεξεργασία με τις παραδοσιακές μεθόδους αποθήκευσης δεδομένων. Οι μηχανικοί δεδομένων χρησιμοποιούν το Hadoop για τη διαχείριση μεγάλων δεδομένων.
Ερωτήσεις συνέντευξης μηχανικού δεδομένων για έμπειρους
31) Τι είναι ο προγραμματισμός FIFO;
Είναι ένας αλγόριθμος προγραμματισμού Hadoop Job. Σε αυτόν τον προγραμματισμό FIFO, ένας δημοσιογράφος επιλέγει εργασίες από μια ουρά εργασίας, την παλαιότερη εργασία πρώτα.
32) Αναφέρετε τους προεπιλεγμένους αριθμούς θύρας στους οποίους εκτελούνται το πρόγραμμα παρακολούθησης εργασιών, το NameNode και το πρόγραμμα παρακολούθησης εργασιών στο Hadoop
Οι προεπιλεγμένοι αριθμοί θυρών στις οποίες εκτελούνται το πρόγραμμα παρακολούθησης εργασιών, το NameNode και το πρόγραμμα παρακολούθησης εργασιών στο Hadoop είναι οι εξής:
- Το Task Tracker τρέχει στη θύρα 50060
- Το NameNode εκτελείται σε θύρα 50070
- Το Job Tracker εκτελείται στη θύρα 50030
33) Πώς να απενεργοποιήσετε το Block Scanner στον κόμβο δεδομένων HDFS
Για να απενεργοποιήσετε το Block Scanner στον κόμβο δεδομένων HDFS, ορίστε το dfs.datanode.scan.period.hours σε 0.
34) Πώς να ορίσετε την απόσταση μεταξύ δύο κόμβων στο Hadoop;
Η απόσταση είναι ίση με το άθροισμα της απόστασης από τους πλησιέστερους κόμβους. Η μέθοδος getDistance() χρησιμοποιείται για τον υπολογισμό της απόστασης μεταξύ δύο κόμβων.
35) Γιατί να χρησιμοποιήσετε υλικό εμπορευμάτων στο Hadoop;
Το υλικό εμπορευμάτων είναι εύκολο να αποκτηθεί και προσιτό. Είναι ένα σύστημα που είναι συμβατό με Windows, MS-DOS ή Linux.
36) Ορίστε τον παράγοντα αναπαραγωγής στο HDFS
Ο παράγοντας αναπαραγωγής είναι ένας συνολικός αριθμός αντιγράφων ενός αρχείου στο σύστημα.
37) Ποια δεδομένα αποθηκεύονται στο NameNode;
Το Namenode αποθηκεύει τα μεταδεδομένα για το HDFS, όπως πληροφορίες μπλοκ και πληροφορίες χώρου ονομάτων.
38) Τι εννοείτε με τον όρο Rack Awareness;
Στο σύμπλεγμα Haddop, το Namenode χρησιμοποιεί το Datanode για να βελτιώσει την κυκλοφορία του δικτύου κατά την ανάγνωση ή τη σύνταξη οποιουδήποτε αρχείου που βρίσκεται πιο κοντά στο κοντινό rack για αίτημα ανάγνωσης ή εγγραφής. Το Namenode διατηρεί το αναγνωριστικό rack κάθε DataNode για την επίτευξη πληροφοριών rack. Αυτή η ιδέα ονομάζεται Rack Awareness στο Hadoop.
39) Ποιες είναι οι λειτουργίες του Secondary NameNode;
Ακολουθούν οι λειτουργίες του Secondary NameNode:
- FsImage που αποθηκεύει ένα αντίγραφο του αρχείου EditLog και FsImage.
- Σφάλμα NameNode: Εάν το NameNode διακοπεί, τότε το FsImage του δευτερεύοντος NameNode μπορεί να χρησιμοποιηθεί για την αναδημιουργία του NameNode.
- Σημείο ελέγχου: Χρησιμοποιείται από το Secondary NameNode για να επιβεβαιώσει ότι τα δεδομένα δεν είναι κατεστραμμένα στο HDFS.
- Ενημέρωση: Ενημερώνει αυτόματα το αρχείο EditLog και FsImage. Βοηθά να διατηρείται ενημερωμένο το αρχείο FsImage στο δευτερεύον NameNode.
40) Τι συμβαίνει όταν το NameNode είναι εκτός λειτουργίας και ο χρήστης υποβάλλει μια νέα εργασία;
Το NameNode είναι το μοναδικό σημείο αποτυχίας στο Hadoop, επομένως ο χρήστης δεν μπορεί να υποβάλει μια νέα εργασία δεν μπορεί να εκτελεστεί. Εάν το NameNode είναι εκτός λειτουργίας, τότε η εργασία μπορεί να αποτύχει, επειδή αυτός ο χρήστης πρέπει να περιμένει την επανεκκίνηση του NameNode πριν εκτελέσει οποιαδήποτε εργασία.
41) Ποιες είναι οι βασικές φάσεις του μειωτήρα στο Hadoop;
Υπάρχουν τρεις βασικές φάσεις ενός μειωτήρα στο Hadoop:
1. Τυχαία αναπαραγωγή: Εδώ, το Reducer αντιγράφει την έξοδο από το Mapper.
2. Ταξινόμηση: Σε ταξινόμηση, το Hadoop ταξινομεί την είσοδο στο Reducer χρησιμοποιώντας το ίδιο κλειδί.
3. Reduce: Σε αυτή τη φάση, οι τιμές εξόδου που σχετίζονται με ένα κλειδί μειώνονται για να ενοποιηθούν τα δεδομένα στην τελική έξοδο.
42) Γιατί το Hadoop χρησιμοποιεί το αντικείμενο Context;
Το πλαίσιο Hadoop χρησιμοποιεί αντικείμενο Context με την κλάση Mapper για να αλληλεπιδράσει με το υπόλοιπο σύστημα. Το αντικείμενο περιβάλλοντος λαμβάνει τις λεπτομέρειες διαμόρφωσης συστήματος και την εργασία στον κατασκευαστή του.
Χρησιμοποιούμε αντικείμενο Context για να μεταβιβάσουμε τις πληροφορίες στις μεθόδους setup(), cleanup() και map(). Αυτό το αντικείμενο καθιστά διαθέσιμες ζωτικές πληροφορίες κατά τη διάρκεια των λειτουργιών του χάρτη.
43) Ορίστε το Combiner στο Hadoop
Είναι ένα προαιρετικό βήμα μεταξύ Χάρτης και Μείωσης. Το Combiner παίρνει την έξοδο από τη λειτουργία Map, δημιουργεί ζεύγη τιμών κλειδιών και υποβάλλει στο Hadoop Reducer. Η αποστολή του Combiner είναι να συνοψίσει το τελικό αποτέλεσμα από το Map σε συνοπτικές εγγραφές με το ίδιο κλειδί.
44) Ποιος είναι ο προεπιλεγμένος παράγοντας αναπαραγωγής που είναι διαθέσιμος στο HDFS Τι υποδεικνύει;
Ο προεπιλεγμένος συντελεστής αναπαραγωγής που είναι διαθέσιμος στο HDFS είναι τρεις. Ο προεπιλεγμένος παράγοντας αναπαραγωγής υποδεικνύει ότι θα υπάρχουν τρία αντίγραφα για κάθε δεδομένα.
45) Τι εννοείτε Τοποθεσία δεδομένων στο Hadoop;
Σε ένα σύστημα Big Data, το μέγεθος των δεδομένων είναι τεράστιο και γι' αυτό δεν έχει νόημα να μετακινούνται δεδομένα στο δίκτυο. Τώρα, ο Hadoop προσπαθεί να μετακινήσει τον υπολογισμό πιο κοντά στα δεδομένα. Με αυτόν τον τρόπο, τα δεδομένα παραμένουν τοπικά στην αποθηκευμένη τοποθεσία.
46) Ορίστε το Balancer στο HDFS
Στο HDFS, ο εξισορροπητής είναι ένας διαχειριστής που χρησιμοποιείται από το προσωπικό του διαχειριστή για την εξισορρόπηση των δεδομένων μεταξύ των DataNodes και μετακινεί μπλοκ από υπερχρησιμοποιούμενους σε υποχρησιμοποιούμενους κόμβους.
47) Εξηγήστε την ασφαλή λειτουργία σε HDFS
Είναι μια λειτουργία μόνο για ανάγνωση του NameNode σε ένα σύμπλεγμα. Αρχικά, το NameNode βρίσκεται σε Safemode. Αποτρέπει την εγγραφή στο σύστημα αρχείων σε Safemode. Αυτή τη στιγμή, συλλέγει δεδομένα και στατιστικά στοιχεία από όλους τους DataNodes.
48) Ποια είναι η σημασία της κατανεμημένης προσωρινής μνήμης στο Apache Hadoop;
Το Hadoop διαθέτει ένα χρήσιμο βοηθητικό χαρακτηριστικό, το λεγόμενο Distributed Cache, το οποίο βελτιώνει την απόδοση των εργασιών αποθηκεύοντας προσωρινά τα αρχεία που χρησιμοποιούνται από εφαρμογές. Μια εφαρμογή μπορεί να καθορίσει ένα αρχείο για τη μνήμη cache χρησιμοποιώντας τη διαμόρφωση JobConf.
Το πλαίσιο Hadoop κάνει αντίγραφο αυτών των αρχείων στους κόμβους που πρέπει να εκτελεστεί μια εργασία. Αυτό γίνεται πριν ξεκινήσει η εκτέλεση της εργασίας. Η Distributed Cache υποστηρίζει τη διανομή αρχείων μόνο για ανάγνωση καθώς και αρχείων zip και jars.
49) Τι είναι το Metastore στο Hive;
Αποθηκεύει το σχήμα καθώς και τη θέση του πίνακα Hive.
Ο πίνακας Hive ορίζει, αντιστοιχίζει και μεταδεδομένα που αποθηκεύονται στο Metastore. Αυτό μπορεί να αποθηκευτεί σε RDBMS που υποστηρίζεται από JPOX.
50) Τι σημαίνει SerDe στο Hive;
Το SerDe είναι ένα σύντομο όνομα για το Serializer ή το Deserializer. Στο Hive, το SerDe επιτρέπει την ανάγνωση δεδομένων από τον πίνακα σε και την εγγραφή σε ένα συγκεκριμένο πεδίο σε οποιαδήποτε μορφή θέλετε.
51) Καταγράψτε τα στοιχεία που είναι διαθέσιμα στο μοντέλο δεδομένων Hive
Υπάρχουν τα ακόλουθα στοιχεία στο μοντέλο δεδομένων Hive:
- πίνακες
- Χωρίσματα
- Κουβάδες
52) Εξηγήστε τη χρήση του Hive στο οικοσύστημα Hadoop.
Το Hive παρέχει μια διεπαφή για τη διαχείριση δεδομένων που είναι αποθηκευμένα στο οικοσύστημα Hadoop. Το Hive χρησιμοποιείται για χαρτογράφηση και εργασία με πίνακες HBase. Τα ερωτήματα Hive μετατρέπονται σε εργασίες MapReduce προκειμένου να αποκρύψουν την πολυπλοκότητα που σχετίζεται με τη δημιουργία και την εκτέλεση εργασιών MapReduce.
53) Η λίστα διαφόρων σύνθετων τύπων/συλλογών δεδομένων υποστηρίζονται από το Hive
Το Hive υποστηρίζει τους ακόλουθους σύνθετους τύπους δεδομένων:
- Χάρτης
- Δομή
- Παράταξη
- Ένωση
54) Εξηγήστε πώς χρησιμοποιείται το αρχείο .hiverc στο Hive;
Στο Hive, το .hiverc είναι το αρχείο προετοιμασίας. Αυτό το αρχείο φορτώνεται αρχικά όταν ξεκινάμε το Command Line Interface (CLI) για το Hive. Μπορούμε να ορίσουμε τις αρχικές τιμές των παραμέτρων στο αρχείο .hiverc.
55) Είναι δυνατόν να δημιουργηθούν περισσότεροι από ένας πίνακες στο Hive για ένα μόνο αρχείο δεδομένων;
Ναι, μπορούμε να δημιουργήσουμε περισσότερα από ένα σχήματα πινάκων για ένα αρχείο δεδομένων. Το Hive αποθηκεύει το σχήμα στο Hive Metastore. Με βάση αυτό το σχήμα, μπορούμε να ανακτήσουμε ανόμοια αποτελέσματα από τα ίδια δεδομένα.
56) Εξηγήστε τις διάφορες υλοποιήσεις SerDe που είναι διαθέσιμες στο Hive
Υπάρχουν πολλές εφαρμογές SerDe διαθέσιμες στο Hive. Μπορείτε επίσης να γράψετε τη δική σας προσαρμοσμένη εφαρμογή SerDe. Ακολουθούν μερικές διάσημες υλοποιήσεις SerDe:
- OpenCSVSerde
- RegexSerDe
- ΟριοθετημένοJSONSerDe
- ByteStreamTypedSerDe
57) Καταγράψτε τις λειτουργίες δημιουργίας πινάκων που είναι διαθέσιμες στο Hive
Ακολουθεί μια λίστα με τις συναρτήσεις δημιουργίας πινάκων:
- Έκρηξη (συστοιχία)
- JSON_tuple()
- Σωρός()
- Έκρηξη (χάρτης)
58) Τι είναι ένα λοξό τραπέζι στο Hive;
Ο λοξός πίνακας είναι ένας πίνακας που περιέχει τις τιμές στηλών πιο συχνά. Στο Hive, όταν καθορίζουμε έναν πίνακα ως SKEWED κατά τη δημιουργία, οι λοξές τιμές εγγράφονται σε ξεχωριστά αρχεία και οι υπόλοιπες τιμές πηγαίνουν σε άλλο αρχείο.
59) Καταχωρίστε τα αντικείμενα που δημιουργήθηκαν από τη δήλωση δημιουργίας στο MySQL.
Αντικείμενα που δημιουργούνται από τη δήλωση δημιουργίας στο MySQL έχουν ως εξής:
- βάση δεδομένων
- Περιεχόμενα
- Τραπέζι
- Χρήστες
- Διαδικασία
- Σκανδάλη
- Συμβάν
- Προβολή
- Λειτουργία
60) Πώς να δείτε τη δομή της βάσης δεδομένων σε MySQL?
Για να δείτε τη δομή της βάσης δεδομένων σε MySQL, Μπορείτε να χρησιμοποιήσετε
εντολή DESCRIBE. Η σύνταξη αυτής της εντολής είναι DESCRIBE Table name;
.
Ερωτήσεις συνέντευξης SQL για Μηχανικό Δεδομένων
61) Πώς να αναζητήσετε μια συγκεκριμένη συμβολοσειρά στο MySQL στήλη πίνακα;
Χρησιμοποιήστε τον τελεστή regex για να αναζητήσετε μια συμβολοσειρά σε MySQL στήλη. Εδώ, μπορούμε επίσης να ορίσουμε διάφορους τύπους κανονικής έκφρασης και να αναζητήσουμε χρησιμοποιώντας regex.
62) Εξηγήστε πώς η ανάλυση δεδομένων και τα μεγάλα δεδομένα μπορούν να αυξήσουν τα έσοδα της εταιρείας;
Ακολουθούν οι τρόποι με τους οποίους η ανάλυση δεδομένων και τα μεγάλα δεδομένα μπορούν να αυξήσουν τα έσοδα της εταιρείας:
- Χρησιμοποιήστε τα δεδομένα αποτελεσματικά για να διασφαλίσετε την ανάπτυξη της επιχείρησης.
- Αυξήστε την αξία του πελάτη.
- Στρέφουμε αναλυτικά για να βελτιώσουμε τις προβλέψεις για τα επίπεδα στελέχωσης.
- Μείωση του κόστους παραγωγής των οργανισμών.
Αυτές οι ερωτήσεις συνέντευξης θα βοηθήσουν επίσης στο viva (προφορικά) σας