60 में 2025+ डेटा इंजीनियर साक्षात्कार प्रश्न और उत्तर

यहां नए और अनुभवी डेटा इंजीनियर उम्मीदवारों के लिए डेटा इंजीनियरिंग साक्षात्कार प्रश्न और उत्तर दिए गए हैं ताकि वे अपने सपनों की नौकरी पा सकें।

 

फ्रेशर्स के लिए डेटा इंजीनियर साक्षात्कार प्रश्न

1) डेटा इंजीनियरिंग की व्याख्या करें।

डेटा इंजीनियरिंग एक शब्द है जिसका उपयोग बड़े डेटा में किया जाता है। यह डेटा संग्रह और अनुसंधान के अनुप्रयोग पर केंद्रित है। विभिन्न स्रोतों से उत्पन्न डेटा केवल कच्चा डेटा है। डेटा इंजीनियरिंग इस कच्चे डेटा को उपयोगी जानकारी में बदलने में मदद करती है।


2) डेटा मॉडलिंग क्या है?

मॉडलिंग की दिनांक जटिल सॉफ़्टवेयर डिज़ाइन को आरेख के रूप में प्रलेखित करने की विधि है ताकि कोई भी आसानी से समझ सके। यह डेटा ऑब्जेक्ट्स का एक वैचारिक प्रतिनिधित्व है जो विभिन्न डेटा ऑब्जेक्ट्स और नियमों के बीच जुड़े होते हैं।

डेटा मॉडलिंग


3) डेटा मॉडलिंग में विभिन्न प्रकार के डिज़ाइन स्कीमा की सूची बनाएं

डेटा मॉडलिंग में मुख्य रूप से दो प्रकार की स्कीमाएँ होती हैं: 1) स्टार स्कीमा और 2) स्नोफ्लेक स्कीमा।


4) संरचित और असंरचित डेटा के बीच अंतर करें

संरचित और असंरचित डेटा के बीच अंतर निम्नलिखित है:

प्राचल संरचित डेटा असंरचित डेटा
भंडारण डीबीएमएस अप्रबंधित फ़ाइल संरचनाएँ
स्टैण्डर्ड ADO.net, ODBC, और SQL एसटीएमपी, एक्सएमएल, सीएसवी, और एसएमएस
एकीकरण उपकरण ईएलटी (एक्सट्रैक्ट, ट्रांसफॉर्म, लोड) मैन्युअल डेटा प्रविष्टि या बैच प्रोसेसिंग जिसमें कोड शामिल हैं
स्केलिंग स्कीमा स्केलिंग कठिन है स्केलिंग बहुत आसान है.

5) Hadoop एप्लिकेशन के सभी घटकों की व्याख्या करें

निम्नलिखित हैं Hadoop अनुप्रयोग के घटक:

हाडोप इकोसिस्टम और घटक

  • हाडोप सामान्य: यह उपयोगिताओं और पुस्तकालयों का एक सामान्य सेट है जिसका उपयोग Hadoop द्वारा किया जाता है।
  • एचडीएफएस: यह Hadoop एप्लीकेशन उस फ़ाइल सिस्टम से संबंधित है जिसमें Hadoop डेटा संग्रहीत किया जाता है। यह एक वितरित फ़ाइल सिस्टम है जिसमें उच्च बैंडविड्थ है।
  • हाडोप मैपरिड्यूस: यह बड़े पैमाने पर डेटा प्रसंस्करण के प्रावधान के लिए एल्गोरिदम पर आधारित है।
  • हाडोप यार्न: इसका उपयोग Hadoop क्लस्टर के भीतर संसाधन प्रबंधन के लिए किया जाता है। इसका उपयोग उपयोगकर्ताओं के लिए कार्य शेड्यूलिंग के लिए भी किया जा सकता है।

6) नेमनोड क्या है?

यह HDFS का केंद्रबिंदु है। यह HDFS का डेटा संग्रहीत करता है और क्लस्टर में विभिन्न फ़ाइलों को ट्रैक करता है। यहाँ, वास्तविक डेटा संग्रहीत नहीं किया जाता है। डेटा DataNodes में संग्रहीत किया जाता है।


7) Hadoop स्ट्रीमिंग को परिभाषित करें

यह एक उपयोगिता है जो मानचित्र के निर्माण की अनुमति देती है और नौकरियों को कम करती है और उन्हें एक विशिष्ट क्लस्टर में प्रस्तुत करती है।


8) एचडीएफएस का पूर्ण रूप क्या है?

एचडीएफएस का तात्पर्य है हाडोप डिस्ट्रिब्यूटेड फाइल सिस्टम।


9) एचडीएफएस में ब्लॉक और ब्लॉक स्कैनर को परिभाषित करें

ब्लॉक डेटा फ़ाइल की सबसे छोटी इकाई है। Hadoop स्वचालित रूप से बड़ी फ़ाइलों को छोटे टुकड़ों में विभाजित करता है।

ब्लॉक स्कैनर डेटा नोड पर प्रस्तुत ब्लॉकों की सूची को सत्यापित करता है।


10) जब ब्लॉक स्कैनर किसी दूषित डेटा ब्लॉक का पता लगाता है तो क्या कदम उठाए जाते हैं?

जब ब्लॉक स्कैनर को कोई दूषित डेटा ब्लॉक मिलता है तो निम्नलिखित चरण होते हैं:

1) सबसे पहले, जब ब्लॉक स्कैनर को कोई दूषित डेटा ब्लॉक मिलता है, तो DataNode इसकी रिपोर्ट NameNode को देता है

2) नेमनोड दूषित ब्लॉक की प्रतिकृति का उपयोग करके एक नई प्रतिकृति बनाने की प्रक्रिया शुरू करता है।

3) सही प्रतिकृतियों की प्रतिकृति गणना प्रतिकृति कारक के साथ मिलान करने का प्रयास करती है। यदि मिलान में दूषित डेटा ब्लॉक पाया जाता है तो उसे हटाया नहीं जाएगा।


11) दो संदेशों के नाम बताइये जो NameNode को DataNode से प्राप्त होते हैं?

डेटानोड से नेमनोड को दो संदेश मिलते हैं। वे हैं 1) ब्लॉक रिपोर्ट और 2) हार्टबीट।


12) Hadoop में विभिन्न XML कॉन्फ़िगरेशन फ़ाइलों की सूची बनाएं?

Hadoop में पाँच XML कॉन्फ़िगरेशन फ़ाइलें हैं:

  • मैपरेड्-साइट
  • कोर-साइट
  • HDFS-साइट
  • यार्न-साइट

13) बिग डेटा के चार वी क्या हैं?

बिग डेटा के चार V हैं:

  • वेग
  • विविधता
  • खंड
  • सच्चाई

14) हाडोप की विशेषताएं बताएं

हाडोप की महत्वपूर्ण विशेषताएं हैं:

  • यह एक ओपन सोर्स फ्रेमवर्क है जो फ्रीवेयर के रूप में उपलब्ध है।
  • हाडोप कई प्रकार के हार्डवेयर के साथ संगत है और किसी विशिष्ट नोड के भीतर नए हार्डवेयर तक पहुंच आसान है।
  • हाडोप डेटा के तीव्र वितरित प्रसंस्करण का समर्थन करता है।
  • यह डेटा को क्लस्टर में संग्रहीत करता है, जो बाकी कार्यों से स्वतंत्र होता है।
  • हाडोप प्रत्येक ब्लॉक के लिए अलग-अलग नोड्स के साथ 3 प्रतिकृतियां बनाने की अनुमति देता है।

15) रिड्यूसर की मुख्य विधियाँ बताइए

  • सेटअप (): इसका उपयोग इनपुट डेटा के आकार और वितरित कैश जैसे मापदंडों को कॉन्फ़िगर करने के लिए किया जाता है।
  • cleanup(): इस विधि का उपयोग अस्थायी फ़ाइलों को साफ़ करने के लिए किया जाता है।
  • reduce(): यह रिड्यूसर का हृदय है जिसे संबंधित रिड्यूस्ड कार्य के साथ प्रति कुंजी एक बार बुलाया जाता है

16) COSHH का संक्षिप्त नाम क्या है?

COSHH का संक्षिप्त नाम विषम हाडोप प्रणालियों के लिए वर्गीकरण और अनुकूलन आधारित अनुसूची है।


17) स्टार स्कीमा की व्याख्या करें

स्टार स्कीमा या स्टार जॉइन स्कीमा डेटा वेयरहाउस स्कीमा का सबसे सरल प्रकार है। इसे स्टार स्कीमा के रूप में जाना जाता है क्योंकि इसकी संरचना एक स्टार की तरह होती है। स्टार स्कीमा में, स्टार के केंद्र में एक तथ्य तालिका और कई संबद्ध आयाम तालिकाएँ हो सकती हैं। इस स्कीमा का उपयोग बड़े डेटा सेट की क्वेरी करने के लिए किया जाता है।


18) बड़ा डेटा समाधान कैसे तैनात करें?

बिग डेटा समाधान लागू करने के लिए निम्नलिखित चरणों का पालन करें।

1) RDBMS जैसे डेटा स्रोतों का उपयोग करके डेटा एकीकृत करें, SAP, MySQL, Salesforce
2) निकाले गए डेटा को NoSQL डेटाबेस या HDFS में संग्रहीत करें।
3) पिग जैसे प्रसंस्करण फ्रेमवर्क का उपयोग करके बड़े डेटा समाधान को तैनात करें, Spark, और मैपरिड्यूस.


19) एफएससीके को समझाइए

फ़ाइल सिस्टम चेक या FSCK HDFS द्वारा उपयोग किया जाने वाला कमांड है। FSCK कमांड का उपयोग फ़ाइल में असंगतियों और समस्याओं की जाँच करने के लिए किया जाता है।


20) स्नोफ्लेक स्कीमा की व्याख्या करें

A स्नोफ्लेक स्कीमा स्टार स्कीमा का एक विस्तार है, और यह अतिरिक्त आयाम जोड़ता है। इसे स्नोफ्लेक इसलिए कहा जाता है क्योंकि इसका आरेख स्नोफ्लेक जैसा दिखता है। आयाम तालिकाएँ सामान्यीकृत हैं, जो डेटा को अतिरिक्त तालिकाओं में विभाजित करती हैं।


21) स्टार और स्नोफ्लेक स्कीमा के बीच अंतर करें

तारा स्नोफ्लेक स्कीमा
आयाम पदानुक्रम आयामी तालिका में संग्रहीत हैं। प्रत्येक पदानुक्रम को अलग-अलग तालिकाओं में संग्रहीत किया जाता है।
डेटा अतिरेक की संभावना अधिक है डेटा अतिरेक की संभावना कम है।
इसका DB डिज़ाइन बहुत सरल है इसका डेटाबेस डिज़ाइन जटिल है
क्यूब प्रोसेसिंग के लिए तेज़ तरीका प्रदान करें जटिल संयोजन के कारण क्यूब प्रसंस्करण धीमा है।

22) Hadoop वितरित फ़ाइल सिस्टम की व्याख्या करें

Hadoop S3, HFTP FS, FS और HDFS जैसे स्केलेबल वितरित फ़ाइल सिस्टम के साथ काम करता है। Hadoop वितरित फ़ाइल सिस्टम Google फ़ाइल सिस्टम पर बनाया गया है। इस फ़ाइल सिस्टम को इस तरह से डिज़ाइन किया गया है कि यह कंप्यूटर सिस्टम के बड़े क्लस्टर पर आसानी से चल सके।


23) डेटा इंजीनियर की मुख्य ज़िम्मेदारियाँ बताइए

डेटा इंजीनियरों की कई ज़िम्मेदारियाँ होती हैं। वे डेटा के स्रोत सिस्टम का प्रबंधन करते हैं। डेटा इंजीनियर जटिल डेटा संरचना को सरल बनाते हैं और डेटा के दोहराव को रोकते हैं। कई बार वे ELT और डेटा ट्रांसफ़ॉर्मेशन भी प्रदान करते हैं।


24) यार्न का पूर्ण रूप क्या है?

यार्न का पूर्ण रूप 'येट अदर रिसोर्स नेगोशिएटर' है।


25) Hadoop में विभिन्न मोड की सूची बनाएं

हाडोप में मोड हैं 1) स्टैंडअलोन मोड 2) छद्म वितरित मोड 3) पूर्णतः वितरित मोड।


26) हाडोप में सुरक्षा कैसे प्राप्त करें?

Hadoop में सुरक्षा प्राप्त करने के लिए निम्नलिखित चरणों का पालन करें:

1) पहला कदम क्लाइंट के प्रमाणीकरण चैनल को सर्वर से सुरक्षित करना है। क्लाइंट को टाइम-स्टैम्प प्रदान करें।
2) दूसरे चरण में, ग्राहक सेवा टिकट के लिए टीजीएस का अनुरोध करने हेतु प्राप्त टाइम-स्टैम्प का उपयोग करता है।
3) अंतिम चरण में, ग्राहक किसी विशिष्ट सर्वर पर स्व-प्रमाणीकरण के लिए सेवा टिकट का उपयोग करता है।


27) हाडोप में हार्टबीट क्या है?

Hadoop में, NameNode और DataNode एक दूसरे से संवाद करते हैं। हार्टबीट वह संकेत है जो DataNode द्वारा NameNode को नियमित रूप से अपनी उपस्थिति दिखाने के लिए भेजा जाता है।


28) Hadoop में NAS और DAS के बीच अंतर बताइए

एनएएस दास
भण्डारण क्षमता 109 10 के लिए12 बाइट में. भण्डारण क्षमता 109 बाइट में.
प्रति जीबी प्रबंधन लागत मध्यम है। प्रति जीबी प्रबंधन लागत अधिक है।
ईथरनेट या टीसीपी/आईपी का उपयोग करके डेटा संचारित करें। IDE/SCSI का उपयोग करके डेटा संचारित करें

29) डेटा इंजीनियर द्वारा उपयोग किए जाने वाले महत्वपूर्ण क्षेत्रों या भाषाओं की सूची बनाएं

डेटा इंजीनियर द्वारा उपयोग किए जाने वाले कुछ क्षेत्र या भाषाएं यहां दी गई हैं:

  • संभाव्यता और रैखिक बीजगणित
  • मशीन लर्निंग
  • प्रवृत्ति विश्लेषण और प्रतिगमन
  • हाइव QL और SQL डेटाबेस

30) बिग डेटा क्या है?

यह संरचित और असंरचित डेटा की एक बड़ी मात्रा है, जिसे पारंपरिक डेटा भंडारण विधियों द्वारा आसानी से संसाधित नहीं किया जा सकता है। डेटा इंजीनियर बड़े डेटा को प्रबंधित करने के लिए Hadoop का उपयोग कर रहे हैं।


अनुभवी लोगों के लिए डेटा इंजीनियर साक्षात्कार प्रश्न

31) FIFO शेड्यूलिंग क्या है?

यह एक Hadoop जॉब शेड्यूलिंग एल्गोरिथम है। इस FIFO शेड्यूलिंग में, एक रिपोर्टर कार्य कतार से जॉब्स का चयन करता है, सबसे पुराना जॉब पहले।


32) डिफ़ॉल्ट पोर्ट नंबर का उल्लेख करें जिस पर Hadoop में टास्क ट्रैकर, नेमनोड और जॉब ट्रैकर चलते हैं

डिफ़ॉल्ट पोर्ट संख्या जिस पर Hadoop में टास्क ट्रैकर, नेमनोड और जॉब ट्रैकर चलते हैं, निम्नानुसार हैं:

  • टास्क ट्रैकर 50060 पोर्ट पर चलता है
  • नेमनोड 50070 पोर्ट पर चलता है
  • जॉब ट्रैकर 50030 पोर्ट पर चलता है

33) एचडीएफएस डेटा नोड पर ब्लॉक स्कैनर को अक्षम कैसे करें

HDFS डेटा नोड पर ब्लॉक स्कैनर को अक्षम करने के लिए, dfs.datanode.scan.period.hours को 0 पर सेट करें।


34) Hadoop में दो नोड्स के बीच की दूरी कैसे निर्धारित करें?

दूरी निकटतम नोड्स की दूरी के योग के बराबर होती है। getDistance() विधि का उपयोग दो नोड्स के बीच की दूरी की गणना करने के लिए किया जाता है।


35) हाडोप में कमोडिटी हार्डवेयर का उपयोग क्यों किया जाता है?

कमोडिटी हार्डवेयर प्राप्त करना आसान है और वह सस्ता भी है। यह एक ऐसा सिस्टम है जो संगत है Windows, एमएस-डॉस, या लिनक्स।


36) एचडीएफएस में प्रतिकृति कारक को परिभाषित करें

प्रतिकृति कारक सिस्टम में किसी फ़ाइल की प्रतिकृतियों की कुल संख्या है।


37) नेमनोड में कौन सा डेटा संग्रहीत किया जाता है?

नेमनोड HDFS के लिए मेटाडेटा जैसे ब्लॉक जानकारी और नेमस्पेस जानकारी संग्रहीत करता है।


38) रैक जागरूकता से आपका क्या मतलब है?

हैडॉप क्लस्टर में, नामनोड नेटवर्क ट्रैफ़िक को बेहतर बनाने के लिए डेटानोड का उपयोग करता है, जबकि कोई भी फ़ाइल जो रीड या राइट रिक्वेस्ट के लिए नज़दीकी रैक के करीब होती है, उसे रीड या राइट करते समय। रैक जानकारी प्राप्त करने के लिए नामनोड प्रत्येक डेटानोड की रैक आईडी बनाए रखता है। इस अवधारणा को हैडॉप में रैक अवेयरनेस कहा जाता है।


39) सेकेंडरी नेमनोड के कार्य क्या हैं?

द्वितीयक नाम नोड के कार्य निम्नलिखित हैं:

  • FsImage जो EditLog और FsImage फ़ाइल की एक प्रतिलिपि संग्रहीत करता है।
  • नामनोड क्रैश: यदि नामनोड क्रैश हो जाता है, तो नामनोड को पुनः बनाने के लिए द्वितीयक नामनोड के FsImage का उपयोग किया जा सकता है।
  • चेकपॉइंट: इसका उपयोग सेकेंडरी नेमनोड द्वारा यह पुष्टि करने के लिए किया जाता है कि HDFS में डेटा दूषित नहीं है।
  • अपडेट: यह EditLog और FsImage फ़ाइल को स्वचालित रूप से अपडेट करता है। यह सेकेंडरी नेमनोड पर FsImage फ़ाइल को अपडेट रखने में मदद करता है।

40) जब नेमनोड डाउन हो और उपयोगकर्ता नया जॉब सबमिट करता है तो क्या होता है?

नाम नोड Hadoop में विफलता का एकल बिंदु है, इसलिए उपयोगकर्ता कोई नया कार्य सबमिट नहीं कर सकता है और न ही उसे निष्पादित कर सकता है। यदि नाम नोड डाउन है, तो कार्य विफल हो सकता है, इस कारण उपयोगकर्ता को किसी भी कार्य को चलाने से पहले नाम नोड के पुनः आरंभ होने की प्रतीक्षा करनी पड़ती है।


41) हाडोप में रिड्यूसर के मूल चरण क्या हैं?

हाडोप में रिड्यूसर के तीन बुनियादी चरण हैं:

1. शफल: यहां, रिड्यूसर मैपर से आउटपुट की प्रतिलिपि बनाता है।

2. सॉर्ट: सॉर्ट में, Hadoop उसी कुंजी का उपयोग करके रिड्यूसर में इनपुट को सॉर्ट करता है।

3. कम करना: इस चरण में, डेटा को अंतिम आउटपुट में समेकित करने के लिए कुंजी से जुड़े आउटपुट मानों को कम किया जाता है।


42) हाडोप कॉन्टेक्स्ट ऑब्जेक्ट का उपयोग क्यों करता है?

Hadoop फ्रेमवर्क शेष सिस्टम के साथ इंटरैक्ट करने के लिए Mapper क्लास के साथ Context ऑब्जेक्ट का उपयोग करता है। Context ऑब्जेक्ट को इसके कन्स्ट्रक्टर में सिस्टम कॉन्फ़िगरेशन विवरण और जॉब मिलती है।

हम setup(), cleanup() और map() विधियों में जानकारी पास करने के लिए Context ऑब्जेक्ट का उपयोग करते हैं। यह ऑब्जेक्ट मैप ऑपरेशन के दौरान महत्वपूर्ण जानकारी उपलब्ध कराता है।


43) Hadoop में कॉम्बिनेर को परिभाषित करें

यह Map और Reduce के बीच एक वैकल्पिक चरण है। कॉम्बिनर Map फ़ंक्शन से आउटपुट लेता है, कुंजी मान जोड़े बनाता है, और Hadoop Reducer को सबमिट करता है। कॉम्बिनर का कार्य Map से अंतिम परिणाम को एक समान कुंजी के साथ सारांश रिकॉर्ड में सारांशित करना है।


44) एचडीएफएस में उपलब्ध डिफ़ॉल्ट प्रतिकृति कारक क्या है? यह क्या दर्शाता है?

HDFS में उपलब्ध डिफ़ॉल्ट प्रतिकृति कारक तीन है। डिफ़ॉल्ट प्रतिकृति कारक यह दर्शाता है कि प्रत्येक डेटा की तीन प्रतिकृतियाँ होंगी।


45) हाडोप में डेटा लोकेलिटी से आपका क्या मतलब है?

बिग डेटा सिस्टम में डेटा का आकार बहुत बड़ा होता है, और इसीलिए नेटवर्क पर डेटा को ले जाना समझदारी नहीं है। अब, Hadoop कम्प्यूटेशन को डेटा के करीब ले जाने की कोशिश करता है। इस तरह, डेटा स्टोर किए गए स्थान पर ही रहता है।


46) एचडीएफएस में बैलेंसर को परिभाषित करें

एचडीएफएस में, बैलेंसर एक प्रशासनिक उपकरण है जिसका उपयोग एडमिन स्टाफ द्वारा डेटा नोड्स में डेटा को पुनर्संतुलित करने और ब्लॉकों को अधिक उपयोग किए गए नोड्स से कम उपयोग किए गए नोड्स में स्थानांतरित करने के लिए किया जाता है।


47) एचडीएफएस में सुरक्षित मोड की व्याख्या करें

यह क्लस्टर में NameNode का केवल पढ़ने योग्य मोड है। शुरू में, NameNode Safemode में होता है। यह Safemode में फ़ाइल-सिस्टम में लिखने से रोकता है। इस समय, यह सभी DataNodes से डेटा और आँकड़े एकत्र करता है।


48) अपाचे हाडोप में वितरित कैश का क्या महत्व है?

Hadoop में एक उपयोगी उपयोगिता सुविधा है जिसे वितरित कैश कहा जाता है जो अनुप्रयोगों द्वारा उपयोग की जाने वाली फ़ाइलों को कैश करके नौकरियों के प्रदर्शन को बेहतर बनाता है। एक एप्लिकेशन जॉबकॉन्फ़ कॉन्फ़िगरेशन का उपयोग करके कैश के लिए एक फ़ाइल निर्दिष्ट कर सकता है।

हाडोप फ्रेमवर्क इन फ़ाइलों की प्रतिकृति उन नोड्स पर बनाता है जिन पर कार्य निष्पादित किया जाना है। यह कार्य के निष्पादन शुरू होने से पहले किया जाता है। वितरित कैश केवल पढ़ने योग्य फ़ाइलों के साथ-साथ ज़िप और जार फ़ाइलों के वितरण का समर्थन करता है।


49) हाइव में मेटास्टोर क्या है?

यह स्कीमा के साथ-साथ हाइव तालिका स्थान को भी संग्रहीत करता है।

हाइव टेबल की परिभाषाएँ, मैपिंग और मेटाडेटा मेटास्टोर में संग्रहीत किए जाते हैं। इसे JPOX द्वारा समर्थित RDBMS में संग्रहीत किया जा सकता है।


50) हाइव में SerDe का क्या मतलब है?

SerDe Serializer या Deserializer का संक्षिप्त नाम है। Hive में, SerDe आपको टेबल से डेटा पढ़ने और किसी भी प्रारूप में किसी विशिष्ट फ़ील्ड में लिखने की अनुमति देता है।


51) हाइव डेटा मॉडल में उपलब्ध घटकों की सूची बनाएं

हाइव डेटा मॉडल में निम्नलिखित घटक हैं:

  • टेबल्स
  • विभाजन
  • बाल्टी

52) हाडोप इको-सिस्टम में हाइव के उपयोग की व्याख्या करें।

हाइव Hadoop इको-सिस्टम में संग्रहीत डेटा को प्रबंधित करने के लिए एक इंटरफ़ेस प्रदान करता है। हाइव का उपयोग HBase तालिकाओं के साथ मैपिंग और काम करने के लिए किया जाता है। मैपरिड्यूस जॉब बनाने और चलाने से जुड़ी जटिलता को छिपाने के लिए हाइव क्वेरीज़ को मैपरिड्यूस जॉब में बदल दिया जाता है।


53) हाइव द्वारा समर्थित विभिन्न जटिल डेटा प्रकार/संग्रह की सूची बनाएं

हाइव निम्नलिखित जटिल डेटा प्रकारों का समर्थन करता है:

  • नक्शा
  • struct
  • ऐरे
  • संघ

54) बताएं कि हाइव में .hiverc फ़ाइल का उपयोग कैसे किया जाता है?

हाइव में, .hiverc आरंभीकरण फ़ाइल है। यह फ़ाइल तब शुरू में लोड होती है जब हम हाइव के लिए कमांड लाइन इंटरफ़ेस (CLI) शुरू करते हैं। हम .hiverc फ़ाइल में पैरामीटर के आरंभिक मान सेट कर सकते हैं।


55) क्या हाइव में एक ही डेटा फ़ाइल के लिए एक से अधिक तालिकाएँ बनाना संभव है?

हां, हम एक डेटा फ़ाइल के लिए एक से अधिक टेबल स्कीमा बना सकते हैं। हाइव स्कीमा को हाइव मेटास्टोर में सहेजता है। इस स्कीमा के आधार पर, हम एक ही डेटा से भिन्न परिणाम प्राप्त कर सकते हैं।


56) हाइव में उपलब्ध विभिन्न SerDe कार्यान्वयनों की व्याख्या करें

Hive में कई SerDe कार्यान्वयन उपलब्ध हैं। आप अपना खुद का कस्टम SerDe कार्यान्वयन भी लिख सकते हैं। निम्नलिखित कुछ प्रसिद्ध SerDe कार्यान्वयन हैं:

  • ओपनसीएसवीसर्डे
  • रेगेक्ससेरडे
  • DelimitedJSONSerDe
  • बाइटस्ट्रीमटाइप्डसेरडीई

57) हाइव में उपलब्ध टेबल जनरेटिंग फ़ंक्शन की सूची बनाएं

तालिका बनाने वाले कार्यों की सूची निम्नलिखित है:

  • विस्फोट(सरणी)
  • JSON_टपल()
  • ढेर()
  • विस्फोट(मानचित्र)

58) हाइव में तिरछी तालिका क्या है?

तिरछी तालिका वह तालिका होती है जिसमें स्तंभ मान अधिक बार होते हैं। हाइव में, जब हम निर्माण के दौरान किसी तालिका को SKEWED के रूप में निर्दिष्ट करते हैं, तो तिरछी मान अलग-अलग फ़ाइलों में लिखे जाते हैं, और शेष मान किसी अन्य फ़ाइल में चले जाते हैं।


59) create स्टेटमेंट द्वारा बनाई गई वस्तुओं की सूची बनाएं MySQL.

create कथन द्वारा निर्मित ऑब्जेक्ट MySQL इस प्रकार हैं:

  • डाटाबेस
  • सूची
  • तालिका
  • उपयोगकर्ता
  • प्रक्रिया
  • ट्रिगर
  • कार्यक्रम
  • देखें
  • समारोह

60) डेटाबेस संरचना को कैसे देखें MySQL?

डेटाबेस संरचना देखने के लिए MySQL, आप उपयोग कर सकते हैं

DESCRIBE कमांड। इस कमांड का सिंटैक्स है DESCRIBE Table name;.


डेटा इंजीनियर के लिए SQL साक्षात्कार प्रश्न

61) किसी विशिष्ट स्ट्रिंग को कैसे खोजें? MySQL तालिका स्तंभ?

स्ट्रिंग खोजने के लिए रेगेक्स ऑपरेटर का उपयोग करें MySQL कॉलम। यहां, हम विभिन्न प्रकार के नियमित अभिव्यक्ति को भी परिभाषित कर सकते हैं और रेगेक्स का उपयोग करके खोज कर सकते हैं।


62) बताएं कि डेटा एनालिटिक्स और बिग डेटा कंपनी के राजस्व को कैसे बढ़ा सकते हैं?

डेटा एनालिटिक्स और बिग डेटा कंपनी के राजस्व को कैसे बढ़ा सकते हैं, इसके कुछ तरीके निम्नलिखित हैं:

  • व्यवसाय की वृद्धि सुनिश्चित करने के लिए डेटा का कुशलतापूर्वक उपयोग करें।
  • ग्राहक मूल्य में वृद्धि करें.
  • स्टाफिंग स्तर के पूर्वानुमान में सुधार के लिए विश्लेषणात्मक दृष्टिकोण अपनाना।
  • संगठनों की उत्पादन लागत में कटौती करना।

ये साक्षात्कार प्रश्न आपके मौखिक (मौखिक) में भी मदद करेंगे