คำถามและคำตอบในการสัมภาษณ์ Hadoop 60 อันดับแรก (2025)
ต่อไปนี้เป็นคำถามและคำตอบในการสัมภาษณ์ Hadoop MapReduce สำหรับผู้สมัครหน้าใหม่และผู้มีประสบการณ์เพื่อให้ได้งานในฝัน
Hadoop MapReduce คำถามสัมภาษณ์
1) Hadoop Map ลดคืออะไร?
กรอบงาน Hadoop MapReduce จะถูกนำมาใช้ในการประมวลผลชุดข้อมูลขนาดใหญ่แบบขนานกันทั่วทั้งคลัสเตอร์ Hadoop การวิเคราะห์ข้อมูลจะใช้กระบวนการ MapReduce แบบสองขั้นตอน
2) Hadoop MapReduce ทำงานอย่างไร
ใน MapReduce ในระหว่างเฟสแผนที่ ระบบจะนับคำในแต่ละเอกสาร ในขณะที่อยู่ในเฟสลดจะรวบรวมข้อมูลตามเอกสารที่ครอบคลุมคอลเลกชันทั้งหมด ในระหว่างขั้นตอนแผนที่ ข้อมูลอินพุตจะถูกแบ่งออกเป็นแยกเพื่อการวิเคราะห์ตามงานแผนที่ที่ทำงานขนานกันในเฟรมเวิร์ก Hadoop
👉 ดาวน์โหลดไฟล์ PDF ฟรี: Hadoop & MapReduce คำถามและคำตอบในการสัมภาษณ์
3) อธิบายว่าการสับเปลี่ยนใน MapReduce คืออะไร
กระบวนการที่ระบบดำเนินการเรียงลำดับและถ่ายโอนเอาต์พุตแผนที่ไปยังตัวลดตามอินพุตเรียกว่าการสับเปลี่ยน
4) อธิบายว่าแคชแบบกระจายใน MapReduce Framework คืออะไร
Distributed Cache เป็นคุณลักษณะสำคัญที่มีให้โดยเฟรมเวิร์ก MapReduce เมื่อคุณต้องการแชร์ไฟล์บางไฟล์ข้ามโหนดทั้งหมดใน Hadoop Cluster, มีการใช้แคชแบบกระจาย ไฟล์เหล่านี้อาจเป็นไฟล์ jar ที่เรียกใช้งานได้หรือไฟล์คุณสมบัติแบบธรรมดา
5) อธิบายว่า NameNode ใน Hadoop คืออะไร
NameNode ใน Hadoop คือโหนดที่ Hadoop เก็บข้อมูลตำแหน่งไฟล์ทั้งหมดไว้ HDFS (ระบบไฟล์แบบกระจาย Hadoop)กล่าวอีกนัยหนึ่ง NameNode ถือเป็นหัวใจสำคัญของระบบไฟล์ HDFS โดยทำหน้าที่บันทึกไฟล์ทั้งหมดในระบบไฟล์และติดตามข้อมูลไฟล์ทั่วทั้งคลัสเตอร์หรือหลายเครื่อง
6) อธิบายว่า JobTracker ใน Hadoop คืออะไร? Hadoop จะดำเนินการอย่างไร
In Hadoop สำหรับการส่งและติดตามงาน MapReduce จะใช้ JobTracker ตัวติดตามงานทำงานบนกระบวนการ JVM ของตัวเอง
Job Tracker ดำเนินการต่อไปนี้ใน Hadoop
- แอปพลิเคชันไคลเอนต์ส่งงานไปยังตัวติดตามงาน
- JobTracker สื่อสารกับโหมดชื่อเพื่อระบุตำแหน่งของข้อมูล
- ใกล้ข้อมูลหรือมีช่องว่าง JobTracker จะค้นหาโหนด TaskTracker
- ในโหนด TaskTracker ที่เลือก ระบบจะส่งงาน
- เมื่องานล้มเหลว ตัวติดตามงานจะแจ้งเตือนและตัดสินใจว่าจะทำอย่างไร
- โหนด TaskTracker ได้รับการตรวจสอบโดย JobTracker
7) อธิบายว่าการเต้นของหัวใจใน HDFS คืออะไร?
Heartbeat อ้างถึงสัญญาณที่ใช้ระหว่างโหนดข้อมูลและโหนดชื่อ และระหว่างตัวติดตามงานและตัวติดตามงาน หากโหนดชื่อหรือตัวติดตามงานไม่ตอบสนองต่อสัญญาณก็ถือว่ามีปัญหาบางอย่างกับโหนดข้อมูลหรืองาน ตัวติดตาม
8) อธิบายว่าตัวรวมคืออะไร และเมื่อใดที่คุณควรใช้ตัวรวมในงาน MapReduce
เพื่อเพิ่มประสิทธิภาพในการ โปรแกรม MapReduceมีการใช้ Combiner สามารถลดปริมาณข้อมูลได้ด้วยความช่วยเหลือของ Combiner ที่ต้องถ่ายโอนไปยังตัวลด หากการดำเนินการที่ดำเนินการเป็นแบบสับเปลี่ยนและเชื่อมโยง คุณสามารถใช้โค้ดตัวลดของคุณเป็นตัวรวมได้ การดำเนินการของ Combiner ไม่ได้รับการรับประกันใน Hadoop
9) จะเกิดอะไรขึ้นเมื่อโหนดข้อมูลล้มเหลว?
เมื่อโหนดข้อมูลล้มเหลว
- Jobtracker และ namenode ตรวจพบความล้มเหลว
- บนโหนดที่ล้มเหลว งานทั้งหมดจะถูกจัดกำหนดการใหม่
- Namenode จำลองข้อมูลของผู้ใช้ไปยังโหนดอื่น
10) อธิบายว่าการดำเนินการเก็งกำไรคืออะไร?
ใน Hadoop ระหว่างการดำเนินการเก็งกำไร จะมีการเปิดตัวงานที่ซ้ำกันจำนวนหนึ่ง บนโหนดทาสที่แตกต่างกัน สามารถดำเนินการสำเนาหลายชุดของแมปเดียวกันหรืองานลดขนาดได้โดยใช้ Speculative Execution กล่าวง่ายๆ ก็คือ หากไดรฟ์ใดไดรฟ์หนึ่งใช้เวลานานในการทำงานให้เสร็จสิ้น Hadoop จะสร้างงานที่ซ้ำกันบนดิสก์อื่น ดิสก์ที่ทำงานเสร็จก่อนจะยังคงอยู่ และดิสก์ที่ไม่เสร็จก่อนจะถูกปิดการทำงาน
11) อธิบายว่าพารามิเตอร์พื้นฐานของ Mapper คืออะไร?
พารามิเตอร์พื้นฐานของ Mapper คือ
- ยาวเขียนได้และข้อความ
- ข้อความและ IntWritable
12) อธิบายว่าฟังก์ชั่นของตัวแบ่งพาร์ติชัน MapReduce คืออะไร?
หน้าที่ของตัวแบ่งพาร์ติชั่น MapReduce คือเพื่อให้แน่ใจว่าค่าทั้งหมดของคีย์เดียวจะไปที่ตัวลดขนาดเดียวกัน ซึ่งในที่สุดจะช่วยกระจายเอาต์พุตของแผนที่บนตัวลดขนาด
13) อธิบายว่า อะไรคือความแตกต่างระหว่าง Input Split และ HDFS Block?
การแบ่งข้อมูลแบบลอจิคัลเรียกว่า Split ในขณะที่การแบ่งข้อมูลทางกายภาพเรียกว่า HDFS Block
14) อธิบายว่าเกิดอะไรขึ้นในรูปแบบข้อความ?
ในรูปแบบการป้อนข้อความ แต่ละบรรทัดในไฟล์ข้อความจะเป็นบันทึก Value คือเนื้อหาของบรรทัดในขณะที่ Key คือออฟเซ็ตไบต์ของบรรทัด ตัวอย่างเช่น คีย์: longWritable, Value: ข้อความ
15) พูดถึงพารามิเตอร์การกำหนดค่าหลักที่ผู้ใช้ต้องระบุเพื่อรัน MapReduce Job คืออะไร?
ผู้ใช้เฟรมเวิร์ก MapReduce จำเป็นต้องระบุ
- ตำแหน่งอินพุตของงานในระบบไฟล์แบบกระจาย
- ตำแหน่งเอาต์พุตของงานในระบบไฟล์แบบกระจาย
- รูปแบบการป้อนข้อมูล
- รูปแบบเอาต์พุต
- คลาสที่มีฟังก์ชันแผนที่
- คลาสที่มีฟังก์ชันลด
- ไฟล์ JAR ที่มีคลาสตัวทำแผนที่ ตัวลด และไดรเวอร์
16) อธิบายว่า WebDAV ใน Hadoop คืออะไร
เพื่อรองรับการแก้ไขและอัปเดตไฟล์ WebDAV คือชุดส่วนขยายของ HTTP ในระบบปฏิบัติการส่วนใหญ่ การแชร์ WebDAV สามารถติดตั้งเป็นระบบไฟล์ได้ ดังนั้นจึงสามารถเข้าถึง HDFS เป็นระบบไฟล์มาตรฐานได้โดยเปิดเผย HDFS ผ่าน WebDAV
17) อธิบายว่า Sqoop ใน Hadoop คืออะไร
เพื่อถ่ายโอนข้อมูลระหว่าง การจัดการฐานข้อมูลเชิงสัมพันธ์ (RDBMS) และ Hadoop HDFS ใช้เครื่องมือที่เรียกว่า Sqoop การใช้ข้อมูล Sqoop สามารถถ่ายโอนจาก RDMS ได้เช่น MySQL or Oracle ลงใน HDFS รวมถึงส่งออกข้อมูลจากไฟล์ HDFS ไปยัง RDBMS
18) อธิบายว่า JobTracker กำหนดเวลางานอย่างไร
โปรแกรมติดตามงานจะส่งข้อความแจ้งเตือนไปยัง Jobtracker โดยปกติทุกๆ ไม่กี่นาที เพื่อให้แน่ใจว่า JobTracker ทำงานอยู่ ข้อความดังกล่าวจะแจ้งให้ JobTracker ทราบถึงจำนวนสล็อตที่ว่างอยู่ เพื่อให้ JobTracker สามารถติดตามสถานะล่าสุดว่าสามารถมอบหมายงานคลัสเตอร์ได้เมื่อใด
19) อธิบายว่า Sequencefileinputformat คืออะไร?
Sequencefileinputformat ใช้สำหรับอ่านไฟล์ตามลำดับ มันเป็นรูปแบบไฟล์ไบนารี่ที่ถูกบีบอัดเฉพาะซึ่งได้รับการปรับให้เหมาะสมสำหรับการส่งข้อมูลระหว่างเอาต์พุตของงาน MapReduce หนึ่งไปยังอินพุตของงาน MapReduce อื่น ๆ
20) อธิบายว่า conf.setMapper Class ทำหน้าที่อะไร?
Conf.setMapperclass ตั้งค่าคลาส mapper และทุกสิ่งที่เกี่ยวข้องกับงานแผนที่ เช่น การอ่านข้อมูลและสร้างคู่คีย์-ค่าจาก mapper
21) อธิบายว่า Hadoop คืออะไร
เป็นกรอบงานซอฟต์แวร์โอเพ่นซอร์สสำหรับจัดเก็บข้อมูลและเรียกใช้แอปพลิเคชันบนคลัสเตอร์ของฮาร์ดแวร์ทั่วไป โดยให้พลังการประมวลผลมหาศาลและพื้นที่จัดเก็บข้อมูลขนาดใหญ่สำหรับข้อมูลทุกประเภท
22) พูดถึงความแตกต่างระหว่าง RDBMS และ Hadoop คืออะไร?
อาร์ดีบีเอ็มเอส | Hadoop |
---|---|
RDBMS เป็นระบบจัดการฐานข้อมูลเชิงสัมพันธ์ | Hadoop เป็นโครงสร้างแบบแบนที่ใช้โหนด |
ใช้สำหรับการประมวลผล OLTP ในขณะที่ Hadoop | ปัจจุบันใช้สำหรับการวิเคราะห์และการประมวลผลข้อมูลขนาดใหญ่ |
ใน RDBMS คลัสเตอร์ฐานข้อมูลจะใช้ไฟล์ข้อมูลเดียวกันที่เก็บไว้ในพื้นที่จัดเก็บที่ใช้ร่วมกัน | ใน Hadoop ข้อมูลพื้นที่จัดเก็บสามารถจัดเก็บแยกกันในแต่ละโหนดการประมวลผลได้ |
คุณต้องประมวลผลข้อมูลล่วงหน้าก่อนที่จะจัดเก็บ | คุณไม่จำเป็นต้องประมวลผลข้อมูลล่วงหน้าก่อนจัดเก็บ |
23) พูดถึงส่วนประกอบหลักของ Hadoop หรือไม่
ส่วนประกอบหลักของ Hadoop ได้แก่
- เอชดีเอฟเอส
- แผนที่ลด
24) NameNode ใน Hadoop คืออะไร?
NameNode ใน Hadoop เป็นที่ที่ Hadoop เก็บข้อมูลตำแหน่งไฟล์ทั้งหมดใน HDFS เป็นโหนดหลักที่ตัวติดตามงานรันและประกอบด้วยข้อมูลเมตา
25) พูดถึงส่วนประกอบข้อมูลใดบ้างที่ Hadoop ใช้?
ส่วนประกอบข้อมูลที่ใช้โดย Hadoop คือ
26) พูดถึงองค์ประกอบการจัดเก็บข้อมูลที่ใช้โดย Hadoop คืออะไร?
ส่วนประกอบการจัดเก็บข้อมูลที่ใช้โดย Hadoop คือ HBase
27) พูดถึงรูปแบบอินพุตทั่วไปที่กำหนดไว้ใน Hadoop คืออะไร?
รูปแบบอินพุตที่พบบ่อยที่สุดที่กำหนดไว้ใน Hadoop ได้แก่
- รูปแบบอินพุตข้อความ
- รูปแบบอินพุตค่าคีย์
- ลำดับไฟล์InputFormat
28) ใน Hadoop InputSplit คืออะไร
มันแยกไฟล์อินพุตออกเป็นชิ้น ๆ และกำหนดแต่ละการแยกให้กับผู้ทำแผนที่เพื่อประมวลผล
29) สำหรับงาน Hadoop คุณจะเขียนตัวแบ่งพาร์ติชั่นแบบกำหนดเองได้อย่างไร?
คุณเขียนตัวแบ่งพาร์ติชั่นแบบกำหนดเองสำหรับงาน Hadoop แล้วทำตามเส้นทางต่อไปนี้
- สร้างคลาสใหม่ที่ขยาย Partitioner Class
- แทนที่วิธีการ getPartition
- ในกระดาษห่อที่รัน MapReduce
- เพิ่มตัวแบ่งพาร์ติชันแบบกำหนดเองให้กับงานโดยใช้วิธีการตั้งค่าคลาสของพาร์ติชันหรือ – เพิ่มตัวแบ่งพาร์ติชันแบบกำหนดเองให้กับงานเป็นไฟล์กำหนดค่า
30) สำหรับงานใน Hadoop สามารถเปลี่ยนจำนวนผู้ทำแผนที่ที่จะสร้างได้หรือไม่?
ไม่ได้ ไม่สามารถเปลี่ยนจำนวนผู้ทำแผนที่ที่จะสร้างได้ จำนวนผู้ทำแผนที่ถูกกำหนดโดยจำนวนการแยกอินพุต
31) อธิบายว่าไฟล์ลำดับใน Hadoop คืออะไร?
ในการจัดเก็บคู่ไบนารีคีย์/ค่า จะใช้ไฟล์ลำดับ ต่างจากไฟล์บีบอัดทั่วไปตรงที่ไฟล์ลำดับรองรับการแยกแม้ว่าข้อมูลภายในไฟล์จะถูกบีบอัดก็ตาม
32) เมื่อ Namenode หยุดทำงาน จะเกิดอะไรขึ้นกับตัวติดตามงาน?
Namenode เป็นจุดล้มเหลวจุดเดียวใน HDFS ดังนั้นเมื่อ Namenode หยุดทำงาน คลัสเตอร์ของคุณก็จะเริ่มทำงาน
33) อธิบายว่าการจัดทำดัชนีใน HDFS ทำได้อย่างไร?
Hadoop มีวิธีการสร้างดัชนีที่ไม่เหมือนใคร เมื่อข้อมูลถูกจัดเก็บตามขนาดบล็อก HDFS จะเก็บข้อมูลส่วนสุดท้ายของข้อมูลต่อไปซึ่งบอกว่าส่วนถัดไปของข้อมูลจะอยู่ที่ใด
34) อธิบายว่าเป็นไปได้ไหมที่จะค้นหาไฟล์โดยใช้ไวด์การ์ด?
ใช่ คุณสามารถค้นหาไฟล์โดยใช้ไวด์การ์ดได้
35) แสดงรายการไฟล์การกำหนดค่าสามไฟล์ของ Hadoop
ไฟล์คอนฟิกูเรชันทั้ง 3 ไฟล์ได้แก่
- core-site.xml
- mapred-site.xml
- hdfs-site.xml
36) อธิบายว่าคุณจะตรวจสอบได้อย่างไรว่า Namenode ทำงานนอกเหนือจากการใช้คำสั่ง jps หรือไม่?
นอกจากการใช้คำสั่ง jps แล้ว เพื่อตรวจสอบว่า Namenode ทำงานหรือไม่ คุณยังสามารถใช้ได้อีกด้วย
/etc/init.d/hadoop-0.20-namenode สถานะ
37) อธิบายว่า "แผนที่" คืออะไร และ "ตัวลด" ใน Hadoop คืออะไร
ใน Hadoop แผนที่เป็นขั้นตอนหนึ่งในการแก้ปัญหาแบบสอบถาม HDFS แผนที่อ่านข้อมูลจากตำแหน่งอินพุต และส่งออกคู่ค่าคีย์ตามประเภทอินพุต
ใน Hadoop ตัวลดจะรวบรวมเอาต์พุตที่สร้างโดยผู้ทำแผนที่ ประมวลผล และสร้างเอาต์พุตสุดท้ายของตัวเอง
38) ใน Hadoop ไฟล์ใดควบคุมการรายงานใน Hadoop
ใน Hadoop ไฟล์ hadoop-metrics.properties จะควบคุมการรายงาน
39) สำหรับการใช้ Hadoop ให้ระบุข้อกำหนดเครือข่ายหรือไม่
สำหรับการใช้ Hadoop รายการข้อกำหนดด้านเครือข่ายมีดังนี้:
- การเชื่อมต่อ SSH โดยไม่ต้องใช้รหัสผ่าน
- Secure Shell (SSH) สำหรับการเปิดตัวกระบวนการเซิร์ฟเวอร์
40) พูดถึงการรับรู้แบบแร็คคืออะไร?
การรับรู้ชั้นวางเป็นวิธีที่ namenode กำหนดวิธีวางบล็อกตามคำจำกัดความของชั้นวาง
41) อธิบายว่า Task Tracker ใน Hadoop คืออะไร
Task Tracker ใน Hadoop คือเดมอนโหนดสเลฟในคลัสเตอร์ที่ยอมรับงานจาก JobTracker นอกจากนี้ยังส่งข้อความสัญญาณการเต้นของหัวใจไปยัง JobTracker ทุกๆ สองสามนาที เพื่อยืนยันว่า JobTracker ยังคงอยู่
42) พูดถึง daemons ใดที่ทำงานบนโหนดหลักและโหนดทาส?
- Daemons ทำงานบนโหนดหลักคือ “NameNode”
- Daemons ทำงานบนแต่ละโหนด Slave คือ “Task Tracker” และ “Data”
43) อธิบายว่าคุณจะแก้ไขโค้ด Hadoop ได้อย่างไร
วิธีการยอดนิยมในการดีบักโค้ด Hadoop ได้แก่:
- โดยใช้เว็บอินเตอร์เฟสที่จัดทำโดยกรอบงาน Hadoop
- โดยใช้เคาน์เตอร์
44) อธิบายว่าที่เก็บข้อมูลและโหนดประมวลผลคืออะไร?
- โหนดการจัดเก็บข้อมูลคือเครื่องหรือคอมพิวเตอร์ที่ระบบไฟล์ของคุณอยู่เพื่อจัดเก็บข้อมูลการประมวลผล
- โหนดคอมพิวท์คือคอมพิวเตอร์หรือเครื่องที่ตรรกะทางธุรกิจจริงของคุณจะถูกดำเนินการ
45) พูดถึงการใช้ Context Object คืออะไร?
Context Object ช่วยให้ผู้ทำแผนที่โต้ตอบกับส่วนที่เหลือของ Hadoop
ระบบ. ประกอบด้วยข้อมูลการกำหนดค่าสำหรับงาน ตลอดจนอินเทอร์เฟซที่อนุญาตให้ส่งเอาต์พุตได้
46) พูดถึงขั้นตอนต่อไปหลังจาก Mapper หรือ MapTask คืออะไร?
ขั้นตอนต่อไปหลังจาก Mapper หรือ MapTask คือเอาต์พุตของ Mapper จะถูกจัดเรียง และพาร์ติชันจะถูกสร้างขึ้นสำหรับเอาต์พุต
47) พูดถึงจำนวนของตัวแบ่งพาร์ติชั่นเริ่มต้นใน Hadoop คืออะไร?
ใน Hadoop ตัวแบ่งพาร์ติชั่นเริ่มต้นคือพาร์ติชั่น "Hash"
48) อธิบายว่าจุดประสงค์ของ RecordReader ใน Hadoop คืออะไร?
ใน Hadoop นั้น RecordReader จะโหลดข้อมูลจากแหล่งที่มาและแปลงเป็นคู่ (คีย์, ค่า) ที่เหมาะสำหรับการอ่านโดย Mapper
49) อธิบายว่าข้อมูลถูกแบ่งพาร์ติชันก่อนที่จะถูกส่งไปยังตัวลดได้อย่างไรหากไม่มีการกำหนดพาร์ติชันแบบกำหนดเองใน Hadoop
หากไม่มีการกำหนดพาร์ติชันแบบกำหนดเองใน Hadoop ตัวแบ่งพาร์ติชันเริ่มต้นจะคำนวณค่าแฮชสำหรับคีย์และกำหนดพาร์ติชันตามผลลัพธ์
50) อธิบายว่าจะเกิดอะไรขึ้นเมื่อ Hadoop สร้างงาน 50 งานสำหรับงานหนึ่งงานและมีงานหนึ่งล้มเหลว
มันจะรีสตาร์ทงานอีกครั้งบน TaskTracker อื่น ๆ หากงานล้มเหลวเกินขีดจำกัดที่กำหนดไว้
51) กล่าวถึงวิธีที่ดีที่สุดในการคัดลอกไฟล์ระหว่างคลัสเตอร์ HDFS คืออะไร
วิธีที่ดีที่สุดในการคัดลอกไฟล์ระหว่างคลัสเตอร์ HDFS คือการใช้โหนดหลายโหนดและคำสั่ง distcp เพื่อให้มีการแบ่งปันเวิร์กโหลด
52) พูดถึงความแตกต่างระหว่าง HDFS และ NAS คืออะไร?
บล็อกข้อมูล HDFS จะถูกกระจายไปทั่วไดรฟ์ภายในของเครื่องทั้งหมดในคลัสเตอร์ ในขณะที่ข้อมูล NAS จะถูกเก็บไว้ในฮาร์ดแวร์เฉพาะ
53) พูดถึงว่า Hadoop แตกต่างจากเครื่องมือประมวลผลข้อมูลอื่นๆ อย่างไร
ใน Hadoop คุณสามารถเพิ่มหรือลดจำนวนผู้ทำแผนที่ได้โดยไม่ต้องกังวลกับปริมาณข้อมูลที่ต้องประมวลผล
54) พูดถึงคลาส conf ทำอะไร?
คลาส Job conf จะแยกงานต่าง ๆ ที่ทำงานบนคลัสเตอร์เดียวกัน โดยจะทำการตั้งค่าระดับงาน เช่น การประกาศงานในสภาพแวดล้อมจริง
55) พูดถึงสัญญา Hadoop MapReduce APIs สำหรับคลาสคีย์และค่าคืออะไร
สำหรับคลาสคีย์และค่า มีสัญญา Hadoop MapReduce API สองสัญญา
- ค่าจะต้องกำหนดอินเทอร์เฟซ org.apache.hadoop.io.Writable
- คีย์จะต้องกำหนดอินเทอร์เฟซ org.apache.hadoop.io.WritableComparable
56) พูดถึงสามโหมดที่ Hadoop สามารถรันได้มีอะไรบ้าง?
สามโหมดที่สามารถรัน Hadoop ได้คือ
- โหมดกระจายหลอก
- โหมดสแตนด์อโลน (ท้องถิ่น)
- โหมดการกระจายอย่างเต็มที่
57) พูดถึงรูปแบบการป้อนข้อความทำอะไร?
รูปแบบการป้อนข้อความจะสร้างวัตถุเส้นที่เป็นเลขฐานสิบหก ค่าจะถือเป็นข้อความทั้งบรรทัด ในขณะที่คีย์จะถือเป็นออบเจ็กต์บรรทัด ผู้ทำแผนที่จะได้รับค่าเป็นพารามิเตอร์ 'text' ในขณะที่คีย์เป็นพารามิเตอร์ 'longwriteable'
58) พูดถึงจำนวน InputSplits ที่สร้างโดย Hadoop Framework
Hadoop จะทำการแยก 5 ครั้ง
- 1 แยกสำหรับไฟล์ 64K
- 2 แยกสำหรับไฟล์ 65mb
- 2 แยกสำหรับไฟล์ 127mb
59) พูดถึงแคชแบบกระจายใน Hadoop คืออะไร?
แคชแบบกระจายใน Hadoop เป็นสิ่งอำนวยความสะดวกที่จัดทำโดยเฟรมเวิร์ก MapReduce ในขณะที่ดำเนินการงานนั้นจะถูกใช้เพื่อแคชไฟล์ Framework คัดลอกไฟล์ที่จำเป็นไปยังโหนดทาสก่อนดำเนินการงานใดๆ ที่โหนดนั้น
60) อธิบายว่า Hadoop Classpath มีบทบาทสำคัญในการหยุดหรือเริ่มต้นใน Hadoop daemons อย่างไร
Classpath จะประกอบด้วยรายการไดเร็กทอรีที่มีไฟล์ jar เพื่อหยุดหรือเริ่มต้น daemons
คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา)