คำถามและคำตอบในการสัมภาษณ์วิศวกรข้อมูลมากกว่า 60 ข้อในปี 2025
คำถามสัมภาษณ์วิศวกรข้อมูลสำหรับนักศึกษาใหม่
1) อธิบายวิศวกรรมข้อมูล
วิศวกรรมข้อมูลเป็นคำที่ใช้ในข้อมูลขนาดใหญ่ มุ่งเน้นไปที่การประยุกต์ใช้การรวบรวมและการวิจัยข้อมูล ข้อมูลที่สร้างจากแหล่งต่างๆ เป็นเพียงข้อมูลดิบเท่านั้น วิศวกรรมข้อมูลช่วยแปลงข้อมูลดิบนี้เป็นข้อมูลที่เป็นประโยชน์
2) การสร้างแบบจำลองข้อมูลคืออะไร?
การสร้างแบบจำลองข้อมูล เป็นวิธีการบันทึกการออกแบบซอฟต์แวร์ที่ซับซ้อนในรูปแบบไดอะแกรมเพื่อให้ทุกคนสามารถเข้าใจได้ง่าย เป็นการนำเสนอแนวคิดของวัตถุข้อมูลที่เกี่ยวข้องระหว่างวัตถุข้อมูลต่างๆ และกฎเกณฑ์
3) แสดงรายการแผนการออกแบบประเภทต่างๆ ใน Data Modeling
โดยหลักแล้วสคีมามีสองประเภทในการสร้างแบบจำลองข้อมูล: 1) สคีมาแบบดาว และ 2) สคีมาสโนว์เฟลก
4) แยกแยะระหว่างข้อมูลที่มีโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง
ต่อไปนี้เป็นความแตกต่างระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง:
พารามิเตอร์ | ข้อมูลที่มีโครงสร้าง | ข้อมูลที่ไม่มีโครงสร้าง |
---|---|---|
พื้นที่จัดเก็บ | DBMS | โครงสร้างไฟล์ที่ไม่มีการจัดการ |
Standard | ADO.net, ODBC และ SQL | STMP, XML, CSV และ SMS |
เครื่องมือบูรณาการ | ELT (แยก แปลง โหลด) | การป้อนข้อมูลด้วยตนเองหรือการประมวลผลเป็นชุดที่มีรหัส |
ปรับ | การปรับขนาดสคีมาเป็นเรื่องยาก | การปรับขนาดเป็นเรื่องง่ายมาก |
5) อธิบายส่วนประกอบทั้งหมดของแอปพลิเคชัน Hadoop
ต่อไปนี้คือไฟล์ ส่วนประกอบของแอปพลิเคชัน Hadoop:
- Hadoop ทั่วไป: เป็นชุดยูทิลิตี้และไลบรารีทั่วไปที่ Hadoop ใช้งาน
- HDFS: แอปพลิเคชัน Hadoop นี้เกี่ยวข้องกับระบบไฟล์ที่จัดเก็บข้อมูล Hadoop เป็นระบบไฟล์แบบกระจายที่มีแบนด์วิธสูง
- Hadoop MapReduce: มันเป็นไปตามอัลกอริธึมสำหรับการประมวลผลข้อมูลขนาดใหญ่
- เส้นด้าย Hadoop: ใช้สำหรับการจัดการทรัพยากรภายในคลัสเตอร์ Hadoop นอกจากนี้ยังใช้สำหรับกำหนดตารางงานสำหรับผู้ใช้ได้อีกด้วย
6) NameNode คืออะไร?
ถือเป็นหัวใจสำคัญของ HDFS โดยจะจัดเก็บข้อมูลของ HDFS และติดตามไฟล์ต่างๆ ทั่วทั้งคลัสเตอร์ โดยข้อมูลจริงจะไม่ถูกจัดเก็บไว้ แต่จะถูกจัดเก็บใน DataNodes
7) กำหนดการสตรีมมิ่ง Hadoop
เป็นยูทิลิตี้ที่ช่วยให้สร้างแผนที่และลดงานและส่งไปยังคลัสเตอร์ที่ระบุ
8) HDFS รูปแบบเต็มคืออะไร?
HDFS ย่อมาจาก Hadoop Distributed File System
9) กำหนด Block และ Block Scanner ใน HDFS
บล็อกเป็นหน่วยที่เล็กที่สุดของไฟล์ข้อมูล Hadoop จะแบ่งไฟล์ขนาดใหญ่ออกเป็นชิ้นเล็กๆ โดยอัตโนมัติ
Block Scanner ตรวจสอบรายการบล็อกที่แสดงบน DataNode
10) ขั้นตอนที่เกิดขึ้นเมื่อ Block Scanner ตรวจพบบล็อกข้อมูลที่เสียหายมีอะไรบ้าง
ต่อไปนี้เป็นขั้นตอนที่เกิดขึ้นเมื่อ Block Scanner พบบล็อกข้อมูลที่เสียหาย:
1) ก่อนอื่น เมื่อ Block Scanner พบบล็อกข้อมูลที่เสียหาย DataNode จะรายงานไปยัง NameNode
2) NameNode เริ่มกระบวนการสร้างแบบจำลองใหม่โดยใช้แบบจำลองของบล็อกที่เสียหาย
3) จำนวนการจำลองแบบของแบบจำลองที่ถูกต้องพยายามจับคู่กับปัจจัยการจำลองแบบ หากการจับคู่พบว่าบล็อกข้อมูลที่เสียหายจะไม่ถูกลบ
11) ตั้งชื่อข้อความสองข้อความที่ NameNode ได้รับจาก DataNode หรือไม่
มีสองข้อความที่ NameNode ได้รับจาก DataNode ได้แก่ 1) รายงานบล็อก และ 2) ฮาร์ทบีท
12) แสดงรายการไฟล์การกำหนดค่า XML ต่างๆ ใน Hadoop
มีไฟล์การกำหนดค่า XML ห้าไฟล์ใน Hadoop:
- Mapred-ไซต์
- ไซต์หลัก
- ไซต์ HDFS
- เส้นด้ายไซต์
13) Big Data สี่ V คืออะไร?
ข้อมูลขนาดใหญ่สี่ V คือ:
- ความเร็ว
- ความหลากหลาย
- ปริมาณ
- ความจริง
14) อธิบายคุณสมบัติของ Hadoop
คุณสมบัติที่สำคัญของ Hadoop คือ:
- เป็นเฟรมเวิร์กโอเพ่นซอร์สที่มีฟรีแวร์
- Hadoop เข้ากันได้กับฮาร์ดแวร์หลายประเภท และง่ายต่อการเข้าถึงฮาร์ดแวร์ใหม่ภายในโหนดเฉพาะ
- Hadoop รองรับการประมวลผลข้อมูลที่กระจายเร็วขึ้น
- จัดเก็บข้อมูลไว้ในคลัสเตอร์ซึ่งแยกจากการทำงานอื่นๆ
- Hadoop อนุญาตให้สร้าง 3 แบบจำลองสำหรับแต่ละบล็อกที่มีโหนดต่างกัน
15) อธิบายวิธีการหลักของตัวลด
- การตั้งค่า (): ใช้สำหรับการกำหนดค่าพารามิเตอร์เช่นขนาดของข้อมูลอินพุตและแคชแบบกระจาย
- cleanup(): วิธีนี้ใช้ในการล้างไฟล์ชั่วคราว
- ลด (): มันเป็นหัวใจของตัวลดซึ่งถูกเรียกหนึ่งครั้งต่อคีย์พร้อมกับงานที่ลดลงที่เกี่ยวข้อง
16) COSHH อักษรย่อว่าอะไร?
ตัวย่อของ COSHH คือ Classification and Optimization based Schedule for Heterogeneous Hadoop systems
17) อธิบายสคีมาดาว
สคีมาของดาว หรือ Star Join Schema เป็นประเภทที่ง่ายที่สุดของ Data Warehouse schema เป็นที่รู้จักกันในนามสคีมาดาวเพราะโครงสร้างของมันเหมือนกับดาว ในแผนสตาร์ ศูนย์กลางของดาวอาจมีตารางข้อเท็จจริงหนึ่งตารางและตารางมิติที่เกี่ยวข้องหลายตาราง สคีมานี้ใช้สำหรับการสืบค้นชุดข้อมูลขนาดใหญ่
18) จะปรับใช้โซลูชันข้อมูลขนาดใหญ่ได้อย่างไร
ปฏิบัติตามขั้นตอนต่อไปนี้เพื่อปรับใช้โซลูชันข้อมูลขนาดใหญ่
1) บูรณาการข้อมูลโดยใช้แหล่งข้อมูลเช่น RDBMS SAP, MySQL, Salesforce
2) จัดเก็บข้อมูลที่แยกออกมาในฐานข้อมูล NoSQL หรือ HDFS
3) ปรับใช้โซลูชันข้อมูลขนาดใหญ่โดยใช้กรอบการประมวลผลเช่น Pig Sparkและ MapReduce
19) อธิบาย FSCK
File System Check หรือ FSCK เป็นคำสั่งที่ใช้โดย HDFS คำสั่ง FSCK ใช้เพื่อตรวจสอบความไม่สอดคล้องและปัญหาในไฟล์
20) อธิบายสคีมาเกล็ดหิมะ
A สคีมาเกล็ดหิมะ เป็นส่วนขยายของ Star Schema และเพิ่มมิติเพิ่มเติม มันถูกเรียกว่าเกล็ดหิมะเพราะแผนภาพของมันดูเหมือนเกล็ดหิมะ ตารางมิติข้อมูลได้รับการทำให้เป็นมาตรฐาน ซึ่งจะแบ่งข้อมูลออกเป็นตารางเพิ่มเติม
21) แยกความแตกต่างระหว่าง Star และ Snowflake Schema
ดาว | สคีมาเกล็ดหิมะ |
ลำดับชั้นของมิติจะถูกเก็บไว้ในตารางมิติ | แต่ละลำดับชั้นจะถูกจัดเก็บไว้ในตารางที่แยกจากกัน |
โอกาสที่ข้อมูลซ้ำซ้อนมีสูง | โอกาสที่ข้อมูลซ้ำซ้อนมีน้อย |
มีการออกแบบ DB ที่เรียบง่ายมาก | มีการออกแบบฐานข้อมูลที่ซับซ้อน |
จัดเตรียมวิธีที่เร็วกว่าสำหรับการประมวลผลคิวบ์ | การประมวลผลลูกบาศก์จะช้าเนื่องจากการรวมที่ซับซ้อน |
22) อธิบายระบบไฟล์แบบกระจายของ Hadoop
Hadoop ทำงานร่วมกับระบบไฟล์แบบกระจายที่ปรับขนาดได้ เช่น S3, HFTP FS, FS และ HDFS Hadoop Distributed File System สร้างขึ้นบน Google File System ระบบไฟล์นี้ได้รับการออกแบบมาในลักษณะที่สามารถทำงานบนคลัสเตอร์ขนาดใหญ่ของระบบคอมพิวเตอร์ได้อย่างง่ายดาย
23) อธิบายความรับผิดชอบหลักของวิศวกรข้อมูล
วิศวกรข้อมูลมีหน้าที่รับผิดชอบหลายอย่าง พวกเขาจัดการระบบแหล่งข้อมูล วิศวกรข้อมูลช่วยลดความซับซ้อนของโครงสร้างข้อมูลและป้องกันการซ้ำซ้อนของข้อมูล หลายครั้งพวกเขายังให้บริการ ELT และการแปลงข้อมูลด้วย
24) YARN รูปแบบเต็มคืออะไร?
YARN รูปแบบเต็มคือผู้เจรจาต่อรองทรัพยากรอีกคนหนึ่ง
25) แสดงรายการโหมดต่างๆ ใน Hadoop
โหมดใน Hadoop คือ 1) โหมดสแตนด์อโลน 2) โหมดกระจายหลอก 3) โหมดกระจายเต็มที่
26) จะบรรลุความปลอดภัยใน Hadoop ได้อย่างไร?
ดำเนินการตามขั้นตอนต่อไปนี้เพื่อให้บรรลุความปลอดภัยใน Hadoop:
1) ขั้นตอนแรกคือการรักษาความปลอดภัยช่องทางการรับรองความถูกต้องของไคลเอนต์ไปยังเซิร์ฟเวอร์ จัดทำการประทับเวลาให้กับลูกค้า
2) ในขั้นตอนที่สอง ลูกค้าใช้การประทับเวลาที่ได้รับเพื่อขอ TGS สำหรับตั๋วบริการ
3) ในขั้นตอนสุดท้าย ไคลเอนต์ใช้ตั๋วบริการสำหรับการตรวจสอบตนเองไปยังเซิร์ฟเวอร์เฉพาะ
27) Heartbeat ใน Hadoop คืออะไร?
ใน Hadoop นั้น NameNode และ DataNode จะสื่อสารระหว่างกัน Heartbeat คือสัญญาณที่ DataNode ส่งไปยัง NameNode เป็นประจำเพื่อแสดงการมีอยู่ของมัน
28) แยกความแตกต่างระหว่าง NAS และ DAS ใน Hadoop
NAS | DAS |
ความจุคือ 109 เพื่อ 1012 เป็นไบต์ | ความจุคือ 109 เป็นไบต์ |
ต้นทุนการจัดการต่อ GB อยู่ในระดับปานกลาง | ต้นทุนการจัดการต่อ GB อยู่ในระดับสูง |
ส่งข้อมูลโดยใช้อีเธอร์เน็ตหรือ TCP/IP | ส่งข้อมูลโดยใช้ IDE/ SCSI |
29) แสดงรายการฟิลด์หรือภาษาที่สำคัญที่วิศวกรข้อมูลใช้
ต่อไปนี้เป็นฟิลด์หรือภาษาบางส่วนที่วิศวกรข้อมูลใช้:
- ความน่าจะเป็นและพีชคณิตเชิงเส้น
- การเรียนรู้เครื่อง
- การวิเคราะห์แนวโน้มและการถดถอย
- ฐานข้อมูล Hive QL และ SQL
30) Big Data คืออะไร?
เป็นข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างจำนวนมาก ซึ่งไม่สามารถประมวลผลได้อย่างง่ายดายด้วยวิธีจัดเก็บข้อมูลแบบเดิมๆ วิศวกรข้อมูลใช้ Hadoop ในการจัดการข้อมูลขนาดใหญ่
คำถามสัมภาษณ์วิศวกรข้อมูลสำหรับผู้มีประสบการณ์
31) การกำหนดเวลา FIFO คืออะไร?
เป็นอัลกอริทึมการตั้งเวลางาน Hadoop ในการกำหนดเวลา FIFO นี้ ผู้รายงานจะเลือกงานจากคิวงาน โดยงานที่เก่าที่สุดก่อน
32) ระบุหมายเลขพอร์ตเริ่มต้นที่ตัวติดตามงาน NameNode และตัวติดตามงานทำงานใน Hadoop
หมายเลขพอร์ตเริ่มต้นที่ตัวติดตามงาน NameNode และตัวติดตามงานทำงานใน Hadoop มีดังนี้:
- ตัวติดตามงานทำงานบนพอร์ต 50060
- NameNode ทำงานบนพอร์ต 50070
- Job Tracker ทำงานบนพอร์ต 50030
33) วิธีปิดการใช้งาน Block Scanner บน HDFS Data Node
หากต้องการปิดใช้งาน Block Scanner บน HDFS Data Node ให้ตั้งค่า dfs.datanode.scan.period.hours เป็น 0
34) จะกำหนดระยะห่างระหว่างสองโหนดใน Hadoop ได้อย่างไร?
ระยะทางเท่ากับผลรวมของระยะทางไปยังจุดที่ใกล้ที่สุด เมธอด getDistance() ใช้ในการคำนวณระยะห่างระหว่างสองโหนด
35) เหตุใดจึงต้องใช้ฮาร์ดแวร์สินค้าโภคภัณฑ์ใน Hadoop
ฮาร์ดแวร์สินค้าโภคภัณฑ์หาซื้อได้ง่ายและราคาไม่แพง เป็นระบบที่เข้ากันได้ด้วย Windows, MS-DOS หรือ Linux
36) กำหนดปัจจัยการจำลองแบบใน HDFS
ปัจจัยการจำลองคือจำนวนเรพลิกาทั้งหมดของไฟล์ในระบบ
37) ข้อมูลใดบ้างที่ถูกเก็บไว้ใน NameNode?
Namenode เก็บข้อมูลเมตาสำหรับ HDFS เช่นข้อมูลบล็อกและข้อมูลเนมสเปซ
38) Rack Awareness คุณหมายถึงอะไร?
ในคลัสเตอร์ Haddop นั้น Namenode จะใช้ Datanode เพื่อปรับปรุงการรับส่งข้อมูลบนเครือข่ายขณะอ่านหรือเขียนไฟล์ใดๆ ที่อยู่ใกล้กับแร็คใกล้เคียงเพื่อขออ่านหรือเขียน Namenode จะรักษารหัสแร็คของ DataNode แต่ละตัวเพื่อให้ได้ข้อมูลแร็ค แนวคิดนี้เรียกว่า Rack Awareness ใน Hadoop
39) ฟังก์ชั่นของ Secondary NameNode คืออะไร?
ต่อไปนี้เป็นฟังก์ชันของ Secondary NameNode:
- FsImage ซึ่งเก็บสำเนาของไฟล์ EditLog และ FsImage
- ความผิดพลาดของ NameNode: หาก NameNode ขัดข้อง FsImage ของ NameNode รองจะสามารถนำมาใช้เพื่อสร้าง NameNode ขึ้นมาใหม่ได้
- จุดตรวจสอบ: ถูกใช้โดย Secondary NameNode เพื่อยืนยันว่าข้อมูลไม่เสียหายใน HDFS
- อัปเดต: จะอัปเดตไฟล์ EditLog และ FsImage โดยอัตโนมัติ ช่วยให้ไฟล์ FsImage บน Secondary NameNode อัปเดตอยู่เสมอ
40) จะเกิดอะไรขึ้นเมื่อ NameNode หยุดทำงาน และผู้ใช้ส่งงานใหม่?
NameNode เป็นจุดเดียวของความล้มเหลวใน Hadoop ดังนั้นผู้ใช้จึงไม่สามารถส่งงานใหม่จึงไม่สามารถดำเนินการได้ หาก NameNode หยุดทำงาน งานอาจล้มเหลว เนื่องจากผู้ใช้รายนี้ต้องรอให้ NameNode รีสตาร์ทก่อนที่จะรันงานใดๆ
41) ขั้นตอนพื้นฐานของตัวลดใน Hadoop คืออะไร?
มีสามขั้นตอนพื้นฐานของตัวลดใน Hadoop:
1. สุ่ม: ที่นี่ตัวลดจะคัดลอกเอาต์พุตจาก Mapper
2. เรียงลำดับ: ในการเรียงลำดับ Hadoop จะเรียงลำดับอินพุตเป็นตัวลดโดยใช้คีย์เดียวกัน
3. ลด: ในขั้นตอนนี้ ค่าเอาต์พุตที่เกี่ยวข้องกับคีย์จะลดลงเพื่อรวมข้อมูลไว้ในเอาต์พุตสุดท้าย
42) เหตุใด Hadoop จึงใช้วัตถุบริบท
เฟรมเวิร์ก Hadoop ใช้ Context object กับคลาส Mapper เพื่อโต้ตอบกับระบบที่เหลือ Context object จะได้รับรายละเอียดการกำหนดค่าระบบและงานใน constructor
เราใช้ Context object เพื่อส่งข้อมูลในเมธอด setup(), cleanup() และ map() อ็อบเจ็กต์นี้ทำให้ข้อมูลสำคัญพร้อมใช้งานระหว่างการดำเนินการแผนที่
43) กำหนด Combiner ใน Hadoop
เป็นขั้นตอนเสริมระหว่าง Map และ Reduce Combiner จะนำเอาต์พุตจากฟังก์ชัน Map สร้างคู่ค่าคีย์ และส่งไปยัง Hadoop Reducer งานของ Combiner คือการสรุปผลลัพธ์สุดท้ายจาก Map เป็นระเบียนสรุปที่มีคีย์เหมือนกัน
44) อะไรคือปัจจัยการจำลองเริ่มต้นที่มีอยู่ใน HDFS มันบ่งชี้อะไร?
ปัจจัยการจำลองแบบเริ่มต้นที่มีอยู่ใน HDFS คือสาม ปัจจัยการจำลองแบบเริ่มต้นบ่งชี้ว่าแต่ละข้อมูลจะมีแบบจำลองสามแบบ
45) Data Locality ใน Hadoop คุณหมายถึงอะไร
ในระบบ Big Data ขนาดของข้อมูลมีขนาดใหญ่มาก และด้วยเหตุนี้จึงไม่สมเหตุสมผลที่จะย้ายข้อมูลผ่านเครือข่าย ตอนนี้ Hadoop พยายามย้ายการคำนวณให้ใกล้กับข้อมูลมากขึ้น ด้วยวิธีนี้ ข้อมูลจะยังคงอยู่ในตำแหน่งที่เก็บไว้
46) กำหนด Balancer ใน HDFS
ใน HDFS ตัวปรับสมดุลคือผู้ดูแลระบบที่ใช้โดยเจ้าหน้าที่ผู้ดูแลระบบเพื่อปรับสมดุลข้อมูลทั่วทั้ง DataNodes และย้ายบล็อกจากโหนดที่มีการใช้งานมากเกินไปไปยังโหนดที่มีการใช้งานน้อยเกินไป
47) อธิบายเซฟโหมดใน HDFS
เป็นโหมดอ่านอย่างเดียวของ NameNode ในคลัสเตอร์ ในตอนแรก NameNode จะอยู่ใน Safemode ซึ่งจะป้องกันไม่ให้มีการเขียนลงในระบบไฟล์ใน Safemode ในเวลานี้ จะรวบรวมข้อมูลและสถิติจาก DataNode ทั้งหมด
48) ความสำคัญของ Distributed Cache ใน Apache Hadoop คืออะไร?
Hadoop มีคุณลักษณะยูทิลิตี้ที่เป็นประโยชน์ที่เรียกว่า Distributed Cache ซึ่งปรับปรุงประสิทธิภาพของงานโดยการแคชไฟล์ที่แอปพลิเคชันใช้ แอปพลิเคชันสามารถระบุไฟล์สำหรับแคชโดยใช้การกำหนดค่า JobConf
กรอบงาน Hadoop สร้างแบบจำลองของไฟล์เหล่านี้ไปยังโหนดที่ต้องดำเนินการงาน สิ่งนี้เสร็จสิ้นก่อนที่การปฏิบัติงานจะเริ่มต้น Distributed Cache รองรับการกระจายไฟล์แบบอ่านอย่างเดียว รวมถึงไฟล์ zip และ jars
49) Metastore ในไฮฟ์คืออะไร?
มันเก็บสคีมารวมถึงตำแหน่งของตารางไฮฟ์
ตารางไฮฟ์กำหนด การแมป และข้อมูลเมตาที่จัดเก็บไว้ใน Metastore ซึ่งสามารถจัดเก็บไว้ใน RDBMS ที่ JPOX รองรับ
50) SerDe ใน Hive หมายความว่าอย่างไร
SerDe เป็นชื่อย่อของ Serializer หรือ Deserializer ใน Hive นั้น SerDe อนุญาตให้อ่านข้อมูลจากตารางและเขียนไปยังฟิลด์เฉพาะในรูปแบบใดก็ได้ที่คุณต้องการ
51) รายการส่วนประกอบที่มีอยู่ในโมเดลข้อมูล Hive
มีส่วนประกอบต่อไปนี้ในโมเดลข้อมูล Hive:
- ตาราง
- พาร์ทิชัน
- บุ้งกี๋
52) อธิบายการใช้ Hive ในระบบนิเวศ Hadoop
Hive มอบอินเทอร์เฟซสำหรับจัดการข้อมูลที่จัดเก็บในระบบนิเวศ Hadoop โดย Hive ใช้สำหรับการทำแผนที่และทำงานกับตาราง HBase แบบสอบถาม Hive จะถูกแปลงเป็นงาน MapReduce เพื่อซ่อนความซับซ้อนที่เกี่ยวข้องกับการสร้างและการเรียกใช้งาน MapReduce
53) รายการประเภทข้อมูล/คอลเลกชันที่ซับซ้อนต่างๆ ได้รับการรองรับโดย Hive
Hive รองรับประเภทข้อมูลที่ซับซ้อนต่อไปนี้:
- แผนที่
- โครงสร้าง
- แถว
- สหภาพ
54) อธิบายวิธีการใช้ไฟล์ .hiverc ใน Hive?
ใน Hive นั้น .hiverc เป็นไฟล์เริ่มต้น ไฟล์นี้จะถูกโหลดครั้งแรกเมื่อเราเริ่ม Command Line Interface (CLI) สำหรับ Hive เราสามารถตั้งค่าเริ่มต้นของพารามิเตอร์ในไฟล์ .hiverc
55) เป็นไปได้ไหมที่จะสร้างมากกว่าหนึ่งตารางใน Hive สำหรับไฟล์ข้อมูลเดียว?
ใช่ เราสามารถสร้างสคีมาตารางได้มากกว่าหนึ่งรายการสำหรับไฟล์ข้อมูล Hive บันทึกสคีมาใน Hive Metastore จากสคีมานี้ เราสามารถดึงผลลัพธ์ที่ไม่เหมือนกันจากข้อมูลเดียวกันได้
56) อธิบายการใช้งาน SerDe ต่างๆ ที่มีอยู่ใน Hive
มีการใช้งาน SerDe มากมายใน Hive นอกจากนี้ คุณยังสามารถเขียนการใช้งาน SerDe แบบกำหนดเองได้ ต่อไปนี้คือการใช้งาน SerDe ที่มีชื่อเสียงบางส่วน:
- OpenCSVSerde
- RegexSerDe
- JSONSerDe แบบมีตัวคั่น
- ByteStreamTypedSerDe
57) ฟังก์ชันการสร้างตารางรายการที่มีอยู่ใน Hive
ต่อไปนี้เป็นรายการฟังก์ชันการสร้างตาราง:
- ระเบิด (อาร์เรย์)
- JSON_tuple()
- ซ้อนกัน()
- ระเบิด (แผนที่)
58) ตาราง Skewed ใน Hive คืออะไร?
ตารางที่เอียงคือตารางที่มีค่าคอลัมน์บ่อยกว่า ใน Hive เมื่อเราระบุตารางเป็น SKEWED ระหว่างการสร้าง ค่าที่บิดเบี้ยวจะถูกเขียนลงในไฟล์แยกกัน และค่าที่เหลือจะไปที่ไฟล์อื่น
59) แสดงรายการวัตถุที่สร้างขึ้นโดยคำสั่ง create ใน MySQL.
วัตถุที่สร้างขึ้นโดยคำสั่งสร้างใน MySQL มีรายละเอียดดังนี้:
- ฐานข้อมูล
- ดัชนี
- ตาราง
- ผู้ใช้งาน
- การรักษาอื่นๆ
- ทริกเกอร์
- อีเว้นท์
- รายละเอียด
- ฟังก์ชัน
60) วิธีดูโครงสร้างฐานข้อมูลใน MySQL?
เพื่อดูโครงสร้างฐานข้อมูลใน MySQL, คุณสามารถใช้ได้
อธิบายคำสั่ง ไวยากรณ์ของคำสั่งนี้คือ DESCRIBE Table name;
.
คำถามสัมภาษณ์ SQL สำหรับวิศวกรข้อมูล
61) วิธีค้นหาสตริงเฉพาะใน MySQL คอลัมน์ตาราง?
ใช้ตัวดำเนินการ regex เพื่อค้นหาสตริงใน MySQL คอลัมน์. ที่นี่ เรายังกำหนดนิพจน์ทั่วไปประเภทต่างๆ และค้นหาโดยใช้ regex ได้ด้วย
62) อธิบายว่าการวิเคราะห์ข้อมูลและข้อมูลขนาดใหญ่สามารถเพิ่มรายได้ของบริษัทได้อย่างไร
ต่อไปนี้เป็นวิธีที่การวิเคราะห์ข้อมูลและข้อมูลขนาดใหญ่สามารถเพิ่มรายได้ของบริษัทได้:
- ใช้ข้อมูลอย่างมีประสิทธิภาพเพื่อให้แน่ใจว่าธุรกิจจะเติบโต
- เพิ่มมูลค่าให้กับลูกค้า
- เปลี่ยนการวิเคราะห์เพื่อปรับปรุงการคาดการณ์ระดับการรับพนักงาน
- ลดต้นทุนการผลิตขององค์กร
คำถามสัมภาษณ์เหล่านี้จะช่วยในวีว่าของคุณ (วาจา)