Data Lake คืออะไร? ของมัน Architecture: บทช่วยสอน Data Lake
Data Lake คืออะไร?
Data Lake คือพื้นที่เก็บข้อมูลที่สามารถจัดเก็บข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจำนวนมาก เป็นสถานที่จัดเก็บข้อมูลทุกประเภทในรูปแบบดั้งเดิมโดยไม่มีขีดจำกัดขนาดบัญชีหรือไฟล์คงที่ ให้ปริมาณข้อมูลสูงเพื่อเพิ่มประสิทธิภาพการวิเคราะห์และการผสานรวมแบบเนทีฟ
Data Lake เป็นเหมือนคอนเทนเนอร์ขนาดใหญ่ซึ่งคล้ายกับทะเลสาบและแม่น้ำจริงมาก เช่นเดียวกับทะเลสาบที่มีสาขาหลายสายไหลเข้ามา Data Lake ประกอบด้วยข้อมูลที่มีโครงสร้าง ข้อมูลที่ไม่มีโครงสร้าง เครื่องต่อเครื่อง และบันทึกที่ไหลผ่านแบบเรียลไทม์

Data Lake ช่วยให้ข้อมูลมีความเป็นประชาธิปไตยและเป็นวิธีที่คุ้มต้นทุนในการจัดเก็บข้อมูลทั้งหมดขององค์กรเพื่อประมวลผลในภายหลัง นักวิเคราะห์วิจัยสามารถเน้นที่การค้นหารูปแบบความหมายในข้อมูล ไม่ใช่ข้อมูลนั้นเอง
ไม่เหมือนลำดับชั้น คลังข้อมูล Data Lake มีสถาปัตยกรรมแบบแบนที่จัดเก็บข้อมูลไว้ในไฟล์และโฟลเดอร์ โดยองค์ประกอบข้อมูลแต่ละองค์ประกอบใน Data Lake จะได้รับตัวระบุเฉพาะและแท็กด้วยชุดข้อมูลเมตา
ทำไมต้องดาต้าเลค?
วัตถุประสงค์หลักของการสร้าง Data Lake คือการนำเสนอมุมมองข้อมูลที่ไม่ละเอียดแก่นักวิทยาศาสตร์ข้อมูล
เหตุผลในการใช้ Data Lake คือ:
- ด้วยการเริ่มต้นของการจัดเก็บเครื่องยนต์เช่น Hadoop การจัดเก็บข้อมูลที่แตกต่างกันกลายเป็นเรื่องง่าย ไม่จำเป็นต้องสร้างโมเดลข้อมูลลงในสคีมาทั่วทั้งองค์กรด้วย Data Lake
- ด้วยปริมาณข้อมูล คุณภาพข้อมูล และข้อมูลเมตาที่เพิ่มขึ้น คุณภาพของการวิเคราะห์ก็เพิ่มขึ้นเช่นกัน
- Data Lake นำเสนอความคล่องตัวทางธุรกิจ
- เครื่องเรียนรู้ และปัญญาประดิษฐ์สามารถใช้เพื่อทำนายผลกำไรได้
- มันให้ความได้เปรียบทางการแข่งขันแก่องค์กรที่ดำเนินการ
- ไม่มีโครงสร้างไซโลข้อมูล Data Lake ให้มุมมองลูกค้าแบบ 360 องศา และทำให้การวิเคราะห์มีประสิทธิภาพมากขึ้น
ดาต้าเลค Archiเทคเจอร์
รูปภาพแสดงสถาปัตยกรรมของ Business Data Lake ระดับล่างแสดงถึงข้อมูลที่ส่วนใหญ่ไม่ได้ใช้งาน ในขณะที่ระดับบนแสดงข้อมูลการทำธุรกรรมแบบเรียลไทม์ ข้อมูลนี้จะไหลผ่านระบบโดยไม่มีหรือมีเวลาแฝงเพียงเล็กน้อย ต่อไปนี้คือระดับที่สำคัญใน Data Lake Archiเทคเจอร์:
- ระดับการกลืนกิน: ระดับทางด้านซ้ายแสดงถึงแหล่งข้อมูล ข้อมูลสามารถโหลดลงใน Data Lake เป็นกลุ่มหรือแบบเรียลไทม์ได้
- ระดับข้อมูลเชิงลึก: ระดับทางด้านขวาแสดงถึงด้านการวิจัยที่ใช้ข้อมูลเชิงลึกจากระบบ SQL, การสืบค้น NoSQL หรือแม้แต่ Excel ก็สามารถนำมาใช้ในการวิเคราะห์ข้อมูลได้
- เอชดีเอฟเอส เป็นโซลูชันที่คุ้มค่าสำหรับทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง เป็นโซนลงจอดสำหรับข้อมูลทั้งหมดที่เหลืออยู่ในระบบ
- ชั้นการกลั่น นำข้อมูลจากยางจัดเก็บข้อมูลและแปลงเป็นข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์ที่ง่ายขึ้น
- ระดับการประมวลผล รันอัลกอริธึมการวิเคราะห์และสอบถามผู้ใช้ด้วยข้อมูลเชิงโต้ตอบแบบเรียลไทม์ที่หลากหลายเป็นชุดเพื่อสร้างข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์ที่ง่ายดายยิ่งขึ้น
- ระดับการดำเนินงานแบบรวม ควบคุมการจัดการและติดตามระบบ รวมถึงการตรวจสอบและการจัดการความชำนาญ การจัดการข้อมูล การจัดการเวิร์กโฟลว์.
คีย์ดาต้าเลค Concepts
ต่อไปนี้เป็นแนวคิดหลักของ Data Lake ที่จำเป็นต้องเข้าใจเพื่อให้เข้าใจ Data Lake อย่างสมบูรณ์ Archiเทคเจอร์
การกลืนกินข้อมูล
การนำเข้าข้อมูลช่วยให้ตัวเชื่อมต่อสามารถรับข้อมูลจากแหล่งข้อมูลที่แตกต่างกันและโหลดลงใน Data Lake
การนำเข้าข้อมูลรองรับ:
- ข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างทุกประเภท
- การนำเข้าหลายรายการ เช่น แบทช์ เรียลไทม์ การโหลดครั้งเดียว
- แหล่งข้อมูลหลายประเภท เช่น ฐานข้อมูล, เว็บเซิร์ฟเวอร์, อีเมล์, IoTและเอฟทีพี
การจัดเก็บข้อมูล
พื้นที่จัดเก็บข้อมูลควรปรับขนาดได้ ให้พื้นที่จัดเก็บข้อมูลที่คุ้มค่า และช่วยให้สามารถเข้าถึงการสำรวจข้อมูลได้อย่างรวดเร็ว ควรรองรับรูปแบบข้อมูลที่หลากหลาย
การกำกับดูแลข้อมูล
การกำกับดูแลข้อมูลเป็นกระบวนการจัดการความพร้อมใช้งาน การใช้งาน ความปลอดภัย และความสมบูรณ์ของข้อมูลที่ใช้ในองค์กร
ความปลอดภัย
จำเป็นต้องมีการรักษาความปลอดภัยในทุกชั้นของ Data Lake มันเริ่มต้นด้วยการจัดเก็บ การขุดค้น และการบริโภค ความจำเป็นขั้นพื้นฐานคือการหยุดการเข้าถึงสำหรับผู้ใช้ที่ไม่ได้รับอนุญาต ควรสนับสนุนเครื่องมือต่างๆ เพื่อเข้าถึงข้อมูลด้วย GUI และแดชบอร์ดที่ใช้งานง่าย
การรับรองความถูกต้อง การบัญชี การอนุญาต และการปกป้องข้อมูลเป็นคุณสมบัติที่สำคัญบางประการของการรักษาความปลอดภัย Data Lake
คุณภาพของข้อมูล
คุณภาพของข้อมูลถือเป็นองค์ประกอบสำคัญของสถาปัตยกรรม Data Lake ข้อมูลจะถูกใช้เพื่อสร้างมูลค่าทางธุรกิจ การดึงข้อมูลเชิงลึกจากข้อมูลที่มีคุณภาพต่ำจะนำไปสู่ข้อมูลเชิงลึกที่มีคุณภาพต่ำ
การค้นพบข้อมูล
การค้นพบข้อมูลเป็นอีกขั้นตอนสำคัญก่อนที่คุณจะเริ่มเตรียมข้อมูลหรือการวิเคราะห์ได้ ในขั้นตอนนี้ เทคนิคการแท็กจะใช้เพื่อแสดงความเข้าใจข้อมูล โดยการจัดระเบียบและตีความข้อมูลที่นำเข้าใน Data Lake
การตรวจสอบข้อมูล
งานตรวจสอบข้อมูลหลักสองงานคือการติดตามการเปลี่ยนแปลงชุดข้อมูลหลัก
- ติดตามการเปลี่ยนแปลงองค์ประกอบชุดข้อมูลที่สำคัญ
- จับภาพว่า/เมื่อ/ใครเปลี่ยนแปลงองค์ประกอบเหล่านี้อย่างไร/เมื่อใด
การตรวจสอบข้อมูลช่วยในการประเมินความเสี่ยงและการปฏิบัติตามกฎระเบียบ
สายข้อมูล
องค์ประกอบนี้เกี่ยวข้องกับที่มาของข้อมูล โดยหลักๆ แล้วเกี่ยวข้องกับจุดที่มันเคลื่อนไหวเมื่อเวลาผ่านไป และเกิดอะไรขึ้นกับมัน ช่วยลดความยุ่งยากในการแก้ไขข้อผิดพลาดในกระบวนการวิเคราะห์ข้อมูลจากต้นทางไปยังปลายทาง
การสำรวจข้อมูล
เป็นขั้นตอนเริ่มต้นของการวิเคราะห์ข้อมูล ช่วยระบุชุดข้อมูลที่ถูกต้องซึ่งมีความสำคัญก่อนเริ่มการสำรวจข้อมูล
ส่วนประกอบที่กำหนดทั้งหมดจำเป็นต้องทำงานร่วมกันเพื่อมีบทบาทสำคัญในการสร้าง Data Lake พัฒนาและสำรวจสภาพแวดล้อมได้อย่างง่ายดาย
ระยะการเจริญเติบโตของ Data Lake
การกำหนดขั้นตอนความสมบูรณ์ของ Data Lake นั้นแตกต่างกันไปตามตำราเรียน แม้ว่าประเด็นสำคัญจะยังคงเหมือนเดิม เมื่อพิจารณาจากความสมบูรณ์แล้ว การกำหนดขั้นตอนจะพิจารณาจากมุมมองของผู้ที่ไม่ใช่มืออาชีพ
ขั้นที่ 1: จัดการและนำเข้าข้อมูลตามขนาด
ขั้นตอนแรกของ Data Maturity คือการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ที่นี่ เจ้าของธุรกิจจำเป็นต้องค้นหาเครื่องมือตามทักษะของตนเพื่อรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชันเชิงวิเคราะห์
ขั้นตอนที่ 2: การสร้างกล้ามเนื้อวิเคราะห์
นี่เป็นขั้นตอนที่สองที่เกี่ยวข้องกับการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ในขั้นตอนนี้ บริษัทต่างๆ จะใช้เครื่องมือที่เหมาะสมกับชุดทักษะของตนมากที่สุด พวกเขาเริ่มรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชัน ในที่นี้ ความสามารถของคลังข้อมูลขององค์กรและ Data Lake จะถูกนำมาใช้ร่วมกัน
ขั้นที่ 3: EDW และ Data Lake ทำงานร่วมกัน
ขั้นตอนนี้เกี่ยวข้องกับการนำข้อมูลและการวิเคราะห์มาสู่มือของผู้คนจำนวนมากที่สุดเท่าที่จะเป็นไปได้ ในขั้นตอนนี้ Data Lake และคลังข้อมูลขององค์กรจะเริ่มทำงานร่วมกัน ทั้งสองมีส่วนร่วมในการวิเคราะห์
ขั้นที่ 4: ความสามารถระดับองค์กรในทะเลสาบ
ในช่วงการเจริญเติบโตของ Data Lake นี้ ความสามารถระดับองค์กรจะถูกเพิ่มเข้าไปใน Data Lake การนำการกำกับดูแลข้อมูล ความสามารถในการจัดการวงจรข้อมูล และการจัดการเมตาดาต้ามาใช้ อย่างไรก็ตาม มีองค์กรเพียงไม่กี่แห่งที่สามารถบรรลุถึงระดับวุฒิภาวะนี้ได้ แต่จำนวนนี้จะเพิ่มขึ้นในอนาคต
แนวปฏิบัติที่ดีที่สุดสำหรับการใช้งาน Data Lake
- Archiส่วนประกอบทางโครงสร้าง การโต้ตอบ และผลิตภัณฑ์ที่ระบุควรสนับสนุนประเภทข้อมูลดั้งเดิม
- การออกแบบ Data Lake ควรขับเคลื่อนโดยสิ่งที่มีอยู่แทนที่จะเป็นสิ่งจำเป็น ข้อกำหนดสคีมาและข้อมูลไม่ได้ถูกกำหนดไว้จนกว่าจะมีการสอบถาม
- การออกแบบควรได้รับคำแนะนำจากส่วนประกอบแบบใช้แล้วทิ้งที่รวมเข้ากับบริการ API
- การค้นพบข้อมูล การนำเข้า การจัดเก็บ การดูแลระบบ คุณภาพ การเปลี่ยนแปลง และการแสดงภาพควรได้รับการจัดการอย่างเป็นอิสระ
- สถาปัตยกรรม Data Lake ควรได้รับการปรับแต่งให้เหมาะกับอุตสาหกรรมเฉพาะ ควรให้แน่ใจว่าความสามารถที่จำเป็นสำหรับโดเมนนั้นเป็นส่วนสำคัญในการออกแบบ
- การเริ่มต้นใช้งานแหล่งข้อมูลที่เพิ่งค้นพบได้เร็วขึ้นเป็นสิ่งสำคัญ
- Data Lake ช่วยการจัดการแบบกำหนดเองเพื่อดึงมูลค่าสูงสุด
- Data Lake ควรสนับสนุนเทคนิคและวิธีการจัดการข้อมูลองค์กรที่มีอยู่
ความท้าทายในการสร้าง Data Lake:
- ใน Data Lake ปริมาณข้อมูลจะสูงกว่า ดังนั้นกระบวนการจึงต้องอาศัยการดูแลระบบแบบเป็นโปรแกรมมากขึ้น
- เป็นการยากที่จะจัดการกับข้อมูลที่กระจัดกระจาย ไม่สมบูรณ์ และผันผวน
- ขอบเขตของชุดข้อมูลและแหล่งที่มาที่กว้างขึ้นจำเป็นต้องมีการกำกับดูแลและการสนับสนุนข้อมูลที่ใหญ่กว่า
ความแตกต่างระหว่าง Data Lake และคลังข้อมูล
พารามิเตอร์ | ทะเลสาบข้อมูล | คลังข้อมูล |
---|---|---|
ข้อมูล | Data Lake จัดเก็บทุกสิ่ง | คลังข้อมูลมุ่งเน้นไปที่กระบวนการทางธุรกิจเท่านั้น |
กระบวนการผลิต | ข้อมูลส่วนใหญ่ยังไม่ได้รับการประมวลผล | ข้อมูลที่ประมวลผลสูง |
ประเภทของข้อมูล | อาจเป็นแบบไม่มีโครงสร้าง กึ่งโครงสร้าง และแบบมีโครงสร้าง | ส่วนใหญ่จะอยู่ในรูปแบบและโครงสร้างแบบตาราง |
งาน | แบ่งปันการดูแลข้อมูล | ปรับให้เหมาะสมสำหรับการดึงข้อมูล |
ความว่องไว | มีความคล่องตัวสูง กำหนดค่าและกำหนดค่าใหม่ได้ตามต้องการ | เมื่อเปรียบเทียบกับ Data Lake จะมีความคล่องตัวน้อยกว่าและมีการกำหนดค่าคงที่ |
ผู้ใช้ | Data Lake ส่วนใหญ่จะใช้งานโดย Data Scientist | นักธุรกิจใช้คลังข้อมูลกันอย่างแพร่หลาย |
พื้นที่จัดเก็บ | การออกแบบ Data Lake เพื่อการจัดเก็บข้อมูลราคาประหยัด | มีการใช้พื้นที่เก็บข้อมูลราคาแพงที่ให้เวลาตอบสนองที่รวดเร็ว |
ความปลอดภัย | ให้การควบคุมน้อยลง | ช่วยให้สามารถควบคุมข้อมูลได้ดียิ่งขึ้น |
การทดแทน EDW | Data Lake สามารถเป็นแหล่งสำหรับ EDW ได้ | เสริมกับ EDW (ไม่ใช่การแทนที่) |
schema | สคีมาในการอ่าน (ไม่มีสคีมาที่กำหนดไว้ล่วงหน้า) | สคีมาในการเขียน (สคีมาที่กำหนดไว้ล่วงหน้า) |
การประมวลผล | ช่วยในการนำเข้าข้อมูลใหม่อย่างรวดเร็ว | ใช้เวลานานในการแนะนำเนื้อหาใหม่ |
รายละเอียดข้อมูล | ข้อมูลที่มีรายละเอียดหรือรายละเอียดในระดับต่ำ | ข้อมูลในระดับสรุปหรือระดับรายละเอียดรวม |
เครื่องมือ | สามารถใช้โอเพ่นซอร์ส/เครื่องมือ เช่น Hadoop/ Map ลดได้ | เครื่องมือเชิงพาณิชย์ส่วนใหญ่ |
ประโยชน์และความเสี่ยงของการใช้ Data Lake
ต่อไปนี้เป็นประโยชน์หลักๆ บางประการในการใช้ Data Lake:
- ช่วยอย่างเต็มที่ด้วยผลิตภัณฑ์ไอออไนซ์และการวิเคราะห์ขั้นสูง
- ให้ความสามารถในการปรับขนาดและความยืดหยุ่นที่คุ้มค่า
- มอบคุณค่าจากข้อมูลไม่จำกัดประเภท
- ลดต้นทุนการเป็นเจ้าของในระยะยาว
- ช่วยให้ประหยัดการจัดเก็บไฟล์
- ปรับให้เข้ากับการเปลี่ยนแปลงได้อย่างรวดเร็ว
- ข้อได้เปรียบหลักของ Data Lake คือ การรวบอำนาจ ของแหล่งเนื้อหาต่างๆ
- ผู้ใช้จากหลากหลายแผนกอาจจะกระจายอยู่ทั่วโลกก็ได้ การเข้าถึงที่ยืดหยุ่น ไปยังข้อมูล
ความเสี่ยงในการใช้ Data Lake:
- หลังจากผ่านไประยะหนึ่ง Data Lake อาจสูญเสียความเกี่ยวข้องและโมเมนตัม
- มีความเสี่ยงจำนวนมากที่เกี่ยวข้องในขณะที่ออกแบบ Data Lake
- ข้อมูลที่ไม่มีโครงสร้างอาจนำไปสู่ความโกลาหลที่ไม่ได้รับการควบคุม ข้อมูลที่ใช้ไม่ได้ เครื่องมือที่แตกต่างและซับซ้อน ความร่วมมือทั่วทั้งองค์กร เป็นอันหนึ่งอันเดียวกัน สม่ำเสมอ และทั่วไป
- นอกจากนี้ยังเพิ่มค่าใช้จ่ายในการจัดเก็บและคำนวณอีกด้วย
- ไม่มีทางที่จะได้รับข้อมูลเชิงลึกจากผู้อื่นที่เคยทำงานกับข้อมูลเพราะไม่มีบัญชีของเชื้อสายของการค้นพบโดยนักวิเคราะห์ก่อนหน้านี้
- ความเสี่ยงที่ใหญ่ที่สุดของ Data Lake คือความปลอดภัยและการควบคุมการเข้าถึง บางครั้งข้อมูลสามารถถูกวางลงในทะเลสาบได้โดยไม่ต้องมีการควบคุมดูแลใดๆ เนื่องจากข้อมูลบางส่วนอาจมีความต้องการความเป็นส่วนตัวและกฎระเบียบ
สรุป
- Data Lake คือพื้นที่เก็บข้อมูลที่สามารถจัดเก็บข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจำนวนมาก
- วัตถุประสงค์หลักของการสร้าง Data Lake คือการนำเสนอมุมมองข้อมูลที่ไม่ละเอียดแก่นักวิทยาศาสตร์ข้อมูล
- ชั้นการดำเนินงานรวม ชั้นการประมวลผล ชั้นการกลั่น และ HDFS เป็นชั้นที่สำคัญของ Data Lake Archiเทคเจอร์
- การนำเข้าข้อมูล การจัดเก็บข้อมูล คุณภาพข้อมูล การตรวจสอบข้อมูล การสำรวจข้อมูล การค้นพบข้อมูล คือองค์ประกอบที่สำคัญบางประการของ Data Lake Archiเทคเจอร์
- การออกแบบ Data Lake ควรขับเคลื่อนโดยสิ่งที่มีอยู่แทนที่จะเป็นสิ่งจำเป็น
- Data Lake ช่วยลดต้นทุนการเป็นเจ้าของในระยะยาวและช่วยให้จัดเก็บไฟล์ได้อย่างประหยัด
- ความเสี่ยงที่ใหญ่ที่สุดของ Data Lake คือความปลอดภัยและการควบคุมการเข้าถึง บางครั้งข้อมูลสามารถถูกวางลงในทะเลสาบได้โดยไม่ต้องมีการควบคุมดูแลใดๆ เนื่องจากข้อมูลบางส่วนอาจมีความต้องการความเป็นส่วนตัวและกฎระเบียบ