Data Lake คืออะไร? ของมัน Architecture: บทช่วยสอน Data Lake

Data Lake คืออะไร?

Data Lake คือพื้นที่เก็บข้อมูลที่สามารถจัดเก็บข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจำนวนมาก เป็นสถานที่จัดเก็บข้อมูลทุกประเภทในรูปแบบดั้งเดิมโดยไม่มีขีดจำกัดขนาดบัญชีหรือไฟล์คงที่ ให้ปริมาณข้อมูลสูงเพื่อเพิ่มประสิทธิภาพการวิเคราะห์และการผสานรวมแบบเนทีฟ

Data Lake เป็นเหมือนคอนเทนเนอร์ขนาดใหญ่ซึ่งคล้ายกับทะเลสาบและแม่น้ำจริงมาก เช่นเดียวกับทะเลสาบที่มีสาขาหลายสายไหลเข้ามา Data Lake ประกอบด้วยข้อมูลที่มีโครงสร้าง ข้อมูลที่ไม่มีโครงสร้าง เครื่องต่อเครื่อง และบันทึกที่ไหลผ่านแบบเรียลไทม์

ดาต้าเลค
ดาต้าเลค

Data Lake ช่วยให้ข้อมูลมีความเป็นประชาธิปไตยและเป็นวิธีที่คุ้มต้นทุนในการจัดเก็บข้อมูลทั้งหมดขององค์กรเพื่อประมวลผลในภายหลัง นักวิเคราะห์วิจัยสามารถเน้นที่การค้นหารูปแบบความหมายในข้อมูล ไม่ใช่ข้อมูลนั้นเอง

ไม่เหมือนลำดับชั้น คลังข้อมูล Data Lake มีสถาปัตยกรรมแบบแบนที่จัดเก็บข้อมูลไว้ในไฟล์และโฟลเดอร์ โดยองค์ประกอบข้อมูลแต่ละองค์ประกอบใน Data Lake จะได้รับตัวระบุเฉพาะและแท็กด้วยชุดข้อมูลเมตา

ทำไมต้องดาต้าเลค?

วัตถุประสงค์หลักของการสร้าง Data Lake คือการนำเสนอมุมมองข้อมูลที่ไม่ละเอียดแก่นักวิทยาศาสตร์ข้อมูล

เหตุผลในการใช้ Data Lake คือ:

  • ด้วยการเริ่มต้นของการจัดเก็บเครื่องยนต์เช่น Hadoop การจัดเก็บข้อมูลที่แตกต่างกันกลายเป็นเรื่องง่าย ไม่จำเป็นต้องสร้างโมเดลข้อมูลลงในสคีมาทั่วทั้งองค์กรด้วย Data Lake
  • ด้วยปริมาณข้อมูล คุณภาพข้อมูล และข้อมูลเมตาที่เพิ่มขึ้น คุณภาพของการวิเคราะห์ก็เพิ่มขึ้นเช่นกัน
  • Data Lake นำเสนอความคล่องตัวทางธุรกิจ
  • เครื่องเรียนรู้ และปัญญาประดิษฐ์สามารถใช้เพื่อทำนายผลกำไรได้
  • มันให้ความได้เปรียบทางการแข่งขันแก่องค์กรที่ดำเนินการ
  • ไม่มีโครงสร้างไซโลข้อมูล Data Lake ให้มุมมองลูกค้าแบบ 360 องศา และทำให้การวิเคราะห์มีประสิทธิภาพมากขึ้น

ดาต้าเลค Archiเทคเจอร์

ดาต้าเลค Archiเทคเจอร์
ดาต้าเลค Archiเทคเจอร์

รูปภาพแสดงสถาปัตยกรรมของ Business Data Lake ระดับล่างแสดงถึงข้อมูลที่ส่วนใหญ่ไม่ได้ใช้งาน ในขณะที่ระดับบนแสดงข้อมูลการทำธุรกรรมแบบเรียลไทม์ ข้อมูลนี้จะไหลผ่านระบบโดยไม่มีหรือมีเวลาแฝงเพียงเล็กน้อย ต่อไปนี้คือระดับที่สำคัญใน Data Lake Archiเทคเจอร์:

  1. ระดับการกลืนกิน: ระดับทางด้านซ้ายแสดงถึงแหล่งข้อมูล ข้อมูลสามารถโหลดลงใน Data Lake เป็นกลุ่มหรือแบบเรียลไทม์ได้
  2. ระดับข้อมูลเชิงลึก: ระดับทางด้านขวาแสดงถึงด้านการวิจัยที่ใช้ข้อมูลเชิงลึกจากระบบ SQL, การสืบค้น NoSQL หรือแม้แต่ Excel ก็สามารถนำมาใช้ในการวิเคราะห์ข้อมูลได้
  3. เอชดีเอฟเอส เป็นโซลูชันที่คุ้มค่าสำหรับทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง เป็นโซนลงจอดสำหรับข้อมูลทั้งหมดที่เหลืออยู่ในระบบ
  4. ชั้นการกลั่น นำข้อมูลจากยางจัดเก็บข้อมูลและแปลงเป็นข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์ที่ง่ายขึ้น
  5. ระดับการประมวลผล รันอัลกอริธึมการวิเคราะห์และสอบถามผู้ใช้ด้วยข้อมูลเชิงโต้ตอบแบบเรียลไทม์ที่หลากหลายเป็นชุดเพื่อสร้างข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์ที่ง่ายดายยิ่งขึ้น
  6. ระดับการดำเนินงานแบบรวม ควบคุมการจัดการและติดตามระบบ รวมถึงการตรวจสอบและการจัดการความชำนาญ การจัดการข้อมูล การจัดการเวิร์กโฟลว์.

คีย์ดาต้าเลค Concepts

ต่อไปนี้เป็นแนวคิดหลักของ Data Lake ที่จำเป็นต้องเข้าใจเพื่อให้เข้าใจ Data Lake อย่างสมบูรณ์ Archiเทคเจอร์

คีย์ Concepts ของดาต้าเลค
คีย์ Concepts ของดาต้าเลค

การกลืนกินข้อมูล

การนำเข้าข้อมูลช่วยให้ตัวเชื่อมต่อสามารถรับข้อมูลจากแหล่งข้อมูลที่แตกต่างกันและโหลดลงใน Data Lake

การนำเข้าข้อมูลรองรับ:

  • ข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างทุกประเภท
  • การนำเข้าหลายรายการ เช่น แบทช์ เรียลไทม์ การโหลดครั้งเดียว
  • แหล่งข้อมูลหลายประเภท เช่น ฐานข้อมูล, เว็บเซิร์ฟเวอร์, อีเมล์, IoTและเอฟทีพี

การจัดเก็บข้อมูล

พื้นที่จัดเก็บข้อมูลควรปรับขนาดได้ ให้พื้นที่จัดเก็บข้อมูลที่คุ้มค่า และช่วยให้สามารถเข้าถึงการสำรวจข้อมูลได้อย่างรวดเร็ว ควรรองรับรูปแบบข้อมูลที่หลากหลาย

การกำกับดูแลข้อมูล

การกำกับดูแลข้อมูลเป็นกระบวนการจัดการความพร้อมใช้งาน การใช้งาน ความปลอดภัย และความสมบูรณ์ของข้อมูลที่ใช้ในองค์กร

ความปลอดภัย

จำเป็นต้องมีการรักษาความปลอดภัยในทุกชั้นของ Data Lake มันเริ่มต้นด้วยการจัดเก็บ การขุดค้น และการบริโภค ความจำเป็นขั้นพื้นฐานคือการหยุดการเข้าถึงสำหรับผู้ใช้ที่ไม่ได้รับอนุญาต ควรสนับสนุนเครื่องมือต่างๆ เพื่อเข้าถึงข้อมูลด้วย GUI และแดชบอร์ดที่ใช้งานง่าย

การรับรองความถูกต้อง การบัญชี การอนุญาต และการปกป้องข้อมูลเป็นคุณสมบัติที่สำคัญบางประการของการรักษาความปลอดภัย Data Lake

คุณภาพของข้อมูล

คุณภาพของข้อมูลถือเป็นองค์ประกอบสำคัญของสถาปัตยกรรม Data Lake ข้อมูลจะถูกใช้เพื่อสร้างมูลค่าทางธุรกิจ การดึงข้อมูลเชิงลึกจากข้อมูลที่มีคุณภาพต่ำจะนำไปสู่ข้อมูลเชิงลึกที่มีคุณภาพต่ำ

การค้นพบข้อมูล

การค้นพบข้อมูลเป็นอีกขั้นตอนสำคัญก่อนที่คุณจะเริ่มเตรียมข้อมูลหรือการวิเคราะห์ได้ ในขั้นตอนนี้ เทคนิคการแท็กจะใช้เพื่อแสดงความเข้าใจข้อมูล โดยการจัดระเบียบและตีความข้อมูลที่นำเข้าใน Data Lake

การตรวจสอบข้อมูล

งานตรวจสอบข้อมูลหลักสองงานคือการติดตามการเปลี่ยนแปลงชุดข้อมูลหลัก

  1. ติดตามการเปลี่ยนแปลงองค์ประกอบชุดข้อมูลที่สำคัญ
  2. จับภาพว่า/เมื่อ/ใครเปลี่ยนแปลงองค์ประกอบเหล่านี้อย่างไร/เมื่อใด

การตรวจสอบข้อมูลช่วยในการประเมินความเสี่ยงและการปฏิบัติตามกฎระเบียบ

สายข้อมูล

องค์ประกอบนี้เกี่ยวข้องกับที่มาของข้อมูล โดยหลักๆ แล้วเกี่ยวข้องกับจุดที่มันเคลื่อนไหวเมื่อเวลาผ่านไป และเกิดอะไรขึ้นกับมัน ช่วยลดความยุ่งยากในการแก้ไขข้อผิดพลาดในกระบวนการวิเคราะห์ข้อมูลจากต้นทางไปยังปลายทาง

การสำรวจข้อมูล

เป็นขั้นตอนเริ่มต้นของการวิเคราะห์ข้อมูล ช่วยระบุชุดข้อมูลที่ถูกต้องซึ่งมีความสำคัญก่อนเริ่มการสำรวจข้อมูล

ส่วนประกอบที่กำหนดทั้งหมดจำเป็นต้องทำงานร่วมกันเพื่อมีบทบาทสำคัญในการสร้าง Data Lake พัฒนาและสำรวจสภาพแวดล้อมได้อย่างง่ายดาย

ระยะการเจริญเติบโตของ Data Lake

การกำหนดขั้นตอนความสมบูรณ์ของ Data Lake นั้นแตกต่างกันไปตามตำราเรียน แม้ว่าประเด็นสำคัญจะยังคงเหมือนเดิม เมื่อพิจารณาจากความสมบูรณ์แล้ว การกำหนดขั้นตอนจะพิจารณาจากมุมมองของผู้ที่ไม่ใช่มืออาชีพ

ระยะการเจริญเติบโตของ Data Lake
ระยะการเจริญเติบโตของ Data Lake

ขั้นที่ 1: จัดการและนำเข้าข้อมูลตามขนาด

ขั้นตอนแรกของ Data Maturity คือการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ที่นี่ เจ้าของธุรกิจจำเป็นต้องค้นหาเครื่องมือตามทักษะของตนเพื่อรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชันเชิงวิเคราะห์

ขั้นตอนที่ 2: การสร้างกล้ามเนื้อวิเคราะห์

นี่เป็นขั้นตอนที่สองที่เกี่ยวข้องกับการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ในขั้นตอนนี้ บริษัทต่างๆ จะใช้เครื่องมือที่เหมาะสมกับชุดทักษะของตนมากที่สุด พวกเขาเริ่มรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชัน ในที่นี้ ความสามารถของคลังข้อมูลขององค์กรและ Data Lake จะถูกนำมาใช้ร่วมกัน

ขั้นที่ 3: EDW และ Data Lake ทำงานร่วมกัน

ขั้นตอนนี้เกี่ยวข้องกับการนำข้อมูลและการวิเคราะห์มาสู่มือของผู้คนจำนวนมากที่สุดเท่าที่จะเป็นไปได้ ในขั้นตอนนี้ Data Lake และคลังข้อมูลขององค์กรจะเริ่มทำงานร่วมกัน ทั้งสองมีส่วนร่วมในการวิเคราะห์

ขั้นที่ 4: ความสามารถระดับองค์กรในทะเลสาบ

ในช่วงการเจริญเติบโตของ Data Lake นี้ ความสามารถระดับองค์กรจะถูกเพิ่มเข้าไปใน Data Lake การนำการกำกับดูแลข้อมูล ความสามารถในการจัดการวงจรข้อมูล และการจัดการเมตาดาต้ามาใช้ อย่างไรก็ตาม มีองค์กรเพียงไม่กี่แห่งที่สามารถบรรลุถึงระดับวุฒิภาวะนี้ได้ แต่จำนวนนี้จะเพิ่มขึ้นในอนาคต

แนวปฏิบัติที่ดีที่สุดสำหรับการใช้งาน Data Lake

  • Archiส่วนประกอบทางโครงสร้าง การโต้ตอบ และผลิตภัณฑ์ที่ระบุควรสนับสนุนประเภทข้อมูลดั้งเดิม
  • การออกแบบ Data Lake ควรขับเคลื่อนโดยสิ่งที่มีอยู่แทนที่จะเป็นสิ่งจำเป็น ข้อกำหนดสคีมาและข้อมูลไม่ได้ถูกกำหนดไว้จนกว่าจะมีการสอบถาม
  • การออกแบบควรได้รับคำแนะนำจากส่วนประกอบแบบใช้แล้วทิ้งที่รวมเข้ากับบริการ API
  • การค้นพบข้อมูล การนำเข้า การจัดเก็บ การดูแลระบบ คุณภาพ การเปลี่ยนแปลง และการแสดงภาพควรได้รับการจัดการอย่างเป็นอิสระ
  • สถาปัตยกรรม Data Lake ควรได้รับการปรับแต่งให้เหมาะกับอุตสาหกรรมเฉพาะ ควรให้แน่ใจว่าความสามารถที่จำเป็นสำหรับโดเมนนั้นเป็นส่วนสำคัญในการออกแบบ
  • การเริ่มต้นใช้งานแหล่งข้อมูลที่เพิ่งค้นพบได้เร็วขึ้นเป็นสิ่งสำคัญ
  • Data Lake ช่วยการจัดการแบบกำหนดเองเพื่อดึงมูลค่าสูงสุด
  • Data Lake ควรสนับสนุนเทคนิคและวิธีการจัดการข้อมูลองค์กรที่มีอยู่

ความท้าทายในการสร้าง Data Lake:

  • ใน Data Lake ปริมาณข้อมูลจะสูงกว่า ดังนั้นกระบวนการจึงต้องอาศัยการดูแลระบบแบบเป็นโปรแกรมมากขึ้น
  • เป็นการยากที่จะจัดการกับข้อมูลที่กระจัดกระจาย ไม่สมบูรณ์ และผันผวน
  • ขอบเขตของชุดข้อมูลและแหล่งที่มาที่กว้างขึ้นจำเป็นต้องมีการกำกับดูแลและการสนับสนุนข้อมูลที่ใหญ่กว่า

ความแตกต่างระหว่าง Data Lake และคลังข้อมูล

พารามิเตอร์ ทะเลสาบข้อมูล คลังข้อมูล
ข้อมูล Data Lake จัดเก็บทุกสิ่ง คลังข้อมูลมุ่งเน้นไปที่กระบวนการทางธุรกิจเท่านั้น
กระบวนการผลิต ข้อมูลส่วนใหญ่ยังไม่ได้รับการประมวลผล ข้อมูลที่ประมวลผลสูง
ประเภทของข้อมูล อาจเป็นแบบไม่มีโครงสร้าง กึ่งโครงสร้าง และแบบมีโครงสร้าง ส่วนใหญ่จะอยู่ในรูปแบบและโครงสร้างแบบตาราง
งาน แบ่งปันการดูแลข้อมูล ปรับให้เหมาะสมสำหรับการดึงข้อมูล
ความว่องไว มีความคล่องตัวสูง กำหนดค่าและกำหนดค่าใหม่ได้ตามต้องการ เมื่อเปรียบเทียบกับ Data Lake จะมีความคล่องตัวน้อยกว่าและมีการกำหนดค่าคงที่
ผู้ใช้ Data Lake ส่วนใหญ่จะใช้งานโดย Data Scientist นักธุรกิจใช้คลังข้อมูลกันอย่างแพร่หลาย
พื้นที่จัดเก็บ การออกแบบ Data Lake เพื่อการจัดเก็บข้อมูลราคาประหยัด มีการใช้พื้นที่เก็บข้อมูลราคาแพงที่ให้เวลาตอบสนองที่รวดเร็ว
ความปลอดภัย ให้การควบคุมน้อยลง ช่วยให้สามารถควบคุมข้อมูลได้ดียิ่งขึ้น
การทดแทน EDW Data Lake สามารถเป็นแหล่งสำหรับ EDW ได้ เสริมกับ EDW (ไม่ใช่การแทนที่)
schema สคีมาในการอ่าน (ไม่มีสคีมาที่กำหนดไว้ล่วงหน้า) สคีมาในการเขียน (สคีมาที่กำหนดไว้ล่วงหน้า)
การประมวลผล ช่วยในการนำเข้าข้อมูลใหม่อย่างรวดเร็ว ใช้เวลานานในการแนะนำเนื้อหาใหม่
รายละเอียดข้อมูล ข้อมูลที่มีรายละเอียดหรือรายละเอียดในระดับต่ำ ข้อมูลในระดับสรุปหรือระดับรายละเอียดรวม
เครื่องมือ สามารถใช้โอเพ่นซอร์ส/เครื่องมือ เช่น Hadoop/ Map ลดได้ เครื่องมือเชิงพาณิชย์ส่วนใหญ่

ประโยชน์และความเสี่ยงของการใช้ Data Lake

ต่อไปนี้เป็นประโยชน์หลักๆ บางประการในการใช้ Data Lake:

  • ช่วยอย่างเต็มที่ด้วยผลิตภัณฑ์ไอออไนซ์และการวิเคราะห์ขั้นสูง
  • ให้ความสามารถในการปรับขนาดและความยืดหยุ่นที่คุ้มค่า
  • มอบคุณค่าจากข้อมูลไม่จำกัดประเภท
  • ลดต้นทุนการเป็นเจ้าของในระยะยาว
  • ช่วยให้ประหยัดการจัดเก็บไฟล์
  • ปรับให้เข้ากับการเปลี่ยนแปลงได้อย่างรวดเร็ว
  • ข้อได้เปรียบหลักของ Data Lake คือ การรวบอำนาจ ของแหล่งเนื้อหาต่างๆ
  • ผู้ใช้จากหลากหลายแผนกอาจจะกระจายอยู่ทั่วโลกก็ได้ การเข้าถึงที่ยืดหยุ่น ไปยังข้อมูล

ความเสี่ยงในการใช้ Data Lake:

  • หลังจากผ่านไประยะหนึ่ง Data Lake อาจสูญเสียความเกี่ยวข้องและโมเมนตัม
  • มีความเสี่ยงจำนวนมากที่เกี่ยวข้องในขณะที่ออกแบบ Data Lake
  • ข้อมูลที่ไม่มีโครงสร้างอาจนำไปสู่ความโกลาหลที่ไม่ได้รับการควบคุม ข้อมูลที่ใช้ไม่ได้ เครื่องมือที่แตกต่างและซับซ้อน ความร่วมมือทั่วทั้งองค์กร เป็นอันหนึ่งอันเดียวกัน สม่ำเสมอ และทั่วไป
  • นอกจากนี้ยังเพิ่มค่าใช้จ่ายในการจัดเก็บและคำนวณอีกด้วย
  • ไม่มีทางที่จะได้รับข้อมูลเชิงลึกจากผู้อื่นที่เคยทำงานกับข้อมูลเพราะไม่มีบัญชีของเชื้อสายของการค้นพบโดยนักวิเคราะห์ก่อนหน้านี้
  • ความเสี่ยงที่ใหญ่ที่สุดของ Data Lake คือความปลอดภัยและการควบคุมการเข้าถึง บางครั้งข้อมูลสามารถถูกวางลงในทะเลสาบได้โดยไม่ต้องมีการควบคุมดูแลใดๆ เนื่องจากข้อมูลบางส่วนอาจมีความต้องการความเป็นส่วนตัวและกฎระเบียบ

สรุป

  • Data Lake คือพื้นที่เก็บข้อมูลที่สามารถจัดเก็บข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจำนวนมาก
  • วัตถุประสงค์หลักของการสร้าง Data Lake คือการนำเสนอมุมมองข้อมูลที่ไม่ละเอียดแก่นักวิทยาศาสตร์ข้อมูล
  • ชั้นการดำเนินงานรวม ชั้นการประมวลผล ชั้นการกลั่น และ HDFS เป็นชั้นที่สำคัญของ Data Lake Archiเทคเจอร์
  • การนำเข้าข้อมูล การจัดเก็บข้อมูล คุณภาพข้อมูล การตรวจสอบข้อมูล การสำรวจข้อมูล การค้นพบข้อมูล คือองค์ประกอบที่สำคัญบางประการของ Data Lake Archiเทคเจอร์
  • การออกแบบ Data Lake ควรขับเคลื่อนโดยสิ่งที่มีอยู่แทนที่จะเป็นสิ่งจำเป็น
  • Data Lake ช่วยลดต้นทุนการเป็นเจ้าของในระยะยาวและช่วยให้จัดเก็บไฟล์ได้อย่างประหยัด
  • ความเสี่ยงที่ใหญ่ที่สุดของ Data Lake คือความปลอดภัยและการควบคุมการเข้าถึง บางครั้งข้อมูลสามารถถูกวางลงในทะเลสาบได้โดยไม่ต้องมีการควบคุมดูแลใดๆ เนื่องจากข้อมูลบางส่วนอาจมีความต้องการความเป็นส่วนตัวและกฎระเบียบ