Data Lake คืออะไร? คำจำกัดความ Archiสถาปัตยกรรมและแนวปฏิบัติที่ดีที่สุด

⚡ สรุปอย่างชาญฉลาด

สถาปัตยกรรม Data Lake จัดเก็บข้อมูลที่มีโครงสร้าง ข้อมูลกึ่งโครงสร้าง และข้อมูลที่ไม่มีโครงสร้างในรูปแบบดั้งเดิมภายใต้การออกแบบที่เรียบง่าย แต่ละองค์ประกอบจะได้รับตัวระบุเฉพาะและแท็กเมตาเดตา ทำให้สามารถวิเคราะห์ได้โดยไม่ต้องมีสคีมาขององค์กรที่กำหนดไว้ล่วงหน้า

🗄️ คำจำกัดความหลัก: แหล่งเก็บข้อมูลที่จัดเก็บข้อมูลทุกประเภทในรูปแบบดิบ โดยไม่มีข้อจำกัดตายตัวเกี่ยวกับขนาดบัญชีหรือขนาดไฟล์
🏗️ โครงสร้างระดับชั้น: การนำเข้า การจัดเก็บ การกลั่นกรอง การประมวลผล การวิเคราะห์ข้อมูลเชิงลึก และการดำเนินงานแบบครบวง เป็นองค์ประกอบหลัก 6 ระดับของโครงสร้างทางสถาปัตยกรรม
🔑 ส่วนประกอบสำคัญ: การนำเข้าข้อมูล การจัดเก็บ การกำกับดูแล ความปลอดภัย คุณภาพ การค้นหา การตรวจสอบ การสืบย้อนแหล่งที่มา และการสำรวจ ต้องทำงานร่วมกัน
📈 เส้นทางสู่ความสำเร็จ: องค์กรจะเปลี่ยนจากระบบรับข้อมูลดิบไปสู่การกำกับดูแลองค์กรอย่างเต็มรูปแบบภายในระบบคลาวด์ได้ภายในสี่ขั้นตอนหลัก
🇧🇷 ความแตกต่างของคลังสินค้า: Lake ใช้ Schema on Read สำหรับนักวิทยาศาสตร์ข้อมูล ในขณะที่ Warehouse ใช้ Schema on Write สำหรับการรายงานทางธุรกิจ
⚠️ ความเสี่ยงหลัก: การควบคุมการเข้าถึงที่อ่อนแอและการขาดการกำกับดูแล ทำให้แหล่งข้อมูลที่ไร้การควบคุมกลายเป็นบึงข้อมูลที่ใช้การไม่ได้

อ่านเพิ่มเติม

Data Lake คืออะไร?

Data Lake คือพื้นที่เก็บข้อมูลที่สามารถจัดเก็บข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้างจำนวนมาก เป็นสถานที่จัดเก็บข้อมูลทุกประเภทในรูปแบบดั้งเดิมโดยไม่มีขีดจำกัดขนาดบัญชีหรือไฟล์คงที่ ให้ปริมาณข้อมูลสูงเพื่อเพิ่มประสิทธิภาพการวิเคราะห์และการผสานรวมแบบเนทีฟ

Data Lake เป็นเหมือนคอนเทนเนอร์ขนาดใหญ่ซึ่งคล้ายกับทะเลสาบและแม่น้ำจริงมาก เช่นเดียวกับทะเลสาบที่มีสาขาหลายสายไหลเข้ามา Data Lake ประกอบด้วยข้อมูลที่มีโครงสร้าง ข้อมูลที่ไม่มีโครงสร้าง เครื่องต่อเครื่อง และบันทึกที่ไหลผ่านแบบเรียลไทม์

ดังที่ภาพประกอบด้านบนแสดงให้เห็น สตรีมข้อมูลจำนวนมากส่งข้อมูลไปยังชุดข้อมูลที่จัดเก็บไว้เพียงชุดเดียว Data Lake ช่วยให้การเข้าถึงข้อมูลเป็นไปอย่างทั่วถึง และเป็นวิธีที่ประหยัดต้นทุนในการจัดเก็บข้อมูลทั้งหมดขององค์กรเพื่อนำไปประมวลผลในภายหลัง นักวิเคราะห์วิจัยสามารถมุ่งเน้นไปที่การค้นหารูปแบบความหมายในข้อมูล แทนที่จะเป็นตัวข้อมูลเอง

ไม่เหมือนลำดับชั้น คลังข้อมูล Data Lake มีสถาปัตยกรรมแบบแบนที่จัดเก็บข้อมูลไว้ในไฟล์และโฟลเดอร์ โดยองค์ประกอบข้อมูลแต่ละองค์ประกอบใน Data Lake จะได้รับตัวระบุเฉพาะและแท็กด้วยชุดข้อมูลเมตา

ทำไมต้องดาต้าเลค?

วัตถุประสงค์หลักของการสร้าง Data Lake คือการนำเสนอมุมมองข้อมูลที่ไม่ละเอียดแก่นักวิทยาศาสตร์ข้อมูล

เหตุผลในการใช้ Data Lake คือ:

ด้วยการเริ่มต้นของการจัดเก็บเครื่องยนต์เช่น Hadoop การจัดเก็บข้อมูลที่แตกต่างกันกลายเป็นเรื่องง่าย ไม่จำเป็นต้องสร้างโมเดลข้อมูลลงในสคีมาทั่วทั้งองค์กรด้วย Data Lake
ด้วยปริมาณข้อมูล คุณภาพข้อมูล และข้อมูลเมตาที่เพิ่มขึ้น คุณภาพของการวิเคราะห์ก็เพิ่มขึ้นเช่นกัน
Data Lake นำเสนอความคล่องตัวทางธุรกิจ
เครื่องเรียนรู้ และปัญญาประดิษฐ์สามารถใช้เพื่อทำนายผลกำไรได้
มันให้ความได้เปรียบทางการแข่งขันแก่องค์กรที่ดำเนินการ
ไม่มีโครงสร้างไซโลข้อมูล Data Lake ให้มุมมองลูกค้าแบบ 360 องศา และทำให้การวิเคราะห์มีประสิทธิภาพมากขึ้น

ดาต้าเลค Archiเทคเจอร์

รูปภาพแสดงสถาปัตยกรรมของ Business Data Lake ระดับล่างแสดงถึงข้อมูลที่ส่วนใหญ่ไม่ได้ใช้งาน ในขณะที่ระดับบนแสดงข้อมูลการทำธุรกรรมแบบเรียลไทม์ ข้อมูลนี้จะไหลผ่านระบบโดยไม่มีหรือมีเวลาแฝงเพียงเล็กน้อย ต่อไปนี้คือระดับที่สำคัญใน Data Lake Archiเทคเจอร์:

ระดับการกลืนกิน: ระดับทางด้านซ้ายแสดงถึงแหล่งข้อมูล ข้อมูลสามารถโหลดลงใน Data Lake เป็นกลุ่มหรือแบบเรียลไทม์ได้
ระดับข้อมูลเชิงลึก: ระดับทางด้านขวาแสดงถึงด้านการวิจัยที่ใช้ข้อมูลเชิงลึกจากระบบ SQL, การสืบค้น NoSQL หรือแม้แต่ Excel ก็สามารถนำมาใช้ในการวิเคราะห์ข้อมูลได้
เอชดีเอฟเอส เป็นโซลูชันที่คุ้มค่าสำหรับทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง เป็นโซนลงจอดสำหรับข้อมูลทั้งหมดที่เหลืออยู่ในระบบ
ชั้นการกลั่น ดึงข้อมูลจากชั้นจัดเก็บข้อมูลและแปลงเป็นข้อมูลที่มีโครงสร้างเพื่อให้วิเคราะห์ได้ง่ายขึ้น
ระดับการประมวลผล รันอัลกอริธึมการวิเคราะห์และสอบถามผู้ใช้ด้วยข้อมูลเชิงโต้ตอบแบบเรียลไทม์ที่หลากหลายเป็นชุดเพื่อสร้างข้อมูลที่มีโครงสร้างเพื่อการวิเคราะห์ที่ง่ายดายยิ่งขึ้น
ระดับการดำเนินงานแบบรวม ควบคุมการจัดการและติดตามระบบ รวมถึงการตรวจสอบและการจัดการความชำนาญ การจัดการข้อมูล การจัดการเวิร์กโฟลว์.

คีย์ดาต้าเลค Concepts

ต่อไปนี้เป็นแนวคิดหลักของ Data Lake ที่จำเป็นต้องเข้าใจเพื่อให้เข้าใจ Data Lake อย่างสมบูรณ์ Archiเทคเจอร์

การกลืนกินข้อมูล

การนำเข้าข้อมูลช่วยให้ตัวเชื่อมต่อสามารถรับข้อมูลจากแหล่งข้อมูลที่แตกต่างกันและโหลดลงใน Data Lake

การนำเข้าข้อมูลรองรับ:

ข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างทุกประเภท
การนำเข้าหลายรายการ เช่น แบทช์ เรียลไทม์ การโหลดครั้งเดียว
แหล่งข้อมูลหลายประเภท เช่น ฐานข้อมูล, เว็บเซิร์ฟเวอร์, อีเมล์, IoTและเอฟทีพี

การจัดเก็บข้อมูล

พื้นที่จัดเก็บข้อมูลควรปรับขนาดได้ ให้พื้นที่จัดเก็บข้อมูลที่คุ้มค่า และช่วยให้สามารถเข้าถึงการสำรวจข้อมูลได้อย่างรวดเร็ว ควรรองรับรูปแบบข้อมูลที่หลากหลาย

การกำกับดูแลข้อมูล

การกำกับดูแลข้อมูลเป็นกระบวนการจัดการความพร้อมใช้งาน การใช้งาน ความปลอดภัย และความสมบูรณ์ของข้อมูลที่ใช้ในองค์กร

⁠ความปลอดภัย

จำเป็นต้องมีการรักษาความปลอดภัยในทุกชั้นของ Data Lake มันเริ่มต้นด้วยการจัดเก็บ การขุดค้น และการบริโภค ความจำเป็นขั้นพื้นฐานคือการหยุดการเข้าถึงสำหรับผู้ใช้ที่ไม่ได้รับอนุญาต ควรสนับสนุนเครื่องมือต่างๆ เพื่อเข้าถึงข้อมูลด้วย GUI และแดชบอร์ดที่ใช้งานง่าย

การรับรองความถูกต้อง การบัญชี การอนุญาต และการปกป้องข้อมูลเป็นคุณสมบัติที่สำคัญบางประการของการรักษาความปลอดภัย Data Lake

คุณภาพของข้อมูล

คุณภาพของข้อมูลเป็นองค์ประกอบสำคัญของสถาปัตยกรรม Data Lake ข้อมูลถูกนำมาใช้เพื่อสร้างมูลค่าทางธุรกิจที่แท้จริง ตัวอย่างเช่นtracการดึงข้อมูลเชิงลึกจากข้อมูลคุณภาพต่ำจะนำไปสู่ข้อมูลเชิงลึกที่มีคุณภาพต่ำเช่นกัน

การค้นพบข้อมูล

การค้นพบข้อมูลเป็นอีกขั้นตอนสำคัญก่อนที่คุณจะเริ่มเตรียมข้อมูลหรือการวิเคราะห์ได้ ในขั้นตอนนี้ เทคนิคการแท็กจะใช้เพื่อแสดงความเข้าใจข้อมูล โดยการจัดระเบียบและตีความข้อมูลที่นำเข้าใน Data Lake

การตรวจสอบข้อมูล

งานตรวจสอบข้อมูลหลักๆ มีสองอย่าง ได้แก่ tracการเปลี่ยนแปลงของราชาต่อชุดข้อมูลหลัก

Tracking การเปลี่ยนแปลงองค์ประกอบสำคัญของชุดข้อมูล
จับภาพว่า/เมื่อ/ใครเปลี่ยนแปลงองค์ประกอบเหล่านี้อย่างไร/เมื่อใด

การตรวจสอบข้อมูลช่วยในการประเมินความเสี่ยงและการปฏิบัติตามกฎระเบียบ

สายข้อมูล

ส่วนประกอบนี้เกี่ยวข้องกับที่มาของข้อมูล โดยหลักๆ แล้วมันจะจัดการกับว่าข้อมูลเคลื่อนที่ไปที่ใดเมื่อเวลาผ่านไป และเกิดอะไรขึ้นกับข้อมูลบ้าง มันช่วยให้การแก้ไขข้อผิดพลาดในกระบวนการวิเคราะห์ข้อมูลตั้งแต่ต้นทางจนถึงปลายทางทำได้ง่ายขึ้น

การสำรวจข้อมูล

เป็นขั้นตอนเริ่มต้นของการวิเคราะห์ข้อมูล ช่วยระบุชุดข้อมูลที่ถูกต้องซึ่งมีความสำคัญก่อนเริ่มการสำรวจข้อมูล

ส่วนประกอบที่กำหนดทั้งหมดจำเป็นต้องทำงานร่วมกันเพื่อมีบทบาทสำคัญในการสร้าง Data Lake พัฒนาและสำรวจสภาพแวดล้อมได้อย่างง่ายดาย

แพลตฟอร์ม Data Lake ยอดนิยม

โครงสร้างระดับต่างๆ ที่อธิบายไว้ข้างต้น มักประกอบขึ้นจากบริการคลาวด์แบบจัดการ มากกว่าที่จะสร้างขึ้นใหม่ทั้งหมด แพลตฟอร์มด้านล่างครอบคลุมเลเยอร์การจัดเก็บและการจัดทำแคตตาล็อก ซึ่งเป็นจุดเริ่มต้นของการใช้งานส่วนใหญ่

Amazon S3 พร้อมการจำลองการก่อตัวของทะเลสาบ AWS: ระบบจัดเก็บข้อมูลแบบอ็อบเจ็กต์ที่ทำงานร่วมกับบริการที่ลงทะเบียนแหล่งข้อมูล กำหนดสิทธิ์ และสร้างแคตตาล็อกข้อมูล ดูรายละเอียดเพิ่มเติมได้ที่ บทช่วยสอน AWS เพื่อระบบนิเวศที่กว้างขึ้น
Azure ระบบจัดเก็บข้อมูลแบบ Data Lake รุ่นที่ 2: เพิ่มเนมสเปซแบบลำดับชั้นไว้บน Blob Storage ซึ่งช่วยให้มีการรักษาความปลอดภัยในระดับไดเร็กทอรีและเข้าถึงการวิเคราะห์ได้เร็วขึ้น
Google Cloud พื้นที่จัดเก็บข้อมูลกับ BigLake: ผสานรวมการจัดเก็บข้อมูลแบบอ็อบเจ็กต์เข้ากับเลเยอร์การสืบค้นข้อมูลที่อ่านรูปแบบตารางแบบเปิดได้โดยตรง
Apache Hadoop กับ HDFS: ตัวเลือกแบบติดตั้งในองค์กรดั้งเดิม ซึ่งยังคงใช้ในกรณีที่ข้อมูลต้องคงอยู่ภายในศูนย์ข้อมูลส่วนตัว
Databricks และ Snowflake: แพลตฟอร์มที่รองรับรูปแบบตารางแบบเลเยอร์ เช่น Delta Lake และ Apache Iceberg บนระบบจัดเก็บข้อมูลแบบอ็อบเจ็กต์ เพื่อเพิ่มฟังก์ชันการทำธุรกรรมและการกำหนดเวอร์ชัน

โดยปกติแล้ว การเลือกผู้ให้บริการคลาวด์จะขึ้นอยู่กับผู้ให้บริการคลาวด์ที่องค์กรใช้งานอยู่แล้ว เนื่องจากกระบวนการนำเข้าข้อมูลและ เครื่องมืออัจฉริยะทางธุรกิจ บูรณาการอย่างประหยัดที่สุดภายในระบบนิเวศเดียว

ระยะการเจริญเติบโตของ Data Lake

การกำหนดขั้นตอนความสมบูรณ์ของ Data Lake นั้นแตกต่างกันไปตามตำราเรียน แม้ว่าประเด็นสำคัญจะยังคงเหมือนเดิม เมื่อพิจารณาจากความสมบูรณ์แล้ว การกำหนดขั้นตอนจะพิจารณาจากมุมมองของผู้ที่ไม่ใช่มืออาชีพ

ขั้นที่ 1: จัดการและนำเข้าข้อมูลตามขนาด

ขั้นตอนแรกของ Data Maturity คือการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ที่นี่ เจ้าของธุรกิจจำเป็นต้องค้นหาเครื่องมือตามทักษะของตนเพื่อรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชันเชิงวิเคราะห์

ขั้นตอนที่ 2: การสร้างกล้ามเนื้อวิเคราะห์

นี่เป็นขั้นตอนที่สองที่เกี่ยวข้องกับการปรับปรุงความสามารถในการแปลงและวิเคราะห์ข้อมูล ในขั้นตอนนี้ บริษัทต่างๆ จะใช้เครื่องมือที่เหมาะสมกับชุดทักษะของตนมากที่สุด พวกเขาเริ่มรับข้อมูลเพิ่มเติมและสร้างแอปพลิเคชัน ในที่นี้ ความสามารถของคลังข้อมูลขององค์กรและ Data Lake จะถูกนำมาใช้ร่วมกัน

ขั้นที่ 3: EDW และ Data Lake ทำงานร่วมกัน

ขั้นตอนนี้เกี่ยวข้องกับการนำข้อมูลและการวิเคราะห์มาสู่มือของผู้คนจำนวนมากที่สุดเท่าที่จะเป็นไปได้ ในขั้นตอนนี้ Data Lake และคลังข้อมูลขององค์กรจะเริ่มทำงานร่วมกัน ทั้งสองมีส่วนร่วมในการวิเคราะห์

ขั้นที่ 4: ความสามารถระดับองค์กรในทะเลสาบ

ในช่วงการเจริญเติบโตของ Data Lake นี้ ความสามารถระดับองค์กรจะถูกเพิ่มเข้าไปใน Data Lake การนำการกำกับดูแลข้อมูล ความสามารถในการจัดการวงจรข้อมูล และการจัดการเมตาดาต้ามาใช้ อย่างไรก็ตาม มีองค์กรเพียงไม่กี่แห่งที่สามารถบรรลุถึงระดับวุฒิภาวะนี้ได้ แต่จำนวนนี้จะเพิ่มขึ้นในอนาคต

แนวปฏิบัติที่ดีที่สุดสำหรับการใช้งาน Data Lake

Archiส่วนประกอบทางโครงสร้าง การโต้ตอบ และผลิตภัณฑ์ที่ระบุควรสนับสนุนประเภทข้อมูลดั้งเดิม
การออกแบบ Data Lake ควรขับเคลื่อนโดยสิ่งที่มีอยู่แทนที่จะเป็นสิ่งจำเป็น ข้อกำหนดสคีมาและข้อมูลไม่ได้ถูกกำหนดไว้จนกว่าจะมีการสอบถาม
การออกแบบควรได้รับคำแนะนำจากส่วนประกอบแบบใช้แล้วทิ้งที่รวมเข้ากับบริการ API
การค้นพบข้อมูล การนำเข้า การจัดเก็บ การดูแลระบบ คุณภาพ การเปลี่ยนแปลง และการแสดงภาพควรได้รับการจัดการอย่างเป็นอิสระ
สถาปัตยกรรม Data Lake ควรได้รับการปรับแต่งให้เหมาะกับอุตสาหกรรมเฉพาะ ควรให้แน่ใจว่าความสามารถที่จำเป็นสำหรับโดเมนนั้นเป็นส่วนสำคัญในการออกแบบ
การเริ่มต้นใช้งานแหล่งข้อมูลที่เพิ่งค้นพบได้เร็วขึ้นเป็นสิ่งสำคัญ
Data Lake ช่วยให้การจัดการแบบกำหนดเองมีประสิทธิภาพยิ่งขึ้นtracค่าสูงสุด t
Data Lake ควรสนับสนุนเทคนิคและวิธีการจัดการข้อมูลองค์กรที่มีอยู่

ความท้าทายในการสร้าง Data Lake:

ใน Data Lake ปริมาณข้อมูลจะสูงกว่า ดังนั้นกระบวนการจึงต้องอาศัยการดูแลระบบแบบเป็นโปรแกรมมากขึ้น
เป็นการยากที่จะจัดการกับข้อมูลที่กระจัดกระจาย ไม่สมบูรณ์ และผันผวน
ขอบเขตของชุดข้อมูลและแหล่งที่มาที่กว้างขึ้นจำเป็นต้องมีการกำกับดูแลและการสนับสนุนข้อมูลที่ใหญ่กว่า

⚠️คำเตือน: ทะเลสาบที่ปราศจากเมตาเดตาที่จัดทำเป็นแคตตาล็อกและกฎการเข้าถึงที่บังคับใช้ จะกลายเป็นบึงข้อมูล ข้อมูลมีอยู่แต่ไม่มีใครสามารถค้นหา เชื่อถือ หรือพิสูจน์ได้ว่าใครเป็นผู้เปลี่ยนแปลง ดังนั้น การกำกับดูแลจึงเป็นข้อกำหนดตั้งแต่เริ่มต้น ไม่ใช่ขั้นตอนในภายหลัง

ความแตกต่างระหว่าง Data Lake และคลังข้อมูล

ตารางเปรียบเทียบต่อไปนี้สรุปว่าแต่ละร้านค้าอยู่ในตำแหน่งใด สามารถดูรายละเอียดเพิ่มเติมได้ใน... ดาต้าเลค กับ ดาต้าแวร์เฮาส์ การเปรียบเทียบ

พารามิเตอร์	ทะเลสาบข้อมูล	คลังข้อมูล
ข้อมูล	Data Lake จัดเก็บทุกสิ่ง	คลังข้อมูลมุ่งเน้นไปที่กระบวนการทางธุรกิจเท่านั้น
กระบวนการผลิต	ข้อมูลส่วนใหญ่ยังไม่ได้รับการประมวลผล	ข้อมูลที่ประมวลผลสูง
ประเภทของข้อมูล	อาจเป็นแบบไม่มีโครงสร้าง กึ่งโครงสร้าง และแบบมีโครงสร้าง	ส่วนใหญ่จะอยู่ในรูปแบบและโครงสร้างแบบตาราง
งาน	แบ่งปันการดูแลข้อมูล	ปรับให้เหมาะสมสำหรับการดึงข้อมูล
ความว่องไว	มีความคล่องตัวสูง กำหนดค่าและกำหนดค่าใหม่ได้ตามต้องการ	เมื่อเปรียบเทียบกับ Data Lake จะมีความคล่องตัวน้อยกว่าและมีการกำหนดค่าคงที่
ล้านคน	Data Lake ส่วนใหญ่จะใช้งานโดย Data Scientist	นักธุรกิจใช้คลังข้อมูลกันอย่างแพร่หลาย
พื้นที่จัดเก็บ	การออกแบบ Data Lake เพื่อการจัดเก็บข้อมูลราคาประหยัด	มีการใช้พื้นที่เก็บข้อมูลราคาแพงที่ให้เวลาตอบสนองที่รวดเร็ว
⁠ความปลอดภัย	ให้การควบคุมน้อยลง	ช่วยให้สามารถควบคุมข้อมูลได้ดียิ่งขึ้น
การทดแทน EDW	Data Lake สามารถเป็นแหล่งสำหรับ EDW ได้	เสริมกับ EDW (ไม่ใช่การแทนที่)
schema	สคีมาในการอ่าน (ไม่มีสคีมาที่กำหนดไว้ล่วงหน้า)	สคีมาในการเขียน (สคีมาที่กำหนดไว้ล่วงหน้า)
การประมวลผล	ช่วยในการนำเข้าข้อมูลใหม่อย่างรวดเร็ว	ใช้เวลานานในการแนะนำเนื้อหาใหม่
รายละเอียดข้อมูล	ข้อมูลที่มีรายละเอียดหรือรายละเอียดในระดับต่ำ	ข้อมูลในระดับสรุปหรือระดับรายละเอียดรวม
เครื่องมือ	สามารถใช้โอเพ่นซอร์ส/เครื่องมือ เช่น Hadoop/ Map ลดได้	เครื่องมือเชิงพาณิชย์ส่วนใหญ่

Data Lakehouse คืออะไร?

การเปรียบเทียบข้างต้นตั้งอยู่บนสมมติฐานของระบบสองระบบที่แยกจากกัน Data Lakehouse คือระบบที่รวมระบบทั้งสองเข้าเป็นระบบเดียว ซึ่งเป็นเหตุผลว่าทำไมคำนี้จึงปรากฏในการอภิปรายด้านสถาปัตยกรรมส่วนใหญ่ในปัจจุบัน

บ้านพักริมทะเลสาบจะเก็บไฟล์ดิบไว้ในพื้นที่จัดเก็บข้อมูลแบบอ็อบเจ็กต์ราคาประหยัด จากนั้นจึงเพิ่มเลเยอร์เมตาเดต้าแบบธุรกรรมผ่านรูปแบบตารางแบบเปิด เช่น Delta Lake, Apache Iceberg หรือ Apache Hudi เลเยอร์นี้ให้การรับประกันเช่นเดียวกับคลังเก็บข้อมูล ในขณะที่ไฟล์พื้นฐานยังคงเปิดอยู่

ความสามารถ	ดาต้าเลค	ดาต้าเลคเฮาส์
การทำธุรกรรม	ไม่ได้รับการสนับสนุน	ธุรกรรม ACID บนตาราง
การจัดการสคีมา	โครงสร้างข้อมูลอยู่ในโหมดอ่านอย่างเดียว	การบังคับใช้และการพัฒนารูปแบบโครงสร้างข้อมูล
ผู้ใช้งานหลัก	นักวิทยาศาสตร์ข้อมูล	นักวิเคราะห์และนักวิทยาศาสตร์ข้อมูลทำงานร่วมกัน
ความเร็วในการรายงาน	ทำงานช้าหากไม่มีคลังสินค้าแยกต่างหาก	การค้นหาข้อมูลโดยตรงพร้อมการจัดทำดัชนีและการแคช

สำหรับทีมที่ใช้งานระบบจัดเก็บข้อมูลแบบ Lake ที่มีการควบคุมอยู่แล้ว การเปลี่ยนมาใช้รูปแบบตารางมักเป็นการอัปเกรดแบบค่อยเป็นค่อยไปมากกว่าการสร้างใหม่ทั้งหมด

ประโยชน์และความเสี่ยงของการใช้ Data Lake

ต่อไปนี้เป็นประโยชน์หลักๆ บางประการในการใช้ Data Lake:

ช่วยได้อย่างเต็มที่ในการนำข้อมูลไปใช้ในการผลิตและการวิเคราะห์ขั้นสูง
ให้ความสามารถในการปรับขนาดและความยืดหยุ่นที่คุ้มค่า
มอบคุณค่าจากข้อมูลไม่จำกัดประเภท
ลดต้นทุนการเป็นเจ้าของในระยะยาว
ช่วยให้ประหยัดการจัดเก็บไฟล์
ปรับให้เข้ากับการเปลี่ยนแปลงได้อย่างรวดเร็ว
ข้อได้เปรียบหลักของ Data Lake คือ การรวบอำนาจ ของแหล่งเนื้อหาต่างๆ
ผู้ใช้จากหลากหลายแผนกอาจจะกระจายอยู่ทั่วโลกก็ได้ การเข้าถึงที่ยืดหยุ่น ไปยังข้อมูล

ความเสี่ยงในการใช้ Data Lake:

หลังจากผ่านไประยะหนึ่ง Data Lake อาจสูญเสียความเกี่ยวข้องและโมเมนตัม
มีความเสี่ยงจำนวนมากที่เกี่ยวข้องในขณะที่ออกแบบ Data Lake
ข้อมูลที่ไม่มีโครงสร้างอาจนำไปสู่ความโกลาหลที่ไร้การควบคุม ข้อมูลที่ใช้การไม่ได้ เครื่องมือที่แตกต่างและซับซ้อน และการทำงานร่วมกันที่อ่อนแอในระดับองค์กร
นอกจากนี้ยังเพิ่มค่าใช้จ่ายในการจัดเก็บและคำนวณอีกด้วย
ไม่มีทางที่จะได้รับข้อมูลเชิงลึกจากผู้อื่นที่เคยทำงานกับข้อมูลเพราะไม่มีบัญชีของเชื้อสายของการค้นพบโดยนักวิเคราะห์ก่อนหน้านี้
ความเสี่ยงที่ใหญ่ที่สุดของ Data Lake คือความปลอดภัยและการควบคุมการเข้าถึง บางครั้งข้อมูลสามารถถูกวางลงในทะเลสาบได้โดยไม่ต้องมีการควบคุมดูแลใดๆ เนื่องจากข้อมูลบางส่วนอาจมีความต้องการความเป็นส่วนตัวและกฎระเบียบ

คำถามที่พบบ่อย

การนำเข้าไฟล์โดยไม่มีแท็กเมตาเดตา ข้อมูลการเป็นเจ้าของ หรือกฎการเก็บรักษา ทำให้ผู้ใช้ไม่สามารถระบุได้ว่าชุดข้อมูลใดเป็นปัจจุบันหรือน่าเชื่อถือ ส่งผลให้คลังข้อมูลเต็มไปด้วยข้อมูลซ้ำซ้อนที่ไม่มีใครเรียกใช้

รูปแบบข้อมูลแบบคอลัมน์ เช่น Parquet และ ORC สามารถบีบอัดได้ดีและช่วยให้การค้นหาอ่านเฉพาะคอลัมน์ที่ต้องการเท่านั้น ส่วน JSON และ CSV ยังคงมีประโยชน์ในพื้นที่จัดเก็บข้อมูลดิบก่อนการแปลง

การฝึกฝนโมเดลต้องการข้อมูลดิบจำนวนมากและหลากหลาย ซึ่งเป็นสิ่งที่ทะเลสาบสามารถเก็บรักษาไว้ได้ ทีมงานจะอ่านข้อมูลโดยตรงจากที่เก็บข้อมูลแบบอ็อบเจ็กต์ แทนที่จะส่งออกข้อมูลจากคลังข้อมูล

ใช่แล้ว บริการ AI จะสแกนไฟล์ที่เข้ามา วิเคราะห์โครงสร้างข้อมูล แนะนำแท็กเมตาเดตา และทำเครื่องหมายคอลัมน์ที่ดูเหมือนจะเป็นข้อมูลส่วนบุคคล อย่างไรก็ตาม ผู้ดูแลระบบที่เป็นมนุษย์ยังคงอนุมัติการจัดประเภทก่อนที่จะบังคับใช้ระเบียบข้อบังคับ

ใช้กฎวงจรชีวิตของพื้นที่จัดเก็บข้อมูลเพื่อย้ายไฟล์ที่ไม่ได้ใช้งานไปยังระดับการจัดเก็บถาวร บีบอัดไฟล์ขนาดเล็กให้เป็นไฟล์ขนาดใหญ่ และแบ่งพาร์ติชันข้อมูลเพื่อให้การค้นหาสแกนน้อยลง โดยปกติแล้วค่าใช้จ่ายส่วนใหญ่จะมาจากการประมวลผล ไม่ใช่การจัดเก็บข้อมูล

Data Lake คืออะไร? คำจำกัดความ Archiสถาปัตยกรรมและแนวปฏิบัติที่ดีที่สุด

Data Lake คืออะไร?

ทำไมต้องดาต้าเลค?

ดาต้าเลค Archiเทคเจอร์

คีย์ดาต้าเลค Concepts

การกลืนกินข้อมูล

การจัดเก็บข้อมูล

การกำกับดูแลข้อมูล

⁠ความปลอดภัย

คุณภาพของข้อมูล

การค้นพบข้อมูล

การตรวจสอบข้อมูล

สายข้อมูล

การสำรวจข้อมูล

แพลตฟอร์ม Data Lake ยอดนิยม

ระยะการเจริญเติบโตของ Data Lake

ขั้นที่ 1: จัดการและนำเข้าข้อมูลตามขนาด

ขั้นตอนที่ 2: การสร้างกล้ามเนื้อวิเคราะห์

ขั้นที่ 3: EDW และ Data Lake ทำงานร่วมกัน

ขั้นที่ 4: ความสามารถระดับองค์กรในทะเลสาบ

แนวปฏิบัติที่ดีที่สุดสำหรับการใช้งาน Data Lake

ความแตกต่างระหว่าง Data Lake และคลังข้อมูล

Data Lakehouse คืออะไร?

ประโยชน์และความเสี่ยงของการใช้ Data Lake

คำถามที่พบบ่อย

สรุปโพสต์นี้ด้วย:

ลงทะเบียนเพื่อรับจดหมายข่าว

Data Lake คืออะไร?

ทำไมต้องดาต้าเลค?

ดาต้าเลค Archiเทคเจอร์

คีย์ดาต้าเลค Concepts

การกลืนกินข้อมูล

การจัดเก็บข้อมูล

การกำกับดูแลข้อมูล

⁠ความปลอดภัย

คุณภาพของข้อมูล

การค้นพบข้อมูล

การตรวจสอบข้อมูล

สายข้อมูล

การสำรวจข้อมูล

บทความที่เกี่ยวข้อง

แพลตฟอร์ม Data Lake ยอดนิยม

ระยะการเจริญเติบโตของ Data Lake

ขั้นที่ 1: จัดการและนำเข้าข้อมูลตามขนาด

ขั้นตอนที่ 2: การสร้างกล้ามเนื้อวิเคราะห์

ขั้นที่ 3: EDW และ Data Lake ทำงานร่วมกัน

ขั้นที่ 4: ความสามารถระดับองค์กรในทะเลสาบ

แนวปฏิบัติที่ดีที่สุดสำหรับการใช้งาน Data Lake

ความแตกต่างระหว่าง Data Lake และคลังข้อมูล

Data Lakehouse คืออะไร?

ประโยชน์และความเสี่ยงของการใช้ Data Lake

คำถามที่พบบ่อย

สรุปโพสต์นี้ด้วย:

ลงทะเบียนเพื่อรับจดหมายข่าว