Apa itu Danau Data? Dia Architekstur: Tutorial Data Lake

Apa itu Danau Data?

Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar. Ini adalah tempat untuk menyimpan setiap jenis data dalam format aslinya tanpa batasan tetap pada ukuran akun atau file. Ini menawarkan kuantitas data yang tinggi untuk meningkatkan kinerja analitik dan integrasi asli.

Data Lake seperti wadah besar yang sangat mirip dengan danau dan sungai sungguhan. Sama seperti danau yang memiliki banyak anak sungai, data lake memiliki data terstruktur, data tak terstruktur, mesin ke mesin, log yang mengalir secara real-time.

Danau Data
Danau Data

Data Lake mendemokratisasi data dan merupakan cara yang hemat biaya untuk menyimpan semua data organisasi untuk diproses kemudian. Analis Riset dapat berfokus pada pencarian pola makna dalam data dan bukan pada data itu sendiri.

Berbeda dengan hierarki Gudang data tempat data disimpan dalam File dan Folder, Data Lake memiliki arsitektur yang datar. Setiap elemen data dalam Data Lake diberi pengenal unik dan diberi tag dengan serangkaian informasi metadata.

Mengapa Danau Data?

Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang belum sempurna kepada para data scientist.

Alasan menggunakan Data Lake adalah:

  • Dengan timbulnya mesin penyimpanan seperti Hadoop menyimpan informasi yang berbeda menjadi mudah. Tidak perlu memodelkan data ke dalam skema seluruh perusahaan dengan Data Lake.
  • Dengan meningkatnya volume data, kualitas data, dan metadata, kualitas analisis juga meningkat.
  • Data Lake menawarkan Ketangkasan bisnis
  • Pembelajaran mesin dan Kecerdasan Buatan dapat digunakan untuk membuat prediksi yang menguntungkan.
  • Hal ini menawarkan keunggulan kompetitif bagi organisasi pelaksana.
  • Tidak ada struktur silo data. Data Lake memberikan pandangan 360 derajat terhadap pelanggan dan menjadikan analisis lebih kuat.

Danau Data Architekstur

Danau Data Architekstur
Danau Data Architekstur

Gambar tersebut menunjukkan arsitektur Business Data Lake. Tingkat yang lebih rendah mewakili data yang sebagian besar tidak aktif sementara tingkat yang lebih tinggi menunjukkan data transaksional waktu nyata. Data ini mengalir melalui sistem tanpa atau dengan sedikit latensi. Berikut ini adalah tingkatan penting dalam Data Lake Architekstur:

  1. Tingkat Penyerapan: Tingkatan di sisi kiri menggambarkan sumber data. Data dapat dimuat ke dalam data lake secara batch atau real-time
  2. Tingkat Wawasan: Tingkatan di sebelah kanan mewakili sisi penelitian di mana wawasan dari sistem digunakan. SQL, kueri NoSQL, atau bahkan excel dapat digunakan untuk analisis data.
  3. HDFS adalah solusi hemat biaya untuk data terstruktur dan tidak terstruktur. Ini adalah zona pendaratan untuk semua data yang disimpan di sistem.
  4. Tingkat distilasi mengambil data dari ban penyimpanan dan mengubahnya menjadi data terstruktur untuk memudahkan analisis.
  5. Tingkat pemrosesan menjalankan algoritma analitik dan kueri pengguna dengan batch yang bervariasi secara real-time, interaktif, untuk menghasilkan data terstruktur untuk memudahkan analisis.
  6. Tingkat operasi terpadu mengatur pengelolaan dan pemantauan sistem. Ini mencakup audit dan manajemen kemahiran, manajemen data, manajemen alur kerja.

Danau Data Utama Concepts

Berikut ini adalah konsep-konsep utama Data Lake yang perlu dipahami untuk memahami Data Lake secara menyeluruh Architekstur

kunci Concepts dari Danau Data
kunci Concepts dari Danau Data

Tertelan data

Penyerapan Data memungkinkan konektor untuk mendapatkan data dari sumber data yang berbeda dan memuat ke dalam Data lake.

Dukungan Penyerapan Data:

  • Semua jenis data Terstruktur, Semi Terstruktur, dan Tidak Terstruktur.
  • Penyerapan berulang seperti Batch, Real-Time, Pemuatan satu kali.
  • Banyak jenis sumber data seperti Database, Webserver, Email, IOT, dan FTP.

Penyimpanan Data

Penyimpanan data harus terukur, menawarkan penyimpanan hemat biaya, dan memungkinkan akses cepat ke eksplorasi data. Itu harus mendukung berbagai format data.

Tata Kelola Data

Tata kelola data adalah proses mengelola ketersediaan, kegunaan, keamanan, dan integritas data yang digunakan dalam suatu organisasi.

Security

Keamanan perlu diterapkan di setiap lapisan Data lake. Dimulai dengan Penyimpanan, Penggalian, dan Konsumsi. Kebutuhan dasarnya adalah menghentikan akses bagi pengguna yang tidak sah. Ini harus mendukung berbagai alat untuk mengakses data dengan GUI dan Dasbor yang mudah dinavigasi.

Otentikasi, Akuntansi, Otorisasi, dan Perlindungan Data adalah beberapa fitur penting dari keamanan data lake.

Kualitas Data

Kualitas data merupakan komponen penting dari arsitektur Data Lake. Data digunakan untuk mendapatkan nilai bisnis yang tepat. Mengekstraksi wawasan dari data berkualitas buruk akan menghasilkan wawasan berkualitas buruk.

Penemuan Data

Penemuan Data adalah tahapan penting lainnya sebelum Anda dapat mulai menyiapkan data atau analisis. Pada tahap ini, teknik penandaan digunakan untuk mengungkapkan pemahaman data, dengan mengatur dan menafsirkan data yang diserap di Data lake.

Audit Data

Dua tugas audit data utama adalah melacak perubahan pada kumpulan data utama.

  1. Melacak perubahan pada elemen kumpulan data penting
  2. Menangkap bagaimana/kapan/ dan siapa yang mengubah elemen-elemen ini.

Audit data membantu mengevaluasi risiko dan kepatuhan.

Silsilah Data

Komponen ini berkaitan dengan asal usul data. Ini terutama berkaitan dengan ke mana ia bergerak seiring waktu dan apa yang terjadi padanya. Ini memudahkan koreksi kesalahan dalam proses analisis data dari asal hingga tujuan.

Eksplorasi Data

Ini adalah tahap awal analisis data. Mengidentifikasi kumpulan data yang tepat sangat penting sebelum memulai Eksplorasi Data.

Semua komponen tertentu perlu bekerja sama untuk memainkan peran penting dalam membangun Data Lake dengan mudah berevolusi dan mengeksplorasi lingkungan.

Tahapan kematangan Data Lake

Definisi Tahapan Kematangan Data Lake berbeda-beda di setiap buku teks. Meskipun inti permasalahannya tetap sama. Setelah kematangan, definisi tahapan berasal dari sudut pandang orang awam.

Tahapan kematangan Data Lake
Tahapan kematangan Data Lake

Tahap 1: Tangani dan serap data dalam skala besar

Tahap pertama Kematangan Data ini Melibatkan peningkatan kemampuan untuk mengubah dan menganalisis data. Di sini, pemilik bisnis perlu menemukan alat sesuai dengan keahlian mereka untuk memperoleh lebih banyak data dan membangun aplikasi analitis.

Tahap 2: Membangun kekuatan analitis

Ini adalah tahap kedua yang melibatkan peningkatan kemampuan untuk mengubah dan menganalisis data. Pada tahap ini, perusahaan menggunakan alat yang paling sesuai dengan keahlian mereka. Mereka mulai memperoleh lebih banyak data dan membangun aplikasi. Di sini, kemampuan gudang data perusahaan dan data lake digunakan secara bersamaan.

Tahap 3: EDW dan Data Lake bekerja secara serempak

Langkah ini melibatkan penyerahan data dan analisis ke tangan sebanyak mungkin orang. Pada tahap ini, data lake dan gudang data perusahaan mulai bekerja secara terpadu. Keduanya memainkan peran mereka dalam analitik

Tahap 4: Kemampuan usaha di danau

Dalam tahap kematangan data lake ini, kemampuan perusahaan ditambahkan ke Data Lake. Penerapan tata kelola informasi, kemampuan manajemen siklus hidup informasi, dan manajemen Metadata. Namun, sangat sedikit organisasi yang dapat mencapai tingkat kedewasaan ini, namun angka ini akan meningkat di masa depan.

Praktik terbaik untuk Implementasi Data Lake

  • Archikomponen tekstur, interaksinya, dan produk yang diidentifikasi harus mendukung tipe data asli
  • Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan. Skema dan persyaratan data tidak ditentukan sampai ditanyakan
  • Desain harus dipandu oleh komponen sekali pakai yang terintegrasi dengan API layanan.
  • Penemuan, penyerapan, penyimpanan, administrasi, kualitas, transformasi, dan visualisasi data harus dikelola secara independen.
  • Arsitektur Data Lake harus disesuaikan dengan industri tertentu. Arsitektur ini harus memastikan bahwa kapabilitas yang diperlukan untuk domain tersebut merupakan bagian yang tidak terpisahkan dari desain.
  • Orientasi yang lebih cepat terhadap sumber data yang baru ditemukan adalah hal yang penting
  • Data Lake membantu manajemen yang disesuaikan untuk mengekstraksi nilai maksimal
  • Data Lake harus mendukung teknik dan metode pengelolaan data perusahaan yang ada

Tantangan dalam membangun data lake:

  • Di Data Lake, volume data lebih tinggi, sehingga prosesnya harus lebih bergantung pada administrasi terprogram
  • Sulit untuk menangani data yang jarang, tidak lengkap, dan mudah berubah
  • Cakupan kumpulan data dan sumber yang lebih luas memerlukan tata kelola & dukungan data yang lebih besar

Perbedaan antara Data Lake dan Data Warehouse

Parameter Teknis Danau Data Gudang data
Data Data lake menyimpan segalanya. Gudang Data hanya berfokus pada Proses Bisnis.
Pengolahan Data sebagian besar belum diproses Data yang sangat diproses.
Jenis Data Itu bisa tidak terstruktur, semi terstruktur, dan terstruktur. Sebagian besar dalam bentuk & struktur tabel.
tugas Berbagi pengelolaan data Dioptimalkan untuk pengambilan data
Kelincahan Sangat lincah, konfigurasikan dan konfigurasi ulang sesuai kebutuhan. Dibandingkan dengan Data lake, ini kurang gesit dan memiliki konfigurasi tetap.
pengguna Data Lake sebagian besar digunakan oleh Data Scientist Profesional bisnis banyak menggunakan data Warehouse
Storage Desain data lake untuk penyimpanan berbiaya rendah. Penyimpanan mahal yang memberikan waktu respons cepat digunakan
Security Menawarkan kontrol yang lebih rendah. Memungkinkan kontrol data yang lebih baik.
Penggantian EDW Data lake dapat menjadi sumber untuk EDW Pelengkap EDW (bukan pengganti)
Skema Skema membaca (tidak ada skema yang telah ditentukan sebelumnya) Skema saat menulis (skema yang telah ditentukan sebelumnya)
Pengolahan data Membantu penyerapan data baru dengan cepat. Membutuhkan waktu untuk memperkenalkan konten baru.
Granularitas Data Data dengan tingkat detail atau granularitas yang rendah. Data pada tingkat ringkasan atau tingkat detail gabungan.
Tools Dapat menggunakan open source/alat seperti Hadoop/Map Reduce Sebagian besar alat komersial.

Manfaat dan Resiko menggunakan Data Lake

Berikut adalah beberapa manfaat utama dalam menggunakan Data Lake:

  • Membantu sepenuhnya dalam pengionan produk & analisis tingkat lanjut
  • Menawarkan skalabilitas dan fleksibilitas yang hemat biaya
  • Menawarkan nilai dari tipe data tak terbatas
  • Mengurangi biaya kepemilikan jangka panjang
  • Memungkinkan penyimpanan file yang ekonomis
  • Cepat beradaptasi terhadap perubahan
  • Keuntungan utama dari data lake adalah sentralisasi dari sumber konten yang berbeda
  • Pengguna, dari berbagai departemen, mungkin tersebar di seluruh dunia akses fleksibel ke data

Risiko Penggunaan Data Lake:

  • Setelah beberapa waktu, Data Lake mungkin kehilangan relevansi dan momentumnya
  • Ada risiko yang lebih besar yang terlibat saat merancang Data Lake
  • Data yang Tidak Terstruktur dapat menyebabkan Kekacauan yang Tidak Terkendali, Data yang Tidak Dapat Digunakan, Alat yang Berbeda & Kompleks, Kolaborasi Seluruh Perusahaan, Terpadu, Konsisten, dan Umum
  • Ini juga meningkatkan biaya penyimpanan & komputasi
  • Tidak ada cara untuk mendapatkan wawasan dari orang lain yang telah bekerja dengan data tersebut karena tidak ada catatan mengenai silsilah temuan dari analis sebelumnya.
  • Risiko terbesar dari data lake adalah keamanan dan kontrol akses. Terkadang data dapat dimasukkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan

Ringkasan

  • Data Lake adalah repositori penyimpanan yang dapat menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur dalam jumlah besar.
  • Tujuan utama membangun data lake adalah untuk menawarkan pandangan data yang belum sempurna kepada para data scientist.
  • Tingkat operasi terpadu, tingkat Pemrosesan, tingkat Distilasi, dan HDFS adalah lapisan penting dari Data Lake Architekstur
  • Penyerapan Data, Penyimpanan data, Kualitas data, Audit Data, Eksplorasi data, Penemuan data adalah beberapa komponen penting dari Data Lake Architekstur
  • Desain Data Lake harus didorong oleh apa yang tersedia, bukan apa yang dibutuhkan.
  • Data Lake mengurangi biaya kepemilikan jangka panjang dan memungkinkan penyimpanan file yang ekonomis
  • Risiko terbesar dari data lake adalah keamanan dan kontrol akses. Terkadang data dapat dimasukkan ke dalam danau tanpa pengawasan apa pun, karena beberapa data mungkin memerlukan privasi dan peraturan.