Proses ETL (Ekstrak, Transformasi, dan Muat) di Gudang Data

Apa itu ETL?

ETL adalah proses yang mengekstrak data dari sistem sumber yang berbeda, kemudian mengubah data (seperti menerapkan penghitungan, penggabungan, dll.) dan terakhir memuat data ke dalam sistem Gudang Data. Bentuk lengkap ETL adalah Ekstrak, Transformasi, dan Muat.

Sangat menggoda untuk berpikir bahwa membuat gudang data hanya mengekstrak data dari berbagai sumber dan memuatnya ke dalam basis data gudang data. Ini jauh dari kebenaran dan memerlukan proses ETL yang rumit. Proses ETL memerlukan masukan aktif dari berbagai pemangku kepentingan termasuk pengembang, analis, penguji, eksekutif puncak dan secara teknis menantang.

Untuk mempertahankan nilainya sebagai alat bagi pengambil keputusan, sistem gudang data perlu berubah seiring dengan perubahan bisnis. ETL adalah aktivitas berulang (harian, mingguan, bulanan) dari sistem gudang data dan perlu tangkas, terotomatisasi, dan didokumentasikan dengan baik.

Mengapa Anda membutuhkan ETL?

Ada banyak alasan untuk mengadopsi ETL dalam organisasi:

  • Ini membantu perusahaan menganalisis data bisnis mereka untuk mengambil keputusan bisnis yang penting.
  • Basis data transaksional tidak dapat menjawab pertanyaan bisnis rumit yang dapat dijawab dengan contoh ETL.
  • Gudang Data menyediakan tempat penyimpanan data umum
  • ETL menyediakan metode untuk memindahkan data dari berbagai sumber ke dalam gudang data.
  • Saat sumber data berubah, Gudang Data akan diperbarui secara otomatis.
  • Sistem ETL yang dirancang dan didokumentasikan dengan baik hampir penting untuk keberhasilan proyek Gudang Data.
  • Izinkan verifikasi aturan transformasi data, agregasi, dan penghitungan.
  • Proses ETL memungkinkan perbandingan data sampel antara sistem sumber dan target.
  • Proses ETL dapat melakukan transformasi yang kompleks dan membutuhkan area tambahan untuk menyimpan data.
  • ETL membantu Memigrasikan data ke Gudang Data. Konversikan ke berbagai format dan tipe untuk mematuhi satu sistem yang konsisten.
  • ETL adalah proses yang telah ditentukan sebelumnya untuk mengakses dan memanipulasi data sumber ke dalam database target.
  • ETL di gudang data menawarkan konteks historis yang mendalam bagi bisnis.
  • Ini membantu meningkatkan produktivitas karena mengkodifikasi dan menggunakan kembali tanpa memerlukan keterampilan teknis.

Proses ETL di Gudang Data

ETL adalah proses 3 langkah

Proses ETL
Proses ETL

Langkah 1) Ekstraksi

Pada langkah arsitektur ETL ini, data diekstrak dari sistem sumber ke area staging. Transformasi jika ada dilakukan di area staging sehingga kinerja sistem sumber tidak menurun. Selain itu, jika data yang rusak disalin langsung dari sumber ke basis data gudang data, rollback akan menjadi tantangan. Area staging memberikan kesempatan untuk memvalidasi data yang diekstrak sebelum dipindahkan ke gudang data.

Data warehouse perlu mengintegrasikan sistem yang berbeda-beda

DBMS, Perangkat Keras, Operating Sistem dan Protokol Komunikasi. Sumber dapat mencakup aplikasi lama seperti Mainframe, aplikasi yang disesuaikan, perangkat Point of contact seperti ATM, Sakelar panggilan, file teks, spreadsheet, ERP, data dari vendor, mitra, dan lain-lain.

Oleh karena itu seseorang memerlukan peta data logis sebelum data diekstraksi dan dimuat secara fisik. Peta data ini menggambarkan hubungan antara sumber dan data sasaran.

Tiga metode Ekstraksi Data:

  1. Ekstraksi Penuh
  2. Ekstraksi Sebagian- tanpa pemberitahuan pembaruan.
  3. Ekstraksi Parsial- dengan pemberitahuan pembaruan

Terlepas dari metode yang digunakan, ekstraksi tidak boleh mempengaruhi kinerja dan waktu respons sistem sumber. Sistem sumber ini adalah database produksi langsung. Perlambatan atau penguncian apa pun dapat mempengaruhi keuntungan perusahaan.

Beberapa validasi dilakukan selama Ekstraksi:

  • Rekonsiliasi catatan dengan data sumber
  • Pastikan tidak ada spam/data yang tidak diinginkan dimuat
  • Pemeriksaan tipe data
  • Hapus semua jenis data duplikat/terfragmentasi
  • Periksa apakah semua kunci sudah terpasang atau tidak

Langkah 2) Transformasi

Data yang diambil dari server sumber bersifat mentah dan tidak dapat digunakan dalam bentuk aslinya. Oleh karena itu perlu dibersihkan, dipetakan dan diubah. Faktanya, ini adalah langkah kunci di mana proses ETL menambah nilai dan mengubah data sehingga laporan BI yang berwawasan luas dapat dihasilkan.

Ini adalah salah satu konsep ETL penting di mana Anda menerapkan serangkaian fungsi pada data yang diekstraksi. Data yang tidak memerlukan transformasi disebut sebagai gerakan langsung or melewati data.

Pada langkah transformasi, Anda dapat melakukan operasi yang disesuaikan pada data. Misalnya, jika pengguna menginginkan jumlah pendapatan penjualan yang tidak ada dalam database. Atau jika nama depan dan nama belakang dalam suatu tabel berada pada kolom yang berbeda. Dimungkinkan untuk menggabungkannya sebelum memuat.

Masalah Integrasi Data
Masalah Integrasi Data

Berikut adalah Data Integrity Masalah:

  1. Ejaan berbeda dari orang yang sama seperti Jon, John, dll.
  2. Ada beberapa cara untuk menunjukkan nama perusahaan seperti Google, Google Inc.
  3. Penggunaan nama yang berbeda seperti Cleaveland, Cleveland.
  4. Mungkin ada kasus dimana nomor rekening berbeda dihasilkan oleh berbagai aplikasi untuk pelanggan yang sama.
  5. Dalam beberapa data, file yang diperlukan tetap kosong
  6. Produk yang dikumpulkan di POS tidak valid karena entri manual dapat menyebabkan kesalahan.

Validasi dilakukan pada tahap ini

  • Pemfilteran – Pilih hanya kolom tertentu untuk dimuat
  • Menggunakan aturan dan tabel pencarian untuk standarisasi data
  • Konversi Kumpulan Karakter dan penanganan pengkodean
  • Konversi Satuan Pengukuran seperti Konversi Tanggal Waktu, konversi mata uang, konversi numerik, dll.
  • Pemeriksaan validasi ambang batas data. Misalnya umur tidak boleh lebih dari dua digit.
  • Validasi aliran data dari staging area ke tabel perantara.
  • Bidang yang wajib diisi tidak boleh dikosongkan.
  • Pembersihan (misalnya, memetakan NULL ke 0 atau Gender Male ke “M” dan Female ke “F” dll.)
  • Pisahkan kolom menjadi beberapa dan gabungkan beberapa kolom menjadi satu kolom.
  • Transposisi baris dan kolom,
  • Gunakan pencarian untuk menggabungkan data
  • Menggunakan validasi data kompleks apa pun (misalnya, jika dua kolom pertama dalam satu baris kosong, maka baris tersebut secara otomatis ditolak dari pemrosesan)

Langkah 3) Memuat

Memuat data ke dalam database datawarehouse target adalah langkah terakhir dari proses ETL. Dalam gudang Data pada umumnya, data dalam jumlah besar perlu dimuat dalam waktu yang relatif singkat (malam). Oleh karena itu, proses pemuatan harus dioptimalkan untuk kinerja.

Jika terjadi kegagalan beban, mekanisme pemulihan harus dikonfigurasi untuk memulai ulang dari titik kegagalan tanpa kehilangan integritas data. Admin Gudang Data perlu memantau, melanjutkan, membatalkan pemuatan sesuai kinerja server yang ada.

Jenis Pemuatan:

  • Beban Awal — mengisi semua tabel Gudang Data
  • Beban Tambahan — menerapkan perubahan berkelanjutan bila diperlukan secara berkala.
  • Penyegaran Penuh —menghapus konten satu atau lebih tabel dan memuat ulang dengan data baru.

Muat verifikasi

  • Pastikan data bidang kunci tidak hilang atau nol.
  • Uji tampilan pemodelan berdasarkan tabel target.
  • Periksa apakah nilai-nilai tersebut digabungkan dan ukuran-ukuran yang diperhitungkan.
  • Pengecekan data pada tabel dimensi dan tabel histori.
  • Periksa laporan BI pada tabel fakta dan dimensi yang dimuat.

Alat ETL

Ada banyak Alat ETL tersedia di pasar. Inilah beberapa yang paling menonjol:

1. Tanda Logika:

MarkLogic adalah solusi pergudangan data yang membuat integrasi data lebih mudah dan cepat menggunakan serangkaian fitur perusahaan. Itu bisa menanyakan berbagai jenis data seperti dokumen, hubungan, dan metadata.

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle adalah database industri terkemuka. Ini menawarkan beragam pilihan solusi Gudang Data baik untuk lokal maupun di cloud. Ini membantu mengoptimalkan pengalaman pelanggan dengan meningkatkan efisiensi operasional.

https://www.oracle.com/index.html


3. Amazon MerahShift:

Amazon Redshift adalah alat Datawarehouse. Ini adalah alat sederhana dan hemat biaya untuk menganalisis semua jenis data menggunakan standar SQL dan alat BI yang ada. Alat ini juga memungkinkan menjalankan kueri kompleks terhadap petabyte data terstruktur.

https://aws.amazon.com/redshift/?nc2=h_m1

Berikut adalah daftar lengkap yang berguna Alat gudang data.

Proses ETL praktik terbaik

Berikut ini adalah praktik terbaik untuk langkah-langkah Proses ETL:

Jangan pernah mencoba membersihkan semua data:

Setiap organisasi ingin semua datanya bersih, namun kebanyakan dari mereka tidak siap membayar untuk menunggu atau tidak siap menunggu. Untuk membersihkan semuanya akan memakan waktu terlalu lama, jadi lebih baik tidak mencoba membersihkan semua data.

Jangan pernah membersihkan Apa pun:

Selalu rencanakan untuk membersihkan sesuatu karena alasan terbesar membangun Gudang Data adalah untuk menawarkan data yang lebih bersih dan andal.

Tentukan biaya pembersihan data:

Sebelum membersihkan semua data kotor, penting bagi Anda untuk menentukan biaya pembersihan untuk setiap elemen data kotor.

Untuk mempercepat pemrosesan kueri, miliki tampilan dan indeks tambahan:

Untuk mengurangi biaya penyimpanan, simpan data yang diringkas ke dalam kaset disk. Selain itu, trade-off antara volume data yang akan disimpan dan penggunaan detailnya juga diperlukan. Trade-off pada tingkat granularitas data untuk mengurangi biaya penyimpanan.

Kesimpulan

  • ETL adalah singkatan dari Extract, Transform dan Load.
  • ETL menyediakan metode untuk memindahkan data dari berbagai sumber ke a data warehouse.
  • Pada ekstraksi langkah pertama, data diekstraksi dari sistem sumber ke dalam staging area.
  • Pada langkah transformasi, data yang diekstraksi dari sumber dibersihkan dan diubah.
  • Memuat data ke gudang data target adalah langkah terakhir dari proses ETL.