Veri Ambarında ETL (Çıkarma, Dönüştürme ve Yükleme) Süreci

ETL nedir?

ETL farklı kaynak sistemlerden verinin çıkarılması, ardından verinin dönüştürülmesi (hesaplamalar, birleştirmeler vb. uygulanması) ve son olarak verinin Veri Ambarı sistemine yüklenmesi işlemidir. ETL'nin tam biçimi Çıkarma, Dönüştürme ve Yükleme'dir.

Bir Veri ambarı oluşturmanın, birden fazla kaynaktan veri çıkarmak ve bir Veri ambarının veritabanına yüklemek olduğunu düşünmek caziptir. Bu gerçeklerden uzaktır ve karmaşık bir ETL süreci gerektirir. ETL süreci, geliştiriciler, analistler, testçiler, üst düzey yöneticiler dahil olmak üzere çeşitli paydaşlardan aktif girdiler gerektirir ve teknik olarak zordur.

Veri ambarı sisteminin karar vericiler için bir araç olarak değerini koruyabilmesi için iş değişiklikleriyle birlikte değişmesi gerekmektedir. ETL, bir Veri ambarı sisteminin yinelenen bir etkinliğidir (günlük, haftalık, aylık) ve çevik, otomatikleştirilmiş ve iyi belgelenmiş olması gerekir.

Neden ETL'ye ihtiyacınız var?

Kuruluşta ETL'yi benimsemenin birçok nedeni vardır:

  • Şirketlerin kritik iş kararları almak için iş verilerini analiz etmelerine yardımcı olur.
  • İşlemsel veritabanları, ETL örneğinin yanıtlayabileceği karmaşık iş sorularına yanıt veremez.
  • Veri Ambarı ortak bir veri deposu sağlar
  • ETL, verilerin çeşitli kaynaklardan veri ambarına taşınmasına yönelik bir yöntem sağlar.
  • Veri kaynakları değiştikçe Veri Ambarı otomatik olarak güncellenecektir.
  • İyi tasarlanmış ve belgelenmiş ETL sistemi, bir Veri Ambarı projesinin başarısı için neredeyse şarttır.
  • Veri dönüştürme, toplama ve hesaplama kurallarının doğrulanmasına izin verin.
  • ETL süreci, kaynak ve hedef sistem arasında örnek veri karşılaştırmasına olanak tanır.
  • ETL işlemi karmaşık dönüşümler gerçekleştirebilir ve verilerin depolanması için ekstra alana ihtiyaç duyar.
  • ETL, verilerin Veri Ambarına Taşınmasına yardımcı olur. Tek bir tutarlı sisteme bağlı kalmak için çeşitli formatlara ve türlere dönüştürün.
  • ETL, kaynak verilere erişmek ve hedef veritabanında bunları değiştirmek için önceden tanımlanmış bir işlemdir.
  • Veri ambarındaki ETL, işletme için derin bir tarihsel bağlam sunar.
  • Teknik becerilere ihtiyaç duymadan kodlayıp yeniden kullandığı için verimliliğin artırılmasına yardımcı olur.

Veri Ambarlarında ETL Süreci

ETL 3 adımlı bir süreçtir

ETL Süreci
ETL Süreci

Adım 1) Ekstraksiyon

ETL mimarisinin bu adımında, veriler kaynak sistemden hazırlama alanına çıkarılır. Herhangi bir dönüşüm varsa hazırlama alanında yapılır, böylece kaynak sistemin performansı düşmez. Ayrıca, bozulmuş veriler doğrudan kaynaktan Veri ambarı veritabanına kopyalanırsa, geri alma işlemi zor olacaktır. Hazırlama alanı, çıkarılan verilerin Veri ambarına taşınmadan önce doğrulanması için bir fırsat sunar.

Veri ambarının farklı özelliklere sahip sistemleri entegre etmesi gerekir.

DBMS, Donanım, OperaSistemler ve İletişim Protokolleri. Kaynaklar, Ana Bilgisayarlar gibi eski uygulamaları, özelleştirilmiş uygulamaları, ATM gibi iletişim noktası cihazlarını, Çağrı anahtarlarını, metin dosyalarını, elektronik tabloları, ERP'yi, satıcılardan ve iş ortaklarından gelen verileri içerebilir.

Bu nedenle, veriler fiziksel olarak çıkarılıp yüklenmeden önce mantıksal bir veri haritasına ihtiyaç vardır. Bu veri haritası, kaynaklar ve hedef veriler arasındaki ilişkiyi açıklar.

Üç Veri Çıkarma yöntemi:

  1. Tam Ekstraksiyon
  2. Kısmi Çıkarma - güncelleme bildirimi olmadan.
  3. Kısmi Çıkarma - güncelleme bildirimi ile

Kullanılan yöntem ne olursa olsun, çıkarma işlemi kaynak sistemlerin performansını ve yanıt süresini etkilememelidir. Bu kaynak sistemler canlı üretim veritabanlarıdır. Herhangi bir yavaşlama veya kilitleme şirketin kârlılığını etkileyebilir.

Çıkarma sırasında bazı doğrulamalar yapılır:

  • Kayıtları kaynak verilerle uzlaştırma
  • Hiçbir spam/istenmeyen verinin yüklenmediğinden emin olun
  • Veri türü kontrolü
  • Her türlü yinelenen/parçalanmış veriyi kaldırın
  • Tüm anahtarların yerinde olup olmadığını kontrol edin

Adım 2) Dönüşüm

Kaynak sunucudan çıkarılan veriler hamdır ve orijinal haliyle kullanılamaz. Bu nedenle temizlenmesi, haritalanması ve dönüştürülmesi gerekiyor. Aslında bu, ETL sürecinin değer kattığı ve verileri anlamlı BI raporlarının oluşturulabileceği şekilde değiştirdiği temel adımdır.

Çıkarılan verilere bir dizi fonksiyon uyguladığınız önemli ETL konseptlerinden biridir. Herhangi bir dönüşüm gerektirmeyen verilere denir. doğrudan hareket or verileri geçirmek.

Dönüşüm adımında veriler üzerinde özelleştirilmiş işlemler gerçekleştirebilirsiniz. Örneğin kullanıcı veritabanında yer almayan satış toplamı geliri istiyorsa. Veya bir tablodaki ad ve soyad farklı sütunlarda yer alıyorsa. Yüklemeden önce bunları birleştirmek mümkündür.

Veri Entegrasyon Sorunları
Veri Entegrasyon Sorunları

Aşağıda Veriler bulunmaktadır Integrity Sorunları:

  1. Jon, John vb. gibi aynı kişinin farklı yazılışları.
  2. Google, Google Inc. gibi şirket adını belirtmenin birden fazla yolu vardır.
  3. Cleaveland, Cleveland gibi farklı isimlerin kullanılması.
  4. Aynı müşteri için farklı uygulamalar tarafından farklı hesap numaraları üretilmesi durumu söz konusu olabilir.
  5. Bazı verilerde gerekli dosyalar boş kalıyor
  6. POS'ta manuel giriş yapılarak geçersiz ürün toplanması hatalara neden olabilir.

Doğrulamalar bu aşamada yapılır

  • Filtreleme – Yüklenecek yalnızca belirli sütunları seçin
  • Veri standardizasyonu için kuralları ve arama tablolarını kullanma
  • Karakter Seti Dönüştürme ve kodlama yönetimi
  • Tarih Saat Dönüşümü, para birimi dönüştürmeleri, sayısal dönüştürmeler vb. gibi Ölçü Birimlerinin Dönüştürülmesi.
  • Veri eşiği doğrulama kontrolü. Örneğin yaş iki rakamdan fazla olamaz.
  • Aşama alanından ara tablolara veri akışı doğrulaması.
  • Zorunlu alanlar boş bırakılmamalıdır.
  • Temizleme (örneğin, NULL'u 0 ile veya Cinsiyet Erkek'i “M” ve Kadını “F” ile eşleme vb.)
  • Bir sütunu katlara ayırın ve birden çok sütunu tek bir sütunda birleştirin.
  • Satır ve sütunların yer değiştirmesi,
  • Verileri birleştirmek için aramaları kullanma
  • Herhangi bir karmaşık veri doğrulaması kullanarak (örneğin, bir satırdaki ilk iki sütun boşsa, satırı işlemeden otomatik olarak reddeder)

Adım 3) Yükleme

Verilerin hedef veri ambarı veritabanına yüklenmesi ETL sürecinin son adımıdır. Tipik bir Veri ambarında, büyük miktarda verinin nispeten kısa bir sürede (geceler) yüklenmesi gerekir. Bu nedenle, yükleme işleminin performans için optimize edilmesi gerekir.

Yük arızası durumunda kurtarma mekanizmaları, veri bütünlüğü kaybı olmadan arıza noktasından yeniden başlayacak şekilde yapılandırılmalıdır. Veri Ambarı yöneticilerinin geçerli sunucu performansına göre yükleri izlemesi, sürdürmesi ve iptal etmesi gerekir.

Yükleme Türleri:

  • İlk Yük — tüm Veri Ambarı tablolarını doldurma
  • artan yük - Devam eden değişikliklerin gerektiğinde periyodik olarak uygulanması.
  • Tam Yenileme —bir veya daha fazla tablonun içeriğinin silinmesi ve yeni verilerle yeniden yüklenmesi.

Yük doğrulaması

  • Anahtar alan verilerinin eksik veya boş olmadığından emin olun.
  • Hedef tablolara göre modelleme görünümlerini test edin.
  • Birleştirilmiş değerleri ve hesaplanan ölçümleri kontrol edin.
  • Veriler, boyut tablosunun yanı sıra geçmiş tablosunda da kontrol edilir.
  • Yüklenen olgu ve boyut tablosundaki BI raporlarını kontrol edin.

ETL Araçları

Çok var ETL araçları piyasada mevcuttur. İşte en öne çıkanlardan bazıları:

1. MarkLogic:

MarkLogic, bir dizi kurumsal özelliği kullanarak veri entegrasyonunu daha kolay ve hızlı hale getiren bir veri ambarı çözümüdür. Belgeler, ilişkiler ve meta veriler gibi farklı veri türlerini sorgulayabilir.

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle endüstri lideri veritabanıdır. Hem şirket içi hem de bulutta çok çeşitli Veri Ambarı çözümleri sunar. Operasyonel verimliliği artırarak müşteri deneyimlerinin optimize edilmesine yardımcı olur.

https://www.oracle.com/index.html


3. Amazon KırmızıShift:

Amazon Redshift, Veri Ambarı aracıdır. Standartları kullanarak her türlü veriyi analiz etmek için basit ve uygun maliyetli bir araçtır. SQL ve mevcut BI araçları. Ayrıca petabaytlarca yapılandırılmış veri üzerinde karmaşık sorgular çalıştırmaya da olanak tanır.

https://aws.amazon.com/redshift/?nc2=h_m1

İşte yararlı olanların tam listesi Veri ambarı Araçları.

En iyi uygulamalar ETL süreci

ETL Süreci adımları için en iyi uygulamalar şunlardır:

Hiçbir zaman tüm verileri temizlemeye çalışmayın:

Her kuruluş tüm verilerin temiz olmasını ister ancak çoğu beklemek için para ödemeye veya beklemeye hazır değildir. Hepsini temizlemek çok uzun zaman alır, bu nedenle tüm verileri temizlemeye çalışmamak daha iyidir.

Hiçbir Şeyi Asla Temizlemeyin:

Her zaman bir şeyleri temizlemeyi planlayın çünkü Veri Ambarı oluşturmanın en büyük nedeni daha temiz ve daha güvenilir veriler sunmaktır.

Verileri temizlemenin maliyetini belirleyin:

Tüm kirli verileri temizlemeden önce, her kirli veri unsurunun temizleme maliyetini belirlemeniz önemlidir.

Sorgu işlemeyi hızlandırmak için yardımcı görünümlere ve dizinlere sahip olun:

Depolama maliyetlerini azaltmak için özetlenen verileri disk bantlarında saklayın. Ayrıca depolanacak verinin hacmi ile ayrıntılı kullanımı arasındaki denge de gereklidir. Depolama maliyetlerini azaltmak için verilerin ayrıntı düzeyi düzeyinde ödünleşim.

ÖZET

  • ETL, Çıkarma, Dönüştürme ve Yükleme anlamına gelir.
  • ETL, verileri çeşitli kaynaklardan bir ortama taşımanın bir yöntemini sağlar. veri ambarı.
  • Çıkarma işleminin ilk adımında, veriler kaynak sistemden hazırlama alanına çıkarılır.
  • Dönüşüm adımında kaynaktan çıkarılan veriler temizlenir ve dönüştürülür.
  • Verilerin hedef veri ambarına yüklenmesi ETL sürecinin son adımıdır.