Veri Gölü nedir? Onun Archidoku: Veri Gölü Eğitimi

Veri Gölü nedir?

Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur. Hesap boyutu veya dosya konusunda sabit bir sınırlama olmaksızın her tür veriyi kendi yerel formatında depolayabileceğiniz bir yerdir. Analitik performansı ve yerel entegrasyonu artırmak için yüksek veri miktarı sunar.

Veri Gölü, gerçek göl ve nehirlere çok benzeyen büyük bir konteyner gibidir. Bir gölde olduğu gibi, birden fazla kolunuz gelir, bir veri gölünde yapılandırılmış veriler, yapılandırılmamış veriler, makineden makineye, gerçek zamanlı olarak akan günlükler bulunur.

Veri Gölü
Veri Gölü

Veri Gölü, verileri demokratikleştirir ve bir organizasyonun tüm verilerini daha sonra işlemek için depolamanın uygun maliyetli bir yoludur. Araştırma Analisti, verilerin kendisinde değil, verilerde anlam kalıpları bulmaya odaklanabilir.

Hiyerarşik düzenden farklı olarak Veri deposu Veriler Dosyalar ve Klasörlerde depolandığında, Veri Gölü düz bir mimariye sahiptir. Bir Veri Gölündeki her veri öğesine benzersiz bir tanımlayıcı verilir ve bir dizi meta veri bilgisi ile etiketlenir.

Neden Veri Gölü?

Veri gölü oluşturmanın temel amacı, veri bilimcilere verilerin rafine edilmemiş bir görünümünü sunmaktır.

Data Lake'i kullanma nedenleri şunlardır:

  • Depolama motorlarının ortaya çıkışıyla birlikte Hadoop'un farklı bilgileri depolamak kolaylaştı. Veri Gölü ile verileri kuruluş çapında bir şema halinde modellemeye gerek yoktur.
  • Veri hacminin, veri kalitesinin ve meta verilerin artmasıyla birlikte analizlerin kalitesi de artıyor.
  • Data Lake iş çevikliği sunuyor
  • Makine öğrenmesi ve Yapay Zeka karlı tahminler yapmak için kullanılabilir.
  • Uygulayıcı kuruluşa rekabet avantajı sağlar.
  • Veri silosu yapısı yoktur. Data Lake, müşterilerin 360 derecelik görünümünü sağlar ve analizi daha sağlam hale getirir.

Veri Gölü Archidoku

Veri Gölü Archidoku
Veri Gölü Archidoku

Şekil bir İş Veri Gölünün mimarisini göstermektedir. Alt seviyeler çoğunlukla hareketsiz olan verileri temsil ederken üst seviyeler gerçek zamanlı işlem verilerini göstermektedir. Bu veriler sistemde gecikme olmadan veya çok az gecikmeyle akar. Aşağıda Veri Gölündeki önemli katmanlar verilmiştir Archidoku:

  1. Besleme Katmanı: Sol taraftaki katmanlar veri kaynaklarını gösterir. Veriler veri gölüne toplu olarak veya gerçek zamanlı olarak yüklenebilir
  2. Analiz Katmanı: Sağdaki katmanlar, sistemden elde edilen bilgilerin kullanıldığı araştırma tarafını temsil eder. SQLVeri analizi için NoSQL sorguları ve hatta Excel kullanılabilir.
  3. HDFS hem yapılandırılmış hem de yapılandırılmamış veriler için uygun maliyetli bir çözümdür. Sistemde duran tüm veriler için bir giriş bölgesidir.
  4. Damıtma katmanı Verileri depolama lastiğinden alır ve daha kolay analiz için yapılandırılmış verilere dönüştürür.
  5. İşleme katmanı Daha kolay analiz için yapılandırılmış veriler oluşturmak amacıyla çeşitli gerçek zamanlı, etkileşimli, toplu analitik algoritmalar ve kullanıcı sorguları çalıştırın.
  6. Birleşik operasyon katmanı Sistem yönetimini ve izlenmesini yönetir. Denetim ve yeterlilik yönetimini, veri yönetimini, iş akışı yönetimi.

Anahtar Veri Gölü Concepts

Aşağıda, Veri Gölü'nü tam olarak anlamak için anlaşılması gereken Temel Veri Gölü kavramları yer almaktadır Archidoku

anahtar Concepts Data Lake'in
anahtar Concepts Data Lake'in

Veri Alımı

Veri Alma, bağlayıcıların farklı veri kaynaklarından veri almasına ve Veri gölüne yükleme yapmasına olanak tanır.

Veri Kullanımı şunları destekler:

  • Her türlü Yapılandırılmış, Yarı Yapılandırılmış ve Yapılandırılmamış veri.
  • Toplu, Gerçek Zamanlı, Tek Seferlik yükleme gibi çoklu alımlar.
  • Veritabanları, Web sunucuları, E-postalar gibi birçok veri kaynağı türü IOTve FTP'yi seçin.

Veri depolama

Veri depolama ölçeklenebilir olmalı, uygun maliyetli depolama sunmalı ve veri araştırmasına hızlı erişime izin vermelidir. Çeşitli veri formatlarını desteklemelidir.

Veri yönetimi

Veri yönetişimi, bir kuruluşta kullanılan verilerin kullanılabilirliğini, kullanılabilirliğini, güvenliğini ve bütünlüğünü yönetme sürecidir.

Güvenlik

Veri gölünün her katmanında güvenliğin uygulanması gerekiyor. Depolama, Ortaya Çıkarma ve Tüketim ile başlar. Temel ihtiyaç yetkisiz kullanıcıların erişimini durdurmaktır. Gezinmesi kolay GUI ve Kontrol Panelleri ile verilere erişmek için farklı araçları desteklemelidir.

Kimlik Doğrulama, Muhasebe, Yetkilendirme ve Veri Koruma, data lake güvenliğinin bazı önemli özellikleridir.

Veri kalitesi

Veri kalitesi, Veri Gölü mimarisinin temel bir bileşenidir. Veri, tam iş değeri elde etmek için kullanılır. Düşük kaliteli verilerden içgörüler çıkarmak, düşük kaliteli içgörülere yol açacaktır.

Veri Keşfi

Veri Keşfi, veri veya analiz hazırlamaya başlamadan önceki bir diğer önemli aşamadır. Bu aşamada Veri gölüne alınan verileri düzenleyerek ve yorumlayarak veri anlayışını ifade etmek için etiketleme tekniği kullanılır.

Veri Denetimi

İki ana Veri denetim görevi, temel veri kümesindeki değişiklikleri izlemektir.

  1. Önemli veri kümesi öğelerindeki değişiklikleri izleme
  2. Bu öğelerde nasıl/ne zaman/ve kimin değiştiğini yakalar.

Veri denetimi, risk ve uyumluluğun değerlendirilmesine yardımcı olur.

Veri Kökeni

Bu bileşen verinin kökeniyle ilgilenir. Esas olarak zaman içinde nereye hareket ettiği ve ona ne olduğu ile ilgilenir. Başlangıç ​​noktasından varış noktasına kadar bir veri analitiği sürecindeki hataların düzeltilmesini kolaylaştırır.

Veri Keşfi

Veri analizinin başlangıç ​​aşamasıdır. Veri Araştırmaya başlamadan önce doğru veri kümesinin belirlenmesi hayati öneme sahiptir.

Veri gölü oluşturmada önemli bir rol oynamak için verilen tüm bileşenlerin birlikte çalışması gerekir. Kolayca gelişir ve çevreyi keşfeder.

Data Lake'in olgunluk aşamaları

Veri Gölü Olgunluk aşamalarının tanımı ders kitabından diğerine farklılık gösterir. Ancak temel nokta aynı kalır. Olgunluğun ardından, aşama tanımı amatör bir bakış açısıyla yapılır.

Data Lake'in olgunluk aşamaları
Data Lake'in olgunluk aşamaları

1. Aşama: Verileri geniş ölçekte işleyin ve alın

Veri Olgunluğunun bu ilk aşaması, verileri dönüştürme ve analiz etme becerisinin geliştirilmesini içerir. Burada işletme sahiplerinin daha fazla veri elde etmek ve analitik uygulamalar oluşturmak için becerilerine uygun araçları bulması gerekiyor.

Aşama 2: Analitik gücün geliştirilmesi

Bu, verileri dönüştürme ve analiz etme yeteneğinin geliştirilmesini içeren ikinci aşamadır. Bu aşamada şirketler kendi becerilerine en uygun aracı kullanır. Daha fazla veri edinmeye ve uygulamalar oluşturmaya başlarlar. Burada kurumsal veri ambarı ve data lake'in yetenekleri bir arada kullanılmaktadır.

3. Aşama: EDW ve Data Lake birlikte çalışır

Bu adım, veri ve analizlerin mümkün olduğu kadar çok kişinin eline geçmesini içerir. Bu aşamada data lake ve kurumsal veri ambarı bir arada çalışmaya başlar. Her ikisi de analitikte kendi rollerini oynuyor

Aşama 4: Gölde kurumsal yeterlilik

Data Lake'in bu olgunluk aşamasında Data Lake'e kurumsal yetenekler eklenir. Bilgi yönetişiminin, bilgi yaşam döngüsü yönetimi yeteneklerinin ve Meta Veri yönetiminin benimsenmesi. Ancak çok az kuruluş bu olgunluk düzeyine ulaşabilir, ancak bu sayı gelecekte artacaktır.

Veri Gölü Uygulaması için en iyi uygulamalar

  • Archiyapısal bileşenler, bunların etkileşimi ve tanımlanan ürünler yerel veri türlerini desteklemelidir
  • Data Lake'in tasarımı, gerekenden ziyade mevcut olana göre yönlendirilmelidir. Şema ve veri gereksinimi sorgulanana kadar tanımlanmaz
  • Tasarım, hizmet API'si ile entegre tek kullanımlık bileşenler tarafından yönlendirilmelidir.
  • Veri keşfi, alımı, depolanması, yönetimi, kalitesi, dönüşümü ve görselleştirmesi bağımsız olarak yönetilmelidir.
  • Veri Gölü mimarisi belirli bir sektöre göre uyarlanmalıdır. Bu alan için gerekli yeteneklerin tasarımın doğal bir parçası olduğundan emin olmalıdır
  • Yeni keşfedilen veri kaynaklarının daha hızlı devreye alınması önemlidir
  • Data Lake, özelleştirilmiş yönetimin maksimum değer elde etmesine yardımcı olur
  • Veri Gölü mevcut kurumsal veri yönetimi tekniklerini ve yöntemlerini desteklemelidir

Veri gölü oluşturmanın zorlukları:

  • Data Lake'te Veri hacmi daha yüksektir, bu nedenle sürecin programlı yönetime daha bağımlı olması gerekir
  • Seyrek, eksik, değişken verilerle uğraşmak zordur
  • Daha geniş veri kümesi ve kaynak kapsamı, daha büyük veri yönetimi ve desteği gerektirir

Veri gölleri ve Veri ambarı arasındaki fark

parametreler Veri Gölleri Veri deposu
Veri Veri gölleri her şeyi depolar. Veri Ambarı yalnızca İş Süreçlerine odaklanır.
İşlemde Veriler çoğunlukla işlenmemiştir Yüksek düzeyde işlenmiş veriler.
Veri Türü Yapılandırılmamış, yarı yapılandırılmış ve yapılandırılmış olabilir. Çoğunlukla tablo biçiminde ve yapıdadır.
Görev Veri yönetimini paylaşın Veri alımı için optimize edildi
Çeviklik Son derece çevik, gerektiği gibi yapılandırın ve yeniden yapılandırın. Data lake ile karşılaştırıldığında daha az çeviktir ve sabit bir konfigürasyona sahiptir.
Kullanıcılar Data Lake çoğunlukla Veri Bilimcisi tarafından kullanılıyor İş profesyonelleri veri ambarını yaygın olarak kullanıyor
Depolama Düşük maliyetli depolama için veri gölleri tasarımı. Hızlı yanıt süreleri sağlayan pahalı depolama alanları kullanılıyor
Güvenlik Daha az kontrol sunar. Verilerin daha iyi kontrol edilmesini sağlar.
EDW'nin değiştirilmesi Veri gölü EDW için kaynak olabilir EDW'yi tamamlayıcıdır (değiştirilmez)
Şema Okuma şeması (önceden tanımlanmış şema yok) Yazma şeması (önceden tanımlanmış şemalar)
Veri işleme Yeni verilerin hızlı alımına yardımcı olur. Yeni içerik sunmak zaman alıcıdır.
Veri Parçalılığı Düşük düzeyde ayrıntıya veya ayrıntı düzeyine sahip veriler. Özet veya toplu ayrıntı düzeyindeki veriler.
Tools Hadoop/Harita Azaltma gibi açık kaynak/araçları kullanabilir Çoğunlukla ticari araçlar.

Data Lake'i Kullanmanın Yararları ve Riskleri

Veri Gölü kullanmanın bazı önemli avantajları şunlardır:

  • Ürün iyonlaştırma ve gelişmiş analitik konusunda tam olarak yardımcı olur
  • Uygun maliyetli ölçeklenebilirlik ve esneklik sunar
  • Sınırsız veri türünden değer sunar
  • Uzun vadeli sahip olma maliyetini azaltır
  • Dosyaların ekonomik olarak saklanmasına olanak tanır
  • Değişikliklere hızla uyum sağlayabilme
  • Veri gölünün temel avantajı, merkezileştirme farklı içerik kaynaklarının
  • Çeşitli departmanlardan kullanıcılar dünyanın dört bir yanına dağılmış olabilir. esnek erişim verilere

Data Lake'i Kullanmanın Riski:

  • Bir süre sonra Data Lake alaka düzeyini ve ivmesini kaybedebilir
  • Data Lake'i tasarlarken daha büyük risk söz konusudur
  • Yapılandırılmamış Veriler, Yönetilemeyen Karmaşaya, Kullanılamaz Verilere, Ayrık ve Karmaşık Araçlara, Kuruluş Genelinde İşbirliğine, Birleşik, Tutarlı ve Ortak Verilere Yol Açabilir
  • Aynı zamanda depolama ve bilgi işlem maliyetlerini de artırır
  • Önceki analistlerin bulgularının kökenine ilişkin bir açıklama bulunmadığından, verilerle çalışan diğerlerinden fikir almanın bir yolu yoktur.
  • Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Verilerin bir kısmı mahremiyet ve düzenleme ihtiyacı içerebileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.

ÖZET

  • Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur.
  • Veri gölü oluşturmanın temel amacı, veri bilimcilere verilerin rafine edilmemiş bir görünümünü sunmaktır.
  • Birleşik operasyon katmanı, İşleme katmanı, Damıtma katmanı ve HDFS, Data Lake'in önemli katmanlarıdır Archidoku
  • Veri Kullanımı, Veri depolama, Veri kalitesi, Veri Denetimi, Veri araştırması, Veri keşfetme, Data Lake'in bazı önemli bileşenleridir Archidoku
  • Data Lake'in tasarımı, gerekenden ziyade mevcut olana göre yönlendirilmelidir.
  • Data Lake, uzun vadeli sahip olma maliyetini azaltır ve dosyaların ekonomik olarak depolanmasına olanak tanır
  • Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Verilerin bir kısmı mahremiyet ve düzenleme ihtiyacı içerebileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.