Veri Gölü nedir? Onun Archidoku: Veri Gölü Eğitimi
Veri Gölü nedir?
Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur. Hesap boyutu veya dosya konusunda sabit bir sınırlama olmaksızın her tür veriyi kendi yerel formatında depolayabileceğiniz bir yerdir. Analitik performansı ve yerel entegrasyonu artırmak için yüksek veri miktarı sunar.
Veri Gölü, gerçek göl ve nehirlere çok benzeyen büyük bir konteyner gibidir. Bir gölde olduğu gibi, birden fazla kolunuz gelir, bir veri gölünde yapılandırılmış veriler, yapılandırılmamış veriler, makineden makineye, gerçek zamanlı olarak akan günlükler bulunur.

Veri Gölü, verileri demokratikleştirir ve bir organizasyonun tüm verilerini daha sonra işlemek için depolamanın uygun maliyetli bir yoludur. Araştırma Analisti, verilerin kendisinde değil, verilerde anlam kalıpları bulmaya odaklanabilir.
Hiyerarşik düzenden farklı olarak Veri deposu Veriler Dosyalar ve Klasörlerde depolandığında, Veri Gölü düz bir mimariye sahiptir. Bir Veri Gölündeki her veri öğesine benzersiz bir tanımlayıcı verilir ve bir dizi meta veri bilgisi ile etiketlenir.
Neden Veri Gölü?
Veri gölü oluşturmanın temel amacı, veri bilimcilere verilerin rafine edilmemiş bir görünümünü sunmaktır.
Data Lake'i kullanma nedenleri şunlardır:
- Depolama motorlarının ortaya çıkışıyla birlikte Hadoop'un farklı bilgileri depolamak kolaylaştı. Veri Gölü ile verileri kuruluş çapında bir şema halinde modellemeye gerek yoktur.
- Veri hacminin, veri kalitesinin ve meta verilerin artmasıyla birlikte analizlerin kalitesi de artıyor.
- Data Lake iş çevikliği sunuyor
- Makine öğrenmesi ve Yapay Zeka karlı tahminler yapmak için kullanılabilir.
- Uygulayıcı kuruluşa rekabet avantajı sağlar.
- Veri silosu yapısı yoktur. Data Lake, müşterilerin 360 derecelik görünümünü sağlar ve analizi daha sağlam hale getirir.
Veri Gölü Archidoku
Şekil bir İş Veri Gölünün mimarisini göstermektedir. Alt seviyeler çoğunlukla hareketsiz olan verileri temsil ederken üst seviyeler gerçek zamanlı işlem verilerini göstermektedir. Bu veriler sistemde gecikme olmadan veya çok az gecikmeyle akar. Aşağıda Veri Gölündeki önemli katmanlar verilmiştir Archidoku:
- Besleme Katmanı: Sol taraftaki katmanlar veri kaynaklarını gösterir. Veriler veri gölüne toplu olarak veya gerçek zamanlı olarak yüklenebilir
- Analiz Katmanı: Sağdaki katmanlar, sistemden elde edilen bilgilerin kullanıldığı araştırma tarafını temsil eder. SQLVeri analizi için NoSQL sorguları ve hatta Excel kullanılabilir.
- HDFS hem yapılandırılmış hem de yapılandırılmamış veriler için uygun maliyetli bir çözümdür. Sistemde duran tüm veriler için bir giriş bölgesidir.
- Damıtma katmanı Verileri depolama lastiğinden alır ve daha kolay analiz için yapılandırılmış verilere dönüştürür.
- İşleme katmanı Daha kolay analiz için yapılandırılmış veriler oluşturmak amacıyla çeşitli gerçek zamanlı, etkileşimli, toplu analitik algoritmalar ve kullanıcı sorguları çalıştırın.
- Birleşik operasyon katmanı Sistem yönetimini ve izlenmesini yönetir. Denetim ve yeterlilik yönetimini, veri yönetimini, iş akışı yönetimi.
Anahtar Veri Gölü Concepts
Aşağıda, Veri Gölü'nü tam olarak anlamak için anlaşılması gereken Temel Veri Gölü kavramları yer almaktadır Archidoku
Veri Alımı
Veri Alma, bağlayıcıların farklı veri kaynaklarından veri almasına ve Veri gölüne yükleme yapmasına olanak tanır.
Veri Kullanımı şunları destekler:
- Her türlü Yapılandırılmış, Yarı Yapılandırılmış ve Yapılandırılmamış veri.
- Toplu, Gerçek Zamanlı, Tek Seferlik yükleme gibi çoklu alımlar.
- Veritabanları, Web sunucuları, E-postalar gibi birçok veri kaynağı türü IOTve FTP'yi seçin.
Veri depolama
Veri depolama ölçeklenebilir olmalı, uygun maliyetli depolama sunmalı ve veri araştırmasına hızlı erişime izin vermelidir. Çeşitli veri formatlarını desteklemelidir.
Veri yönetimi
Veri yönetişimi, bir kuruluşta kullanılan verilerin kullanılabilirliğini, kullanılabilirliğini, güvenliğini ve bütünlüğünü yönetme sürecidir.
Güvenlik
Veri gölünün her katmanında güvenliğin uygulanması gerekiyor. Depolama, Ortaya Çıkarma ve Tüketim ile başlar. Temel ihtiyaç yetkisiz kullanıcıların erişimini durdurmaktır. Gezinmesi kolay GUI ve Kontrol Panelleri ile verilere erişmek için farklı araçları desteklemelidir.
Kimlik Doğrulama, Muhasebe, Yetkilendirme ve Veri Koruma, data lake güvenliğinin bazı önemli özellikleridir.
Veri kalitesi
Veri kalitesi, Veri Gölü mimarisinin temel bir bileşenidir. Veri, tam iş değeri elde etmek için kullanılır. Düşük kaliteli verilerden içgörüler çıkarmak, düşük kaliteli içgörülere yol açacaktır.
Veri Keşfi
Veri Keşfi, veri veya analiz hazırlamaya başlamadan önceki bir diğer önemli aşamadır. Bu aşamada Veri gölüne alınan verileri düzenleyerek ve yorumlayarak veri anlayışını ifade etmek için etiketleme tekniği kullanılır.
Veri Denetimi
İki ana Veri denetim görevi, temel veri kümesindeki değişiklikleri izlemektir.
- Önemli veri kümesi öğelerindeki değişiklikleri izleme
- Bu öğelerde nasıl/ne zaman/ve kimin değiştiğini yakalar.
Veri denetimi, risk ve uyumluluğun değerlendirilmesine yardımcı olur.
Veri Kökeni
Bu bileşen verinin kökeniyle ilgilenir. Esas olarak zaman içinde nereye hareket ettiği ve ona ne olduğu ile ilgilenir. Başlangıç noktasından varış noktasına kadar bir veri analitiği sürecindeki hataların düzeltilmesini kolaylaştırır.
Veri Keşfi
Veri analizinin başlangıç aşamasıdır. Veri Araştırmaya başlamadan önce doğru veri kümesinin belirlenmesi hayati öneme sahiptir.
Veri gölü oluşturmada önemli bir rol oynamak için verilen tüm bileşenlerin birlikte çalışması gerekir. Kolayca gelişir ve çevreyi keşfeder.
Data Lake'in olgunluk aşamaları
Veri Gölü Olgunluk aşamalarının tanımı ders kitabından diğerine farklılık gösterir. Ancak temel nokta aynı kalır. Olgunluğun ardından, aşama tanımı amatör bir bakış açısıyla yapılır.
1. Aşama: Verileri geniş ölçekte işleyin ve alın
Veri Olgunluğunun bu ilk aşaması, verileri dönüştürme ve analiz etme becerisinin geliştirilmesini içerir. Burada işletme sahiplerinin daha fazla veri elde etmek ve analitik uygulamalar oluşturmak için becerilerine uygun araçları bulması gerekiyor.
Aşama 2: Analitik gücün geliştirilmesi
Bu, verileri dönüştürme ve analiz etme yeteneğinin geliştirilmesini içeren ikinci aşamadır. Bu aşamada şirketler kendi becerilerine en uygun aracı kullanır. Daha fazla veri edinmeye ve uygulamalar oluşturmaya başlarlar. Burada kurumsal veri ambarı ve data lake'in yetenekleri bir arada kullanılmaktadır.
3. Aşama: EDW ve Data Lake birlikte çalışır
Bu adım, veri ve analizlerin mümkün olduğu kadar çok kişinin eline geçmesini içerir. Bu aşamada data lake ve kurumsal veri ambarı bir arada çalışmaya başlar. Her ikisi de analitikte kendi rollerini oynuyor
Aşama 4: Gölde kurumsal yeterlilik
Data Lake'in bu olgunluk aşamasında Data Lake'e kurumsal yetenekler eklenir. Bilgi yönetişiminin, bilgi yaşam döngüsü yönetimi yeteneklerinin ve Meta Veri yönetiminin benimsenmesi. Ancak çok az kuruluş bu olgunluk düzeyine ulaşabilir, ancak bu sayı gelecekte artacaktır.
Veri Gölü Uygulaması için en iyi uygulamalar
- Archiyapısal bileşenler, bunların etkileşimi ve tanımlanan ürünler yerel veri türlerini desteklemelidir
- Data Lake'in tasarımı, gerekenden ziyade mevcut olana göre yönlendirilmelidir. Şema ve veri gereksinimi sorgulanana kadar tanımlanmaz
- Tasarım, hizmet API'si ile entegre tek kullanımlık bileşenler tarafından yönlendirilmelidir.
- Veri keşfi, alımı, depolanması, yönetimi, kalitesi, dönüşümü ve görselleştirmesi bağımsız olarak yönetilmelidir.
- Veri Gölü mimarisi belirli bir sektöre göre uyarlanmalıdır. Bu alan için gerekli yeteneklerin tasarımın doğal bir parçası olduğundan emin olmalıdır
- Yeni keşfedilen veri kaynaklarının daha hızlı devreye alınması önemlidir
- Data Lake, özelleştirilmiş yönetimin maksimum değer elde etmesine yardımcı olur
- Veri Gölü mevcut kurumsal veri yönetimi tekniklerini ve yöntemlerini desteklemelidir
Veri gölü oluşturmanın zorlukları:
- Data Lake'te Veri hacmi daha yüksektir, bu nedenle sürecin programlı yönetime daha bağımlı olması gerekir
- Seyrek, eksik, değişken verilerle uğraşmak zordur
- Daha geniş veri kümesi ve kaynak kapsamı, daha büyük veri yönetimi ve desteği gerektirir
Veri gölleri ve Veri ambarı arasındaki fark
parametreler | Veri Gölleri | Veri deposu |
---|---|---|
Veri | Veri gölleri her şeyi depolar. | Veri Ambarı yalnızca İş Süreçlerine odaklanır. |
İşlemde | Veriler çoğunlukla işlenmemiştir | Yüksek düzeyde işlenmiş veriler. |
Veri Türü | Yapılandırılmamış, yarı yapılandırılmış ve yapılandırılmış olabilir. | Çoğunlukla tablo biçiminde ve yapıdadır. |
Görev | Veri yönetimini paylaşın | Veri alımı için optimize edildi |
Çeviklik | Son derece çevik, gerektiği gibi yapılandırın ve yeniden yapılandırın. | Data lake ile karşılaştırıldığında daha az çeviktir ve sabit bir konfigürasyona sahiptir. |
Kullanıcılar | Data Lake çoğunlukla Veri Bilimcisi tarafından kullanılıyor | İş profesyonelleri veri ambarını yaygın olarak kullanıyor |
Depolama | Düşük maliyetli depolama için veri gölleri tasarımı. | Hızlı yanıt süreleri sağlayan pahalı depolama alanları kullanılıyor |
Güvenlik | Daha az kontrol sunar. | Verilerin daha iyi kontrol edilmesini sağlar. |
EDW'nin değiştirilmesi | Veri gölü EDW için kaynak olabilir | EDW'yi tamamlayıcıdır (değiştirilmez) |
Şema | Okuma şeması (önceden tanımlanmış şema yok) | Yazma şeması (önceden tanımlanmış şemalar) |
Veri işleme | Yeni verilerin hızlı alımına yardımcı olur. | Yeni içerik sunmak zaman alıcıdır. |
Veri Parçalılığı | Düşük düzeyde ayrıntıya veya ayrıntı düzeyine sahip veriler. | Özet veya toplu ayrıntı düzeyindeki veriler. |
Tools | Hadoop/Harita Azaltma gibi açık kaynak/araçları kullanabilir | Çoğunlukla ticari araçlar. |
Data Lake'i Kullanmanın Yararları ve Riskleri
Veri Gölü kullanmanın bazı önemli avantajları şunlardır:
- Ürün iyonlaştırma ve gelişmiş analitik konusunda tam olarak yardımcı olur
- Uygun maliyetli ölçeklenebilirlik ve esneklik sunar
- Sınırsız veri türünden değer sunar
- Uzun vadeli sahip olma maliyetini azaltır
- Dosyaların ekonomik olarak saklanmasına olanak tanır
- Değişikliklere hızla uyum sağlayabilme
- Veri gölünün temel avantajı, merkezileştirme farklı içerik kaynaklarının
- Çeşitli departmanlardan kullanıcılar dünyanın dört bir yanına dağılmış olabilir. esnek erişim verilere
Data Lake'i Kullanmanın Riski:
- Bir süre sonra Data Lake alaka düzeyini ve ivmesini kaybedebilir
- Data Lake'i tasarlarken daha büyük risk söz konusudur
- Yapılandırılmamış Veriler, Yönetilemeyen Karmaşaya, Kullanılamaz Verilere, Ayrık ve Karmaşık Araçlara, Kuruluş Genelinde İşbirliğine, Birleşik, Tutarlı ve Ortak Verilere Yol Açabilir
- Aynı zamanda depolama ve bilgi işlem maliyetlerini de artırır
- Önceki analistlerin bulgularının kökenine ilişkin bir açıklama bulunmadığından, verilerle çalışan diğerlerinden fikir almanın bir yolu yoktur.
- Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Verilerin bir kısmı mahremiyet ve düzenleme ihtiyacı içerebileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.
ÖZET
- Veri Gölü, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veriyi depolayabilen bir depolama havuzudur.
- Veri gölü oluşturmanın temel amacı, veri bilimcilere verilerin rafine edilmemiş bir görünümünü sunmaktır.
- Birleşik operasyon katmanı, İşleme katmanı, Damıtma katmanı ve HDFS, Data Lake'in önemli katmanlarıdır Archidoku
- Veri Kullanımı, Veri depolama, Veri kalitesi, Veri Denetimi, Veri araştırması, Veri keşfetme, Data Lake'in bazı önemli bileşenleridir Archidoku
- Data Lake'in tasarımı, gerekenden ziyade mevcut olana göre yönlendirilmelidir.
- Data Lake, uzun vadeli sahip olma maliyetini azaltır ve dosyaların ekonomik olarak depolanmasına olanak tanır
- Veri göllerinin en büyük riski güvenlik ve erişim kontrolüdür. Verilerin bir kısmı mahremiyet ve düzenleme ihtiyacı içerebileceğinden, bazen veriler herhangi bir gözetim olmaksızın bir göle yerleştirilebilir.