Veri deposu Archidoku, Bileşenler ve Diyagram Concepts

Veri deposu Concepts

Veri Ambarının temel konsepti, bir şirket için karar alma ve tahmin yapma amacıyla gerçeğin tek bir versiyonunu kolaylaştırmaktır. Veri ambarı, tek veya birden fazla kaynaktan gelen geçmiş ve değişmeli verileri içeren bir bilgi sistemidir. Veri deposu Concepts Kuruluşların raporlama ve analiz sürecini basitleştirin.

Veri ambarının özellikleri

Veri deposu Concepts Aşağıdaki özelliklere sahip olmak:

  • Konu Odaklı
  • Entegre
  • Zaman değişkeni
  • Uçucu olmayan

Konu Odaklı

Veri ambarı, şirketlerin devam eden operasyonları yerine bir temaya ilişkin bilgi sunduğu için konu odaklıdır. Bu konular satış, pazarlama, dağıtım vb. olabilir.

Bir veri ambarı hiçbir zaman devam eden işlemlere odaklanmaz. Bunun yerine, verilerin modellenmesine ve analizine vurgu yapıldı. karar verme. Ayrıca karar sürecini desteklemeye yardımcı olmayan verileri hariç tutarak spesifik konu hakkında basit ve özlü bir bakış açısı sağlar.

Entegre

Veri Ambarında entegrasyon, farklı veri tabanındaki benzer tüm veriler için ortak bir ölçü biriminin oluşturulması anlamına gelir. Verilerin ayrıca Veri Ambarı'nda ortak ve evrensel olarak kabul edilebilir bir şekilde saklanması gerekir.

Bir veri ambarı, ana bilgisayar, ilişkisel veritabanları, düz dosyalar vb. gibi çeşitli kaynaklardan gelen verilerin entegre edilmesiyle geliştirilir. Ayrıca, tutarlı adlandırma kurallarına, formata ve kodlamaya sahip olmalıdır.

Bu bütünleşme, verilerin etkili bir şekilde analiz edilmesine yardımcı olur. Adlandırma kurallarında, öznitelik ölçütlerinde, kodlama yapısında vb. tutarlılık sağlanmalıdır. Aşağıdaki örneği ele alalım:

Veri ambarının özellikleri

Yukarıdaki örnekte A, B ve C etiketli üç farklı uygulama bulunmaktadır. Bu uygulamalarda saklanan bilgiler Cinsiyet, Tarih ve Bakiyedir. Ancak her uygulamanın verileri farklı şekilde saklanır.

  • Uygulamada Bir cinsiyet alanı M veya F gibi mantıksal değerleri saklar
  • Uygulama B'de cinsiyet alanı sayısal bir değerdir,
  • Uygulama C uygulamasında cinsiyet alanı karakter değeri biçiminde saklanmaktadır.
  • Tarih ve bakiye için de durum aynıdır

Ancak dönüştürme ve temizleme işleminden sonra tüm bu veriler ortak formatta saklanır. Veri deposu.

Zaman Değişkeni

Veri ambarının zaman ufku operasyonel sistemlerle karşılaştırıldığında oldukça geniştir. Bir veri ambarında toplanan veriler belirli bir dönemle tanınır ve tarihsel açıdan bilgi sunar. Açıkça veya örtülü olarak bir zaman unsuru içerir.

Datawarehouse verilerinin zaman farkını gösterdiği yerlerden biri de kayıt anahtarının yapısındadır. DW'nin içerdiği her birincil anahtarın örtülü veya açık bir zaman unsuruna sahip olması gerekir. Gün, hafta ay vb. gibi.

Zaman farklılığının başka bir yönü de, verilerin ambara eklendikten sonra güncellenememesi veya değiştirilememesidir.

Uçucu olmayan

Veri ambarının kalıcı olması, içine yeni veri girildiğinde önceki verilerin silinmediği anlamına gelir.

Veriler salt okunurdur ve periyodik olarak yenilenir. Bu aynı zamanda geçmiş verileri analiz etmeye ve ne ve ne zaman olduğunu anlamaya da yardımcı olur. İşlem süreci, kurtarma ve eşzamanlılık kontrol mekanizmalarına ihtiyaç duymaz.

Operasyonel bir uygulama ortamında gerçekleştirilen silme, güncelleme ve ekleme gibi faaliyetler Veri ambarı ortamında atlanır. Veri Ambarı'nda gerçekleştirilen yalnızca iki tür veri işlemi vardır.

  1. Veri yükleme
  2. Veri erişimi

Uygulama ve Veri Ambarı arasındaki bazı önemli farkları burada bulabilirsiniz

OperaUlusal Başvuru Veri deposu
Son ürünün yüksek bütünlüğünün veri yükseltme süreçlerinde korunabilmesi için karmaşık bir programın kodlanması gerekir. Veri güncellemesi yapılmadığı için bu tür sorunlar yaşanmamaktadır.
Minimum yedeklilik sağlamak için veriler normalleştirilmiş bir forma yerleştirilir. Veriler normalleştirilmiş biçimde saklanmaz.
İşlemler, veri kurtarma, geri alma ve çözümleme konularındaki sorunları destekleyecek teknolojiye ihtiyaç duyulmaktadır çünkü çıkmazı oldukça karmaşıktır. Teknolojide göreceli basitlik sunar.

Veri deposu Archidoku

Veri deposu Archidoku karmaşıktır çünkü birden fazla kaynaktan gelen tarihsel ve değişmeli verileri içeren bir bilgi sistemidir. Veri Ambarı katmanlarını oluşturmak için 3 yaklaşım vardır: Tek Katman, İki Katman ve Üç Katman. Veri Ambarının bu 3 katmanlı mimarisi aşağıda açıklanmıştır.

Tek katmanlı mimari

Tek bir katmanın amacı depolanan veri miktarını en aza indirmektir. Bu amaç veri fazlalığını ortadan kaldırmaktır. Bu mimari pratikte sıklıkla kullanılmaz.

İki katmanlı mimari

İki katmanlı mimari, fiziksel olarak kullanılabilir kaynakları ve veri ambarını ayıran Veri Ambarı katmanlarından biridir. Bu mimari genişletilebilir değildir ve ayrıca çok sayıda son kullanıcıyı desteklemez. Ayrıca ağ sınırlamaları nedeniyle bağlantı sorunları vardır.

Üç Katmanlı Veri Ambarı Archidoku

Bu en yaygın kullanılan ArchiVeri Ambarı'nın yapısı.

Üst, Orta ve Alt Katmandan oluşur.

  1. Alt Katman: Alt katman olarak Datawarehouse sunucularının veritabanı. Genellikle ilişkisel bir veritabanı sistemidir. Veriler, arka uç araçlar kullanılarak temizlenir, dönüştürülür ve bu katmana yüklenir.
  2. Orta Seviye: Veri ambarındaki orta katman, ROLAP veya MOLAP modeli kullanılarak uygulanan bir OLAP sunucusudur. Bir kullanıcı için bu uygulama katmanı, veritabanının soyutlanmış bir görünümünü sunar. Bu katman aynı zamanda son kullanıcı ile veritabanı arasında aracı görevi de görür.
  3. Üst Seviye: En üst katman, ön uç istemci katmanıdır. En üst katman, bağladığınız ve veri ambarından veri aldığınız araçlar ve API'dir. Sorgu araçları, raporlama araçları, yönetilen sorgu araçları, Analiz araçları ve Veri madenciliği araçları olabilir.

Veri Ambarı Bileşenleri

Datawarehouse Bileşenleri hakkında bilgi edineceğiz ve ArchiAşağıda gösterildiği gibi Diyagramlı Veri Ambarı yapısı:

Veri deposu Archidoku
Veri deposu Archidoku

Veri Ambarı, tüm ortamı işlevsel, yönetilebilir ve erişilebilir kılmak için bazı önemli Veri Ambarı bileşenleriyle çevrelenen merkezi bir bilgi deposu olan bir RDBMS sunucusuna dayanmaktadır.

Temel olarak beş Veri Ambarı Bileşeni vardır:

Veri Ambarı Veritabanı

Merkezi veritabanı, veri ambarı ortamının temelidir. Bu veritabanı üzerinde uygulanır RDBMS teknoloji. Bununla birlikte, bu tür bir uygulama, geleneksel RDBMS sisteminin veri depolama için değil, işlemsel veritabanı işleme için optimize edilmiş olması gerçeğiyle sınırlıdır. Örneğin anlık sorgu, çok tablolu birleştirmeler ve toplamalar kaynak yoğundur ve performansı yavaşlatır.

Bu nedenle, Veritabanına alternatif yaklaşımlar aşağıda listelendiği şekilde kullanılmaktadır:

  • Bir veri ambarında ilişkisel veritabanları, ölçeklenebilirliğe olanak sağlamak için paralel olarak dağıtılır. Paralel ilişkisel veritabanları ayrıca çeşitli çok işlemcili konfigürasyonlarda veya büyük ölçüde paralel işlemcilerde paylaşılan belleğe veya paylaşılan hiçbir şey modeline izin vermez.
  • İlişkisel tablo taramasını atlamak ve hızı artırmak için yeni dizin yapıları kullanılır.
  • İlişkisel Veri Ambarı Modelleri nedeniyle ortaya çıkan sınırlamaların üstesinden gelmek için çok boyutlu veritabanının (MDDB'ler) kullanılması. Örnek: Essbase'den Oracle.

Kaynak Bulma, Satın Alma, Temizleme ve Dönüştürme Araçları (ETL)

Veri kaynağı oluşturma, dönüştürme ve taşıma araçları, tüm dönüştürmeleri, özetlemeleri ve verileri veri ambarında birleşik bir formata dönüştürmek için gereken tüm değişiklikleri gerçekleştirmek için kullanılır. Bunlara Ayıklama, Dönüştürme ve Yükleme (ETL) Araçları da denir.

İşlevleri şunları içerir:

  • Düzenleyici hükümlere göre verileri anonimleştirin.
  • Operasyonel veritabanlarındaki istenmeyen verilerin Veri ambarına yüklenmesini ortadan kaldırma.
  • Farklı kaynaklardan gelen veriler için ortak adları ve tanımları arayın ve değiştirin.
  • Özetleri ve türetilmiş verileri hesaplama
  • Eksik veri olması durumunda, bunları varsayılanlarla doldurun.
  • Birden çok veri kaynağından gelen yinelenen verilerden arındırılmış veriler.

Bu Çıkarma, Dönüştürme ve Yükleme araçları cron işleri, arka plan işleri, Cobol programlarıveri ambarındaki verileri düzenli olarak güncelleyen kabuk komut dosyaları vb. Bu araçlar aynı zamanda Meta Verilerin korunmasına da yardımcı olur.

Bunlar ETL Araçları Veritabanı ve Veri heterojenliğinin getirdiği zorluklarla uğraşmak zorundayız.

Metadata

Meta Veri adı, bazı üst düzey teknolojik Veri Depolamayı önermektedir. Concepts. Ancak oldukça basittir. Meta veriler, veri ambarını tanımlayan verilerle ilgili verilerdir. Veri ambarını oluşturmak, sürdürmek ve yönetmek için kullanılır.

Veri Ambarında ArchiMeta-veri, veri ambarı verilerinin kaynağını, kullanımını, değerlerini ve özelliklerini belirttiği için önemli bir rol oynar. Ayrıca verilerin nasıl değiştirilebileceğini ve işlenebileceğini de tanımlar. Veri ambarıyla yakından bağlantılıdır.

Örneğin, satış veritabanındaki bir satır şunları içerebilir:

4030 KJ732 299.90

Bu, bize bunun olduğunu söyleyen Meta'ya başvurana kadar anlamsız bir veridir.

  • Model numarası: 4030
  • Satış Temsilcisi Kimliği: KJ732
  • Toplam satış tutarı 299.90$

Bu nedenle Meta Veriler, verinin bilgiye dönüştürülmesinde temel bileşenlerdir.

Meta veriler aşağıdaki soruların yanıtlanmasına yardımcı olur

  • Veri Ambarı hangi tabloları, nitelikleri ve anahtarları içerir?
  • Veriler nereden geldi?
  • Veriler kaç kez yeniden yükleniyor?
  • Temizleme ile hangi dönüşümler uygulandı?

Meta veriler aşağıdaki kategorilere ayrılabilir:

  1. Teknik Meta Veriler: Bu tür Meta Veriler, Veri ambarı tasarımcıları ve yöneticileri tarafından kullanılan ambar hakkında bilgiler içerir.
  2. İşletme Meta Verileri: Bu tür Meta Veriler, son kullanıcılara veri ambarında saklanan bilgileri anlamaları kolay bir yol sağlayan ayrıntılar içerir.

Sorgu Araçları

Veri ambarının temel amaçlarından biri işletmelere stratejik kararlar almaları için bilgi sağlamaktır. Sorgu araçları, kullanıcıların veri ambarı sistemiyle etkileşime girmesine olanak tanır.

Bu araçlar dört farklı kategoriye ayrılır:

  1. Sorgu ve raporlama araçları
  2. Uygulama Geliştirme araçları
  3. Veri madenciliği araçları
  4. OLAP araçları

1. Sorgulama ve raporlama araçları

Sorgu ve raporlama araçları ayrıca aşağıdakilere ayrılabilir:

  • Raporlama araçları
  • Yönetilen sorgu araçları

Raporlama araçları:

Raporlama araçları üretim raporlama araçlarına ve masaüstü rapor yazıcısına da ayrılabilir.

  1. Rapor yazarları: Bu tür raporlama araçları, son kullanıcıların analizleri için tasarlanmış araçlardır.
  2. Üretim raporlaması: Bu tür araçlar kuruluşların düzenli operasyonel raporlar oluşturmasına olanak tanır. Ayrıca yazdırma ve hesaplama gibi yüksek hacimli toplu işleri de destekler. Bazı popüler raporlama araçları Brio, Business Objects, Oracle, PowerSoft, SAS Enstitüsü.

Yönetilen sorgu araçları:

Bu tür erişim araçları, kullanıcılar ile veritabanı arasına meta katman ekleyerek son kullanıcıların veritabanındaki, SQL'deki ve veritabanı yapısındaki sorunları çözmelerine yardımcı olur.

2. Uygulama geliştirme araçları

Bazen yerleşik grafiksel ve analitik araçlar bir kuruluşun analitik ihtiyaçlarını karşılamaz. Bu gibi durumlarda Uygulama geliştirme araçları kullanılarak özel raporlar geliştirilir.

3. Veri madenciliği araçları

Veri madenciliği, büyük miktarda veriyi inceleyerek anlamlı yeni korelasyonları, kalıpları ve eğilimleri keşfetme sürecidir. Veri madenciliği araçları Bu işlemi otomatik hale getirmek için kullanılır.

4. OLAP araçları

Bu araçlar çok boyutlu bir veritabanının kavramlarına dayanmaktadır. Kullanıcıların verileri ayrıntılı ve karmaşık çok boyutlu görünümler kullanarak analiz etmelerine olanak tanır.

Veri ambarı veri yolu Archidoku

Veri ambarı Veriyolu ambarınızdaki veri akışını belirler. Bir veri ambarındaki veri akışı Giriş, Yukarı Akış, Aşağı Akış, Çıkış ve Meta akışı olarak kategorize edilebilir.

Bir Veri Yolu tasarlarken, veri reyonlarındaki paylaşılan boyutları ve gerçekleri dikkate almak gerekir.

Veri Merkezleri

A mart tarihi Verilerin kullanıcılara ulaştırılması için kullanılan bir erişim katmanıdır. Oluşturulması daha az zaman ve para gerektirdiğinden büyük boyutlu veri ambarı için bir seçenek olarak sunulmaktadır. Ancak veri pazarının kişiden kişiye farklılık gösteren standart bir tanımı yoktur.

Basit bir ifadeyle Data mart, bir veri ambarının bir yan kuruluşudur. Datamart, belirli bir kullanıcı grubu için oluşturulan verilerin bölümlenmesi için kullanılır.

Veri pazarları, Veri Ambarı ile aynı veritabanında veya fiziksel olarak ayrı bir Veritabanında oluşturulabilir.

Veri deposu ArchiEn İyi Uygulamalar

Veri Ambarını tasarlamak ArchiTecture, aşağıda verilen en iyi uygulamaları takip etmeniz gerekir:

  • Boyutsal mod, denormalize edilmiş veya hibrit yaklaşım olabilen, bilgi alımı için optimize edilmiş Veri Ambarı Modellerini kullanın.
  • Veri Ambarında yukarıdan aşağıya ve aşağıdan yukarıya yaklaşım olarak uygun tasarım yaklaşımını seçin
  • Verilerin hızlı ve doğru bir şekilde işlendiğinden emin olmanız gerekir. Aynı zamanda verileri gerçeğin tek versiyonunda birleştiren bir yaklaşım benimsemelisiniz.
  • Veri ambarı için veri toplama ve temizleme sürecini dikkatlice tasarlayın.
  • Veri Ambarı bileşenleri arasında meta verilerin paylaşılmasına olanak tanıyan bir MetaVeri mimarisi tasarlayın
  • Bilgi alma ihtiyacı veri soyutlama piramidinin en altına yakın olduğunda veya erişilmesi gereken birden fazla operasyonel kaynak olduğunda bir ODS modeli uygulamayı düşünün.
  • Veri modelinin yalnızca konsolide edilmediğinden değil, entegre edildiğinden emin olunmalıdır. Bu durumda 3NF veri modelini düşünmelisiniz. Ayrıca ETL ve Veri temizleme araçlarını edinmek için de idealdir.

ÖZET

  • Veri ambarı, tek veya birden fazla kaynaktan gelen geçmiş ve değişmeli verileri içeren bir bilgi sistemidir. Bu kaynaklar geleneksel Veri Ambarı, Bulut Veri Ambarı veya Sanal Veri Ambarı olabilir.
  • Bir veri ambarı, kuruluşun devam eden işlemleri yerine konuyla ilgili bilgi sunduğu için konu odaklıdır.
  • Veri Ambarında entegrasyon, farklı veritabanlarındaki tüm benzer veriler için ortak bir ölçü biriminin oluşturulması anlamına gelir.
  • Veri ambarının kalıcı olması, içine yeni veri girildiğinde önceki verilerin silinmediği anlamına gelir.
  • DW'deki veriler yüksek raf ömrüne sahip olduğundan Veri Ambarı Zaman değişkenlidir.
  • Veri Ambarının temel olarak 5 bileşeni vardır Archiyapı: 1) Veritabanı 2) ETL Araçları 3) Meta Veriler 4) Sorgu Araçları 5) DataMarts
  • Bunlar dört ana sorgu aracı kategorisidir: 1. Sorgu ve raporlama, araçlar 2. Uygulama Geliştirme araçları, 3. Veri madenciliği araçları 4. OLAP araçları
  • Veri kaynağı oluşturma, dönüştürme ve taşıma araçları, tüm dönüştürme ve özetleme işlemlerini gerçekleştirmek için kullanılır.
  • Veri Ambarında ArchiMeta-veri, veri ambarı verilerinin kaynağını, kullanımını, değerlerini ve özelliklerini belirttiği için önemli bir rol oynar.