مستودع البيانات Architecture والمكونات والرسم البياني Concepts

مستودع البيانات Concepts

المفهوم الأساسي لمستودع البيانات هو تسهيل نسخة واحدة من الحقيقة للشركة لاتخاذ القرار والتنبؤ. مستودع البيانات هو نظام معلومات يحتوي على بيانات تاريخية وإبدالية من مصادر فردية أو متعددة. مستودع البيانات Concepts تبسيط عملية إعداد التقارير والتحليل للمنظمات.

خصائص مستودع البيانات

مستودع البيانات Concepts لديك متابعةwing مميزات:

  • موجه نحو الموضوع
  • المتكاملة
  • تغير الوقت
  • غير متطاير

موجه نحو الموضوع

يكون مستودع البيانات موجهًا نحو الموضوع لأنه يقدم معلومات تتعلق بموضوع ما بدلاً من معلومات الشركات المستمرة operaشؤون. يمكن أن تكون هذه المواضيع المبيعات والتسويق والتوزيع وما إلى ذلك.

لا يركز مستودع البيانات أبدًا على ما هو مستمر operaشؤون. وبدلا من ذلك، ركزت على نمذجة وتحليل البيانات صناعة القرار. كما أنه يوفر نظرة بسيطة وموجزة حول موضوع محدد عن طريق استبعاد البيانات التي لا تساعد في دعم عملية اتخاذ القرار.

المتكاملة

في Data Warehouse، يعني التكامل إنشاء وحدة قياس مشتركة لجميع البيانات المتشابهة من قاعدة البيانات المختلفة. ويجب أيضًا تخزين البيانات في مستودع البيانات بطريقة مشتركة ومقبولة عالميًا.

يتم تطوير مستودع البيانات من خلال دمج البيانات من مصادر متنوعة مثل الحاسوب المركزي، وقواعد البيانات العلائقية، والملفات المسطحة، وما إلى ذلك. علاوة على ذلك، يجب أن يحافظ على اصطلاحات التسمية والتنسيق والترميز المتسقة.

يساعد هذا التكامل في التحليل الفعال للبيانات. يجب ضمان الاتساق في اصطلاحات التسمية ومقاييس السمات وبنية التشفير وما إلى ذلك. خذ بعين الاعتبار ما يليwing مثال:

خصائص مستودع البيانات

في المثال أعلاه، هناك ثلاثة تطبيقات مختلفة تسمى A وB وC. المعلومات المخزنة في هذه التطبيقات هي الجنس والتاريخ والتوازن. ومع ذلك، يتم تخزين بيانات كل تطبيق بطريقة مختلفة.

  • في التطبيق، يخزن حقل الجنس القيم المنطقية مثل M أو F
  • في الحقل "ب" للجنس، يكون هناك قيمة عددية،
  • في تطبيق التطبيق C، يتم تخزين حقل الجنس في شكل قيمة حرف.
  • نفس الشيء هو الحال مع التاريخ والتوازن

ومع ذلك، بعد عملية التحويل والتنظيف، يتم تخزين جميع هذه البيانات بتنسيق مشترك في ملف مستودع البيانات.

تغير الوقت

الأفق الزمني لمستودع البيانات واسع جدًا مقارنة بـ operaالأنظمة الإقليمية. يتم التعرف على البيانات المجمعة في مستودع البيانات خلال فترة معينة وتقدم معلومات من وجهة النظر التاريخية. أنه يحتوي على عنصر الوقت، صراحة أو ضمنا.

أحد هذه الأماكن حيث تعرض بيانات Datawarehouse تباين الوقت موجود في بنية مفتاح السجل. يجب أن يحتوي كل مفتاح أساسي موجود في DW على عنصر الوقت بشكل ضمني أو صريح. مثل اليوم والأسبوع والشهر وما إلى ذلك.

جانب آخر من تباين الوقت هو أنه بمجرد إدراج البيانات في المستودع، لا يمكن تحديثها أو تغييرها.

غير متطاير

كما أن مستودع البيانات غير متطاير أي أنه لا يتم مسح البيانات السابقة عند إدخال بيانات جديدة فيه.

البيانات للقراءة فقط ويتم تحديثها بشكل دوري. ويساعد هذا أيضًا على تحليل البيانات التاريخية وفهم ماذا ومتى حدث. ولا يتطلب آليات معالجة المعاملات والاسترداد والتحكم في التزامن.

الأنشطة مثل الحذف والتحديث والإدراج التي يتم تنفيذها في ملف operaتم حذف بيئة التطبيق الوطنية في بيئة مستودع البيانات. نوعين فقط من البيانات operaالإجراءات التي يتم إجراؤها في تخزين البيانات هي

  1. تحميل البيانات
  2. الدخول الى البيانات

فيما يلي بعض الاختلافات الرئيسية بين التطبيق ومستودع البيانات

Operaالتطبيق الوطني مستودع البيانات
معplex يجب ترميز البرنامج للتأكد من أن البيانات upgrade تحافظ العمليات على سلامة عالية للمنتج النهائي. لا يحدث هذا النوع من المشكلات بسبب عدم إجراء تحديث البيانات.
يتم وضع البيانات في نموذج عادي لضمان الحد الأدنى من التكرار. لا يتم تخزين البيانات في شكل طبيعي.
التكنولوجيا اللازمة لدعم قضايا المعاملات، واستعادة البيانات، والتراجع، والحل كما هو الحالadlock هو تماما كومplex. إنه يوفر بساطة نسبية في مجال التكنولوجيا.

مستودع البيانات Architecture

مستودع البيانات Architecture هو complex لأنه نظام معلومات يحتوي على بيانات تاريخية وإبدالية من مصادر متعددة. هناك 3 طرق لإنشاء طبقات مستودع البيانات: طبقة واحدة، ومستويان، وثلاث طبقات. هذه الطبقة 3 archiتم شرح بنية مستودع البيانات على النحو التالي.

مستوى واحد architecture

الهدف من الطبقة الواحدة هو تقليل كمية البيانات المخزنة. هذا الهدف هو إزالة تكرار البيانات. هذا archiلا يتم استخدام التقنية بشكل متكرر في الممارسة العملية.

ذو مستويين architecture

اثنين من طبقة archiتعد tecture إحدى طبقات مستودع البيانات التي تفصل بين المصادر المتاحة فعليًا ومستودع البيانات. هذا archiالبنية غير قابلة للتوسيع ولا تدعم أيضًا عددًا كبيرًا من المستخدمين النهائيين. كما أن لديها مشاكل في الاتصال بسبب قيود الشبكة.

مستودع البيانات ثلاثي المستويات Architecture

هذا هو الأكثر استخداما على نطاق واسع Archiبنية مستودع البيانات.

وتتكون من الطبقة العليا والمتوسطة والسفلى.

  1. الطبقة السفلى: قاعدة بيانات خوادم Datawarehouse هي الطبقة السفلية. عادة ما يكون نظام قاعدة بيانات علائقية. يتم تنظيف البيانات وتحويلها وتحميلها في هذه الطبقة باستخدام أدوات الواجهة الخلفية.
  2. الطبقة الوسطى: الطبقة الوسطى في مستودع البيانات هي خادم OLAP الذي يتم تنفيذه باستخدام نموذج ROLAP أو MOLAP. بالنسبة للمستخدم، تقدم طبقة التطبيق هذه عرضًا مجردًا لقاعدة البيانات. تعمل هذه الطبقة أيضًا كوسيط بين المستخدم النهائي وقاعدة البيانات.
  3. الطبقة العليا: الطبقة العليا هي طبقة العميل الأمامية. المستوى الأعلى هو الأدوات وواجهة برمجة التطبيقات (API) التي تتصل بها وتخرج البيانات من مستودع البيانات. يمكن أن تكون أدوات الاستعلام وأدوات إعداد التقارير وأدوات الاستعلام المُدارة وأدوات التحليل وأدوات استخراج البيانات.

مكونات مستودع البيانات

سوف نتعرف على مكونات مستودع البيانات و Archiهيكل مستودع البيانات مع الرسم البياني كما هو موضح أدناه:

مستودع البيانات Architecture
مستودع البيانات Architecture

يعتمد مستودع البيانات على خادم RDBMS وهو مستودع معلومات مركزي محاط ببعض مكونات تخزين البيانات الرئيسية لجعل البيئة بأكملها عملية وسهلة الإدارة ويمكن الوصول إليها.

هناك خمسة مكونات أساسية لمستودع البيانات:

قاعدة بيانات مستودع البيانات

قاعدة البيانات المركزية هي foundation لبيئة تخزين البيانات. يتم تنفيذ قاعدة البيانات هذه على RDBMS تكنولوجيا. على الرغم من أن هذا النوع من التنفيذ مقيد بحقيقة أن نظام RDBMS التقليدي مُحسّن لمعالجة قاعدة بيانات المعاملات وليس لتخزين البيانات. على سبيل المثال، الاستعلام المخصص، والانضمامات للجداول المتعددة، والتجميعات تتطلب موارد كثيفة وتؤدي إلى إبطاء الأداء.

وبالتالي، يتم استخدام الأساليب البديلة لقاعدة البيانات على النحو المبين أدناه-

  • في مستودع البيانات، يتم نشر قواعد البيانات العلائقيةyed بالتوازي للسماح بقابلية التوسع. تسمح قواعد البيانات العلائقية المتوازية أيضًا بذاكرة مشتركة أو نموذج لا شيء مشترك على تكوينات متعددة المعالجات أو معالجات متوازية بشكل كبير.
  • تُستخدم بنيات الفهرس الجديدة لتجاوز فحص الجدول العلائقي وتحسين السرعة.
  • استخدام قاعدة البيانات متعددة الأبعاد (MDDBs) للتغلب على أي قيود يتم وضعها بسبب نماذج مستودع البيانات العلائقية. مثال: Essbase من Oracle.

أدوات تحديد المصادر والاستحواذ والتنظيف والتحويل (ETL)

يتم استخدام أدوات مصادر البيانات والتحويل والترحيل لإجراء جميع التحويلات، مجموعهاmarizations، وجميع التغييرات اللازمة لتحويل البيانات إلى تنسيق موحد في مستودع البيانات. وتسمى أيضًا أدوات الاستخراج والتحويل والتحميل (ETL).

تشمل وظائفهم ما يلي:

  • إخفاء هوية البيانات وفقًا للشروط التنظيمية.
  • التخلص من البيانات غير المرغوب فيها في operaقواعد البيانات الوطنية من التحميل إلى مستودع البيانات.
  • ابحث واستبدل الأسماء والتعريفات الشائعة للبيانات الواردة من مصادر مختلفة.
  • حساب المبلغmaries والبيانات المشتقة
  • في حالة فقدان البيانات ، قم بتعبئتها بالافتراضيات.
  • إلغاء تكرار البيانات المتكررة الواردة من مصادر بيانات متعددة.

قد تؤدي أدوات الاستخراج والتحويل والتحميل هذه إلى إنشاء وظائف كرون، ووظائف الخلفية، برامج كوبولونصوص shell وما إلى ذلك التي تقوم بتحديث البيانات بانتظام في مستودع البيانات. هذه الأدوات مفيدة أيضًا في الحفاظ على البيانات الوصفية.

تشبه أدوات ETL يجب أن تتعامل مع تحديات قاعدة البيانات وعدم تجانس البيانات.

البيانات الوصفية

يشير اسم البيانات الوصفية إلى بعض عمليات تخزين البيانات التكنولوجية عالية المستوى Concepts. ومع ذلك، فهو بسيط للغاية. البيانات الوصفية هي بيانات حول البيانات التي تحدد مستودع البيانات. يتم استخدامه لبناء وصيانة وإدارة مستودع البيانات.

في مستودع البيانات Archiفي الحقيقة، تلعب البيانات الوصفية دورًا مهمًا لأنها تحدد المصدر والاستخدام والقيم والميزات لبيانات مستودع البيانات. كما أنه يحدد كيف يمكن تغيير البيانات ومعالجتها. وهو مرتبط بشكل وثيق بمستودع البيانات.

على سبيل المثال، قد يحتوي سطر في قاعدة بيانات المبيعات على ما يلي:

4030 KJ732 299.90

هذه بيانات لا معنى لها حتى نستشير Meta التي تخبرنا بذلك

  • رقم الموديل: 4030
  • معرف وكيل المبيعات: KJ732
  • إجمالي مبلغ المبيعات 299.90 دولار

ولذلك، تعد البيانات الوصفية مكونات أساسية في تحويل البيانات إلى معرفة.

تساعد البيانات الوصفية في الإجابة على المتابعةwing سؤال

  • ما هي الجداول والسمات والمفاتيح التي يحتوي عليها مستودع البيانات؟
  • من أين جاءت البيانات؟
  • كم مرة يتم إعادة تحميل البيانات؟
  • ما هي التحولات التي تم تطبيقها مع التطهير؟

يمكن تصنيف البيانات الوصفية إلى متابعةwing فئات:

  1. بيانات التعريف الفنية: يحتوي هذا النوع من البيانات الوصفية على معلومات حول المستودع والتي يستخدمها مصممو ومسؤولو مستودعات البيانات.
  2. البيانات التعريفية للأعمال: يحتوي هذا النوع من البيانات التعريفية على تفاصيل تمنح المستخدمين النهائيين طريقة سهلة لفهم المعلومات المخزنة في مستودع البيانات.

أدوات الاستعلام

أحد الأهداف الأساسية لتخزين البيانات هو توفير المعلومات للشركات لاتخاذ قرارات استراتيجية. تتيح أدوات الاستعلام للمستخدمين التفاعل مع نظام مستودع البيانات.

تنقسم هذه الأدوات إلى أربع فئات مختلفة:

  1. أدوات الاستعلام وإعداد التقارير
  2. أدوات تطوير التطبيقات
  3. أدوات استخراج البيانات
  4. أدوات OLAP

1. أدوات الاستعلام وإعداد التقارير

يمكن تقسيم أدوات الاستعلام وإعداد التقارير إلى:

  • أدوات التقارير
  • أدوات الاستعلام المدارة

أدوات التقارير:

أدوات التقارير يمكن تقسيمها أيضًا إلى أدوات إعداد تقارير الإنتاج وكاتب تقارير سطح المكتب.

  1. مؤلفو التقارير: هذا النوع من أدوات إعداد التقارير عبارة عن أدوات مصممة للمستخدمين النهائيين لتحليلهم.
  2. تقارير الإنتاج: يتيح هذا النوع من الأدوات للمؤسسات إنشاء تقارير منتظمة operaالتقارير الوطنية. كما أنه يدعم المهام الدفعية كبيرة الحجم مثل الطباعة والحساب. بعض أدوات إعداد التقارير الشائعة هي Brio، وBusiness Objects، Oracle، باور سوفت، معهد ساس.

أدوات الاستعلام المدارة:

يساعد هذا النوع من أدوات الوصول المستخدمين النهائيين على حل العقبات في قاعدة البيانات وSQL وبنية قاعدة البيانات عن طريق إدراج طبقة التعريف بين المستخدمين وقاعدة البيانات.

2. أدوات تطوير التطبيقات

في بعض الأحيان، لا تلبي الأدوات الرسومية والتحليلية المضمنة الاحتياجات التحليلية للمؤسسة. في مثل هذه الحالات، يتم تطوير التقارير المخصصة باستخدام أدوات تطوير التطبيقات.

3. أدوات التنقيب عن البيانات

التنقيب في البيانات هو عملية اكتشاف ارتباطات وأنماط واتجاهات جديدة ذات معنى من خلال التنقيب في كميات كبيرة من البيانات. أدوات استخراج البيانات تستخدم لجعل هذه العملية تلقائية.

4. أدوات OLAP

تعتمد هذه الأدوات على concepts قاعدة بيانات متعددة الأبعاد. يسمح للمستخدمين بتحليل البيانات باستخدام تفاصيل و complex وجهات نظر متعددة الأبعاد.

حافلة مستودع البيانات Architecture

تحدد حافلة مستودع البيانات تدفق البيانات في المستودع الخاص بك. يمكن تصنيف تدفق البيانات في مستودع البيانات على أنه تدفق وارد، وتدفق علوي، وتدفق سفلي، وتدفق خارجي، وتدفق ميتا.

أثناء تصميم ناقل البيانات، يحتاج المرء إلى مراعاة الأبعاد المشتركة والحقائق عبر أسواق البيانات.

سوق البيانات

A مارت البيانات هي طبقة وصول تُستخدم لإيصال البيانات إلى المستخدمين. يتم تقديمه كخيار لمستودع بيانات كبير الحجم حيث يستغرق إنشاءه وقتًا ومالًا أقل. ومع ذلك، لا يوجد تعريف موحد لسوق البيانات الذي يختلف من شخص لآخر.

في كلمة بسيطة، يعد Data mart شركة تابعة لمستودع البيانات. يتم استخدام سوق البيانات لتقسيم البيانات التي يتم إنشاؤها لمجموعة محددة من المستخدمين.

يمكن إنشاء أسواق البيانات في نفس قاعدة البيانات مثل مستودع البيانات أو قاعدة بيانات منفصلة فعليًا.

مستودع البيانات Archiأفضل الممارسات التقنية

لتصميم مستودع البيانات Architecture، يتعين عليك اتباع أفضل الممارسات الواردة أدناه:

  • استخدم نماذج مستودع البيانات المُحسّنة لاسترجاع المعلومات والتي يمكن أن تكون في وضع الأبعاد أو النهج غير الطبيعي أو المختلط.
  • اختر أسلوب التصميم المناسب من أعلى إلى أسفل ومن أسفل إلى أعلى في Data Warehouse
  • تحتاج إلى التأكد من معالجة البيانات بسرعة ودقة. وفي الوقت نفسه، يجب عليك اتباع نهج يجمع البيانات في نسخة واحدة من الحقيقة.
  • صمم بعناية عملية الحصول على البيانات وتطهيرها لمستودع البيانات.
  • تصميم البيانات الوصفية archiالتكنولوجيا التي تسمح بمشاركة البيانات التعريفية بين مكونات مستودع البيانات
  • فكر في تنفيذ نموذج ODS عندما تكون الحاجة إلى استرجاع المعلومات بالقرب من أسفل هرم تجريد البيانات أو عندما يكون هناك عدة operaالمصادر المطلوبة للوصول إليها.
  • ينبغي للمرء التأكد من أن نموذج البيانات متكامل وليس موحدًا فقط. في هذه الحالة، يجب أن تفكر في نموذج بيانات 3NF. كما أنه مثالي للحصول على أدوات ETL وتنظيف البيانات

نبذة عامة

  • مستودع البيانات هو نظام معلومات يحتوي على بيانات تاريخية وإبدالية من مصادر فردية أو متعددة. يمكن أن تكون هذه المصادر مستودع بيانات تقليدي أو مستودع بيانات سحابي أو مستودع بيانات افتراضي.
  • يكون مستودع البيانات موجهًا نحو الموضوع لأنه يقدم معلومات تتعلق بالموضوع بدلاً من معلومات المنظمة المستمرة operaستعقد.
  • في Data Warehouse، يعني التكامل إنشاء وحدة قياس مشتركة لجميع البيانات المتشابهة من قواعد البيانات المختلفة
  • كما أن مستودع البيانات غير متطاير أي أنه لا يتم مسح البيانات السابقة عند إدخال بيانات جديدة فيه.
  • يعد مستودع البيانات متغيرًا زمنيًا نظرًا لأن البيانات الموجودة في DW تتمتع بفترة صلاحية عالية.
  • هناك بشكل أساسي 5 مكونات لمستودع البيانات Archiالتقنية: 1) قاعدة البيانات 2) أدوات ETL 3) البيانات الوصفية 4) أدوات الاستعلام 5) DataMarts
  • هذه أربع فئات رئيسية لأدوات الاستعلام 1. أدوات الاستعلام وإعداد التقارير 2. أدوات تطوير التطبيقات، 3. أدوات استخراج البيانات 4. أدوات OLAP
  • يتم استخدام أدوات مصادر البيانات والتحويل والترحيل لإجراء جميع التحويلات والمجموعmariزايشنز.
  • في مستودع البيانات Archiفي الحقيقة، تلعب البيانات الوصفية دورًا مهمًا لأنها تحدد المصدر والاستخدام والقيم والميزات لبيانات مستودع البيانات.