البرنامج التعليمي لاستخراج البيانات: ما هو استخراج البيانات؟ التقنيات والعملية

ما هو استخراج البيانات؟

بيانات التعدين هي عملية إيجاد أنماط مفيدة محتملة من مجموعات بيانات ضخمة. إنها مهارة متعددة التخصصات تستخدم آلة التعلموالإحصائيات والذكاء الاصطناعي لاستخراج المعلومات لتقييم احتمالية الأحداث المستقبلية. تُستخدم الأفكار المستمدة من التنقيب في البيانات في التسويق واكتشاف الاحتيال والاكتشاف العلمي وما إلى ذلك.

يدور التنقيب في البيانات حول اكتشاف العلاقات المخفية وغير المتوقعة وغير المعروفة سابقًا ولكنها صحيحة بين البيانات. يُطلق على استخراج البيانات أيضًا اسم اكتشاف المعرفة في البيانات (KDD)، واستخراج المعرفة، وتحليل البيانات/الأنماط، والمعلومات harvestجي ، إلخ.

أنواع البيانات

يمكن إجراء استخراج البيانات على following أنواع البيانات

  • قواعد البيانات العلائقية
  • مستودعات البيانات
  • قواعد البيانات المتقدمة ومستودعات المعلومات
  • قواعد البيانات الموجهة للكائنات والكائنات العلائقية
  • قواعد البيانات المعاملاتية والمكانية
  • متغايرneoنحن وقواعد البيانات القديمة
  • الوسائط المتعددة وقاعدة بيانات التدفق
  • قواعد البيانات النصية
  • التعدين النص والتعدين على شبكة الإنترنت

عملية تنفيذ استخراج البيانات

عملية تنفيذ استخراج البيانات
عملية تنفيذ استخراج البيانات

دعونا ندرس عملية تنفيذ استخراج البيانات بالتفصيل

فهم الأعمال

في هذه المرحلة، يتم تحديد أهداف الأعمال واستخراج البيانات.

  • أولاً، عليك أن تفهم أهداف العمل والعملاء. تحتاج إلى تحديد ما يريده عميلك (والذي في كثير من الأحيان لا يعرفه هو نفسه)
  • تقييم السيناريو الحالي لاستخراج البيانات. ضع في الاعتبار الموارد والافتراضات والقيود والعوامل المهمة الأخرى في تقييمك.
  • باستخدام أهداف العمل والسيناريو الحالي، حدد أهداف استخراج البيانات الخاصة بك.
  • إن خطة التنقيب عن البيانات الجيدة مفصلة للغاية ويجب تطويرها لتحقيق أهداف الأعمال واستخراج البيانات.

فهم البيانات

في هذه المرحلة، يتم إجراء فحص سلامة البيانات للتحقق مما إذا كانت مناسبة لأهداف استخراج البيانات.

  • أولاً، يتم جمع البيانات من مصادر بيانات متعددة متوفرة في المؤسسة.
  • قد تتضمن مصادر البيانات هذه قواعد بيانات متعددة أو ملفات مسطحة أو مكعبات بيانات. هناك مشكلات مثل مطابقة الكائنات وتكامل المخطط التي يمكن أن تنشأ أثناء عملية تكامل البيانات. إنه كوم تماماplex وعملية صعبة حيث أنه من غير المرجح أن تتطابق البيانات الواردة من مصادر مختلفة بسهولة. على سبيل المثال، يحتوي الجدول A على كيان يسمى cust_no بينما يحتوي جدول آخر B على كيان يسمى cust-id.
  • لذلك، من الصعب جدًا التأكد من أن كلا هذين الكائنين المعينين يشيران إلى نفس القيمة أم لا. هنا، يجب استخدام البيانات الوصفية لتقليل الأخطاء في عملية تكامل البيانات.
  • الخطوة التالية هي البحث عن خصائص البيانات المكتسبة. إحدى الطرق الجيدة لاستكشاف البيانات هي الإجابة على أسئلة استخراج البيانات (التي تم تحديدها في مرحلة العمل) باستخدام أدوات الاستعلام وإعداد التقارير والتصور.
  • وبناء على نتائج الاستعلام، ينبغي التأكد من جودة البيانات. ينبغي الحصول على البيانات المفقودة إن وجدت.

إعداد البيانات

في هذه المرحلة، تصبح البيانات جاهزة للإنتاج.

تستهلك عملية إعداد البيانات حوالي 90% من وقت المشروع.

ينبغي اختيار البيانات من مصادر مختلفة، وتنظيفها، وتحويلها، وتنسيقها، وإخفاء هويتها، وإنشائها (إذا لزم الأمر).

تنظيف البيانات هو عملية "تنظيف" البيانات عن طريق تسهيل البيانات المزعجة وملء القيم المفقودة.

على سبيل المثال، بالنسبة للملف التعريفي الديموغرافي للعميل، فإن بيانات العمر مفقودة. البيانات غير كاملة ويجب ملؤها. في بعض الحالات، قد تكون هناك قيم متطرفة للبيانات. على سبيل المثال، العمر له قيمة 300. قد تكون البيانات غير متناسقة. على سبيل المثال، اسم العميل يختلف في الجداول المختلفة.

تحويل البيانات operaتقوم التغييرات بتغيير البيانات لجعلها مفيدة في التنقيب عن البيانات. فولوwing يمكن تطبيق التحول

تحويل البيانات

تحويل البيانات operaمن شأنها أن تساهم في نجاح عملية التعدين.

التنعيم: يساعد على إزالة الضوضاء من البيانات.

تجميع: ملخص أو تجميع operaيتم تطبيق الإجراءات على البيانات. أي أنه يتم تجميع بيانات المبيعات الأسبوعية لحساب الإجمالي الشهري والسنوي.

تعميم: في هذه الخطوة، يتم استبدال البيانات ذات المستوى المنخفض بالبيانات ذات المستوى الأعلى concepts بمساعدة المفهوم هناarchiوفاق. على سبيل المثال، يتم استبدال المدينة بالمقاطعة.

تطبيع: يتم إجراء التسوية عندما يتم تكبير بيانات السمة أو تصغيرها. مثال: يجب أن تقع البيانات في النطاق -2.0 إلى 2.0 بعد التسوية.

بناء السمة: يتم إنشاء هذه السمات وتضمين مجموعة السمات المحددة المفيدة في استخراج البيانات.

نتيجة هذه العملية هي مجموعة بيانات نهائية يمكن استخدامها في النمذجة.

نمذجة

في هذه المرحلة، يتم استخدام النماذج الرياضية لتحديد أنماط البيانات.

  • واستنادا إلى أهداف العمل، ينبغي اختيار تقنيات النمذجة المناسبة لمجموعة البيانات المعدة.
  • قم بإنشاء سيناريو لاختبار التحقق من جودة وصلاحية النموذج.
  • قم بتشغيل النموذج على مجموعة البيانات المعدة.
  • وينبغي تقييم النتائج من قبل جميع أصحاب المصلحة للتأكد من أن هذا النموذج يمكن أن يلبي أهداف استخراج البيانات.

التقييم

في هذه المرحلة، يتم تقييم الأنماط المحددة مقابل أهداف العمل.

  • يجب تقييم النتائج الناتجة عن نموذج استخراج البيانات مقابل أهداف العمل.
  • إن اكتساب فهم الأعمال هو عملية متكررة. في الواقع، مع الفهم، قد تنشأ متطلبات عمل جديدة بسبب التنقيب في البيانات.
  • يتم اتخاذ قرار الانتقال أو عدم الانتقال لتحريك النموذج في مرحلة النشر.

قابل للفتح

في مرحلة النشر، يمكنك إرسال اكتشافات استخراج البيانات الخاصة بك إلى الأعمال اليومية operaستعقد.

  • يجب أن تكون المعرفة أو المعلومات المكتشفة أثناء عملية استخراج البيانات سهلة الفهم لأصحاب المصلحة غير التقنيين.
  • يتم إنشاء خطة نشر مفصلة للشحن والصيانة ومراقبة اكتشافات استخراج البيانات.
  • يتم إنشاء تقرير المشروع النهائي مع الدروس المستفادة والخبرات الأساسية خلال المشروع. وهذا يساعد على تحسين سياسة عمل المنظمة.

تقنيات استخراج البيانات

تقنيات استخراج البيانات
تقنيات استخراج البيانات

1. تصنيف

يُستخدم هذا التحليل لاسترداد المعلومات المهمة وذات الصلة حول البيانات والبيانات الوصفية. تساعد طريقة استخراج البيانات هذه على تصنيف البيانات في فئات مختلفة.

2. Clusterجي

Clusterالتحليل هو أسلوب لاستخراج البيانات لتحديد البيانات المتشابهة. تساعد هذه العملية على فهم الاختلافات والتشابهات بين البيانات.

3. انحسار

تحليل الانحدار هو طريقة استخراج البيانات لتحديد وتحليل العلاقة بين المتغيرات. يتم استخدامه لتحديد احتمالية وجود متغير معين، نظرا لوجود متغيرات أخرى.

4. قواعد الرابطة

تساعد تقنية استخراج البيانات هذه في العثور على الارتباط بين عنصرين أو أكثر. يكتشف نمطًا مخفيًا في مجموعة البيانات.

5. الكشف الخارجي

يشير هذا النوع من تقنيات استخراج البيانات إلى ملاحظة عناصر البيانات الموجودة في مجموعة البيانات والتي لا تتطابق مع النمط المتوقع أو السلوك المتوقع. يمكن استخدام هذه التقنية في مجموعة متنوعة من المجالات، مثل التسلل أو الكشف أو الاحتيال أو اكتشاف الأخطاء، وما إلى ذلك. ويسمى الاكتشاف الخارجي أيضًا التحليل الخارجي أو التعدين الخارجي.

6. الأنماط المتسلسلة

تساعد تقنية استخراج البيانات هذه على اكتشاف أو تحديد أنماط أو اتجاهات مماثلة في بيانات المعاملات لفترة معينة.

7. تنبؤ

استخدم التنبؤ مزيجًا من التقنيات الأخرى لاستخراج البيانات مثل الاتجاهات والأنماط المتسلسلة، clusterالتصنيف، وما إلى ذلك. فهو يحلل الأحداث أو الأمثلة الماضية في التسلسل الصحيح للتنبؤ بحدث مستقبلي.

تحديات تنفيذ منجم البيانات

  • هناك حاجة إلى خبراء مهرة لصياغة استعلامات استخراج البيانات.
  • التجهيز الزائد: نظرًا لصغر حجم قاعدة بيانات التدريب، قد لا يتناسب النموذج مع الحالات المستقبلية.
  • يحتاج استخراج البيانات إلى قواعد بيانات كبيرة يصعب إدارتها في بعض الأحيان
  • قد تحتاج الممارسات التجارية إلى تعديل لتحديد كيفية استخدام المعلومات التي تم الكشف عنها.
  • إذا لم تكن مجموعة البيانات متنوعة، فقد لا تكون نتائج استخراج البيانات دقيقة.
  • معلومات التكامل المطلوبة من غير المتجانسةneoيمكن أن تكون قواعد البيانات الأمريكية وأنظمة المعلومات العالمية complex

أمثلة على استخراج البيانات

الآن في دورة التنقيب عن البيانات، دعونا نتعرف على التنقيب عن البيانات مع الأمثلة:

مثال 1:

خذ بعين الاعتبار رئيس تسويق خدمات الاتصالات الذي يرغب في زيادة إيرادات خدمات المسافات الطويلة. للحصول على عائد استثمار مرتفع على جهود المبيعات والتسويق، يعد تصنيف العملاء أمرًا مهمًا. لديه مجموعة كبيرة من البيانات الخاصة بمعلومات العملاء مثل العمر والجنس والدخل والتاريخ الائتماني وما إلى ذلك. ولكن من المستحيل تحديد خصائص الأشخاص الذين يفضلون المكالمات البعيدة عن طريق التحليل اليدوي. وباستخدام تقنيات استخراج البيانات، يمكنه اكتشاف الأنماط بين مستخدمي المكالمات البعيدة المدى وخصائصهم.

على سبيل المثال، قد يعلم أن أفضل عملائه هم النساء المتزوجات الذين تتراوح أعمارهم بين 45 و54 عامًا والذين يحصلون على أكثر من 80,000 ألف دولار سنويًا. يمكن أن تستهدف جهود التسويق هذه الديموغرافية.

مثال 2:

يريد أحد البنوك البحث عن طرق جديدة لزيادة إيرادات بطاقته الائتمانية operaشؤون. إنهم يريدون التحقق مما إذا كان الاستخدام سيفعل ذلك double إذا تم تخفيض الرسوم إلى النصف.

يتمتع البنك بسجل متعدد السنوات في متوسط ​​أرصدة بطاقات الائتمان، ومبالغ الدفع، واستخدام الحد الائتماني، والمعلمات الرئيسية الأخرى. يقومون بإنشاء نموذج للتحقق من تأثير سياسة العمل الجديدة المقترحة. تظهر نتائج البيانات أن خفض الرسوم إلى النصف لقاعدة العملاء المستهدفة يمكن أن يزيد الإيرادات بمقدار 10 ملايين دولار.

أدوات استخراج البيانات

فولوwing 2 شعبية أدوات استخراج البيانات تستخدم على نطاق واسع في الصناعة

لغة R:

اللغة R هي أداة مفتوحة المصدر للحوسبة الإحصائية والرسومات. لدى R مجموعة واسعة من الاختبارات الإحصائية الكلاسيكية وتحليل السلاسل الزمنية والتصنيف والتقنيات الرسومية. وهو يوفر وسيلة فعالة لتسليم البيانات وتخزينها.

انقر هنا لمعرفة المزيد

Oracle بيانات التعدين:

Oracle بيانات التعدين المعروف شعبيا باسم ODM هو وحدة نمطية من Oracle قاعدة بيانات التحليلات المتقدمة. تسمح أداة استخراج البيانات هذه لمحللي البيانات بإنشاء رؤى تفصيلية وإجراء تنبؤات. فهو يساعد على التنبؤ بسلوك العملاء، وتطوير ملفات تعريف العملاء، وتحديد فرص البيع المتبادل.

انقر هنا لمعرفة المزيد

فوائد استخراج البيانات

  • تساعد تقنية استخراج البيانات الشركات في الحصول على معلومات قائمة على المعرفة.
  • يساعد استخراج البيانات المؤسسات على إجراء التعديلات المربحة operaنشوئها والإنتاج.
  • يعد استخراج البيانات حلاً فعالاً من حيث التكلفة وفعالاً مقارنة بتطبيقات البيانات الإحصائية الأخرى.
  • يساعد استخراج البيانات في عملية صنع القرار.
  • يسهل التنبؤ الآلي للاتجاهات والسلوكيات بالإضافة إلى الاكتشاف الآلي للأنماط المخفية.
  • يمكن تنفيذه في الأنظمة الجديدة بالإضافة إلى الأنظمة الأساسية الحالية
  • إنها العملية السريعة التي تسهل على المستخدمين تحليل كمية هائلة من البيانات في وقت أقل.

عيوب التنقيب عن البيانات

  • هناك فرص أن تقوم الشركات ببيع معلومات مفيدة عن عملائها لشركات أخرى مقابل المال. على سبيل المثال، باعت شركة أمريكان إكسبريس مشتريات عملائها من بطاقات الائتمان إلى الشركات الأخرى.
  • يصعب تنفيذ العديد من برامج تحليلات استخراج البيانات operaويتطلب تدريبًا مسبقًا للعمل عليه.
  • تعمل أدوات استخراج البيانات المختلفة بطرق مختلفة بسبب اختلافها algorithms NUAyed في تصميمهم. ولذلك، فإن اختيار أداة التنقيب عن البيانات الصحيحة مهمة صعبة للغاية.
  • تقنيات استخراج البيانات ليست دقيقة، وبالتالي يمكن أن تسبب عواقب وخيمة في ظروف معينة.

تطبيقات التنقيب عن البيانات

التطبيقات الأستعمال
مجال الاتصالات تُستخدم تقنيات استخراج البيانات في قطاع الاتصالات للتنبؤ بسلوك العملاء لتقديم حملات مستهدفة للغاية وذات صلة.
تأمين يساعد استخراج البيانات شركات التأمين على تسعير منتجاتها بشكل مربح promoعروض جديدة لعملائهم الجدد أو الحاليين.
التعليم يفيد استخراج البيانات المعلمين في الوصول إلى بيانات الطلاب والتنبؤ بمستويات الإنجاز والعثور على الطلاب أو مجموعات الطلاب الذين يحتاجون إلى مزيد من الاهتمام. على سبيل المثال، الطلاب الذين هم ضعفاء في مادة الرياضيات.
تصنيع بمساعدة استخراج البيانات، يمكن للمصنعين التنبؤ بتآكل أصول الإنتاج. يمكنهم توقع الصيانة مما يساعدهم على تقليل وقت التوقف عن العمل.
البنوك والمصارف يساعد التنقيب في البيانات القطاع المالي في الحصول على رؤية لمخاطر السوق وإدارة الامتثال التنظيمي. فهو يساعد البنوك على تحديد المتعثرين المحتملين لاتخاذ قرار بشأن إصدار بطاقات الائتمان والقروض وما إلى ذلك.
خدمات البيع بالتجزئة تساعد تقنيات التنقيب في البيانات مراكز البيع بالتجزئة ومحلات البقالة على تحديد وترتيب معظم العناصر القابلة للبيع في المواقف الأكثر انتباهاً. فهو يساعد أصحاب المتاجر على التوصل إلى العرض الذي يشجع العملاء على زيادة إنفاقهم.
مقدمي الخدمات يستخدم مقدمو الخدمات مثل الهواتف المحمولة وصناعات المرافق التنقيب في البيانات للتنبؤ بالأسباب التي تدفع العميل إلى ترك شركته. يقومون بالتحليل billجي ديtailsوتفاعلات خدمة العملاء والشكاوى المقدمة إلى الشركة لتعيين درجة احتمالية لكل عميل وتقديم الحوافز.
التجارة الإلكترونية مواقع التجارة الإلكترونية استخدم Data Mining لتقديم عمليات البيع المتقاطع والمبيعات الإضافية من خلال مواقعهم الإلكترونية. ومن أشهر الأسماء هو Amazon، الذين يستخدمون تقنيات استخراج البيانات لجذب المزيد من العملاء إلى متجر التجارة الإلكترونية الخاص بهم.
سوبر ماركت يسمح استخراج البيانات لقواعد تطوير السوبر ماركت بالتنبؤ بما إذا كان من المحتمل أن يتوقع المتسوقون أم لا. ومن خلال تقييم نمط الشراء الخاص بهم، يمكنهم العثور على عملاء من النساء على الأرجح أنهن حوامل. يمكنهم البدء في استهداف منتجات مثل بودرة الأطفال ومتجر الأطفال والحفاضات وما إلى ذلك.
التحقيق الجنائي يساعد التنقيب في البيانات وكالات التحقيق في الجرائم على نشر القوى العاملة في الشرطة (أين من المرجح أن تحدث الجريمة ومتى؟)، ومن يجب البحث عند المعبر الحدودي وما إلى ذلك.
المعلوماتية الحيوية يساعد التنقيب في البيانات على استخراج البيانات البيولوجية من مجموعات البيانات الضخمة المجمعة في علم الأحياء والطب.

نبذة عامة

  • تعريف التنقيب في البيانات: التنقيب في البيانات يدور حول شرح الماضي والتنبؤ بالمستقبل من خلال تحليل البيانات.
  • يساعد التنقيب في البيانات على استخراج المعلومات من مجموعات ضخمة من البيانات. إنه إجراء استخراج المعرفة من البيانات.
  • تتضمن عملية استخراج البيانات فهم الأعمال وفهم البيانات وإعداد البيانات والنمذجة والتطور والنشر.
  • تقنيات استخراج البيانات الهامة هي التصنيف، clusterجي، والانحدار، وقواعد الارتباط، والكشف الخارجي، والأنماط المتسلسلة، والتنبؤ
  • لغة R و Oracle يعد استخراج البيانات من أدوات وتقنيات استخراج البيانات البارزة.
  • تساعد تقنية استخراج البيانات الشركات في الحصول على معلومات قائمة على المعرفة.
  • العيب الرئيسي لاستخراج البيانات هو أن العديد من برامج التحليلات يصعب القيام بها operaويتطلب تدريبًا مسبقًا للعمل عليه.
  • يتم استخدام استخراج البيانات في صناعات متنوعة مثل الاتصالات والتأمين والتعليم والتصنيع والخدمات المصرفية وتجارة التجزئة ومقدمي الخدمات والتجارة الإلكترونية ومحلات السوبر ماركت المعلوماتية الحيوية.