الانتقال إلى المحتوى

dataware housing


ENG_ORA_DEVS

Recommended Posts

اخوتي الكرام هذه مقالة رائعة عن dataware housing
ارجو ان تكون مفيدة للجميع

أولا يجب تعريف هذه المصطلحات:

* OLAP, On-line Analytical Processing:
هي عملية تحليل البيانات المتراكمة في مستودع البيانات.

* DSS, Decision Support Systems: وتعرف كذلك ب EIS, Executive Information Systems وهي أنظمة تساعد القياديين في المؤسسات والمنظمات على اتخاذ القرارات الحاسمة والمعقدة وذلك بتوفير بيانات من مستوى عالي.

* تنقيب البيانات Data Mining: هي عملية البحث داخل مستودع البيانات عن معرفة غير مستكشفة ( اكتشاف المعرفة).

* OLTP, On-line Transaction Processing: هي مجموعة عمليات الإضافة والحذف والتعديل بالإضافة إلى الاستعلام مع بعض التحليل الذي لايرقى لأن يكون مساعداً في اتخاذ القرارات. ويتوفر دعم هذه العمليات في قواعد البيانات التقليدية Transactional Databases.

ماهي مستودعات البيانات؟ هي مجموعة من البيانات دائمة تاريخية متكاملة للمساعدة في اتخاذ القرارات الإدارية. فهي تساعد على الوصول للبيانات لأغراض التحليلات الزمنية واكتشاف المعرفة واتخاذ القرارات لأنها مصممة خصيصا لاستخلاص البيانات ومعاجتها وتمثيلها وتقديمها بصورة مناسبة لهذه الأغراض، إضافة لذلك فهي تتضمن كمية ضخمة من البيانات قد تكون من مصادر مختلفة، مثلا عدة قواعد بيانات من عدة نماذج بيانات، وأحيانا من أنظمة ومنصات مختلفة.

خصائص مستودعات البيانات:

(1)تستخدم النموذج متعدد الأبعاد

(Multidimensional Model). (2) تدعم تحليل السلاسل الزمنية
(Time Series) وتحليل التوجهات (Trends Analysis) اللذين يحتاجان لبيانات تاريخية لاتستطيع قواعد البيانات العادية (Transactional Databases) توفيرها.

(3)تحديث البيانات فتري (Periodic) أي يتم كل فترة بواسطة أجزاء منه تختص بهذا الأمر.

(4)استرجاع البيانات وتحليلها هو صميم عملها، وتهتم به أكثر.

(5)مستويات تجميع (Aggregation) وأبعاد (Dimensions) غير محدودة.

(6) دعم معمارية Client/server وتعددية المستخدمين.

(7)الاحتفاظ بكمية ضخمة من البيانات قد تصل إلى عدة تيرابايتات (1 TB = 1024 GB) .

الخاصية الأخيرة شكلت مشكلة، ولكن تم حلها بابتكار كل من الآتي:
1-مستودعات البيانات الشاملة ( Enterprise-wide Data Warehouses): وهي مشاريع ضخمة تتطلب استثمارا ضخما في الوقت والموارد.

2-مستودعات البيانات الافتراضية (Virtual Data Warehouses): وهي استعلامات على قواعد البيانات الوظيفية مصممة بكفاءة عالية للوصول السريع للبيانات.

3-متاجر البيانات (Data Marts): هي أجزاء من مستودع البيانات موجهة لجزء من المؤسسة (كقسم معين منها). معمارية مستودعات البيانات: كما هو موضح في الصورة أعلاه، يتم استيراد البيانات للمستودع من قواعد بيانات عادية وتخزينها في المستودع، ومن ثم يمكن تقديم هذه المعلوماتى للمستفيدين منها بصورة مباشرة، أو تجزئتها لمتاجر بيانات ومن ثم تحليل واستخلاص المعلومات المحتواة في متاجر البيانات عبر تكوين مكعبات بيانات يمكن تقديمها للمستخدمين، أو يمكن تكوين مكعبات بيانات أصغر تستخلص البيانات بصورة أكبر من المكعب الذي تم تكوينها منه. نمذجة البيانات داخل مستودع البيانات: كما ذكرنا، مستودعات البيانات تستخدم النموذج متعدد الأبعاد، وتستفيد من العلاقات بين البيانات لتسكينها في مصفوفات متعددة الأبعاد تسمى مكعبات البيانات (Data Cubes)، وتسمى بالمكعبات الفائقة (Hyper Cubes) إذا احتوت على أكثر من ثلاثة أبعاد. البيانات المخزنة في هذا النموذج أفضل من ناحية أداء الاستعلامات من مثيلاتها المخزنة في النموذج العلائقي. مثال للأبعاد: في مستودع بيانات خاص بشركة تجارية: أرباع السنة المالية، المنتجات، المناطق. وبإضافة بعد آخر (الزبائن مثلا) يتحول لمكعب فائق، مع أنه صعب التخيل والتمثيل. في هذا المثال كل خلية في المكعب تحتوي على بيانات بضاعة معينة في ربع سنة مالية معين في منطقة معينة. عملية الانتقال من تدرج بعد لآخر تسمى بالارتكاز (Pivoting) أو الدوران (Rotation)، مثلا تدوير المكعب لعرض بيانات المناطق كصفوف ومجموع المبيعات في أرباع السنة المالية كأعمدة، وأنواع البضائع كبعد ثالث. لاحظ تشابهه مع دراسة مجسم دالة متعددة المتغيرات في فضاء متعدد الأبعاد. تخزين النموذج متعدد الأبعاد يتضمن نوعين من الجداول:

1-جدول البعد (Dimension Table): وصفوفه تصف سمات attributes البعد.

2-جدول الحقيقة (Fact Table): ويتضمن مقاييس أداء العمل (Business Key Performance Indicators)، وتعرََف بمؤشرات لجداول الآبعاد، ويتضمن هذا الجدول البيانات. توجد بنيتين شائعتين لتعريف هذه الجداول، هما:
1/ Star Schema: وتتكون من جدول الحقيقة مع جدول وحيد لكل بعد. ويعيبها احتياجها لمساحة كبيرة لتخزين البيانات.
2/ Snowflake Schema: وهي تعديل للStar Schema وذلك بتطبيق قوانين التبسيط(Normalization) عليها. ويعيبها تضييعها لطاقة الجهاز المضيف في عمليات الربط (Joining).

مثال: نموذج قاعدة بيانات مستودع البيانات لشركة تجارية: بناء وتشغيل مستودعات البيانات: العمليات التي تتم لإنجاز هذا العمل موضحة في الشكل التالي: يتم استيراد البيانات من قواعد البيانات التعاملية operational / transactional databases في كل فترة معينة ويتم تنظيفها وملاءمتها للتخزين في المستودع (إزالة الnulls، ... إلخ) ومن ثم تخزن في المستودع، وبالتالي يمكن الوصول إليها إما بتكوين مكعبات بيانات منها، أو بكتابة برامج اتخاذ قرارات DSS/EIS أو باستعمال أو كتابة برامج تنقيب عن البيانات. وفي حال حصول أي تعديل عليها أو ضافة لها يتم الحفظ إما في قاعدة البيانات الأصلية أو يتم الإدخال مرة أخرى للمستودع بعد الإخضاع للتنظيف والملاءمة. قضايا التي تجب مراعاتها عند بناء مستودعات البيانات:
1-استخلاص البيانات يتم من عدة مصادر قد تكون غير متجانسة.
2-تهيئة البيانات لضمان تلاؤمها (Consistency) داخل مستودع البيانات.
3-تنظيف البيانات لضمان شرعيتها (Validity)، ويتم ذلك في قاعدة البيانات التي تم أخذ البيانات منها.
4-مراقبة وضبط حجم مستودع البيانات خلال وبعد تحميله بالبيانات.
5-كل كم فترة يجب تحديث البيانات فيه؟
6-ماهو الزمن اللازم لبنائه؟ وماهي جدواه الاقتصادية بالنسبة للمؤسسة التي استعملته؟ 7-هل نحتاج لأن يكون موزعا (Distributed) أم مركزيا (Centralized)؟ الوظائف داخل مستودع البيانات:
1-Roll-up: حيث يتم تلخيص البيانات في شكل عمومي متزايد (أسبوعياً إلى ربعياً إلى سنوياً).
2-Drill-Down: حيث تتم زيادة مستويات تفصيل البيانات، بعكس الRoll-up.
3-Pivot / Rotation: سبق شرحها أعلاه.
4-Slice and Dice: تنفيذ عمليات الإسقاط على الأبعاد.
5-الترتيب Sorting: ترتيب البيانات بقيمة قابلة للترتيب.
6-الاختيار Selection: اختيار البيانات بقيمة أو مدى قيم.
7-الصفات المحسوبة Computed Attributed: وهي قيم لصفات يتم حسابها بعمليات على القيم المخزنة والمشتقة. الفرق ما بين مستودعات البيانات والمرئيات views: مع أنهما يبدوان متشابهين لأول وهلة، إلا أن بينهما الفروقات التالية:
1- مستودعات البيانات تتواجد كتخزين دائم ولا تتشكل عند الطلب كالمرئيات.
2- مستودعات البيانات ليست دائماً علائقية، بل متعددة الأبعاد.
3- مستودعات البيانات يمكن فهرستها لتحسن الأداء، بينما لايمكن فهرسة المرئيات مستقلةً عن جداولها القاعدية.
4- مستودعات البيانات تستطيع عمل الوظائف المذكورة أعلاه، بينما المرئيات لاتستطيع عملها كلها.
5- مستودعات البيانات تعطي تخزينا ضخما لبيانات زمنية بصورة أكبر من تلك المحتواة في قاعدة البيانات، بينما المرئيات هي خلاصة قاعدة البيانات. الأدوات: مكتبات دوال ROLAP Relational OLAP، دوال MOLAP Multidimensional OLAP، امتدادات من SQL وطرق ربط متقدمة (Advanced Join Methods) ومسح ذكي (Intelligent Scanning) وخدمات تحليل analysis service، ويتم تحسين أداء هذه الأدوات باستخدام المعالجة المتوازية. الصعوبات التي تواجه تطبيق مستودعات البيانات:
1/ الإنشاء يستغرق بعض الزمن، ابتداءً من وضع الخطط حوله وحتى الانتهاء من تطبيقه. 2/ إدارة المستودع صعبة نظرا لكبر لحجمه وتعقيده وتتطلب تدريبا أكثر للقائمين عليه، وخصوصا من ناحية مراعاة جودة البيانات (Data quality)
3/ تقدير احتياجات مستخدميه قبل إنشائه.
4/ ظهور منابع جديدة للبيانات بعد الانتهاء من إنشائه يزيد من صعوبة إدارته.
---------------------------------------------------------------------------------- المصادر:
-R. Almasri and S. Navarthe, Fundamentals of Database Systems, Addison-Wesely, 3rd Ed., p. 845-855 -S. Nolan, T. Huguelet and others, Microsoft SQL Server 7.0 Data Warehousing Training Kit, Microsoft Press, 2000

أرجو ان ينال اعجابكم

رابط هذا التعليق
شارك

لك الشكر أجزله أختي الكريمة ،،

مقال رائع بالفعل ,, خصوصاً في هذا الوقت بالنسبة لي <_<

وإلى الأمام . . . نحو مشاركات فعالة - - ->>

تم تعديل بواسطة عروة
رابط هذا التعليق
شارك

  • بعد 2 سنة...

انضم إلى المناقشة

يمكنك المشاركة الآن والتسجيل لاحقاً. إذا كان لديك حساب, سجل دخولك الآن لتقوم بالمشاركة من خلال حسابك.

زائر
أضف رد على هذا الموضوع...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   تمت استعادة المحتوى السابق الخاص بك.   مسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

جاري التحميل
×
×
  • أضف...

برجاء الإنتباه

بإستخدامك للموقع فأنت تتعهد بالموافقة على هذه البنود: سياسة الخصوصية