انتقل إلى المحتوى الرئيسي

ما المقصود بمخزن البيانات؟

مخزن البيانات (Data Lakehouse) هو نظام لإدارة البيانات يجمع بين تخزين مرن واقتصادي على نطاق واسع، مع توفير قدرات تحليلية تشمل التنظيم، والحَوْكمة، والتقارير. يمكّنك مخزن البيانات من تخزين البيانات الخام بصيغ متنوعة من عدد كبير من المصادر يصل إلى مئات الآلاف، بشكل أكثر توفيرًا للتكاليف وفي موقع مركزي موحد. تُصبح البيانات قابلة للاستخدام بواسطة أدوات التحليلات بهدف تدريب نماذج الذكاء الاصطناعي وإعداد التقارير ولوحات البيانات. يقدّم مخزن البيانات مجموعة من القدرات التي تمكّنك من معالجة البيانات الخام المخزّنة داخله بهدف إجراء تحليلات إضافية.

ما هو الفرق بين مستودع البيانات المركزي (Data Lake)، ومستودع البيانات (Data Warehouse)، ومخزن البيانات (Data Lakehouse)؟

ظهرت بنية مخزن البيانات (Data Lakehouse) نتيجة دمج نقاط القوة في كل من مستودع البيانات (Data Warehouse) ومستودع البيانات المركزي (Data Lake) كمخزنين مركزيين تقليديين للبيانات.

مستودع البيانات

مستودع البيانات (Data Warehouse) هو نظام تخزين بيانات يُخزن البيانات المُهيكلة استنادًا إلى مخططات بيانات قياسية. المخططات هي نماذج مُحددة مسبقًا تُعرّف شكل البيانات والعلاقات بينها وهيكل المعلومات ضمن قاعدة البيانات العلائقية.

تعتمد المؤسسات على أنظمة مستودع البيانات لتسريع الوصول إلى معالجة البيانات وتحليلات ذكاء الأعمال والتقارير على مستوى المؤسسة. يوفّر مستودع البيانات أدوات تحليل متقدمة، وإمكانات قوية لحوكمة البيانات، وتجربة استخدام مبسطة للمستخدمين غير المتخصصين في المجال التقني. على سبيل المثال، تتيح لك لوحة المعلومات في مستودع البيانات الوصول إلى تقارير أداء الحملات التسويقية.

غير أن استخدام مستودع البيانات يستلزم تنفيذ مراحل إضافية ضمن دورة حياة البيانات. للحصول على رؤى جاهزة للتحليل، تمر البيانات بعدة مسارات لاستخراجها وتحويلها وتحميلها (ETL) قبل تخزينها في مستودع البيانات. بالإضافة إلى ذلك، لا يدعم مستودع البيانات التعامل مع البيانات غير المهيكلة أو شبه المهيكلة، وهي ضرورية لحالات استخدام الذكاء الاصطناعي وتعلم الآلة. في بيئة مستودع البيانات، يرتبط التخزين بقدرات المعالجة بشكل وثيق، ما يرفع من تكلفة التوسع في البنية التحتية.

مستودع البيانات المركزي

مخزن البيانات المركزي هو نظام يُستخدم لتخزين البيانات كما هي، دون تعديل في تنسيقها الأصلي. يلجأ علماء البيانات إلى مخزن البيانات المركزي (Data Lake) للاحتفاظ بالبيانات المُنظمة، وغير المُنظمة، وشبه المُنظمة. يتم تخزين البيانات بسرعة في مخزن البيانات المركزي (Data Lake) نظرًا لعدم خضوعها لمسارات ETL المعقدة. تُخزّن البيانات الخام في مخزن البيانات المركزي (Data Lake) دون تعديل أو معالجة مسبقة. وبالتالي، يتميز مخزن البيانات المركزي (Data Lake) بقدرته على تخزين أحجام ضخمة من البيانات بسرعة فائقة، بما يشمل تدفقات البيانات اللحظية.

نظرًا لضخامة حجم البيانات، فإن مخازن البيانات المركزية السحابية تُعتبر الخيار الأمثل لاستكشاف البيانات، وتعلم الآلة، وتطبيقات علم البيانات. كما يتميز مخزن البيانات المركزي بكونه أقل تكلفة عند التوسع، نظرًا لانخفاض تكاليف التخزين المرتبطة به.

بخلاف مستودع البيانات، فإن التعامل مع البيانات في مخزن البيانات المركزي (Data Lake) يتطلب مهارات تقنية، ما يجعله مقتصرًا على مجموعة محدودة من المستخدمين. ما يعني أن الوصول إلى الرؤى التجارية من خلال البيانات الخام يقتصر على المستخدمين ذوي الخبرة في علم البيانات. كما أن عدم إدارة مخزن البيانات المركزي (Data Lake) بشكل فعّال يمكن أن يحوّله إلى مستنقع بيانات يصعب استخدامه. مستنقع البيانات يشير إلى وضع تصبح فيه البيانات غير منظمة، مما يُعقّد عملية استخراج رؤى مفيدة منها.

مخزن البيانات

مخزن البيانات (Data Lakehouse) هو بنية موحدة للبيانات تدمج بين فوائد مستودع البيانات ومخزن البيانات المركزي في نظام واحد. يقدم مخزن البيانات تخزينًا يتميز بأداء عالٍ وتكلفة مناسبة ودعم قوي للحَوْكمة، بما يناسب مختلف أنواع البيانات.

بخلاف مستودع البيانات، يدعم مخزن البيانات (Data Lakehouse) تخزين البيانات غير المهيكلة وشبه المهيكلة اللازمة لتعلم الآلة. كما تحتوي بنية مخزن البيانات على أدوات تحليلات SQL تتيح لمديري الأعمال إعداد التقارير واستخراج رؤى تساعد في اتخاذ القرار.

ما هي الميزات الرئيسية لمخزن البيانات؟

تتيح مخازن البيانات للمؤسسات إمكانية إدارة البيانات وبناء مراكز معالجة قوية وقابلة للتوسعة مع زمن استجابة منخفض. فيما يلي نشارك أهم الخصائص التي يتميز بها مخزن البيانات.

يتوافق مع أنواع متعددة من البيانات وأعباء العمل المختلفة

تتيح مخازن البيانات تخزين بيانات متنوعة مثل النصوص والصور والفيديوهات والملفات الصوتية، دون الحاجة لتنسيقات صارمة أو تحويلات إضافية. يساهم ذلك في تسريع عملية استيعاب البيانات والحفاظ على حداثتها لخدمة التطبيقات المرتبطة.

لدعم أنواع البيانات المختلفة، يحتفظ مخزن البيانات بالبيانات الخام ضمن مخزن العناصر. مخزن العناصر هو بنية لتخزين البيانات مصممة خصيصًا للتعامل مع أحجام كبيرة من البيانات غير المنظمة.

دعم تنفيذ المعاملات

يمكّن مخزن البيانات من إدارة وتخزين المعاملات المتوافقة مع معايير ACID، كما هو الحال في قواعد البيانات التقليدية. يرمز ACID إلى الذرية والاتساق والعزلة والقدرة على التحمل.

  • تقضي خاصية "الذرية" بأن تُعامل المعاملات كوحدة واحدة متكاملة، بحيث يتم تنفيذها كليًا أو لا يتم تنفيذها أبدًا.
  • الاتساق يعني أن قاعدة البيانات تحافظ على سلوك متوقع عند إجراء تحديثات على جدول معيّن. يتم تنفيذ كل عملية تحديث وفق قواعد مسبقة لضمان بقاء البيانات متّسقة.
  • تعني خاصية العزل أن بإمكان عدة معاملات أن تُنفّذ في نفس الوقت دون التأثير على بعضها. رغم تنفيذ تحديثات متزامنة من قبل عدة مستخدمين، فإن كل عملية تعمل بشكل مستقل بحيث تكتمل معاملة واحدة قبل بدء الأخرى.
  • المتانة تعني أن التغييرات التي يتم إجراؤها على قاعدة البيانات تبقى محفوظة حتى في حال حدوث فشل في النظام.

تُوفر خصائص ACID مجتمعة أساسًا متينًا لسلامة البيانات، مما يسمح لفرق البرمجيات ببناء تطبيقات تعتمد على تخزين بيانات معاملات موثوقة.

استيعاب التدفق

تمثل تدفقات البيانات سلسلة متواصلة من المعلومات تأتي من مصادر مثل أجهزة إنترنت الأشياء (IoT)، والعمليات المالية، وخدمات التطبيقات.

تحتاج بعض التطبيقات إلى تدفق البيانات لعرض التغيرات الحاصلة في البيانات بشكل شبه فوري. تتيح بنية مخزن البيانات استيعاب تدفقات البيانات وتوفيرها لتطبيقات واجهة المستخدم. كما يستطيع علماء البيانات تطوير أدوات تحليلات تعتمد على تدفقات البيانات، وتمثيل النتائج عبر الجداول والمخططات والرسوم البيانية.

تكامل Zero ETL

يشير تكامل Zero ETL إلى عملية بيانات تُلغي الحاجة إلى مسارات تحويل البيانات المعقدة أثناء نقل البيانات. توفّر بنية مخزن البيانات إمكانية الدمج المباشر للبيانات دون الحاجة إلى ETL.

في النهج التقليدي، تعتمد المؤسسات على مستودعات البيانات المركزية ومستودعات البيانات لتنفيذ أعباء العمل. تحتاج هذه الترتيبات إلى إنشاء مسارات ETL إضافية من أجل تنفيذ الاستعلامات وتحويل البيانات. يتيح التكامل بدون ETL لعلماء البيانات الاستعلام من مصادر بيانات متعددة دون إنشاء مسارات ETL إضافية.

يقوم مخزن البيانات تلقائيًا بتحويل البيانات المجمّعة إلى تنسيقات مناسبة لتحليلات الأعمال. كمثال، توفر Amazon Redshift إمكانية التكامل المباشر بدون ETL مع Amazon Aurora. تُعد Redshift مستودع بيانات، بينما تُعتبر Aurora نظامًا لإدارة قواعد البيانات العلائقية. عند دمج الخدمتين، تُنسخ البيانات التي تدخل إلى Aurora تلقائيًا إلى Redshift في غضون ثوانٍ. ما يسمح للمؤسسات بتقليل الوقت اللازم لاستخلاص الرؤى، مع الحفاظ على بنية تحتية للبيانات تكون بسيطة ومنخفضة التكلفة.

تحليلات موحدة

يُقدّم مخزن البيانات منصة موحدة تتيح الوصول إلى مختلف البيانات المخزنة بسهولة. يُمكّن هذا مهندسي البيانات من التغلب على تحديات تكرار البيانات وتضاربها وتجزئتها بين مختلف الأنظمة.

من المزايا المهمة للتحليلات المركزية تقليل عمليات نقل البيانات غير الضرورية بين وحدات التخزين السحابية. عوضًا عن التعامل مع بيانات متفرقة، يمكن لفرق البيانات استخدام واجهة موحدة متصلة بمخزن البيانات لتخزينها وتحليلها ومشاركتها. كمثال، يمكنك استخدام نفس مجموعة البيانات غير المنظمة لتشغيل أعباء عمل تعلّم الآلة وإعداد تقارير عن أداء الحملات التسويقية.

محرر الاستعلام

يتمكن محللو البيانات ومهندسو تعلّم الآلة وغيرهم من المستخدمين من الوصول إلى البيانات في مخزن البيانات من خلال محرر SQL بسهولة. بإمكانهم استخدام أوامر SQL لتحليل البيانات، وإنشاء تصورات بيانية، وتصفح البيانات التاريخية، وتصميم هياكل قواعد البيانات، وغير ذلك من المهام. يساعد محرر الاستعلام في تعزيز التعاون، إذ يتيح لمهندسي البيانات مشاركة الاستعلامات التي يطورونها بكل سهولة.

دعم الذكاء الاصطناعي/ تعلم الآلة (ML/AI)

صُممت مخازن البيانات خصيصًا لتمكين بناء واختبار وتوسعة أعباء عمل الذكاء الاصطناعي وتعلّم الآلة (AI/ML). علاوة على تمكين الوصول المباشر للبيانات غير المنظمة، يوفّر مزوّدو مخازن البيانات مكتبات وأدوات وتحليلات خاصة بتعلّم الآلة لتسهيل بناء نماذج الذكاء الاصطناعي.

على سبيل المثال، يعمل مخزن بيانات Amazon SageMaker على التكامل بسلاسة مع استوديو Amazon SageMaker الموحد لتوفير الأدوات والتحليلات اللازمة لتسريع سير العمل في الذكاء الاصطناعي وتعلم الآلة.

كيف يعمل مخزن البيانات؟

يجمع مخزن البيانات بين تحليلات مستودعات البيانات المتقدمة ومرونة مستودعات البيانات، لتقديم منصة بيانات قوية، مرنة، وقابلة للتوسعة بتكلفة مناسبة. تتجه المؤسسات إلى استخدام مخزن البيانات لتسريع الحصول على رؤى تجارية، بدلاً من إدارة بنى تحتية منفصلة لمخازن ومستودعات البيانات.

يقوم مخزن البيانات بجمع البيانات من مصادر متنوعة، وترتيبها داخليًا، وتقديمها لمستخدمي البيانات بصيغ متعددة. بالإضافة إلى ذلك، تعتمد بنية مخزن البيانات على فصل الحوسبة عن التخزين. يتيح الفصل بين التخزين والحوسبة إمكانية توسيعهما بشكل مستقل، مما يساعد في تقليل التكاليف إلى الحد الأدنى.

نوضح أدناه طبقات البيانات الأساسية التي يتكوّن منها مخزن البيانات.

طبقة الاستيعاب

تعمل طبقة الاستيعاب على ربط مخزن البيانات بمصادر بيانات متعددة مثل سجلات التطبيقات وقواعد البيانات وتغذيات وسائل التواصل الاجتماعي. تُحفظ البيانات في هذه الطبقة كما هي، دون تعديل على صيغتها الأصلية.

طبقة التخزين

تقوم طبقة التخزين باستلام البيانات الأولية وتخزينها ضمن بيئة تخزين قابلة للتوسعة وبتكلفة منخفضة. في بنية مخزن البيانات، تكون هذه الطبقة غالبًا متصلة بخدمة تخزين العناصر في السحابة. يمكن لمخزن العناصر التعامل مع أنواع مختلفة من البيانات مثل البيانات المنظمة، وشبه المنظمة، وغير المنظمة.

بناءً على حالات الاستخدام المختلفة، يتم تحويل بعض البيانات بعد تخزينها في مخزن العناصر. على سبيل المثال، في حال استخدام البيانات المُجمعة لتدريب نموذج تعلّم الآلة، يقوم مخزن البيانات بتحويلها وتخزينها بصيغة Parquet. يُعد Parquet تنسيق ملفات مفتوح يُستخدم لتخزين البيانات المنظمة ومعالجتها بفعالية، من خلال تنظيمها على شكل أعمدة.

طبقة التدريج

تعمل طبقة التهيئة، المعروفة أيضًا بطبقة البيانات الوصفية، على توفير البنية التخطيطية اللازمة لحوكمة وتنظيم وتحسين البيانات في مخزن البيانات. تمكّنك هذه الطبقة من وضع سياسات تضمن جودة البيانات وإنشاء سجلات تدقيق تتوافق مع متطلبات الامتثال. كما تتيح هذه الطبقة لفرق البيانات تصميم مسارات بيانات موثوقة باستخدام معاملات ACID، وفهرسة الملفات، وإصدارات البيانات، والتخزين المؤقت، بما يشبه بيئة مستودع البيانات التقليدي.

طبقة واجهة برمجة التطبيقات (API)

تُمكّن طبقة واجهة برمجة التطبيقات (API) المطورين والتطبيقات من الوصول إلى البيانات المخزّنة في مخزن البيانات والاستعلام عنها. تتيح هذه الطبقة وصولًا تفصيليًا إلى البيانات، الأمر الذي يساعد في بناء تحليلات متقدمة بطريقة برمجية. كمثال، تستطيع فرق البرمجيات استخدام استدعاءات واجهات واجهة برمجة التطبيقات (API) لاسترداد بيانات لحظية تُستخدم في تغذية لوحات المعلومات ضمن تطبيق استثماري.

الطبقة الدلالية

الطبقة الدلالية تمثل الطبقة الأعلى في بنية مخزن البيانات. وتُسمى أيضًا طبقة استهلاك البيانات، وتحتوي على أدوات التحليل والتطبيقات التي تتيح الوصول إلى البيانات والمخططات المخزنة. في هذه الطبقة، يستطيع مستخدمو الأعمال إعداد تقارير ورسوم بيانية، واستعلام البيانات لاستخلاص رؤى، وتنفيذ تحليلات متنوعة.

كيف يمكن أن تدعم AWS متطلبات مخازن البيانات الخاصة بك؟

مخزن بيانات Amazon SageMaker هو مخزن هجين للبيانات تستخدمه المؤسسات لمعالجة إكسابايتات من البيانات للحصول على رؤى تجارية وتشغيل أعباء عمل الذكاء الاصطناعي. يُدمج مخزن بيانات Amazon SageMaker بسلاسة مع خدمات AWS الخاصة بتخزين البيانات وتحليلها وتعلّم الآلة، لتمكينك من:

  • تحليل البيانات شبه الفوري دون الحاجة لنقلها من موقعها الأصلي
  • تطوير الذكاء الاصطناعي ونماذج تعلّم الآلة ضمن منصة بيانات موحدة
  • إمكانية الوصول إلى البيانات ودمجها ومشاركتها بشكل آمن، مع تقليل الحاجة إلى نقلها أو نسخها

يتميز مخزن بيانات Amazon SageMaker ببنية تفصل بين الحوسبة والتخزين، ما يجعله أكثر كفاءة في التوسعة ويوفر أداءً أعلى مقابل التكلفة مقارنةً بغيره من مخازن البيانات السحابية.

يتيح لك مخزن بيانات Amazon SageMaker التكامل مع مستودعات البيانات والمستودعات المركزية التابعة لـ AWS:

  • Amazon Redshift هو مستودع بيانات يوفر أداءً عاليًا مقابل التكلفة، وقابلية توسعة باستخدام SQL، مما يجعله مثاليًا لمخزن البيانات لديك.
  • Amazon S3 هي مستودع بيانات مركزي لتخزين العناصر يتيح استرجاع البيانات بأي حجم ومن أي موقع.

انطلق في تجربة مخزن البيانات على AWS عبر إنشاء حساب مجاني الآن.