انتقل إلى المحتوى الرئيسي

ما المقصود بتحليلات قواعد البيانات

تُعد البيانات عنصرًا أساسيًا في دعم قرارات الأعمال، ولذلك فإن إدارتها وتحليلها يتطلبان دقة واهتمامًا كبيرًا. قد تسفر العمليات غير الدقيقة على البيانات، حتى إن صدرت عن محللين محترفين، عن نتائج مضللة وقرارات غير صائبة.

يمكّن مسار تحليل البيانات المتقدم المؤسسات من تحديد الاتجاهات بدقة، وإجراء التحليلات الوصفية، والتحليلات التوصيفية، والتحليل الإحصائي، بالإضافة إلى إدخال إمكانيات تعلّم الآلة والذكاء الاصطناعي.

يتوقف اختيار نظام تحليلات قواعد البيانات على طبيعة البيانات الموجودة، وأنواع قواعد البيانات المستخدمة حاليًا، ومتطلبات التحليل الأخرى. تحتفظ المؤسسات ببياناتها في أشكال متنوعة، مثل قواعد البيانات العلائقية وغير العلائقية، وأنواع مختلفة من الملفات. رغم أن قواعد البيانات العلائقية وغير العلائقية توفر إمكانيات تحليلية مدمجة، إلا أن هذه الإمكانيات لا تكفي وحدها لاكتساب رؤى متقدمة تشمل مختلف مجالات ومصادر الأعمال.

يحتاج محللو البيانات إلى مستودعات البيانات، ومستودعات البيانات المركزية، ومخازن البيانات لدمج البيانات من مصادر متباينة، مما يجعلها جاهزة للتنقيب والتحليلات عبر الصيغ والوظائف المختلفة.

نستكشف كل هذه التقنيات المختلفة داخل مساحة تحليلات قاعدة البيانات في بقية الدليل.

ما هي أبرز أنواع أنظمة البيانات التي تُستخدم في تحليلات البيانات؟

إليك لمحة سريعة عن أنواع الأنظمة المختلفة التي يمكن استخدامها في تحليلات البيانات

قواعد البيانات العلائقية

تُعد قواعد البيانات العلائقية مخازن للبيانات المنظمة تُرتب ضمن جداول مؤلفة من صفوف وأعمدة. يمثل كل جدول مجموعة مترابطة من البيانات تعكس كائنات أو مفاهيم من العالم الحقيقي.

يُعبّر كل صف في الجدول عن سجل منفرد يحتوي على معلومات مثل اسم العميل ورقم هاتفه وعنوانه. يُمكن ربط كل جدول بجدول أو جداول أخرى. كمثال، يُمكن إنشاء علاقة بين جدول العملاء وجدول المشتريات لربط كل عملية شراء بعميل معين.

جميع أنظمة إدارة قواعد البيانات العلائقية تحتوي على مخطط ثابت كما هو موضح أعلاه، وتدعم لغة الاستعلامات البنيوية (SQL) لاستعلام البيانات عبر الجداول وداخلها.

تشمل أمثلة خدمات قواعد البيانات العلائقية على AWS كلًا من Amazon Relational Database Service وAmazon Aurora، وهو حل عالي الأداء وقابل للتوسعة عالميًا لقواعد البيانات العلائقية مثل PostgreSQL وMySQL وDSQL.

قواعد البيانات غير العلائقية

قواعد البيانات غير العلائقية، المعروفة باسم NoSQL، تعتمد على مخطط مرن ولا تدعم استخدام SQL في تنفيذ الاستعلامات. تشمل الأنواع المختلفة لقواعد البيانات غير العلائقية: قواعد البيانات على شكل مفتاح-قيمة، وقواعد البيانات المستندات، وقواعد البيانات ذات الأعمدة الواسعة، وقواعد بيانات الرسم البياني، وقواعد البيانات في الذاكرة، وقواعد بيانات البحث.

يُصمم كل نوع من قواعد بيانات NoSQL ليتماشى مع حالات استخدام معينة. على سبيل المثال، يُمكن استخدام قاعدة بيانات وثائقية لنظام إدارة محتوى داخلي، بينما تُعد قاعدة الأعمدة الواسعة مثالية لتخزين بيانات السلاسل الزمنية الخاصة بأسطول من أجهزة إنترنت الأشياء (IoT).

إليك أمثلة على خدمات قواعد البيانات غير العلائقية المتوفرة عبر AWS.

  • تُعد Amazon DynamoDB قاعدة بيانات NoSQL بدون خادم ومدارة بالكامل، توفر أداءً في حدود ميلي ثانية واحدة، وتناسب قواعد البيانات على شكل مفتاح-قيمة وقواعد البيانات الوثائقية.
  • Amazon DocumentDB (بالتوافق مع MongoDB) هي خدمة سحابية أصلية لقواعد بيانات المستندات، مُدارة بالكامل بتنسيق JSON.
  • تُعد Amazon Keyspaces‏ (for Apache Cassandra) خدمة مُدارة وقابلة للتوسعة وذات توافر عالٍ لقواعد البيانات ذات الأعمدة الواسعة المتوافقة مع Apache Cassandra.
  • تُعد Amazon Neptune خدمة قاعدة بيانات بيانية بدون خادم وعالية الأداء، توفّر تحليلات متقدمة وقابلية للتوسعة وتوافرًا عاليًا.
  • تُعد Amazon ElastiCache خدمة تخزين مؤقت في الذاكرة مُدارة بالكامل ومتوافقة مع قواعد البيانات في الذاكرة مثل Valkey وRedis وMemcached.
  • Amazon MemoryDB هي خدمة قاعدة بيانات في الذاكرة عالية التحمل متوافقة مع Valkey وRedis OSS لتوفير أداء فائق السرعة.

مستودع البيانات

مستودع البيانات هو نظام تحليلي يُعزز وظائف قواعد البيانات العلائقية على نطاق كبير، مع دعم لاستعلامات SQL. يتم استخدام مستودعات البيانات لتخزين البيانات العلائقية وتحليلها على نطاق واسع يشمل العديد من قواعد البيانات. يمكن لحل مستودع البيانات تحويل البيانات غير العلائقية أثناء عملية الاستخراج والتحويل والتحميل (ETL)، وتوحيدها لتكون جاهزة للتحليلات.

تُعد Amazon Redshift حلاً مُدارًا لمستودعات البيانات يساعدك على تخزين البيانات وتوسيع أعباء عمل تحليلات البيانات بسهولة.

مستودع البيانات المركزي

مستودع البيانات المركزي عبارة عن مستودع مركزي يتيح لك تخزين كل بياناتك المهيكلة وغير المهيكلة بأي نطاق. يمكن تنفيذ تحويل البيانات إما قبل نقلها إلى مستودع البيانات المركزي أو بعد ذلك، حسب الحاجة. يتطلب مستودع البيانات المركزي خدمات إضافية لعمليات الاستخراج والتحويل والتحميل (ETL) والتحليل؛ إذ لا يمكن عادةً تحليل البيانات الخام مباشرة.

Amazon S3 هي خدمة تخزين العناصر، وهي تتيح الوصول إلى كميات غير محدودة من البيانات من أي مكان، وتُعد خيارًا مناسبًا كمستودع بيانات مركزي. يمكن استخدام S3 مع AWS Lake Formation لإدارة صلاحيات الوصول ومشاركة البيانات المخزنة.

مخزن البيانات

يجمع مخزن البيانات بين مزايا مستودعات البيانات التقليدية ومستودعات البيانات المركزية في حل واحد. يتيح مخزن البيانات تخزين كل من البيانات المنظمة وغير المنظمة، مع إضافة طبقة تنسيق لتحديد البنية والمخطط، إلى جانب محرك استعلام مدمج. في بيئات المؤسسات الحديثة، يُعتبر مخزن البيانات طبقة أساسية لتحليلات البيانات نظرًا لإمكانيته في تنفيذ الاستعلامات على جميع البيانات دفعة واحدة.

مخزن بيانات Amazon SageMaker يدمج البيانات بين مستودعات Amazon S3 المركزية ومستودعات Amazon Redshift التحليلية لتوفير تجربة موحدة. كما أنه يوفر المرونة للوصول إلى بياناتك والاستعلام عنها في مكانها باستخدام جميع الأدوات والمحركات المتوافقة مع Apache Iceberg.

أنواع أخرى

في سياق التحليلات المؤسسية، توجد أنواع بيانات—كالملفات الخام والجداول—لا تنتمي بوضوح إلى النماذج العلائقية أو غير العلائقية. أي أنها تُخزن باستخدام تنسيقات متعددة. كمثال، تُخزَّن بيانات البث شبه المنظمة في ملفات Apache Avro، بينما يمكن لـ Amazon S3 استيعاب جميع أنواع البيانات.

من المحتمل أن تحتاج، عند اختيار نظام تحليلات بيانات، إلى دعم لتحليل أنواع الملفات هذه جنبًا إلى جنب مع قواعد البيانات.

ما الطريقة المُثلى لتنفيذ تحليلات قواعد البيانات باستخدام AWS؟

تتباين طرق معالجة تحليلات البيانات تبعًا لاختلاف قواعد البيانات، وأنواع البيانات، وأنظمة التخزين والإدارة الخاصة بها. تنفيذ التحليلات على مستودعات البيانات، ومستودعات البيانات المركزية، ومخازن البيانات يتطلب استراتيجيات وتقنيات مختلفة.

ابدأ بحوكمة بيانات قوية من خلال استخدام Amazon DataZone لفهرسة البيانات واكتشافها ومشاركتها وإدارتها عبر AWS، والبيئات المحلية، ومصادر الأطراف الثالثة.

تتيح Amazon Managed Workflows for Apache Airflow‏ (MWAA) تنسيق عمليات تحليلات البيانات عبر أتمتة مسارات نقل البيانات وتحويلها، بالإضافة إلى تشغيل مهام التحليلات على مستودع البيانات أو المستودع المركزي أو مخزن البيانات.

الخطوة الأولى — جمع البيانات من مصادر متعددة ضمن نظام مركزي واحد

تتوفر عدة أساليب لنقل البيانات من مصادرها الحالية إلى مستودعات البيانات أو المستودعات المركزية أو مخازن البيانات. من الممكن أن تتطلب البيانات تحويلًا وتنقية قبل أن يتم تخزينها. قد تشمل الاعتبارات الأخرى أنواع بيانات العملاء الحساسة، وصلاحيات الوصول، وإمكانية الوصول إلى بعض البيانات في مكان تخزينها.

لنقل البيانات تمهيدًا لإعداد مستودع بيانات أو مستودع مركزي أو مخزن بيانات على AWS، يُعد نقلها أولًا إلى Amazon S3 هو الخيار الأبسط.

  • تُستخدم خدمة ترحيل قواعد البيانات في AWS لنقل أعباء عمل قواعد البيانات إلى بنية AWS التحتية. تتيح أداة AWS Schema Conversion Tool تحويل مخططات قواعد البيانات الحالية إلى ما يتوافق مع المخططات المدعومة من AWS.
  • تتيح AWS Snowball نقل كميات ضخمة من البيانات باستخدام أجهزة تُشحن وتُعاد بعد الاستخدام.
  • تتيح AWS Transfer Family وAWS DataSync خيارات بديلة لنقل البيانات عبر الشبكات.

يمكن أن تحتاج البيانات المتدفقة إلى خدمات مثل Amazon Data Firehose لنقل البيانات لحظيًا، أو تدفقات بيانات Amazon Kinesis لالتقاطها وتجميعها.

الخطوة 2 - إجراء تحويل وتطبيع للبيانات

قد تحتاج بعض البيانات إلى التحويل والتطبيع حتى تصبح جاهزة للتحليل.

يتيح AWS Glue اكتشاف أكثر من 100 مصدر بيانات مختلف والاتصال بها، مع إدارة البيانات ضمن فهرس مركزي، وإنشاء وتشغيل ومراقبة مسارات البيانات بصريًا لتحميلها إلى مستودعات البيانات أو المستودعات المركزية أو مخازن البيانات. توفر AWS Glue DataBrew واجهة مرئية تساعد محللي البيانات وعلماء البيانات على تبسيط عمليات تنظيف البيانات وتطبيعها.

تقدم Amazon EMR بيئات تنفيذ عالية الأداء لأدوات مثل Apache Spark وTrino وApache Flink وHive، لتسهيل سير العمل في بحيرات البيانات وتقليل زمن المعالجة.

توفر Amazon SageMaker Data Wrangler حلاً سريعًا وبسيطًا لتحضير البيانات لاستخدامها في نماذج تعلّم الآلة.

الخطوة 3 - تحليل شامل للبيانات المجمعة

بعد إتمام تخزين البيانات وربطها وتحويلها، يبدأ محللو البيانات بتحليلها باستخدام مستودعات البيانات أو المستودعات المركزية أو مخازن البيانات. تختلف تقنيات تحليلات البيانات المستخدمة باختلاف حالات الاستخدام.

الاستعلام

يوفّر Amazon Redshift إمكانيات استعلام مدمجة تسهّل الوصول إلى البيانات في مستودعك. تتيح Amazon Athena تحليل واستعلام أنواع متعددة من البيانات—سواء كانت غير منظمة أو شبه منظمة أو منظمة—والمخزنة في مستودعات البيانات المركزية على Amazon S3. تم تصميمها خصيصًا لتحليل البيانات اللحظي واستكشافها، مما يتيح للمستخدمين إجراء استعلامات تفاعلية وتصوير البيانات. يتضمن مخزن بيانات Amazon SageMaker قدرات مدمجة تتيح تنفيذ الاستعلامات مباشرة.

ذكاء الأعمال

تتيح Amazon QuickSight تحليلات معلومات الأعمال (BI) الموحدة على نطاق واسع عبر مستودعات البيانات والمستودعات المركزية ومخازن البيانات. يشكّل تصوّر البيانات إحدى الوظائف المحورية في Amazon QuickSight.

تعلُّم الآلة

يُستخدم تعلّم الآلة في Amazon Redshift لتحليل البيانات باستخدام تعلّم الآلة ضمن مستودعات Redshift. يتيح Amazon SageMaker تنفيذ تحليلات تعلّم الآلة وغيرها على البيانات المخزنة في مستودعات البيانات المركزية ومخازن البيانات.

على مخزن بيانات Amazon SageMaker

في مخزن بيانات SageMaker، يمكنك الوصول إلى بياناتك واستعلامها في موقعها باستخدام جميع الأدوات المتوافقة مع Apache Iceberg من نسخة واحدة من البيانات. يمكنك استخدام أدوات التحليلات والمحركات التي تختارها، مثل SQL وApache Spark وذكاء الأعمال (BI) وأدوات الذكاء الاصطناعي/تعلم الآلة (AI/ML)، والتعاون مع البيانات المخزنة عبر مخازن بيانات Amazon S3 ومستودعات بيانات Amazon Redshift.

بيانات البث المباشر

تتيح Amazon Kinesis جمع ومعالجة وتحليل تدفقات الفيديو والبيانات اللحظية بشكل آمن وقابل للتوسع.

ما الطرق التي يوفّر بها AWS دعمًا لاحتياجاتك في تحليلات قواعد البيانات؟

في بيئات المؤسسات الحديثة، لا يقتصر تحليل قواعد البيانات على استعلامات SQL فقط، بل يتطلب أدوات وأساليب إضافية. يتيح استخدام مستودعات البيانات، والمستودعات المركزية، ومخازن البيانات لمحللي البيانات استخراج القيمة من البيانات وتحليلها عبر مصادر وأنواع ووظائف مختلفة.

تضمن البنية الصحيحة لتحليل قواعد البيانات أن يكون الحل قابلاً للتوسع، وجاهزًا للتنفيذ، ومتكاملًا مع خدمات تعلّم الآلة (ML) والتحليلات التنبؤية الضرورية حاليًا. بدء إنشاء حساب مجاني على AWS اليوم.