ما المقصود بمسار البيانات؟

مسار البيانات هو سلسلة من خطوات معالجة لإعداد بيانات المؤسسة بهدف تحليلها. تمتلك المؤسسات حجمًا كبيرًا من البيانات الواردة من مصادر مختلفة، مثل التطبيقات وأجهزة إنترنت الأشياء (IoT) وقنوات رقمية أخرى. إلا أن البيانات الأولية عديمة النفع؛ إذ يجب نقلها وفرزها وتصفيتها وإعادة تنسيقها وتحليلها لاستخلاص لغرض ذكاء الأعمال. يتضمن مسار البيانات تقنيات مختلفة للتحقق من صحة البيانات وتلخيصها والعثور على أنماط فيها لاتخاذ قرارات أعمال مدروسة. تدعم مسارات البيانات جيدة التنظيم العديد من مشروعات البيانات الكبيرة، مثل تمثيل البيانات مرئيًا، وتحليلات البيانات الاستكشافية، ومهام تعلّم الآلة.

ما فوائد مسار البيانات؟

تتيح لك مسارات البيانات دمج البيانات من المصادر المختلفة وتحويلها بهدف تحليلها. فهي تقضي على مجموعات البيانات المنعزلة وتجعل تحليلات بياناتك أكثر موثوقية ودقة. فيما يلي بعض الفوائد الأساسية لمسار البيانات.

تحسين جودة البيانات

تقوم مسارات البيانات بتنقيح البيانات الأولية وتحسينها، ما يعزز مدى فائدتها للمستخدمين النهائيين. وهي توحد التنسيقات لحقول مثل التواريخ وأرقام الهواتف عند التحقق بحثًا عن أخطاء الإدخال. وتقضي أيضًا على التكرار وتضمن اتساق جودة البيانات في المؤسسة.

معالجة البيانات الفعّالة

يتعين على مهندسي البيانات أداء العديد من المهام المتكررة أثناء تحويل البيانات وتحميلها. تسمح لهم مسارات البيانات بأتمتة مهام تحويل البيانات والتركيز بدلاً من ذلك على اكتشاف أفضل الرؤى التجارية. تساعد مسارات البيانات أيضًا مهندسي البيانات في معالجة البيانات الأولية التي تفقد قيمتها بمرو الوقت بسرعة أكبر.

تكامل البيانات الشامل

يلخَّص مسار البيانات وظائف تحويل البيانات اللازمة لدمج مجموعات البيانات من مصادر مختلفة. ويمكنه التحقق من قيم البيانات نفسها الواردة من مصادر متعددة تدقيقًا مزدوجًا وإصلاح التناقضات. على سبيل المثال، تخيل أن العميل نفسه يجري عملية شراء من النظام الأساسي للتجارة الإلكترونية ومن خدمتك الرقمية. ولكنه قد أخطأ في كتابة اسمه في الخدمة الرقمية. يمكن لهذا المسار إصلاح التناقض قبل إرسال البيانات من أجل إجراء التحليلات.

كيف يعمل مسار البيانات؟

تمامًا مثل مسار المياه الذي ينقل المياه من الخزان إلى الصنابير، يقوم مسار البيانات بنقل البيانات من نقطة التجميع إلى التخزين. يقوم مسار البيانات باستخراج البيانات من المصدر وإجراء تغييرات عليها وحفظها في وجهة محددة. نوضح أدناه المكونات المهمة لبنية مسار البيانات.

مصادر البيانات

يمكن أن يكون مصدر البيانات تطبيقًا أو جهازًا أو قاعدة بيانات أخرى. قد تدفع المصادر المختلفة البيانات داخل المسار. قد يستخرج المسار أيضًا نقاط البيانات باستخدام استدعاء واجهة برمجة التطبيقات (API) أو خطاف الويب أو عملية تكرار البيانات. يمكنك مزامنة استخراج البيانات بهدف المعالجة في الوقت الفعلي أو تجميع البيانات في فترات زمنية محددة من مصادر البيانات.

التحويلات

عندما تتدفق البيانات الأولية عبر المسار، فإنها تتغير لتصبح أكثر فائدة لغرض ذكاء الأعمال. التحويلات هي عمليات - مثل فرز البيانات وإعادة تنسيقها وإلغاء تكرارها والتحقق منها ومصادقتها - تؤدي إلى تغيير البيانات. يمكن لمسار البيانات تصفية البيانات أو تلخيصها أو معالجتها لتلبية متطلبات التحليل.

التبعيات

عندما تحدث التغييرات بالتتابع، قد توجد تبعيات محددة تقلل من سرعة نقل البيانات في المسار. هناك نوعان رئيسان من التبعيات: التبعيات التقنية وتبعيات الأعمال. فمثلاً، إذا كان لا بد أن ينتظر المسار ملء قائمة انتظار مركزية قبل المتابعة، فهذا يُعد تبعية تقنية. على العكس من ذلك، إذا كان لا بد أن يتوقف المسار مؤقتًا حتى تتحقق وحدة أعمال أخرى من صحة البيانات تحققًا مزدوجًا، فهذا يُعد تبعية أعمال.

الوجهات

يمكن أن تكون نقطة نهاية مسار البيانات مستودع بيانات أو مخزن بيانات أو تطبيقًا آخر لتحليل البيانات أو ذكاء الأعمال. في بعض الأحيان تُسمى الوجهة أيضًا بمخزن البيانات.

ما أنواع مسارات البيانات؟

يوجد نوعان رئيسان لمسارات البيانات، وهما مسارات المعالجة المتدفقة ومسارات معالجة الدُفعات.

مسارات المعالجة التدفق

تدفق البيانات هو تسلسل متواصل وتزايدي لحِزم البيانات صغيرة الحجم. عادةً ما يمثل سلسلة من الأحداث التي تحدث خلال فترة معينة. فمثلاً، يمكن لتدفق البيانات عرض بيانات المستشعر التي تحتوي على قياسات على مدار الساعة الماضية. يمكن أيضًا تسمية الإجراء الواحد، مثل المعاملة المالية، بالحدث. تعالج مسارات التدفق سلسلة من الأحداث من أجل إجراء التحليلات في الوقت الفعلي.

تحتاج البيانات المتدفقة إلى زمن استجابة منخفض ودرجة عالية من القدرة على التعامل مع الأعطال. يجب أن يكون مسار البيانات قادرًا على معالجة البيانات حتى في حالة فقدان بعض حِزم البيانات أو وصولها بترتيب مختلف عما هو متوقع.

مسارات معالجة الدُفعات

مسارات بيانات معالجة الدُفعات تعالج الأحجام والدفعات الكبيرة من البيانات وتخزِّنها. إنها مناسبة للمهام العرضية كبيرة الحجم، مثل الحسابات الشهرية.

يحتوي مسار البيانات على سلسلة من الأوامر المتعاقبة، ويُشغَّل كل أمر على دفعة كاملة من البيانات. يقدم مسار البيانات مخرج أحد الأوامر باعتباره مدخلاً للأمر التالي. بعد اكتمال جميع عمليات تحويل البيانات، يحمِّل المسار الدُفعة بأكملها في مستودع بيانات سحابي أو مخزن بيانات آخر مشابه.

القراءة عن معالجة الدُفعات »

ما الفرق بين مسارات بيانات الدفعات وبيانات التدفق؟

تعمل مسارات معالجة الدُفعات بشكل غير متكرر، وعادةً خلال غير ساعات الذروة. فهي تحتاج إلى قوة حوسبة كبيرة لفترة قصيرة أثناء تشغيلها. في المقابل، تعمل مسارات المعالجة المتدفقة بشكل مستمر ولكنها تحتاج إلى قوة حوسبة منخفضة. وبدلاً من ذلك، تحتاج إلى اتصالات شبكة موثوق بها وذات زمن استجابة منخفض.

ما الفرق بين مسارات البيانات ومسارات الاستخراج، والانتقال، والتحميل (ETL)؟

مسار الاستخراج، والانتقال، والتحميل (ETL) هو نوع خاص من مسار البيانات. تستخرج أو تنسخ أدوات ETL البيانات الأولية من مصادر متعددة وتخزّنها في مكان مؤقت يُطلق عليه منطقة التشغيل المرحلي. فهي تحوِّل البيانات الموجودة في منطقة التشغيل المرحلي وتحمّلها داخل مخازن أو مستودعات البيانات.

لا تتبع جميع مسارات البيانات تسلسل ETL. قد يستخرج بعضها البيانات من مصدر ويحمّلها في أي مكان آخر بدون تحويلات. تتبع مسارات البيانات الأخرى تسلسل الاستخراج والانتقال والتحميل (ELT)، حيث تستخرج البيانات غير المهيكلة وتحمِّلها مباشرةً في مخزن البيانات. فهي تجري تغييرات بعد نقل المعلومات إلى مستودعات البيانات السحابية.

القراءة عن الاستخراج، والانتقال، والتحميل (ETL) »

كيف يمكن أن تدعم AWS متطلبات مسارات البيانات؟

مسار البيانات في AWS هو خدمة ويب تساعدك في معالجة البيانات ونقلها بشكل موثوق به خلال فترات زمنية محددة. يمكن أن تنتقل بياناتك بين خدمات الحوسبة والتخزين من AWS المختلفة ومصادر البيانات المحلية. بفضل مسار البيانات، يمكنك الوصول إلى بياناتك بانتظام في المكان الذي خزنت فيه، وتحويلها ومعالجتها على نطاق واسع ونقل النتائج بكفاءة إلى خدمات AWS الأخرى. تتيح لك هذه الخدمة جني فوائد تحليل البيانات في الوقت الفعلي ووظائف إدارة البيانات المفيدة الأخرى.

فيما يلي بعض الأمور التي يمكنك إجراؤها باستخدام مسار البيانات:

  • سهولة إنشاء أعباء عمل معالجة البيانات المعقدة القابلة للتعامل مع الأعطال والقابلة للتكرار وعالية التوافر
  • ضمان توافر الموارد وإدارة التبعيات فيما بين المهام بكفاءة
  • إنشاء نظام إشعارات حول حالات الفشل وتطبيق عمليات إعادة المحاولة لحالات الفشل المؤقتة تلقائيًا
  • نقل ومعالجة البيانات التي كانت محتجزة سابقًا في مجموعات بيانات منعزلة محلية

ابدأ استخدام مسارات البيانات على AWS من خلال إنشاء حساب مجاني اليوم.

مسار البيانات - الخطوات القادمة

تحقَّق من الموارد الإضافية المتعلقة بالمنتج
تحقَّق من خدمات التحليلات 
تسجيل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

تسجيل الاشتراك 
بدء الإنشاء في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول