- ما الحوسبة السحابية؟›
- محور مفاهيم الحوسبة السحابية›
- التحليلات
ما المقصود بمسار البيانات؟
ما المقصود بمسار البيانات؟
مسار البيانات هو سلسلة من خطوات معالجة لإعداد بيانات المؤسسة بهدف تحليلها. تمتلك المؤسسات حجمًا كبيرًا من البيانات من مصادر مختلفة مثل التطبيقات وأجهزة إنترنت الأشياء (IoT) والقنوات الرقمية الأخرى. إلا أن البيانات الأولية عديمة النفع؛ إذ يجب نقلها وفرزها وتصفيتها وإعادة تنسيقها وتحليلها لاستخلاص لغرض ذكاء الأعمال. يتضمن مسار البيانات تقنيات مختلفة للتحقق من صحة البيانات وتلخيصها والعثور على أنماط فيها لاتخاذ قرارات أعمال مدروسة. تدعم مسارات البيانات جيدة التنظيم العديد من مشروعات البيانات الكبيرة، مثل تمثيل البيانات مرئيًا، وتحليلات البيانات الاستكشافية، ومهام تعلّم الآلة.
ما فوائد مسار البيانات؟
تتيح لك مسارات البيانات دمج البيانات من المصادر المختلفة وتحويلها بهدف تحليلها. فهي تقضي على مجموعات البيانات المنعزلة وتجعل تحليلات بياناتك أكثر موثوقية ودقة. فيما يلي بعض الفوائد الأساسية لمسار البيانات.
تحسين جودة البيانات
تقوم مسارات البيانات بتنقيح البيانات الأولية وتحسينها، ما يعزز مدى فائدتها للمستخدمين النهائيين. وهي توحد التنسيقات لحقول مثل التواريخ وأرقام الهواتف عند التحقق بحثًا عن أخطاء الإدخال. وتقضي أيضًا على التكرار وتضمن اتساق جودة البيانات في المؤسسة.
معالجة البيانات الفعّالة
يتعين على مهندسي البيانات أداء العديد من المهام المتكررة أثناء تحويل البيانات وتحميلها. تسمح لهم مسارات البيانات بأتمتة مهام تحويل البيانات والتركيز بدلاً من ذلك على اكتشاف أفضل الرؤى التجارية. تساعد مسارات البيانات أيضًا مهندسي البيانات في معالجة البيانات الأولية التي تفقد قيمتها بمرو الوقت بسرعة أكبر.
تكامل البيانات الشامل
يلخَّص مسار البيانات وظائف تحويل البيانات اللازمة لدمج مجموعات البيانات من مصادر مختلفة. ويمكنه التحقق من قيم البيانات نفسها الواردة من مصادر متعددة تدقيقًا مزدوجًا وإصلاح التناقضات. على سبيل المثال، تخيل أن العميل نفسه يجري عملية شراء من النظام الأساسي للتجارة الإلكترونية ومن خدمتك الرقمية. ولكنه قد أخطأ في كتابة اسمه في الخدمة الرقمية. يمكن لهذا المسار إصلاح التناقض قبل إرسال البيانات من أجل إجراء التحليلات.
كيف يعمل مسار البيانات؟
تمامًا مثل مسار المياه الذي ينقل المياه من الخزان إلى الصنابير، يقوم مسار البيانات بنقل البيانات من نقطة التجميع إلى التخزين. يقوم مسار البيانات باستخراج البيانات من المصدر وإجراء تغييرات عليها وحفظها في وجهة محددة. نوضح أدناه المكونات المهمة لبنية مسار البيانات.
مصادر البيانات
يمكن أن يكون مصدر البيانات تطبيقًا أو جهازًا أو قاعدة بيانات أخرى. قد تدفع المصادر المختلفة البيانات داخل المسار. قد يستخرج المسار أيضًا نقاط البيانات باستخدام استدعاء واجهة برمجة التطبيقات (API) أو خطاف الويب أو عملية تكرار البيانات. يمكنك مزامنة استخراج البيانات بهدف المعالجة في الوقت الفعلي أو تجميع البيانات في فترات زمنية محددة من مصادر البيانات.
التحويلات
عندما تتدفق البيانات الأولية عبر المسار، فإنها تتغير لتصبح أكثر فائدة لغرض ذكاء الأعمال. التحويلات هي عمليات - مثل فرز البيانات وإعادة تنسيقها وإلغاء تكرارها والتحقق منها ومصادقتها - تؤدي إلى تغيير البيانات. يمكن لمسار البيانات تصفية البيانات أو تلخيصها أو معالجتها لتلبية متطلبات التحليل.
التبعيات
عندما تحدث التغييرات بالتتابع، قد توجد تبعيات محددة تقلل من سرعة نقل البيانات في المسار. هناك نوعان رئيسان من التبعيات: التبعيات التقنية وتبعيات الأعمال. فمثلاً، إذا كان لا بد أن ينتظر المسار ملء قائمة انتظار مركزية قبل المتابعة، فهذا يُعد تبعية تقنية. على العكس من ذلك، إذا كان لا بد أن يتوقف المسار مؤقتًا حتى تتحقق وحدة أعمال أخرى من صحة البيانات تحققًا مزدوجًا، فهذا يُعد تبعية أعمال.
الوجهات
يمكن أن تكون نقطة نهاية مسار البيانات مستودع بيانات أو مخزن بيانات أو تطبيقًا آخر لتحليل البيانات أو ذكاء الأعمال. في بعض الأحيان تُسمى الوجهة أيضًا بمخزن البيانات.

ما أنواع مسارات البيانات؟
يوجد نوعان رئيسان لمسارات البيانات، وهما مسارات المعالجة المتدفقة ومسارات معالجة الدُفعات.
مسارات المعالجة التدفق
تدفق البيانات هو تسلسل متواصل وتزايدي لحِزم البيانات صغيرة الحجم. عادةً ما يمثل سلسلة من الأحداث التي تحدث خلال فترة معينة. فمثلاً، يمكن لتدفق البيانات عرض بيانات المستشعر التي تحتوي على قياسات على مدار الساعة الماضية. يمكن أيضًا تسمية الإجراء الواحد، مثل المعاملة المالية، بالحدث. تعالج مسارات التدفق سلسلة من الأحداث من أجل إجراء التحليلات في الوقت الفعلي.
تحتاج البيانات المتدفقة إلى زمن استجابة منخفض ودرجة عالية من القدرة على التعامل مع الأعطال. يجب أن يكون مسار البيانات قادرًا على معالجة البيانات حتى في حالة فقدان بعض حِزم البيانات أو وصولها بترتيب مختلف عما هو متوقع.
مسارات معالجة الدُفعات
مسارات بيانات معالجة الدُفعات تعالج الأحجام والدفعات الكبيرة من البيانات وتخزِّنها. إنها مناسبة للمهام العرضية كبيرة الحجم، مثل الحسابات الشهرية.
يحتوي مسار البيانات على سلسلة من الأوامر المتعاقبة، ويُشغَّل كل أمر على دفعة كاملة من البيانات. يقدم مسار البيانات مخرج أحد الأوامر باعتباره مدخلاً للأمر التالي. بعد اكتمال جميع عمليات تحويل البيانات، يحمِّل المسار الدُفعة بأكملها في مستودع بيانات سحابي أو مخزن بيانات آخر مشابه.
ما الفرق بين مسارات بيانات الدفعات وبيانات التدفق؟
تعمل مسارات معالجة الدُفعات بشكل غير متكرر، وعادةً خلال غير ساعات الذروة. فهي تحتاج إلى قوة حوسبة كبيرة لفترة قصيرة أثناء تشغيلها. في المقابل، تعمل مسارات المعالجة المتدفقة بشكل مستمر ولكنها تحتاج إلى قوة حوسبة منخفضة. وبدلاً من ذلك، تحتاج إلى اتصالات شبكة موثوق بها وذات زمن استجابة منخفض.
ما الفرق بين مسارات البيانات ومسارات الاستخراج، والانتقال، والتحميل (ETL)؟
مسار الاستخراج، والانتقال، والتحميل (ETL) هو نوع خاص من مسار البيانات. تستخرج أو تنسخ أدوات ETL البيانات الأولية من مصادر متعددة وتخزّنها في مكان مؤقت يُطلق عليه منطقة التشغيل المرحلي. فهي تحوِّل البيانات الموجودة في منطقة التشغيل المرحلي وتحمّلها داخل مخازن أو مستودعات البيانات.
لا تتبع جميع مسارات البيانات تسلسل ETL. قد يستخرج بعضها البيانات من مصدر ويحمّلها في أي مكان آخر بدون تحويلات. تتبع مسارات البيانات الأخرى تسلسل الاستخراج والانتقال والتحميل (ELT)، حيث تستخرج البيانات غير المهيكلة وتحمِّلها مباشرةً في مخزن البيانات. فهي تجري تغييرات بعد نقل المعلومات إلى مستودعات البيانات السحابية.
كيف يمكن أن تدعم AWS متطلبات مسارات البيانات؟
AWS Glue هي خدمة تكامل بيانات بدون خادم تسهل على مستخدمي التحليلات اكتشاف البيانات وإعدادها ونقلها ودمجها من مصادر متعددة للتحليلات والتعلم الآلي وتطوير التطبيقات.
- يمكنك استكشاف أكثر من 80 مخزن بيانات متنوع والاتصال بهم.
- يمكنك إدارة بياناتك في كتالوج بيانات مركزي.
- يمكن لمهندسي البيانات ومطوري ETL ومحللي البيانات ومستخدمي الأعمال استخدام AWS Glue Studio لإنشاء خطوط أنابيب ETL وتشغيلها ومراقبتها لتحميل البيانات في بحيرات البيانات.
- يوفر AWS Glue Studio واجهات Visual ETL وNotebook ومحرر التعليمات البرمجية، بحيث يكون لدى المستخدمين الأدوات المناسبة لمجموعات مهاراتهم.
- من خلال الجلسات التفاعلية، يمكن لمهندسي البيانات استكشاف البيانات بالإضافة إلى تأليف المهام واختبارها باستخدام IDE أو دفتر الملاحظات المفضل لديهم.
- AWS Glue هي خدمة بلا خادم وتتوسّع بشكل تلقائي حسب الطلب، حتى يتسنى لك التركيز على اكتساب الرؤى من بيانات بحجم البيتابايت بدون الحاجة إلى إدارة البنية الأساسية.
ابدأ مع AWS Glue من خلال إنشاء حساب AWS.