انتقل إلى المحتوى الرئيسي

ما المقصود بتوصيف البيانات؟

توصيف البيانات هو عملية مراجعة بيانات المؤسسة لفهم المعلومات القائمة وكيفية تخزينها، بالإضافة إلى الروابط بين مجموعات البيانات المختلفة. تجمع الشركات الكبرى البيانات من مئات أو آلاف المصادر، وقد يترتب على ذلك تكرار البيانات وعدم الاتساق وغيرها من مشكلات دقة البيانات التي تؤثر سلبًا في مشروعات التحليلات المستقبلية. يهدف تصنيف البيانات إلى تقييم جودة البيانات باستخدام أدوات الأتمتة التي تعمل على تحديد أنماط المحتوى والاستخدام والإبلاغ عنها. وتُعد هذه العملية خطوة أساسية في مرحلة المعالجة المسبقة قبل الاستفادة من البيانات في تحليلات البيانات ومجال ذكاء الأعمال.

ما المقصود بملف البيانات التعريفي؟

ملف البيانات التعريفي هو تقرير يقدم رؤى تفصيلية حول خصائص بيانات الشركة وأي مشكلات محتملة تتعلق بجودة البيانات قد تنطوي عليها. يركز التقرير على البيانات الوصفية والمعلومات الإحصائية، مما يوفر للباحثين نظرة شاملة لمحتويات البيانات.

تساعد المقاييس الإحصائية في ملف البيانات التعريفي في تحديد جودة البيانات. وهي توفر معلومات حول القيم الصغرى والكبرى، وتكرار البيانات، والتباين، والمتوسط الحسابي والمنوال، والنسب المئوية، وغيرها من المؤشرات المتعلقة بتوزيع البيانات.

يقدم قسم البيانات الوصفية في التقرير تصورًا واضحًا عن طبيعة البيانات التي تجمعها الشركة. ويشمل ذلك الجوانب الهيكلية وتحليل المفاتيح الخارجية من أجل فهم العلاقات بين مجموعات البيانات وتحليل التكامل المرجعي للتحقق من صحة الاتساق بين الجداول المختلفة.

ما سبب أهمية توصيف البيانات؟

إليك مزايا توصيف البيانات.

تحسين تنظيم البيانات

من الشائع أن تمتلك المؤسسات الكبرى العديد من مجموعات البيانات التي تشارك المعلومات أو تتضمن تفاصيل مماثلة. وباستخدام عملية توصيف البيانات، يمكن للمؤسسات تحديد مصدر البيانات والتعرف على الحقول التي تتقاطع فيما بينها. يمكن أن يساعد تحديد التكرار في تنقيح البيانات وتحسين تنظيمها وتسهيل العمليات المعتمدة على البيانات بشكل أفضل. تساعد معايير جودة البيانات المحسنة في تعزيز جميع العمليات المعتمدة على البيانات داخل المؤسسة، مع تقليل التكاليف التشغيلية الناتجة عن تكرار الجهود.

حسِّن التعاون

توفر تقارير توصيف البيانات أيضًا معلومات حول ملكية البيانات ونسبها. وهو ما يمنح المنظمة فهمًا أفضل لمالكي البيانات ومصادرها. وتساهم هذه المعرفة في تعزيز المساءلة ودعم التعاون بفعالية أكبر.

تبسيط عمليات سير العمل

يشمل توصيف البيانات عمليات آلية من شأنها تسهيل عملية تحديد البيانات الوصفية وتتبع تدفقات البيانات. يمكن لباحثي البيانات تقليل الوقت المستغرق في عمليات التعريف اليدوية المطوَّلة، مع التركيز على المهام التي تتطلب مهارات تقنية متقدمة. يمكنك أيضًا إزالة أي بيانات متكررة أو غير دقيقة، مع التأكد من أن جميع البيانات المستخدمة تلبي أعلى المعايير.

الحوكمة المركزية

تساهم عملية توصيف البيانات في تركيز المعلومات حول البيانات، مما يوفر لوحة معلومات موحدة لمكان تخزين البيانات، ومَن يمتلكها، والمعلومات المتداخلة. يمكنك معالجة مجموعة البيانات المنعزلة وتحسين الوصول إلى البيانات. يضمن اتباع نهج شامل لتوثيق وتعيين البيانات أن كل شخص في مؤسستك لديه فهم أفضل لبياناته. يوضح توصيف البيانات أيضًا العلاقة بين مجموعات البيانات المختلفة ويتتبع كيفية انتقالها عبر النظام، وهو أمر ضروري لضمان الامتثال.

ما هي حالات استخدام توصيف البيانات؟

هناك العديد من حالات استخدام توصيف البيانات.

جودة البيانات

إذا تعذَّرت عمليات البيانات، فإن من أسهل الطرق لتحديد السبب إنشاء ملف تعريفي للبيانات. يكشف تقرير ملف البيانات التعريفي ما إذا كانت البيانات غير كاملة أو غير دقيقة، أو تحتوي على حرف غير متوقع قد يكون سبب الخطأ. يمكن لمهندسي البيانات تنفيذ ملفات البيانات التعريفية بشكل دوري للتحقق من أن عمليات البيانات تعمل وفق التوقعات، ولضمان استمرار الحفاظ على جودة البيانات.

ترحيل البيانات

يمكن لمهندسي البيانات الاستفادة من تقارير ملف البيانات التعريفية للكشف عن حالات الإجهاد في أنظمة البيانات وتحديد التعديلات الضرورية لتحسين الكفاءة التشغيلية. ويمكن لتقارير ملف البيانات التعريفية المساعدة في اتخاذ قرارات الترحيل إلى السحابة أو إلى أي إعداد جديد. يمكن لمهندسي البيانات جمع المعلومات اللازمة بسرعة للعمل بكفاءة أعلى وتحسين تطوير مسار البيانات.

إدارة البيانات الرئيسية

البيانات الرئيسية هي البيانات الأساسية المُستخدَمة على مستوى المؤسسة، وعادةً ما تصف العملاء أو المنتجات أو الموردين أو غيرها من الأصول الرئيسية. وتُعد تطبيقات إدارة البيانات الرئيسية (Master Data Management, MDM) حلولًا برمجية تمكن المؤسسات من إدارة بياناتها الرئيسية والحفاظ على اتساقها ودقتها. عندما تعمل الفِرق على تطبيقات MDM الرئيسية، فإنها تستخدم ملفات البيانات التعريفية لفهم الأنظمة التي يتكامل معها المشروع، وتحديد نطاق التطبيق، والتحقق مما إذا كانت هناك أي حالات عدم اتساق في البيانات. يمكن للشركات الاستفادة من توصيف البيانات في تحديد مشكلات جودة البيانات والقيم الفارغة والأخطاء في أقرب وقت ممكن، بما يساهم في تسريع توحيد البيانات ودعم عمليات MDM.

ما أنواع توصيف البيانات؟

هناك العديد من التقنيات المختلفة لتوصيف البيانات.

اكتشاف البنية

يُعَد توصيف البيانات لاكتشاف البنية بمثابة استراتيجية لضمان اتساق جميع البيانات عبر قاعدة البيانات. وهو يفحص جميع البيانات في حقل محدد للتحقق من أنها بالتنسيق الصحيح، ومنظمة على نحو متسق مع جميع الإدخالات الأخرى في ذلك الحقل. على سبيل المثال، قد يعمل اكتشاف البنية على التحقق من أن جميع أرقام الهواتف المحمولة في القائمة تحتوي على العدد نفسه من الأرقام، مع وضع علامة على أي أرقام تتضمن قيمًا مفقودة أو غير متوافقة.

اكتشاف المحتوى

يُعَد توصيف البيانات لاكتشاف المحتوى بمثابة استراتيجية للبحث عن أي مشكلات نظامية في البيانات. قد تظهر هذه الأخطاء على شكل قيم خاطئة أو عناصر فردية منظمة بشكل غير صحيح داخل قاعدة البيانات.

اكتشاف العلاقة

يعمل توصيف البيانات لاكتشاف العلاقة على تتبع طريقة ترابط مجموعات البيانات المختلفة، والتي يتم استخدامها مع الآخرين، وكيفية تداخل مجموعات البيانات. يعتمد هذا النمط من تحديد المواصفات أولًا على فحص البيانات الوصفية لتحديد أبرز العلاقات بين مجموعات البيانات، ثم يركز على الروابط بين الحقول لإظهار عرض أكثر شمولًا للعلاقة.

اكتشاف البيانات الوصفية

يعمل توصيف البيانات لاكتشاف البيانات الوصفية على مقارنة البيانات مع بنيتها المتوقعة من خلال تقييم بياناتها الوصفية. ويتحقق من أن البيانات تعمل وتستجيب على النحو المتوقع. على سبيل المثال، إذا كان الحقل مخصصًا لإدخال قيم رقمية ولكنه يستقبل حروفًا أبجدية، فإن آلية اكتشاف البيانات الوصفية ستضع علامة على هذا التناقض كخطأ لإجراء مراجعة إضافية.

التوصيف القائم على الحقول

يُعَد التوصيف القائم على الحقول بمثابة استراتيجية لتحدد مشكلات جودة البيانات في حقل واحد من خلال التحقق من تطابق نوع البيانات وخصائصها. ويمكن أن يساعد هذا النهج في تحديد حالات عدم الاتساق في البيانات أو أي قيم متطرفة قد تؤثر في موثوقية النتائج.

يعتمد التوصيف متعدد الحقول على استراتيجية مماثلة لفهم العلاقة بين حقلين مختلفين. ويُعرف أيضًا باسم التوصيف عبر الحقول أو التوصيف عبر الجداول، حيث يتحقق من مدى توافق الحقلين إذا كانت بيانات أحدهما تعتمد على بيانات الآخر. على سبيل المثال، يمكن التحقق مما إذا كانت الولاية متوافقة مع الرمز البريدي الصحيح في قوائم عناوين العملاء.

ما آلية عمل توصيف البيانات؟

إليك المراحل الرئيسية التي تمر بها عملية توصيف البيانات.

التحضير

تشير مرحلة التحضير إلى وضع تصور للأهداف المنشودة من خلال توصيف البيانات. وتبدأ هذه العملية بتحديد نمط توصيف البيانات الأكثر فعالية لتحقيق الأهداف المؤسسية. في هذه المرحلة، ستحدد أيضًا أي حقول بيانات وصفية ترغب في البحث عنها.

اكتشاف البيانات

بعد ذلك، ستحدد البيانات الموجودة في نظامك. وتهدف هذه المرحلة إلى جمع معلومات حول بنية بياناتك وتنسيقاتها ومحتواها والعلاقات المحتملة بين مجموعات البيانات. في هذه المرحلة، يمكنك إجراء تحليل إحصائي لتحديد ميزات بيانات محددة.

توحيد المقاييس

يضمن توحيد المقاييس اتساق التنسيقات والهياكل عبر جميع بياناتك. في هذه المرحلة، يتم أيضًا حذف أي بيانات متكررة وإزالة التكرارات، مما يقلل من إجمالي حجم البيانات المطلوب تنقيحها في الخطوة التالية. إذا كنت بحاجة إلى تطبيق القواعد المؤسسية لتوحيد مقاييس بياناتك، فهذا هو الموضع الذي يتم فيه التحقق من صحة قاعدة البيانات.

تنقيح البيانات

تتضمن عملية تنقيح البيانات اكتشاف الأخطاء وإزالتها، وتحسين جودة البيانات من خلال ربطها بمصادر بيانات إضافية، ومعالجة حالات عدم الاتساق في مجموعات البيانات الأوسع نطاقًا.

التحسين

أخيرًا، تركز عملية توصيف البيانات على التحسين، والذي يتضمن مراقبة جودة البيانات لضمان حل أي مشكلات في أسرع وقت ممكن. إذا كانت لديك أهداف معينة تتعلق بحوكمة البيانات أو استراتيجية البيانات، ففي هذه المرحلة يمكنك ضمان الامتثال والتحقق من إدخال بياناتك وتوزيعها بشكل صحيح عبر مؤسستك.

ما هي الدوال الشائعة لتوصيف البيانات؟

إليك الأدوات والدوال الشائعة لتوصيف البيانات.

الدوال الرياضية

الدوال الرياضية في توصيف البيانات هي أساليب لحساب اكتمال البيانات وتحديد أي أنماط موجودة في مجموعة البيانات. مثل: القيمة المطلقة، الرفع للأُس، اللوغاريتم، وغيرها.

الدوال التجميعية

تركز الدوال التجميعية على جمع حقول متعددة من الصفوف أو الأعمدة، ثم إرجاع قيمة واحدة لتلخيص هذه المعلومات. مثل: المتوسط، العدد، القيمة العظمى، دالة التباين، وغيرها.

دوال النصوص

دوال النصوص هي استراتيجيات لفحص إدخالات البيانات النصية، مما يساعد في تقييم جودة البيانات داخل حقول السلسلة النصية هذه والتفاعل معها. مثل: بحث، حرف، اقتطاع، وغيرها.

دوال التاريخ والوقت

تسمح دوال التاريخ والوقت للباحثين بفحص البيانات التي تتضمن هذه الحقول. يمكنك التحقق من تواريخ أو أوقات محددة، أو حساب الفرق بين التواريخ، أو إرجاع معلومات محددة من هذه الحقول. مثل: التحويل بين المناطق الزمنية، إرجاع الشهر والسنة واليوم من تاريخ معين، وغيرها.

دوال النافذة

تساعدك أدوات توصيف البيانات المزودة بدوال النافذة في التحقق من المعلومات المستندة إلى الأعمدة. يمكنك إجراء التوصيف بين الأعمدة أو لكل عمود ضمن نافذة بيانات متحركة. مثل: عدد القيم أو القيمة العظمى ضمن النافذة المتحركة، وغيرها.                                                                                                                                                                                                                                                                                                  

دوال الويب

تتعامل دوال الويب مع سلاسل نصية تحتوي على محتوى XML. وبالنسبة لأي بيانات مرتبطة بخدمة ويب، تُعد هذه الدوال أدوات تحقيق فعالة. مثل: تحويل حقول البيانات أو استخراج قيمة من كائن JSON.

كيف تساعدك AWS في تلبية متطلبات توصيف البيانات؟

يوفر كتالوج Amazon SageMaker درجات جودة البيانات التي تساعدك في فهم مقاييس الجودة المختلفة مثل اكتمال مصادر البيانات وتوقيتها ودقتها. ويتكامل كتالوج Amazon SageMaker مع جودة البيانات AWS Glue، كما يوفر واجهات برمجة التطبيقات (API) لدمج مقاييس جودة البيانات من حلول خارجية لجودة البيانات. يمكن لمستخدمي البيانات رصد كيفية تغيير مقاييس جودة البيانات بمرور الوقت للأصول المشتركين فيها. ولإنشاء قواعد جودة البيانات وتشغيلها، يمكنك استخدام أداة جودة البيانات من اختيارك مثل جودة البيانات AWS Glue. باستخدام مقاييس جودة البيانات في كتالوج SageMaker، يمكن لمستهلكي البيانات عرض درجات جودة البيانات المتعلقة بالأصول والأعمدة، مما يساعد على بناء الثقة في البيانات التي يستخدمونها لاتخاذ القرارات.

AWS Glue هي خدمة تكامل البيانات بلا خادم، تعمل على تسهيل عملية اكتشاف البيانات وتحضيرها ودمجها لأغراض التحليلات والذكاء الاصطناعي/تعلم الآلة (AI/ML) وتطوير التطبيقات. وتوفر هذه الخدمة جميع الإمكانات اللازمة لتكامل البيانات، مما يسمح لك ببدء تحليل بياناتك واستخدامها في خلال دقائق بدلًا من أشهر.

AWS Glue DataBrew هي ميزة تحضير البيانات بشكل مرئي داخل AWS Glue، وتتيح إمكانات توصيف البيانات. يمكنك:

  • الاختيار من بين أكثر من 250 تحويلًا تم إنشاؤه مسبقًا لأتمتة مهام إعداد البيانات، وذلك بدون الحاجة إلى كتابة أي تعليمات برمجية.
  • تصفية القيم الشاذة تلقائيًا، وتحويل البيانات إلى تنسيقات قياسية، وتصحيح القيم غير الصالحة.
  • الاستخدام الفوري للبيانات المعَدة للتحليلات ومشروعات الذكاء الاصطناعي/تعلم الآلة.

إنشاء قواعد جودة البيانات يدويًا عن طريق كتابة التعليمات البرمجية لمراقبة مسارات البيانات يمثل تحديًا كبيرًا في توصيف البيانات. جودة البيانات AWS Glue هي ميزة أخرى تعمل تلقائيًا على حساب الإحصاءات، واقتراح قواعد لضمان جودة البيانات ومراقبتها، وتنبيهك فور اكتشاف أي مشكلات.

بدء استخدام توصيف البيانات على AWS من خلال إنشاء حساب مجاني اليوم.