ما المقصود بتنظيف البيانات؟
يُعد تنظيف البيانات عملية أساسية في تجهيز البيانات الأولية لتطبيقات تعلّم الآلة وتطبيقات ذكاء الأعمال (BI). قد تحتوي البيانات الأولية على العديد من الأخطاء، ما قد يؤثر في دقة نماذج تعلّم الآلة ويؤدي إلى تنبؤات غير صحيحة ويؤثر سلبًا في الأعمال.
تتضمن الخطوات الأساسية لتنظيف البيانات تعديل حقول البيانات غير الصحيحة وغير المكتملة وحذفها، والتعرُّف على المعلومات المكررة والبيانات بعيدة الصلة وحذفها، وتصحيح أخطاء التنسيق والقيم المفقودة والأخطاء الإملائية.
ما أهمية تنظيف البيانات؟
عندما تستخدم شركة ما البيانات لدعم عملية اتخاذ القرار، فمن الأهمية بمكان أن تستخدم بيانات ذات صلة وكاملة ودقيقة. ومع ذلك، غالبًا ما تنطوي مجموعات البيانات على أخطاء يلزم إزالتها قبل التحليل. قد تتضمن مجموعات البيانات أخطاء في التنسيق مثل التواريخ ووحدات القياس النقدية المكتوبة بشكل غير صحيح وغيرها من وحدات القياس التي قد تؤثر جوهريًا في التنبؤات. القيم المتطرفة هي مصدر قلق على وجه الخصوص لأنها تؤدي دائمًا إلى انحراف النتائج. تتضمن أخطاء البيانات الأخرى الشائع وجودها نقاط البيانات التالفة والمعلومات المفقودة والأخطاء المطبعية. يمكن أن تساعد البيانات النظيفة في إنشاء نماذج تعلّم آلة عالية الدقة.
إن كون البيانات نظيفة ودقيقة بالغ الأهمية بشكل خاص لتدريب نماذج تعلّم الآلة، إذ إن استخدام مجموعات بيانات التدريب الضعيفة المستوى يمكن أن يؤدي إلى تنبؤات خطأ في النماذج المنشورة. وهذا هو السبب الرئيس الذي يجعل علماء البيانات يقضون الكثير من الوقت في تجهيز البيانات لأجل تعلّم الآلة.
كيف تتحقق من أن بياناتك نظيفة كما ينبغي؟
تستلزم عملية تنظيف البيانات عدة خطوات لتحديد إدخالات المشكلة وإصلاحها. الخطوة الأولى هي تحليل البيانات لتحديد الأخطاء. قد يتضمن ذلك استخدام أدوات التحليل النوعي التي تعتمد على القواعد والأنماط والقيود لتحديد القيم غير الصالحة. الخطوة التالية هي إزالة الأخطاء أو تصحيحها.
تتضمن الخطوات الشائعة لتنظيف البيانات علاج كل من:
- البيانات المكررة: إسقاط المعلومات المكررة.
- البيانات غير ذات الصلة: تحديد الحقول المهمة لإجراء تحليل معين وإسقاط البيانات غير ذات الصلة من التحليل.
- القيم المتطرفة: يمكن أن تؤثر القيم المتطرفة جذريًا في أداء النموذج، لذا تُحدد القيم المتطرفة والإجراء المناسب.
- البيانات المفقودة: تمييز البيانات المفقودة بعلامة وإسقاطها أو تنسيبها.
- الأخطاء الهيكلية: تصحيح الأخطاء المطبعية وغيرها من التناقضات، وجعل البيانات متوافقة مع نمط أو اصطلاح شائع.
كيف يمكن أن تساعد AWS في تنظيف البيانات
Amazon SageMaker Data Wrangler هي إحدى ميزات Amazon SageMaker التي تمكِّنك من إعداد البيانات بسرعة وسهولة لعملية تعلّم الآلة. باستخدام Amazon Sagemaker Data Wrangler، يمكنك إكمال جميع خطوات سير عمل إعداد البيانات، بما في ذلك اختيار البيانات والتنظيف والاستكشاف وكشف التحيز والعرض المرئي من خلال واجهة مرئية واحدة.
باستخدام أداة تحديد البيانات في SageMaker Data Wrangler، يمكنك اختيار البيانات التي تريدها من مصادر بيانات مختلفة واستيرادها بنقرة واحدة. بمجرد استيراد البيانات، يمكنك استخدام تقرير جودة البيانات والرؤى للتحقق تلقائيًا من جودة البيانات واكتشاف العيوب، مثل الصفوف المكررة وتسرب الهدف. يتضمن SageMaker Data Wrangler أكثر من 300 عملية تحويل بيانات مضمنة بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة بدون الحاجة إلى كتابة أي تعليمات برمجية.
للبدء في استخدام SageMaker Data Wrangler، استكشف البرنامج التعليمي.