ما المقصود بتجهيز البيانات؟
تجهيز البيانات هو عملية إعداد البيانات الأولية لتكون صالحةً لمزيد من المعالجة والتحليل. تتمثل الخطوات الأساسية في جمع البيانات الأولية وتنظيفها وتصنيفها في صيغة تناسب خوارزميات تعلّم الآلة (ML) وبعد ذلك استكشاف البيانات وعرضها بطريقة مصورة. يمكن أن يستغرق تجهيز البيانات مدةً تصل إلى 80% من الوقت المستغرق في مشروع التعلم الآلي. يعد استخدام أدوات تجهيز البيانات المتخصصة أمرًا مهمًا لتحسين هذه العملية.
ما العلاقة بين التعلم الآلي وتجهيز البيانات؟
إن تدفق البيانات إلى المؤسسات يشهد نموًا لم يسبق له مثيل، فالبيانات تتدفق من كل شيء بدايةً من الهواتف الذكية وحتى المدن الذكية سواءً في صورة بيانات مهيكلة أو بيانات غير مهيكلة (الصور، والمستندات، والبيانات الجغرافية المكانية، وغيرها). تمثل البيانات غير المهيكلة نسبة 80% من البيانات المتاحة في الوقت الحاضر. لا يستطيع التعلم الآلي تحليل البيانات المهيكلة وحسب، بل يمكنه أيضًا اكتشاف أنماط في البيانات غير المهيكلة. التعلّم الآلي هو عملية يتعلّم خلالها الكمبيوتر تفسير البيانات واتخاذ القرارات وتقديم التوصيات وفقًا للبيانات. خلال عملية التعلّم¬—ولاحقًا عند استخدامها في التنبؤات—ينتج عن البيانات غير الصحيحة أو المتحيزة أو غير المكتملة تنبؤات غير دقيقة.
لماذا تجهيز البيانات مهم للتعلم الآلي؟
البيانات هي وقود التعلم الآلي. إن الاستفادة من هذه البيانات في تجديد الابتكار في أعمالك، رغم التحديات، هو أمر ضروري للبقاء على صلة بكل ما هو جديد الآن وفي المستقبل. وهو يجسد مفهوم البقاء لمن هم أكثر وعيًا، وأولئك الذين يستخدمون بياناتهم في اتخاذ قرارات أفضل وأكثر استنارةً تستجيب سريعًا لما هو غير متوقع وتكشف عن فرص جديدة. تُعتبر هذه العملية المهمة والشاقة شرطًا أساسيًا لبناء نماذج وتحليلات دقيقة للتعلم الآلي، وهذا يمثل الجزء الأكثر استهلاكا للوقت في مشروع التعلم الآلي. لتقليل الوقت المستغرق في تجهيز البيانات، يمكن لعلماء البيانات استخدام الأدوات التي تساعد في أتمتة هذه العملية بطرق مختلفة.
كيف تجهز بياناتك؟
تتضمن عملية تجهيز البيانات سلسلةً من الخطوات تبدأ بجمع البيانات الصحيحة، يليها التنظيف والتصنيف ثم التحقق من الصحة والعرض المرئي (العرض البياني).
جمع البيانات
جمع البيانات هو عملية تجميع كافة البيانات التي تحتاجها في التعلّم الآلي. قد يكون جمع البيانات أمرًا مملاً لأن البيانات توجد في العديد من المصادر، منها أجهزة الكمبيوتر المحمولة ومستودعات البيانات والسحابة وداخل التطبيقات وعلى الأجهزة. وقد يكون إيجاد سبل للاتصال بالمصادر المختلفة للبيانات أمرًا صعبًا. كما تتزايد أحجام البيانات أيضًا تزايدًا هائلاً، ولذلك يوجد كم ضخم من البيانات مطلوب البحث فيها. بالإضافة إلى ذلك، تحتوي البيانات على تنسيقات وأنواع شديدة التباين اعتمادًا على المصدر. على سبيل المثال، ليس من السهل استخدام بيانات الفيديو وبيانات الجداول معًا.
تنظيف البيانات
تنظيف البيانات هي عملية تصحح الأخطاء وتملأ البيانات المفقودة كخطوة لضمان جودة البيانات. بعد أن تحصل على البيانات النظيفة، تحتاج إلى تحويلها إلى تنسيق متسق وقابل للقراءة. يمكن أن تتضمن هذه العملية تغيير تنسيقات الحقول مثل التواريخ والعملة، وتعديل اصطلاحات التصنيف، وتصحيح القيم، ووحدات القياس حتى تكون متسقة.
تصنيف البيانات
تصنيف البيانات هي العملية التي يتم خلالها تحديد البيانات الأولية (الصور، الملفات النصية، مقاطع الفيديو، إلخ) وإضافة واحدة أو أكثر من التصنيفات المفيدة والثرية بالمعلومات لتوفير السياق الذي يتعلم منه نموذج التعلم الآلي. على سبيل المثال، قد تشير التصنيفات إلى ما إذا كانت الصورة تحتوي على طائر أو سيارة، أو الكلمات التي تم ذكرها في تسجيل صوتي، أو ما إذا كانت الأشعة السينية قد اكتشفت حالة غير منتظمة. تصنيف البيانات هي عملية مطلوبة لمختلف حالات الاستخدام بما في ذلك رؤية الكمبيوتر، ومعالجة اللغة الطبيعية، والتعرف على الكلام.
التحقق من الصحة والعرض المرئي أو البياني
بعد تنظيف البيانات وتصنيفها، تستكشف فرق التعلم الآلي في الغالب البيانات للتأكد من أنها صحيحة وجاهزة للتعلم الآلي. تعد طرق العرض البيانية مثل المدرج التكراري، والمخططات الانتشارية، ومخططات الصندوق، والمخططات البيانية الخطية، ومخطط الأعمدة الشريطية كلها أدوات مفيدة لتأكيد صحة البيانات. بالإضافة إلى ذلك، تساعد طرق العرض البيانية فرق علوم البيانات في استكمال التحليل الاستكشافي للبيانات. تستخدم هذه العملية طرق العرض البيانية في اكتشاف الأنماط أو تحديد أوجه الخلل أو اختبار الفرضيات أو التحقق من الفرضيات. لا يتطلب التحليل الاستكشافي للبيانات نماذج رسمية، بل يمكن لفرق علوم البيانات استخدام طرق العرض البيانية في فك تشفير البيانات.
كيف تقدم AWS المساعدة؟
Amazon SageMaker تساعد أدوات تجهيز البيانات المؤسسات في الحصول على الرؤى من كل البيانات المهيكلة وغير المهيكلة. على سبيل المثال، يُمكنك استخدام Amazon SageMaker Data Wrangler في تسهيل عملية تجهيز البيانات المهيكلة باستخدام طرق العرض المرئي للبيانات المضمنة من خلال واجهة مرئية بلا تعليمة برمجية. يتضمن SageMaker Data Wrangler أكثر من 300 عملية تحويل بيانات مضمنة، وبالتالي يمكنك بسرعة إعداد الميزات في وضعها الطبيعي وتحويلها ودمجها بدون كتابة أي تعليمة برمجية. يُمكنك أيضًا جلب تحويلاتك المخصصة في Python أو Apache Spark، إن كنت تفضل ذلك. في البيانات غير المهيكلة، تحتاج إلى مجموعات بيانات كبيرة مصنفة وعالية الجودة. باستخدام Amazon SageMaker Ground Truth Plus، يمكنك إنشاء مجموعات بيانات تدريب عالية الجودة لتعلّم الآلة مع خفض تكاليف تصنيف البيانات بنسبة تصل إلى 40% بدون الحاجة إلى إنشاء تطبيقات تصنيف أو إدارة القوة العاملة المسؤولة عن التصنيف.
بالنسبة للمحللين أو مستخدمي الأعمال الذين يفضلون تجهيز البيانات داخل دفتر ملاحظات، يمكنك بطريقة مرئية استعراض بيئات معالجة بيانات Spark التي تعمل على Amazon EMR واكتشافها والاتصال بها من دفاتر ملاحظات Amazon SageMaker Studio ببضع نقرات. بعد الاتصال، يمكنك بطريقة تفاعلية الاستعلام عن البيانات واستكشافها وعرضها بيانيًا وتشغيل وظائف Spark باستخدام اللغة التي تختارها (SQL أو Python أو Scala) لاستكمال إنشاء سير عمل لتجهيز البيانات وسير عمل للتعلم الآلي.