ما المقصود بهندسة الميزات؟

ميزات النموذج هي المدخلات التي تستخدمها نماذج تعلم الآلة (ML) أثناء التدريب والاستدلال لوضع التنبؤات. وتعتمد دقة نموذج تعلم الآلة على مجموعة دقيقة ومحددة من الميزات. على سبيل المثال، في حالة تطبيق يستند إلى تعلم آلة للتوصية بقائمة تشغيل موسيقى، يمكن أن تتضمن الميزات تقييمات الأغاني، والأغاني التي سبق الاستماع إليها، ومدة الاستماع إلى الأغنية. قد يتطلب إنشاء الميزات جهودًا هندسية كبيرة. تنطوي عملية هندسة الميزات على استخراج المتغيرات من البيانات الأولية وتحويلها، مثل قوائم الأسعار، وأوصاف المنتجات، وأحجام المبيعات التي يمكنك استخدامها في التدريب والتنبؤ. وتشمل الخطوات المطلوبة في هندسة الميزات استخراج البيانات وتنقيحها ثم إنشاء الميزات وتخزينها.

ما هي التحديات التي تواجهها هندسة الميزات؟

تعد هندسة الميزات تحديًا لأنها تتطلّب مزيجًا من تحليل البيانات والمعرفة في مجال الأعمال وبعض الحدس. عند إنشاء الميزات، من المغري اللجوء فورًا إلى البيانات المتاحة، ولكن غالبًا ما يجب البدء بالتفكير في البيانات المطلوبة من خلال التحدث مع الخبراء، والعصف الذهني وطرح الأفكار، وإجراء أبحاث حول الأطراف الثالثة. في حال عدم المرور بهذه المراحل، قد تفوتك متغيرات توقّع مهمة.

استخراج البيانات

جمع البيانات هو عملية تجميع كافة البيانات التي تحتاجها في تعلّم الآلة. قد يكون جمع البيانات أمرًا مملاً لأن البيانات توجد في العديد من المصادر، منها أجهزة الكمبيوتر المحمولة ومستودعات البيانات والسحابة وداخل التطبيقات وعلى الأجهزة. وقد يكون إيجاد سبل للاتصال بالمصادر المختلفة للبيانات أمرًا صعبًا. كما تتزايد أحجام البيانات أيضًا تزايدًا هائلاً، ولذلك يوجد كم ضخم من البيانات مطلوب البحث فيها. بالإضافة إلى ذلك، تحتوي البيانات على تنسيقات وأنواع شديدة التباين اعتمادًا على المصدر. على سبيل المثال، ليس من السهل استخدام بيانات الفيديو وبيانات الجداول معًا.

إنشاء الميزات

تصنيف البيانات هي عملية تحديد البيانات الأولية (الصور والملفات النصية ومقاطع الفيديو وغيرها) وإضافة واحد أو أكثر من التصنيفات المفيدة والغنية بالمعلومات بهدف توفير السياق الذي يتعلم منه نموذج تعلّم الآلة. على سبيل المثال، قد تشير التصنيفات إلى ما إذا كانت الصورة تحتوي على طائر أو سيارة، أو الكلمات التي تم ذكرها في تسجيل صوتي، أو ما إذا كانت الأشعة السينية قد اكتشفت حالة غير منتظمة. تصنيف البيانات هي عملية مطلوبة لمختلف حالات الاستخدام، بما في ذلك رؤية الكمبيوتر، ومعالجة اللغة الطبيعية، والتعرف على الكلام.

تخزين الميزات

بعد تنقيح البيانات وتصنيفها، غالبًا ما تستكشف فرق تعلّم الآلة البيانات لضمان صحّتها وجاهزيتها لمرحلة تعلّم الآلة. تعد طرق العرض البيانية مثل المدرج التكراري، والمخططات الانتشارية، ومخططات الصندوق، والمخططات البيانية الخطية، ومخطط الأعمدة الشريطية كلها أدوات مفيدة لتأكيد صحة البيانات. بالإضافة إلى ذلك، تساعد طرق العرض البيانية فرق علوم البيانات في استكمال التحليل الاستكشافي للبيانات. تستخدم هذه العملية طرق العرض البيانية في اكتشاف الأنماط أو تحديد أوجه الخلل أو اختبار الفرضيات أو التحقق من الفرضيات. لا يتطلب التحليل الاستكشافي للبيانات نماذج رسمية، بل يمكن لفرق علوم البيانات استخدام طرق العرض البيانية في فك تشفير البيانات. 

كيف يمكنك استخدام AWS لهندسة الميزات؟

باستخدام Amazon SageMaker Data Wrangler، يمكنك تبسيط عملية هندسة الميزات باستخدام واجهة مرئية واحدة. فتسمح لك أداة تحديد البيانات في SageMaker Data Wrangler باختيار البيانات الأولية التي تريدها من مصادر البيانات المختلفة واستيرادها بنقرة واحدة. يتضمن SageMaker Data Wrangler أكثر من 300 عملية تحويل بيانات مضمنة، ما يتيح لك إعداد الميزات في وضعها الطبيعي وتحويلها ودمجها بدون الحاجة إلى كتابة أي تعليمات برمجية. بعد تجهيز بياناتك، يمكنك إنشاء مهام سير عمل تعلّم الآلة مؤتمتة بالكامل باستخدام Amazon SageMaker Pipelines وحفظها في Amazon SageMaker Feature Store بهدف إعادة استخدامها. SageMaker Feature Store عبارة عن مستودع مبني لغرض معين يمكنك تخزين الميزات فيه والوصول إليها، لذلك يسهل عليك تسميتها وتنظيمها وإعادة استخدامها في الفرق المتعددة. يوفر SageMaker Feature Store متجرًا موحدًا للميزات أثناء التدريب والاستدلال في الوقت الفعلي بدون الحاجة إلى كتابة تعليمات برمجية إضافية أو إنشاء عمليات يدوية للحفاظ على الاتساق بين الميزات.

الخطوات التالية على AWS

التحقق من الموارد الإضافية المتعلقة بالمنتج
دعم AWS لهندسة الميزات 
تسجيل الاشتراك للحصول على حساب مجاني

التمتع بالوصول الفوري إلى طبقة AWS المجانية.

التسجيل 
بدء الإنشاء في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول