ما هي زيادة البيانات؟

زيادة البيانات هي عملية إنتاج بيانات جديدة بشكل مصطنع من البيانات الموجودة، في المقام الأول لتدريب نماذج تعلُّم الآلة (ML) الجديدة. تتطلب نماذج تعلُّم الآلة مجموعات بيانات كبيرة ومتنوعة للتدريب الأولي عليها، ولكن الحصول على مجموعات بيانات واقعية متنوعة بما فيه الكفاية يمكن أن يمثل تحديًا بسبب مجموعات البيانات المنعزلة واللوائح والقيود الأخرى. تؤدي زيادة البيانات إلى زيادة مجموعة البيانات بشكل مصطنع عن طريق إجراء تغييرات ضئيلة على البيانات الأصلية. تُستخدم الآن حلول الذكاء الاصطناعي المولّد (AI) لزيادة البيانات عالية الجودة والسريعة في مختلف الصناعات.

القراءة عن تعلّم الآلة

القراءة عن الذكاء الاصطناعي المولّد

لماذا تعد زيادة البيانات مهمة؟

تعتمد نماذج التعليم العميق على كميات كبيرة من البيانات المتنوعة لوضع تنبؤات دقيقة في سياقات مختلفة. تكمِّل زيادة البيانات إنشاء أشكال مختلفة من البيانات التي يمكن أن تساعد النموذج في تحسين دقة تنبؤاته. تعد البيانات المعززة أمرًا حيويًا في التدريب.

فيما يلي بعض فوائد زيادة البيانات.

تعزيز أداء النماذج

تساعد تقنيات زيادة البيانات في إثراء مجموعات البيانات من خلال إنشاء أشكال عديدة من البيانات الموجودة. يوفر هذا مجموعة بيانات أكبر للتدريب ويمكّن النموذج من مواجهة ميزات أكثر تنوعًا. تساعد البيانات المعززة النموذج في تحسين التعميم على البيانات الجديدة وتحسين أدائه العام في بيئات العالم الحقيقي. 

تقليل الاعتماد على البيانات

يمكن أن يكون جمع وإعداد كميات كبيرة من البيانات للتدريب مكلفًا ويستغرق وقتًا طويلاً. تزيد تقنيات زيادة البيانات من فعالية مجموعات البيانات الأصغر، ما يقلل بشكل كبير من الاعتماد على مجموعات البيانات الكبيرة في بيئات التدريب. يمكنك استخدام مجموعات بيانات أصغر لتكملة المجموعة بنقاط بيانات اصطناعية.

الحد من فرط التخصيص في بيانات التدريب

تساعد زيادة البيانات في منع فرط التخصيص عند تدريب نماذج تعلُّم الآلة (ML). فرط التخصيص هو سلوك لتعلُّم الآلة غير مرغوب فيه حيث يمكن للنموذج تقديم تنبؤات دقيقة لبيانات التدريب ولكنه لا يجدي نفعًا مع البيانات الجديدة. إذا كان النموذج يتدرب فقط باستخدام مجموعة بيانات محدودة، فإنه يمكن أن يصبح مطابق لها بشكل مفرط ويمكنه تقديم تنبؤات تتعلق بنوع البيانات المحدد هذا فقط. في المقابل، توفر زيادة البيانات مجموعة بيانات أكبر بكثير وأكثر شمولاً لتدريب النماذج. إنها تجعل مجموعات التدريب تبدو فريدة للشبكات العصبونية العميقة، ما يمنعها من التعلّم للعمل بخصائص محددة فقط. 

القراءة عن فرط التخصيص

القراءة عن الشبكات العصبونية

تحسين خصوصية البيانات

إذا كنت بحاجة إلى تدريب نموذج التعليم العميق على البيانات الحساسة، يمكنك استخدام تقنيات الزيادة على البيانات الموجودة لإنشاء بيانات اصطناعية. تحتفظ هذه البيانات المعززة بالخصائص والأوزان الإحصائية لبيانات الإدخال مع حماية وتقييد الوصول إلى البيانات الأصلية.

ما حالات استخدام زيادة البيانات؟

توفر زيادة البيانات العديد من التطبيقات في مختلف الصناعات، ما يحسن أداء نماذج التعلم الآلة في العديد من القطاعات.

الرعاية الصحية

تعد زيادة البيانات تقنية مفيدة في مجال التصوير الطبي لأنها تساعد في تحسين النماذج التشخيصية التي تكتشف الأمراض وتتعرف عليها وتشخصها بناءً على الصور. يوفر إنشاء صورة معززة مزيدًا من بيانات التدريب للنماذج، خاصة للأمراض النادرة التي تفتقر إلى أشكال مختلفة من البيانات المصدر. يؤدي إنتاج واستخدام بيانات المرضى الاصطناعية إلى تطوير البحث الطبي مع مراعاة جميع اعتبارات خصوصية البيانات. 

المالية

تساعد تقنية الزيادة في إنتاج حالات اصطناعية للاحتيال، ما يمكّن النماذج من التدريب لاكتشاف الاحتيال بشكل أكثر دقة في السيناريوهات الواقعية. تساعد مجموعات أكبر من بيانات التدريب في سيناريوهات تقييم المخاطر، ما يعزز إمكانات نماذج التعليم العميق لتقييم المخاطر والتنبؤ بالاتجاهات المستقبلية بدقة. 

التصنيع

يستخدم قطاع التصنيع نماذج تعلُّم الآلة (ML) لتحديد العيوب البصرية في المنتجات. من خلال استكمال البيانات الواقعية بالصور المعززة، يمكن للنماذج تحسين قدرات التعرُّف على الصور لديها وتحديد العيوب المحتملة. تقلل هذه الإستراتيجية أيضًا من احتمالية شحن مشروع تالف أو معيب إلى المصانع وخطوط الإنتاج.

البيع بالتجزئة

تستخدم بيئات البيع بالتجزئة نماذج لتحديد المنتجات وتعيينها للفئات بناءً على العوامل المرئية. يمكن أن تؤدي زيادة البيانات إلى إنتاج أشكال مختلفة للبيانات الاصطناعية المتعلقة بصور المنتجات، ما يؤدي إلى إنشاء مجموعة تدريب تتميز بمزيد من التباين من حيث ظروف الإضاءة وخلفيات الصور وزوايا المنتجات.

كيف تعمل زيادة البيانات؟

زيادة البيانات تحول البيانات الموجودة أو تحررها أو تعدلها لإنشاء أشكال مختلفة. فيما يلي نظرة عامة موجزة عن العملية.

استكشاف مجموعة البيانات

تتمثل المرحلة الأولى من زيادة البيانات في تحليل مجموعة بيانات موجودة وفهم خصائصها. توفر ميزات مثل حجم الصور المدخلة أو توزيع البيانات أو هيكل النص مزيدًا من السياق للزيادة. 

يمكنك اختيار تقنيات مختلفة لزيادة البيانات بناءً على نوع البيانات الأساسية والنتائج المرجوة. على سبيل المثال، تتضمن زيادة مجموعة بيانات تحتوي على العديد من الصور إضافة تشويش إليها أو تغيير حجمها أو قصها. وكبديل لذلك، قد تحدث زيادة مجموعة بيانات نصية لمعالجة اللغة الطبيعية (NLP) عن طريق استبدال المرادفات أو إعادة صياغة مقتطفات. 

القراءة عن معالجة اللغة الطبيعية

زيادة البيانات الموجودة

بعد اختيار تقنية زيادة البيانات الأنسب للهدف المطلوب، تبدأ في تطبيق تحويلات مختلفة. تتحول نقاط البيانات أو عينات الصور في مجموعة البيانات باستخدام طريقة الزيادة المختارة، ما يوفر مجموعة من العينات المعززة الجديدة. 

أثناء عملية الزيادة، تحافظ على قواعد التسميات نفسها من أجل لتساق البيانات، ما يضمن أن البيانات الاصطناعية تتضمن نفس التسميات المقابلة للبيانات المصدر.

عادةً ما تنظر إلى الصور الاصطناعية لتحديد ما إذا كان التحويل قد نجح أم لا. تساعد هذه الخطوة الإضافية التي يؤديها الإنسان في الحفاظ على بيانات ذات جودة أعلى. 

دمج أشكال البيانات

بعد ذلك، يمكنك دمج البيانات الجديدة والمعززة مع البيانات الأصلية لإنتاج مجموعة بيانات تدريبية أكبر حجمًا لنموذج تعلُّم الآلة (ML). عندما تُدرَّب النموذج، فإنك تستخدم مجموعة البيانات المركبة هذه لكلا النوعين من البيانات.

من المهم ملاحظة أن نقاط البيانات الجديدة المنشأة عن طريق زيادة البيانات الاصطناعية تحتوي على التحيز نفسه الذي تحتوي عليه بيانات الإدخال الأصلية. لمنع التحيزات من الانتقال إلى بياناتك الجديدة، عالِج أي تحيز في البيانات المصدر قبل بدء عملية زيادة البيانات.

ما هي بعض تقنيات زيادة البيانات؟

تختلف تقنيات زيادة البيانات باختلاف أنواع البيانات وسياقات الأعمال المتميزة.

رؤية الكمبيوتر

زيادة البيانات هي تقنية مركزية في مهام رؤية الكمبيوتر. تساعد في إنشاء تمثيلات بيانات متنوعة ومعالجة الاختلالات التصنيفية في مجموعة بيانات التدريب. 

أول استخدام لزيادة البيانات في رؤية الكمبيوتر هو من خلال زيادة المواضع. تؤدي هذه الإستراتيجية إلى قص صورة إدخال أو قلبها أو تدويرها لإنشاء صور معززة. يؤدي الاقتصاص إما إلى تغيير حجم الصورة أو قص جزء صغير من الصورة الأصلية لإنشاء صورة جديدة. يؤدي تحويل بالتدوير والقلب وتغيير الحجم إلى تعديل الصورة الأصلية بشكل عشوائي مع وجود احتمال معين بتقديم صور جديدة.

استخدام آخر للزيادة في رؤية الكمبيوتر هو تعزيز الألوان. تؤدي هذه الإستراتيجية إلى ضبط العوامل الأساسية لصورة التدريب، مثل سطوعها أو درجة تباينها أو تشعبها اللوني. تغير تحويلات الصور الشائعة هذه درجة اللون وتوازن الظلام والضوء والتمييز بين المناطق الأكثر قتامة وإضاءة في الصورة لإنشاء صور معززة.

القراءة حول رؤية الكمبيوتر

زيادة البيانات الصوتية

تعد الملفات الصوتية، مثل تسجيلات الكلام، أيضًا مجالًا شائعًا يمكنك فيه استخدام زيادة البيانات. تتضمن التحويلات الصوتية عادةً إدخال تشويش عشوائي أو تشويش جاوسي في بعض أجزاء الصوت، أو التقديم السريع لبعض الأجزاء، أو تغيير سرعة الأجزاء بمعدل ثابت، أو تغيير درجة الصوت.

زيادة البيانات النصية

تعد زيادة النص تقنية حيوية لزيادة البيانات لمعالجة اللغة الطبيعية (NLP) والقطاعات الأخرى ذات الصلة بالنصوص المتعلقة بتعلم الآلة (ML). تتضمن تحويلات البيانات النصية خلط الجمل وتغيير مواضع الكلمات واستبدال الكلمات بالمرادفات القريبة وإدراج كلمات عشوائية وحذف كلمات عشوائية.

نقل النمط العصبوني

نقل النمط العصبوني هو شكل متقدم من زيادة البيانات يفكك الصور إلى أجزاء أصغر. يستخدم سلسلة من الطبقات الترشيحية التي تفصل بين نمط الصورة وسياقها، ما يؤدي إلى إنتاج العديد من الصور من صورة واحدة. 

تدريب عدائي

تخلق التغييرات على مستوى البكسل تحديًا أمام نموذج تعلّم الآلة (ML). تتضمن بعض العينات طبقة من التشويش غير المحسوسة فوق الصورة لاختبار قدرة النموذج على إدراك الصورة المخبأة. هذه الإستراتيجية هي شكل وقائي لزيادة البيانات يركز على الوصول غير المصرح به المحتمل في العالم الحقيقي.

ما دور الذكاء الاصطناعي المولّد في زيادة البيانات؟

يعد الذكاء الاصطناعي المولّد ضروريًا في زيادة البيانات لأنه يسهل إنتاج البيانات الاصطناعية. فهو يساعد في زيادة التنوع في البيانات وتبسيط إنشاء البيانات الواقعية والحفاظ على خصوصية البيانات. 

الشبكات التنافسية المولّدة

الشبكات التنافسية المولّدة (GAN) هي إطار عمل لشبكتين عصبونيتين مركزيتين تعملان بشكل متعارض. ينتج المولّد عينات من البيانات الاصطناعية، ثم تفرق أداة التمييز بين البيانات الحقيقية والعينات الاصطناعية.

وبمرور الوقت، تحسن الشبكات التنافسية المولّدة (GAN) باستمرار مخرج المولّد من خلال التركيز على خداع أداة التمييز. تعتبر البيانات التي يمكن أن تخدع أداة التمييز بمثابة بيانات اصطناعية عالية الجودة، ما يؤدي إلى زيادة البيانات بعينات موثوق بها للغاية تحاكي إلى حد كبير توزيع البيانات الأصلية.

أدوات التشفير التلقائي المتغيرة

تعد أدوات التشفير التلقائي المتغيرة (VAE) نوعًا من الشبكات العصبونية التي تساعد في زيادة حجم عينة بيانات أساسية وتقليل الحاجة إلى جمع البيانات التي تستغرق وقتًا طويلاً. تحتوي أدوات التشفير التلقائي المتغيرة على شبكتين متصلتين: شبكة فك تشفير وشبكة تشفير. تلتقط شبكة التشفير عينات الصور وتترجمها إلى تمثيل وسيط. تأخذ شبكة فك التشفير التمثيل وتعيد إنشاء صور مماثلة بناءً على فهمها للعينات الأولية. تعد أدوات التشفير التلقائي المتغيرة مفيدة، لأنها يمكن أن تنشئ بيانات تشبه إلى حد كبير عينات البيانات، ما يساعد في إضافة التنوع مع الحفاظ على توزيع البيانات الأصلية.

كيف يمكن لـ AWS دعم تلبية متطلبات زيادة البيانات؟

الذكاء الاصطناعي المولّد في Amazon Web Services (AWS) عبارة عن مجموعة من التقنيات التي يمكن للمؤسسات بمختلف أحجامها استخدامها لإنشاء تطبيقات الذكاء الاصطناعي المولّد وتوسيع نطاقها باستخدام بيانات مخصصة لحالات استخدام مخصصة بإمكانك الابتكار بشكل أسرع بفضل الإمكانات الجديدة، ومجموعة مختارة من نماذج التأسيس الرائدة في الصناعة، والبنية التحتية الأكثر فعالية من حيث التكلفة. فيما يلي مثالان لخدمات الذكاء الاصطناعي المولّد على AWS.

Amazon Bedrock عبارة عن خدمة مُدارة بالكامل توفر مجموعة مختارة من نماذج التأسيس العالية الأداء المقدمة من شركاء رائدة في مجال الذكاء الاصطناعي. يمكنك دمج إمكانات الذكاء الاصطناعي المولّد ونشرها بأمان لزيادة البيانات بدون إدارة البنية التحتية.

Amazon Rekognition عبارة عن خدمة ذكاء اصطناعي مُدارة بالكامل توفر إمكانات رؤية الكمبيوتر (CV) المسبقة التدريب والقابلة للتخصيص لاستخراج المعلومات واستقاء الرؤى من الصور ومقاطع الفيديو. إن تطوير نموذج مخصص من أجل تحليل الصور يمثل مهمة تتطلب الوقت والخبرة والموارد. وغالبًا ما يتطلب الأمر آلاف أو عشرات الآلاف من الصور ذات العلامات اليدوية لتزويد النموذج ببيانات كافية لاتخاذ القرارات بدقة. 

باستخدام علامات التخصيص بـ Amazon Rekognition، تُجرى العديد من عمليات زيادة البيانات من أجل تدريب النماذج، بما في ذلك الاقتصاص العشوائي للصورة، وقلقلة الألوان، والتشويش الجاوسي العشوائية. وبدلاً من الاضطرار إلى تحميل آلاف الصور، لن تحتاج إلا إلى تحميل مجموعة صغيرة من صور التدريب (عادةً بضع مئات أو أقل) الخاصة بحالة الاستخدام إلى وحدة التحكم السهلة الاستخدام.

ابدأ استخدام زيادة البيانات على AWS عن طريق إنشاء حساب اليوم.

الخطوات التالية على AWS

سجِّل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

تسجيل الاشتراك 
ابدأ في التطوير في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول