ما هي البيانات الاصطناعية (Synthetic Data)؟

إنشاء حساب AWS

ما هي البيانات الاصطناعية؟

البيانات الاصطناعية (Synthetic data) هي بيانات غير بشرية تحاكي بيانات العالم الحقيقي. يتم إنشاؤها من خلال خوارزميات الحوسبة والمحاكاة القائمة على تقنيات الذكاء الاصطناعي المولّد. تحتوي مجموعة البيانات الاصطناعية على نفس الخصائص الرياضية للبيانات الفعلية التي تستند إليها، ولكنها لا تحتوي على أي من نفس المعلومات. المؤسسات تستخدم البيانات الاصطناعية للبحث والاختبار والتطوير الجديد وأبحاث تعلّم الآلة. جعلت الابتكارات الحديثة في الذكاء الاصطناعي توليد البيانات الاصطناعية أمرًا فعالاً وسريعًا ولكنها زادت أيضًا من أهميتها في المخاوف التنظيمية للبيانات.

ما فوائد البيانات الاصطناعية؟

تقدم البيانات الاصطناعية العديد من الفوائد للمؤسسات. ونستعرض بعضًا منها أدناه.

التوليد غير المحدود للبيانات

يمكنك إنتاج بيانات اصطناعية عند الطلب وعلى نطاق غير محدود تقريبًا. تعد أدوات إنشاء البيانات الاصطناعية طريقة فعالة من حيث التكلفة للحصول على المزيد من البيانات. ويمكنها أيضًا وضع علامة مسبقة (تصنيف أو وضع علامة) على البيانات التي تقوم بإنشائها لحالات استخدام تعلم الآلة. ويمكنك الوصول إلى البيانات المهيكلة والمصنفة دون المرور بعملية تحويل البيانات الأولية من البداية. ويمكنك أيضًا إضافة بيانات اصطناعية إلى الحجم الإجمالي للبيانات المتوفرة لديك، مما ينتج عنه المزيد من بيانات التدريب للتحليل.

حماية الخصوصية

تتمتع مجالات، مثل الرعاية الصحية والتمويل والقطاع القانوني بالعديد من لوائح الخصوصية وحقوق النشر والامتثال لحماية البيانات الحساسة. ومع ذلك، يجب عليها استخدام البيانات للتحليلات والأبحاث - وغالبًا ما تضطر إلى الاستعانة بمصادر خارجية للبيانات لأطراف ثالثة لتحقيق أقصى استفادة منها. وبدلاً من البيانات الشخصية، يمكنها استخدام البيانات الاصطناعية لخدمة نفس الغرض، مثل هذه المجموعات الخاصة من البيانات. وهي تقوم بإنشاء بيانات مماثلة تعرض نفس المعلومات ذات الصلة إحصائيًا دون الكشف عن البيانات الخاصة أو الحساسة. ويجب أن تضع في اعتبارك البحث الطبي الذي ينشئ بيانات اصطناعية من مجموعة بيانات حية - تحتفظ البيانات الاصطناعية بنفس النسبة المئوية للخصائص البيولوجية والعلامات الجينية، مثل مجموعة البيانات الأصلية، ولكن جميع الأسماء والعناوين ومعلومات المريض الشخصية الأخرى تكون مزيفة.

الحد من التحيز

يمكنك استخدام البيانات الاصطناعية لتقليل التحيز في نماذج تدريب الذكاء الاصطناعي. ونظرًا لأن النماذج الكبيرة تتدرب عادةً على البيانات المتاحة للجمهور، فقد يكون هناك تحيز في النص. ويمكن للباحثين استخدام البيانات التركيبية لتوفير تباين مع أي لغة أو معلومات متحيزة تجمعها نماذج الذكاء الاصطناعي. وعلى سبيل المثال، إذا كان محتوى معين قائم على الرأي يفضل مجموعة معينة، يمكنك إنشاء بيانات اصطناعية لموازنة مجموعة البيانات الإجمالية.

ما أنواع البيانات الاصطناعية؟

هناك نوعان رئيسيان من البيانات الاصطناعية - الجزئية والكاملة.

البيانات الاصطناعية الجزئية

تستبدل البيانات الاصطناعية جزئيًا جزءًا صغيرًا من مجموعة البيانات الحقيقية بمعلومات اصطناعية. ويمكنك استخدامه لحماية الأجزاء الحساسة من مجموعة البيانات. فعلى سبيل المثال، إذا كنت بحاجة إلى تحليل البيانات الخاصة بالعميل، يمكنك تجميع سمات، مثل الاسم وتفاصيل الاتصال ومعلومات العالم الحقيقي الأخرى التي يمكن لأي شخص تتبعها إلى شخص معين.

البيانات الاصطناعية الكاملة

البيانات الاصطناعية الكاملة هي المكان الذي تقوم فيه بإنشاء بيانات جديدة بالكامل. ولن تحتوي مجموعة البيانات الاصطناعية بالكامل على أي بيانات واقعية. ومع ذلك، ستستخدم نفس العلاقات وتوزيعات الرسم والخصائص الإحصائية كبيانات حقيقية. وعلى الرغم من أن هذه البيانات لا تأتي من البيانات المسجلة الفعلية، فإنها تسمح لك بإجراء نفس الاستنتاجات.

ويمكنك استخدام البيانات الاصطناعية بالكامل عند اختبار نماذج تعلم الآلة. ويعد هذا النوع مفيدًا عندما تريد اختبار نماذج جديدة أو إنشائها ولكن لا تتوفر لديك بيانات تدريب كافية في العالم الحقيقي لتحسين دقة تعلم الآلة.

كيف يتم إنشاء البيانات الاصطناعية؟

يتضمن توليد البيانات الاصطناعية استخدام الأساليب الحوسبية وعمليات المحاكاة لإنشاء البيانات. تحاكي النتيجة الخصائص الإحصائية لبيانات العالم الحقيقي، ولكنها لا تحتوي على ملاحظات فعلية في العالم الحقيقي. يمكن أن تتخذ هذه البيانات التي تم إنشاؤها أشكالًا مختلفة، بما في ذلك النص أو الأرقام أو الجداول أو الأنواع الأكثر تعقيدًا، مثل الصور ومقاطع الفيديو. هناك ثلاث طرق رئيسية لتوليد البيانات الاصطناعية، تقدم كل منها مستويات مختلفة من دقة البيانات وأنواعها.

التوزيع الإحصائي

في هذا النهج، يتم تحليل البيانات الحقيقية أولاً لتحديد التوزيعات الإحصائية الأساسية، مثل التوزيعات العادية أو الأسية أو التوزيعات المربعة. ويقوم علماء البيانات بعد ذلك بإنشاء عينات اصطناعية من هذه التوزيعات المحددة لإنشاء مجموعة بيانات تشبه الأصل إحصائيًا.

الاعتماد على النماذج

في هذا النهج، يتم تدريب نموذج تعلم الآلة لفهم وتكرار خصائص البيانات الحقيقية. بمجرد تدريب النموذج، يمكنه إنشاء بيانات اصطناعية تتبع نفس التوزيع الإحصائي للبيانات الحقيقية. هذا النهج مفيد بشكل خاص لإنشاء مجموعات بيانات مختلطة تجمع بين الخصائص الإحصائية للبيانات الحقيقية والعناصر الاصطناعية الإضافية.

أساليب التعليم العميق

يمكن استخدام تقنيات متقدمة، مثل الشبكات التنافسية المولّدة (GAN) وأجهزة الترميز التلقائي المتغيرة (VAE) وغيرها لإنشاء بيانات اصطناعية. وغالبًا ما تُستخدم هذه الطرق لأنواع البيانات الأكثر تعقيدًا - مثل الصور أو بيانات السلاسل الزمنية - ويمكنها إنتاج مجموعات بيانات اصطناعية عالية الجودة.

ما هي تقنيات توليد البيانات الاصطناعية؟

نوضح أدناه بعض التقنيات المتقدمة التي يمكنك استخدامها لتوليد البيانات الاصطناعية.

الشبكة التنافسية المولّدة

تستخدم نماذج الشبكة العدائية التوليدية (GAN) شبكتين عصبيتين تعملان معًا لتوليد وتصنيف البيانات الجديدة. وتستخدم إحداهما البيانات الأولية لإنتاج بيانات اصطناعية، بينما تقوم الأخرى بتقييم تلك المعلومات وتمييزها وتصنيفها. وتتنافس كلتا الشبكتين مع بعضهما البعض حتى لا تتمكن شبكة التقييم من التمييز بين البيانات الاصطناعية والبيانات الأصلية.

ويمكنك استخدام GAN لإنشاء بيانات تم إنشاؤها بشكل مصطنع وتكون طبيعية للغاية وتعرض عن كثب أشكالًا مختلفة من بيانات العالم الحقيقي، مثل مقاطع الفيديو والصور ذات المظهر الواقعي.

اقرأ عن الشبكات العدائية التوليدية (GAN)»

أدوات الترميز التلقائي المتغيرة

أدوات الترميز التلقائي المتغيرة (VAE) هي خوارزميات تولد بيانات جديدة بناءً على تمثيلات البيانات الأصلية. تتعلم الخوارزمية غير الخاضعة للرقابة توزيع البيانات الأولية، ثم تستخدم بنية أداة الترميز وفك الترميز لإنشاء بيانات جديدة عبر التحويل المزدوج. وتقوم أداة الترميز بضغط بيانات الإدخال إلى تمثيل منخفض الأبعاد، وتقوم أداة فك الترميز بإعادة إنشاء بيانات جديدة من هذا التمثيل الكامن. ويستخدم النموذج حسابات احتمالية لعمليات إعادة الإنشاء السلسة.

تعد أدوات الترميز التلقائي المتغيرة مفيدة للغاية عند إنشاء بيانات اصطناعية متشابهة للغاية مع وجود بعض الاختلافات. على سبيل المثال، يمكنك استخدام هذه الأدوات عند إنشاء صور جديدة.

النماذج المستندة إلى المحولات

تستخدم المحولات التوليدية المدربة مسبقًا أو النماذج القائمة على GPT مجموعات بيانات أصلية كبيرة لفهم البنية والتوزيع النموذجي للبيانات. وتقوم أنت باستخدامها بشكل أساسي في توليد معالجة اللغة الطبيعية (NLP). على سبيل المثال، إذا تم تدريب نموذج النص القائم على المُحول على مجموعة بيانات كبيرة من النص الإنجليزي، فإنه يتعلم البنية والقواعد وحتى الفروق الدقيقة في اللغة. وعند إنشاء بيانات اصطناعية، يبدأ النموذج بنص أولي (أو موجه)، ويتنبأ بالكلمة التالية بناءً على الاحتمالات التي تعلمها، مما يؤدي إلى إنشاء تسلسل كامل.

اقرأ عن GPT»

ما التحديات الكامنة في توليد البيانات الاصطناعية؟

هناك العديد من التحديات عند إنشاء بيانات اصطناعية. فيما يلي بعض القيود والتحديات العامة التي من المحتمل أن تواجهها عند العمل مع البيانات الاصطناعية.

مراقبة الجودة

تعد جودة البيانات أمرًا حيويًا في الإحصائيات والتحليلات. فقبل دمج البيانات الاصطناعية في نماذج التعلم، يجب عليك التحقق من دقتها وتوافر الحد الأدنى من جودة البيانات. ومع ذلك، فإن ضمان عدم تمكن أي شخص من تتبع نقاط البيانات الاصطناعية إلى المعلومات الحقيقية قد يتطلب تقليل الدقة. ويمكن أن تؤثر المقايضة في الخصوصية والدقة على الجودة.

يمكنك إجراء فحوصات يدوية للبيانات الاصطناعية قبل استخدامها، مما يساعد في التغلب على هذه المشكلة. ومع ذلك، يمكن أن يستغرق الفحص اليدوي وقتًا طويلاً إذا كنت بحاجة إلى إنشاء الكثير من البيانات الاصطناعية.

التحديات التقنية

يعد إنشاء بيانات اصطناعية أمرًا صعبًا - يجب عليك فهم التقنيات والقواعد والأساليب الحالية لضمان دقتها وفائدتها. كما أنك بحاجة إلى التمتع بخبرة عالية في هذا المجال قبل إنشاء أي بيانات اصطناعية مفيدة.

وبغض النظر عن مقدار الخبرة التي تتمتع بها من جانبك، فمن الصعب إنشاء بيانات اصطناعية كتقليد مثالي لنظيرتها في العالم الحقيقي. فعلى سبيل المثال، غالبًا ما تتضمن بيانات العالم الحقيقي القيم المتطرفة والمنحرفة التي نادرًا ما يمكن لخوارزميات توليد البيانات الاصطناعية إعادة إنشائها.

ارتباك أصحاب المصلحة

على الرغم من أن البيانات الاصطناعية هي أداة تكميلية مفيدة، فإن جميع أصحاب المصلحة قد لا يفهمون أهميتها. وباعتبارها تقنية أكثر حداثة، قد لا يقبل بعض مستخدمي الأعمال تحليلات البيانات الاصطناعية نظرَا لصلتها بالعالم الحقيقي. وعلى الجانب الآخر، قد يبالغ الآخرون في التأكيد على النتائج بسبب الجانب المتحكم فيه من التوليد. ويمكنك نشر حدود هذه التقنية ونتائجها إلى أصحاب المصلحة، مع التأكد من فهمهم للفوائد واستيعابهم لأوجه القصور.

كيف يمكن أن تدعم AWS جهودك في توليد البيانات الاصطناعية؟

Amazon SageMaker هي خدمة مُدارة بالكامل تُستخدم لإعداد البيانات وبناء نماذج التعلم الآلي (ML) وتدريبها ونشرها. وتعد هذه النماذج مناسبة لأي حالة استخدام تتضمن بنية تحتية وأدوات ومهام سير عمل مُدارة بالكامل. توفر SageMaker خيارين يمكّناك من تصنيف البيانات الأولية - مثل الصور والملفات النصية ومقاطع الفيديو - وإنشاء بيانات اصطناعية مصنفة لإنشاء مجموعات بيانات عالية الجودة لتدريب نماذج تعلم الآلة.

Amazon SageMaker Ground Truth هو عرض للخدمة الذاتية يجعل من السهل تصنيف البيانات. ويمنحك خيار استخدام أدوات التعليقات التوضيحية البشرية من خلال Amazon Mechanical Turk أو موردي الطرف الثالث أو القوى العاملة الخاصة بك.
Amazon SageMaker Ground Truth Plus هي خدمة مُدارة بالكامل تتيح لك إنشاء مجموعات بيانات تدريبية عالية الجودة. ولا يتعين عليك إنشاء تطبيقات التسمية أو إدارة تصنيف القوى العاملة بنفسك.

أولاً، يمكنك تحديد متطلبات الصور الاصطناعية الخاصة بك أو توفير أصول ثلاثية الأبعاد وصور أساسية، مثل صور التصميم بمساعدة الكمبيوتر (CAD). يقوم فنانو AWS الرقميون بعد ذلك بإنشاء صور من البداية أو استخدام الأصول المقدمة من العملاء. وتحاكي الصور التي تم إنشاؤها وضع الكائنات وموضعها، وتتضمن اختلافات الكائن أو المشهد، وتضيف اختياريًا عمليات تضمين محددة - مثل الخدوش والانبعاجات والتعديلات الأخرى. وهذا يلغي عملية جمع البيانات التي تستغرق وقتًا طويلاً أو الحاجة إلى إتلاف الأجزاء للحصول على الصور. يمكنك إنشاء مئات الآلاف من الصور الاصطناعية التي يتم تصنيفها تلقائيًا بدقة عالية.

ابدأ بتوليد البيانات الاصطناعية على AWS من خلال إنشاء حساب مجاني اليوم.

الخطوات التالية على AWS

التحقق من الموارد الإضافية المتعلقة بالمنتج

تسريع الابتكار مع أكبر مجموعة من خدمات الذكاء الاصطناعي (AI)

تسجيل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

سجّل

بدء التطوير في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

سجِّل الدخول

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

جار التحميل

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

ما هي البيانات الاصطناعية (Synthetic Data)؟