ما هي رؤية الكمبيوتر؟
الرؤية الحاسوبية هي تقنية تستخدمها الآلات للتعرف تلقائيًا على الصور ووصفها بدقة وكفاءة. اليوم، تتمتع أنظمة الكمبيوتر بإمكانية الوصول إلى حجم كبير من الصور وبيانات الفيديو التي يتم الحصول عليها أو إنشاؤها من الهواتف الذكية وكاميرات المرور وأنظمة الأمان والأجهزة الأخرى. تطبيقات الرؤية الحاسوبية تستخدم الذكاء الاصطناعي وتعلم الآلة (AI/ML) لمعالجة هذه البيانات بدقة لتحديد الأشياء والتعرف على الوجه، بالإضافة إلى التصنيف والتوصية والمراقبة والكشف.
لماذا تعتبر الرؤية الحاسوبية مهمة؟
في حين أن تقنية معالجة المعلومات المرئية موجودة منذ بعض الوقت، إلا أن جزءًا كبيرًا من العملية يتطلب تدخلًا بشريًا وكانت تستغرق وقتًا طويلاً وعرضة للخطأ. على سبيل المثال، كان تطبيق نظام التعرف على الوجه في الماضي يتطلب من المطورين وضع علامات يدوية على آلاف الصور باستخدام نقاط البيانات الرئيسية، مثل عرض الأنف والمسافة بين العينين. تتطلب أتمتة هذه المهام قوة حوسبة واسعة لأن بيانات الصور غير منظمة ومعقدة حيث يَصعُب على أجهزة الكمبيوتر تنظيمها. وبالتالي كانت تطبيقات الرؤية باهظة الثمن ولا يمكن الوصول إليها من قبل معظم المنظمات.
اليوم، أدى التقدم في هذا المجال والزيادة الكبيرة في القوة الحسابية إلى تحسين حجم ودقة معالجة بيانات الصور. أصبحت أنظمة الرؤية الحاسوبية المدعومة بموارد الحوسبة السحابية متاحة الآن للجميع. يمكن لأي مؤسسة استخدام تكنولوجيا التحقق من الهوية، وإدارة المحتوى، وتحليل الفيديو المتدفق، واكتشاف الأخطاء، والمزيد.
ما هي حالات استخدام الرؤية الحاسوبية؟
يتم استخدام العديد من تطبيقات الرؤية الحاسوبية في الترفيه والأعمال والرعاية الصحية والنقل والحياة اليومية. سنلقي نظرة على بعض حالات الاستخدام أدناه:
الأمن والسلامة
تستخدم الحكومات والمؤسسات الرؤية الحاسوبية لتحسين أمن الأصول والمواقع والمرافق. على سبيل المثال، تراقب الكاميرات وأجهزة الاستشعار الأماكن العامة والمواقع الصناعية والبيئات عالية الأمان. ترسل هذه الأجهزة تنبيهات تلقائية في حالة حدوث شيء خارج عن المألوف، مثل دخول شخص غير مصرح له إلى منطقة محظورة.
وبالمثل، يمكن للرؤية الحاسوبية تحسين السلامة الشخصية في المنزل وكذلك في مكان العمل. على سبيل المثال، يمكن لتقنية التعرف على الوجه مراقبة عدد لا يحصى من المشكلات المتعلقة بالسلامة. ويشمل ذلك البث في المنزل في الوقت الفعلي لمراقبة الحيوانات الأليفة، أو الكاميرات الأمامية الحية التي تكتشف الزوار أو الطرود التي يتم تسليمها. في مكان العمل، تشمل هذه المراقبة ارتداء معدات الحماية الشخصية المناسبة من قبل العمال، وإبلاغ أنظمة التحذير، أو إنشاء التقارير.
الكفاءة التشغيلية
يمكن للرؤية الحاسوبية تحليل الصور واستخراج البيانات الوصفية من أجل ذكاء الأعمال، وخلق فرص إيرادات جديدة وكفاءات تشغيلية. على سبيل المثال، يمكنها:
- تحديد عيوب الجودة تلقائيًا قبل مغادرة المنتجات للمصنع
- اكتشاف مشكلات صيانة الماكينة والسلامة
- تحليل الصور على وسائل التواصل الاجتماعي لاكتشاف الاتجاهات الرائجة والأنماط في سلوك العملاء
- مصادقة الموظفين من خلال التعرف التلقائي على الوجه
الرعاية الصحية
الرعاية الصحية هي واحدة من الصناعات الرائدة التي تطبق تقنية الرؤية الحاسوبية. والجدير بالذكر أن تحليل الصور الطبية يخلق تصورًا للأعضاء والأنسجة لمساعدة المهنيين الطبيين على إجراء تشخيصات سريعة ودقيقة، ما يؤدي إلى نتائج علاج أفضل ويزيد من متوسط العمر المتوقع. على سبيل المثال:
- الكشف عن الورم من خلال تحليل الشامات والآفات الجلدية
- التحليل الآلي بالأشعة السينية
- اكتشاف الأعراض من فحوصات التصوير بالرنين المغناطيسي
المركبات ذاتية القيادة
تقنية المركبات ذاتية القيادة تستخدم الرؤية الحاسوبية للتعرف على الصور في الوقت الفعلي وإنشاء خرائط ثلاثية الأبعاد من كاميرات متعددة مجهزة للنقل الذاتي. يمكنه تحليل الصور وتحديد مستخدمي الطريق الآخرين أو علامات الطريق أو المشاة أو العوائق.
في المركبات شبه ذاتية القيادة، الرؤية الحاسوبية تستخدم تعلم الآلة (ML) لمراقبة سلوك السائق. على سبيل المثال، تبحث عن علامات التشتت والتعب والنعاس بناءً على وضعية رأس السائق وبناءً على تتبع العين وحركة الجزء العلوي من الجسم. إذا التقطت التقنية إشارات تحذير معينة، فإنها تنبه السائق وتقلل من فرصة وقوع حادث قيادة.
الزراعة
بداية من زيادة الإنتاجية إلى خفض التكاليف باستخدام الأتمتة الذكية، تعمل تطبيقات الرؤية الحاسوبية على تحسين الأداء العام للقطاع الزراعي. يساعد التصوير بالأقمار الصناعية وكذلك لقطات الطائرات بدون طيار على تحليل مساحات شاسعة من الأراضي وتحسين الممارسات الزراعية. تعمل تطبيقات الرؤية الحاسوبية على أتمتة المهام مثل مراقبة حالة الرقعة الزراعية، وتحديد أمراض المحاصيل، والتحقق من رطوبة التربة، والتنبؤ بالطقس وعوائد المحاصيل. مراقبة الحيوانات باستخدام الرؤية الحاسوبية تعتبر استراتيجية رئيسية أخرى للزراعة الذكية.
كيف تعمل رؤية الكمبيوتر؟
تستخدم أنظمة الرؤية الحاسوبية تقنية الذكاء الاصطناعي (AI) لتقليد قدرات الدماغ البشري المسؤولة عن التعرف على الأشياء وتصنيفها. يقوم علماء الكمبيوتر بتدريب أجهزة الكمبيوتر على التعرف على البيانات المرئية عن طريق إدخال كميات هائلة من المعلومات. تحدد خوارزميات تعلم الآلة (ML) الأنماط الشائعة في هذه الصور أو مقاطع الفيديو وتطبق هذه المعرفة لتحديد الصور غير المعروفة بدقة. على سبيل المثال، إذا قامت أجهزة الكمبيوتر بمعالجة الملايين من صور السيارات، فسوف تبدأ في بناء أنماط هوية يمكنها اكتشاف السيارة بدقة في الصورة. تستخدم الرؤية الحاسوبية تقنيات مثل تلك الواردة أدناه.
التعليم العميق
التعلم العميق هو نوع من تعلم الآلة يستخدم الشبكات العصبونية. تتكون الشبكات العصبونية الخاصة بالتعلم العميق من عدة طبقات من وحدات البرامج تسمى الخلايا العصبية الاصطناعية التي تعمل معًا داخل الكمبيوتر. هذه الخلايا العصبية تستخدم الحسابات الرياضية لمعالجة جوانب مختلفة من بيانات الصورة تلقائيًا وتطوير فهم مشترك للصورة تدريجيًا.
الشبكات العصبونية الالتفافية
تستخدم الشبكات العصبونية الالتفافية (CNNs) نظام تصنيف لتصنيف البيانات المرئية وفهم الصورة بأكملها. إنها تقوم بتحليل الصور على هيئة وحدات بكسل وتعطي كل بكسل قيمة تصنيفية. يتم إدخال القيمة لإجراء عملية رياضية تسمى «الالتفاف» وعمل تنبؤات حول الصورة. مثل الإنسان الذي يحاول التعرف على كائن من مسافة كبيرة، تحدد CNN أولاً الخطوط العريضة والأشكال البسيطة قبل ملء تفاصيل إضافية مثل اللون والنماذج الداخلية والملمس. أخيرًا، تكرر عملية التنبؤ على عدة تكرارات لتحسين الدقة.
الشبكات العصبونية المتكررة
الشبكات العصبونية المتكررة (RNNs) تشبه شبكات CNN، ولكن يمكنها معالجة سلسلة من الصور للعثور على روابط بينها. بينما يتم استخدام شبكات CNN لتحليل صورة واحدة، يمكن لـ RNNs تحليل مقاطع الفيديو وفهم العلاقات بين الصور.
ما المهام الشائعة التي يمكن أن تؤديها رؤية الكمبيوتر؟
لنلقِ نظرة على بعض الأمثلة لمهام الرؤية الحاسوبية التي يمكن للمؤسسات تنفيذها.
تصنيف البيانات
تصنيف الصور يمكّن أجهزة الكمبيوتر من رؤية الصورة وتصنيف الفئة التي تندرج تحتها بدقة. تقوم الرؤية الحاسوبية بفهم الفئات وتصنيفها، على سبيل المثال الأشجار أو الطائرات أو المباني. أحد الأمثلة على ذلك هو أن الكاميرا يمكنها التعرف على الوجوه في الصورة والتركيز عليها.
الكشف عن العناصر
اكتشاف الكائنات هو مهمة الرؤية الحاسوبية لاكتشاف الصور وترجمتها. يستخدم التصنيف لتحديد الصور وفرزها وتنظيمها. يتم استخدام اكتشاف الكائنات في العمليات الصناعية والتصنيعية للتحكم في التطبيقات ذاتية التشغيل ومراقبة خطوط الإنتاج. يعتمد مصنعو الكاميرات المنزلية المتصلة ومقدمو الخدمات أيضًا على اكتشاف الكائنات لمعالجة تدفقات الفيديو الحية من الكاميرات لاكتشاف الأشخاص والأشياء في الوقت الفعلي وتقديم تنبيهات قابلة للتنفيذ للمستخدمين النهائيين.
تعقب الكائنات
تتبع الكائنات يستخدم نماذج التعلم العميق لتحديد وتتبع العناصر التي تنتمي إلى الفئات. لديها العديد من التطبيقات الواقعية عبر صناعات متعددة. العنصر الأول لتتبع الكائنات هو اكتشاف الكائن؛ يحتوي الكائن على مربع محيط تم إنشاؤه حوله، ويتم إعطاؤه معرف الكائن (ID)، ويمكن تعقبه من خلال الإطارات. على سبيل المثال، يمكن استخدام تتبع الكائنات لمراقبة حركة المرور في البيئات الحضرية والمراقبة البشرية والتصوير الطبي.
التقسيم
التقسيم عبارة عن خوارزمية رؤية حاسوبية تحدد كائنًا عن طريق تقسيم صور له إلى مناطق مختلفة بناءً على وحدات البكسل المرئية. يعمل التقسيم أيضًا على تبسيط الصورة، مثل وضع شكل أو مخطط تفصيلي لعنصر لتحديد ماهيته. من خلال القيام بذلك، يتعرف التقسيم أيضًا على ما إذا كان هناك أكثر من كائن في الصورة أو الإطار.
على سبيل المثال، إذا كانت هناك قطة وكلب في الصورة، فيمكن استخدام التقسيم للتعرف على الحيوانين. على عكس اكتشاف الكائنات، الذي ينشئ مربعًا حول الكائن، يتتبع التقسيم وحدات البكسل لتحديد شكل الكائن، ما يسهل التحليل والتصنيف.
استرجاع الصور المستند إلى المحتوى
استرجاع الصور المستند إلى المحتوى هو تطبيق لتقنيات الرؤية الحاسوبية التي يمكنها البحث عن صور رقمية محددة في قواعد البيانات الكبيرة. يقوم بتحليل البيانات الوصفية مثل العلامات والأوصاف والتسميات والكلمات الرئيسية. يستخدم الاسترجاع الدلالي أوامر مثل «البحث عن صور للمباني» لاسترجاع المحتوى المناسب.
ما الفرق بين الرؤية الحاسوبية ومعالجة الصور؟
تستخدم معالجة الصور خوارزميات لتغيير الصور، بما في ذلك التوضيح أو التنعيم أو التصفية أو التحسين. الرؤية الحاسوبية مختلفة لأنها لا تغير الصورة، ولكنها بدلاً من ذلك تفهم ما تراه وتنفذ مهمة، مثل التصنيف. في بعض الحالات، يمكنك استخدام معالجة الصور لتعديل صورة حتى يتمكن نظام الرؤية الحاسوبية من فهمها بشكل أفضل. في حالات أخرى، تستخدم الرؤية الحاسوبية لتحديد الصور أو أجزاء من الصورة ثم تستخدم معالجة الصور لتعديل الصورة بشكل أكبر.
كيف تساعد AWS في مهام الرؤية الحاسوبية؟
توفر AWS المجموعة الأوسع والأكثر اكتمالاً من خدمات الذكاء الاصطناعي وتعلم الآلة (AI/ML) المتصلة بمجموعة شاملة من مصادر البيانات للعملاء من جميع مستويات الخبرة.
بالنسبة للعملاء الذين يعتمدون على أطر العمل ويديرون البنية التحتية الخاصة بهم، نقوم بتحسين إصدارات أطر عمل التعلم العميق الأكثر شيوعًا، بما في ذلك PyTorch، وMxNet وTensorFlow. توفر AWS مجموعة واسعة وعميقة من خدمات الحوسبة والتخزين والشبكات المدعومة بتعلم الآلة والمخصصة للبنية التحتية، وذلك مع مجموعة مختارة من المعالجات والمسرعات لتلبية احتياجات الأداء والميزانية الفريدة.
بالنسبة إلى العملاء الذين يرغبون في إنشاء حل قياسي للرؤية الحاسوبية عبر أعمالهم، تُسهّل خدمة Amazon SageMaker إعداد البيانات وإنشاء نماذج تعلم الآلة وتدريبها ونشرها لأي حالة استخدام من خلال البنية التحتية المُدارة بالكامل، والأدوات وسير العمل، بما في ذلك عروض من دون تعليمات برمجية لمحللي الأعمال.
بالنسبة للعملاء الذين يفتقرون إلى مهارات تعلم الآلة، أو الذين يحتاجون إلى تسريع الإطلاق والدخول إلى السوق، أو يرغبون في إضافة الذكاء إلى عملية أو تطبيق موجود، تقدم AWS مجموعة من خدمات الرؤية الحاسوبية القائمة على تعلم الآلة. تتيح لك هذه الخدمات إضافة الذكاء بسهولة إلى تطبيقات الذكاء الاصطناعي الخاصة بك من خلال واجهات برمجة التطبيقات المدربة مسبقًا. تقوم Amazon Rekognition بأتمتة تحليل الصور والفيديو باستخدام تعلم الآلة وتحليل ملايين الصور والبث المباشر ومقاطع الفيديو المخزنة في ثوانٍ.
بادر باستخدام الرؤية الحاسوبية من خلال إنشاء حساب AWS مجاني اليوم.