ما هي قاعدة البيانات المتّجهة؟
تأتي المعلومات بأشكال عديدة. بعض المعلومات غير مهيكلة، مثل المستندات النصية والوسائط الغنية والصوت. أمّا بعضها الآخر، فهو مهيكل، مثل سجلات التطبيقات والجداول والرسوم البيانية. سمحت لنا الابتكارات في الذكاء الاصطناعي وتعلّم الآلة (AI/ML) بإنشاء نوع من نماذج تعلّم الآلة - نماذج التضمين. تعمل عمليات التضمين على ترميز جميع أنواع البيانات في متجهات تفهم معنى وسياق الأصل. يتيح لنا ذلك العثور على أصول مماثلة من خلال البحث عن نقاط البيانات المجاورة. تتيح طرق البحث المتجهات تجارب فريدة، مثل التقاط صورة بهاتفك الذكي والبحث عن صور مماثلة.
توفر قواعد البيانات المتّجهة القدرة على تخزين واسترجاع المتجهات كنقاط عالية الأبعاد. إنها تضيف إمكانيات إضافية للبحث الفعال والسريع عن أقرب نقاط البيانات المُجاورة في مساحة نونية الأبعاد. يتم تشغيلها عادةً بواسطة فهارس الجار الأقرب كي (k-NN). ويتم إنشاؤها باستخدام خوارزميات مثل خوارزميات Hierarchical Navigable Small World (HNSW) وفهرس الملفات المقلوب (IVF). توفر قواعد البيانات المتّجهة إمكانات إضافية، مثل إدارة البيانات والتسامح مع الأخطاء والمصادقة والتحكم في الوصول ومحرك الاستعلام.
لماذا تعتبر قواعد بيانات المتّجهة مهمة؟
يمكن للمطورين فهرسة المتجهات الناتجة عن عمليات التضمين في قاعدة بيانات متّجهة. هذا يسمح لهم بالعثور على أصول مماثلة من خلال الاستعلام عن المتجهات المجاورة.
توفر قواعد البيانات المتّجهة طريقة لتشغيل نماذج التضمين. يعد تطوير التطبيقات أكثر إنتاجية بفضل إمكانات قاعدة البيانات، مثل إدارة الموارد وعناصر التحكم في الأمان وقابلية التوسع والتسامح مع الأخطاء والاسترجاع الفعال للمعلومات من خلال لغات الاستعلام المعقدة.
تعمل قواعد البيانات المتجهة في النهاية على تمكين المطورين من إنشاء تجارب تطبيق فريدة. على سبيل المثال، يمكن للمستخدمين التقاط صور على هواتفهم الذكية للبحث عن صور مماثلة.
يمكن للمطورين استخدام أنواع أخرى من نماذج تعلّم الآلة لأتمتة استخراج البيانات الوصفية من المحتوى، مثل الصور والمستندات الممسوحة ضوئيًا. ويمكنهم فهرسة البيانات الوصفية جنبًا إلى جنب مع المتجهات لتمكين البحث المختلط على كل من الكلمات الرئيسية والمتجهات. يمكنهم أيضًا دمج الفهم الدلالي في ترتيب مدى الصلة لتحسين نتائج البحث.
قدمت الابتكارات في الذكاء الاصطناعي المولّد أنواعًا جديدة من النماذج، مثل ChatGPT التي يمكنها تأليف نصوص وإدارة محادثات معقدة مع البشر. يمكن أن يعمل البعض بطرق متعددة؛ على سبيل المثال، تسمح بعض النماذج للمستخدمين بوصف المناظر الطبيعية وإنشاء صورة تناسب الوصف.
ومع ذلك، فإنّ النماذج المولّدة عرضة للهلوسة، والتي يمكن أن تتسبب، على سبيل المثال، في تضليل روبوت المحادثة للمستخدمين. يمكن لقواعد البيانات المتّجهة أن تكمل نماذج الذكاء الاصطناعي المولّدة. يمكنها توفير قاعدة معرفية خارجية لروبوتات المحادثة الموّلدة بالذكاء الاصطناعي والمساعدة في ضمان توفير معلومات موثوقة.
كيف يتم استخدام قواعد البيانات المتّجهة؟
تُستخدم قواعد البيانات المتّجهة عادةً لتشغيل حالات استخدام البحث المتّجه، مثل البحث المرئي والدلالي والمتعدد الوسائط. وفي الآونة الأخيرة، تم إقرانها بنماذج نصية للذكاء الاصطناعي المولّد بهدف إنشاء وكلاء أذكياء يوفرون تجارب بحث قادرة على إجراء محادثات. ويمكنها أيضًا منع نماذج الذكاء الاصطناعي الموّلدة من الهلوسة، ما قد يجعل روبوتات المحادثة تقدم استجابات غير واقعية ولكن قابلة للتصديق.
تبدأ عملية التطوير بإنشاء نموذج تضمين مصمم لترميز مجموعة، مثل تحويل صور المنتج إلى متجهات. تسمى عملية استيراد البيانات أيضًا تغذية البيانات. يمكن لمطور التطبيق الآن استخدام قاعدة البيانات للبحث عن منتجات مماثلة عن طريق ترميز صورة المنتج واستخدام المتجه للاستعلام عن صور مماثلة.
ضمن النموذج، توفر فهارس الجار الأقرب كي (k-NN) استرجاعًا فعالًا للمتجهات وتطبق دالة المسافة، مثل جيب التمام لترتيب النتائج حسب التشابه.
من يستخدم قواعد البيانات المتّجهة؟
قواعد البيانات المتّجهة مُخصصة للمطورين الذين يرغبون في إنشاء تجارب تستند إلى البحث المتّجه. يمكن لمطور التطبيقات استخدام النماذج مفتوحة المصدر وأدوات تعلّم الآلة وخدمات نماذج التأسيس لإنشاء عمليات تضمين وتغذية قاعدة بيانات متّجهة. وهذا لا يتطلب سوى الحد الأدنى من الخبرة في تعلّم الآلة.
يمكن لفريق من علماء ومهندسي البيانات إنشاء عمليات تضمين مضبوطة بخبرة وتشغيلها من خلال قاعدة بيانات متّجهة. يمكن أن يساعدهم ذلك على تقديم حل الذكاء الاصطناعي (AI) بسرعة أكبر.
تستفيد فرق العمليات من إدارة الحلول كأعباء عمل قاعدة بيانات مألوفة. ويمكنها استخدام الأدوات والأدلة الإرشادية الحالية.
ما هي فوائد قواعد البيانات المتّجهة؟
تسمح قواعد البيانات المتّجهة للمطورين بالابتكار وإنشاء تجارب فريدة تستند إلى البحث المتجه. يمكنهم تسريع تطوير تطبيقات الذكاء الاصطناعي (AI) وتبسيط تشغيل أعباء عمل التطبيقات التي تعمل بالذكاء الاصطناعي.
توفر قواعد البيانات المتّجهة بديلاً للتطوير على الفهارس المجرّدة للجار الأقرب كي (k-NN). يتطلب هذا النوع من الفهارس قدرًا كبيرًا من الخبرة والهندسة الإضافية لاستخدامه وضبطه وتشغيله.
توفر قاعدة البيانات المتّجهة الجيدة للتطبيقات أساسًا من خلال ميزات مثل إدارة البيانات والتسامح مع الأخطاء وميزات الأمان الهامة ومحرك الاستعلام. تسمح هذه الإمكانات للمستخدمين بتشغيل أعباء أعمالهم لهدف تبسيط قابلية التوسع والحفاظ على قابلية توسع عالية وتلبية متطلبات الأمان.
تعمل الميزات مثل محرك الاستعلام ومجموعات تطوير البرامج على تبسيط عملية تطوير التطبيقات. كما أنها تسمح للمطورين بإجراء استعلامات أكثر تقدمًا (مثل البحث والفلترة) على البيانات الوصفية كجزء من بحث k-NN. وهي تتيح أيضًا خيار استخدام نماذج تسجيل الصلة الهجينة التي تمزج نماذج تردد المصطلحات التقليدية مثل BM25 مع درجات المتجهات لتحسين استرجاع المعلومات.
ما هي تحديات قواعد البيانات المتّجهة؟
تواجه قواعد البيانات المتّجهة العديد من التحديات التي تواجهها تقنيات قواعد البيانات الأخرى. سيكون هناك دافع مستمر لتحسين قابلية التوسع ودقة التقريب وأداء وقت الاستجابة والاقتصاديات.
باعتبار قواعد البيانات المتّجهة تقنية ناشئة نسبيًا، يحتاج العديد منها إلى النضج بناءً على كفاءات قاعدة البيانات الأساسية، مثل الأمان والمرونة والدعم التشغيلي وتنويع دعم عبء العمل. سيكون هذا مهمًا مع نضوج تطبيقات الذكاء الاصطناعي (AI) وتطلّبها ما يتجاوز البحث المتّجه.
كيف يمكن أن تلبّي AWS متطلبات قاعدة البيانات المتّجهة الخاصة بك؟
تقدم Amazon Web Services (AWS) خدمات عديدة لتلبية متطلبات قاعدة البيانات المتّجهة الخاصة بك:
- تسهّل خدمة Amazon OpenSearch Service إجراء تحليلات تفاعلية للسجلات ومراقبة التطبيقات في الوقت الفعلي والبحث في مواقع الويب وغير ذلك الكثير. بالنسبة إلى قواعد البيانات المتّجهة، يمكنك أن تقرأ عن بحث الجار الأقرب كي (k-NN) في خدمة OpenSearch.
- الإصدار المتوافق مع Amazon Aurora PostgreSQL وخدمة قاعدة بيانات Amazon الارتباطية (Amazon RDS) لـ PostgreSQL يدعمان ملحق pgvector لتخزين التضمين من نماذج تعلم الآلة (ML) في قاعدة البيانات الخاصة بك ولإجراء عمليات بحث فعالة عن التشابه.
- Amazon Neptune ML هي ميزة جديدة في Neptune تستخدم شبكات عصبونية للرسوم البيانية (GNN)، وهي تقنية تعلّم آلة مصممة خصيصًا للرسوم البيانية وتتيح إجراء تنبؤات سهلة وسريعة وأكثر دقة باستخدام بيانات الرسم البياني.
- بحث متجهات لـ Amazon MemoryDB يدعم تخزين ملايين المتجهات، بأزمنة استجابة للاستعلام والتحديث أحادية الرقم بالمللي الثانية، وعشرات الآلاف من الاستعلامات في الثانية (QPS) باسترجاع يزيد عن 99%.
- Amazon DocumentDB (بالتوافق مع MongoDB compatibility) يدعم بحث المتجهات، وهي قدرة جديدة تُمكّنك من تخزين وفهرسة وبحث ملايين المتجهات بأوقات استجابة بالمللي ثانية. مع بحث المتجهات لـ Amazon DocumentDB، يسهل عليك إعداد قواعد البيانات وتشغيلها وتوسعة نطاقها لتطبيقات تعلّم الآلة لديك.
ابدأ باستخدام النسخ الاحتياطية للبيانات على AWS من خلال إنشاء حساب اليوم.