ما المقصود بتصنيف النصوص؟

تصنيف النصوص هو عملية تعيين فئات محددة مسبقًا للمستندات النصية المفتوحة باستخدام أنظمة الذكاء الاصطناعي وتعلم الآلة (AI/ML). تمتلك العديد من المؤسسات أرشيفات مستندات كبيرة وعمليات سير عمل تجارية تعمل باستمرار على إنشاء مستندات على نطاق واسع - مثل المستندات القانونية والعقود ومستندات البحث والبيانات التي ينشئها المستخدم والبريد الإلكتروني. تصنيف النصوص هو الخطوة الأولى لتنظيم هذه البيانات وهيكلها وتصنيفها لمزيد من التحليلات. يسمح بالتصنيف التلقائي للمستندات ووضع العلامات عليها. هذا يوفر لمؤسستك آلاف الساعات التي قد تحتاجها لقراءة المستندات وفهمها وتصنيفها يدويًا.

ما هي فوائد تصنيف النصوص؟

تستخدم المؤسسات نماذج تصنيف النصوص للأسباب التالية.

تحسين الدقة

تقوم نماذج تصنيف النصوص بتصنيف النصوص بدقة مع القليل من التدريب الإضافي أو بدونه. إنها تساعد المؤسسات على التغلب على الأخطاء التي قد يرتكبها البشر عند تصنيف البيانات النصية يدويًا. علاوة على ذلك، يعد نظام تصنيف النص أكثر اتساقًا من البشر عند تخصيص العلامات للبيانات النصية عبر مواضيع متنوعة. 

توفير تحليلات في الوقت الفعلي

تواجه المؤسسات ضغطًا زمنيًا عند معالجة البيانات النصية في الوقت الفعلي. باستخدام خوارزميات تصنيف النصوص، يمكنك استرداد رؤى قابلة للتنفيذ من البيانات الأولية وصياغة استجابات فورية. على سبيل المثال، يمكن للمؤسسات استخدام أنظمة تصنيف النصوص لتحليل ملاحظات العملاء والاستجابة للطلبات العاجلة على الفور.

قياس مهام تصنيف النصوص

اعتمدت المؤسسات سابقًا على الأنظمة اليدوية أو القائمة على القواعد لتصنيف المستندات. هذه الطرق بطيئة وتستهلك موارد كثيرة. باستخدام تصنيف نصوص من خلال تعلم الآلة، يمكنك توسيع جهود تصنيف المستندات عبر الأقسام بشكل أكثر فعالية لدعم النمو التنظيمي.

ترجمة اللغات

يمكن للمؤسسات استخدام مصنفات النص لاكتشاف اللغة. يمكن لنموذج تصنيف النصوص اكتشاف اللغة الأصلية في المحادثات أو طلبات الخدمة وتوجيهها إلى الفريق المعني.

ما هي حالات استخدام تصنيف النصوص؟

تستخدم المؤسسات تصنيف النصوص لتحسين رضا العملاء وإنتاجية الموظفين ونتائج الأعمال. 

تحليل المشاعر

يسمح تصنيف النص للمؤسسات بإدارة علامتها التجارية بفعالية على قنوات متعددة من خلال استخراج كلمات محددة تشير إلى مشاعر العملاء. يسمح استخدام تصنيف النصوص لتحليل المشاعر أيضًا لفرق التسويق بالتنبؤ بدقة باتجاهات الشراء باستخدام البيانات النوعية.

على سبيل المثال، يمكنك استخدام أدوات تصنيف النصوص لتحليل سلوك العملاء في منشورات الوسائط الاجتماعية أو الاستطلاعات أو محادثات الدردشة أو الموارد النصية الأخرى والتخطيط لحملتك التسويقية وفقًا لذلك.

الإشراف على المحتوى

تعمل الشركات على زيادة جمهورها على مجموعات المجتمع ووسائل التواصل الاجتماعي والمنتديات. يعد تنظيم مناقشات المستخدم أمرًا صعبًا عند الاعتماد على المشرفين البشريين. باستخدام نموذج تصنيف النصوص، يمكنك تلقائيًا اكتشاف الكلمات أو العبارات أو المحتوى الذي قد ينتهك إرشادات المجتمع. يتيح لك ذلك اتخاذ إجراءات فورية وضمان إجراء المحادثات في بيئة آمنة ومنظمة جيدًا. 

إدارة المستندات

تواجه العديد من المؤسسات تحديات في معالجة المستندات وفرزها لدعم العمليات التجارية. يمكن لمصنف النصوص اكتشاف المعلومات المفقودة واستخراج كلمات رئيسية محددة وتحديد العلاقات الدلالية. يمكنك استخدام أنظمة تصنيف النصوص لتسمية المستندات وفرزها مثل الرسائل والمراجعات والعقود في فئاتها الخاصة. 

دعم العملاء

يتوقع العملاء ردودًا دقيقة وفي الوقت المناسب عندما يطلبون المساعدة من فرق الدعم. يسمح مصنف النصوص الذي يعمل بتعلم الآلة لفريق دعم العملاء بتوجيه الطلبات الواردة إلى الموظفين المناسبين. على سبيل المثال، يكتشف مصنف النص تبادل الكلمات في تذكرة الدعم ويرسل الطلب إلى قسم الضمان.

ما هي طرق تصنيف النص؟

لقد تطور تصنيف النصوص بشكل كبير كمجموعة فرعية من معالجة اللغة الطبيعية. نحن نشارك العديد من الأساليب التي يستخدمها مهندسو تعلم الآلة لتصنيف البيانات النصية. 

استدلال اللغة الطبيعية

يحدد الاستدلال اللغوي الطبيعي العلاقة بين الفرضية والمُسلَّمة من خلال تصنيفها على أنها استنباط أو تناقض أو حياد. يصف الاستنباط العلاقة المنطقية بين الفرضية والمُسلَّمة، بينما يُظهر التناقض انفصالًا بين الكيانات النصية. يتم تطبيق الحياد عندما لا يتم العثور على أي استنباط أو تناقض. 

على سبيل المثال، تأمل الحقيقة المُسلَّمة التالية:

كان فريقنا هو الفائز ببطولة كرة القدم.

هذه هي الطريقة التي سيتم بها تمييز الفرضيات المختلفة بواسطة مصنف استدلال اللغة الطبيعية.

  • الاستنباط: يحب فريقنا ممارسة الرياضة.
  • التناقض: نحن أشخاص لا يمارسون الرياضة.
  • الحياد: خرجنا كبطل كرة قدم.

النمذجة الاحتمالية للغة

النمذجة الاحتمالية للغة هي نهج إحصائي تستخدمه نماذج اللغة للتنبؤ بالكلمة التالية عند إعطاء سلسلة من الكلمات. باستخدام هذا الأسلوب، يقوم النموذج بتعيين قيمة احتمالية لكل كلمة وحساب احتمالية الكلمات التالية. عند تطبيقها على تصنيف النصوص، تقوم النمذجة الاحتمالية للغة بتصنيف المستندات بناءً على عبارات محددة موجودة في النص. 

عمليات تضمين الكلمات

عمليات تضمين الكلمات هي تقنية تطبق تمثيلات عددية على الكلمات التي تلتقط علاقاتها الدلالية. تضمين الكلمة هو المكافئ العددي للكلمة. لا يمكن لخوارزميات تعلّم الآلة تحليل النص بكفاءة في نماذجها الأصلية. باستخدام عمليات تضمين الكلمات، يمكن لخوارزميات نمذجة اللغة مقارنةَ النصوصِ المختلفة من خلال عمليات التضمين الخاصة بها.

لاستخدام تضمين الكلمات، يجب تدريب نموذج معالجة اللغة الطبيعية (NLP). أثناء التدريب، يقوم النموذج بتعيين الكلمات ذات الصلة مع تمثيلات عددية موضوعة بشكل وثيق في مساحة متعددة الأبعاد تُعرف باسم دلالات المتجهات (vector semantics). 

على سبيل المثال، عند توجيه النص باستخدام عمليات التضمين، ستجد الكلاب والقطط أقرب إلى بعضها البعض في مساحة متجهة ثنائية الأبعاد من الطماطم والأشخاص والصخور. يمكنك استخدام دلالات المتجهات لتحديد نص مشابه في بيانات غير مألوفة والتنبؤ بالعبارات اللاحقة. هذا النهج مفيد في تصنيف المشاعر وتنظيم المستندات ومهام تصنيف النص الأخرى. 

نماذج اللغة الكبيرة

نماذج اللغات الكبيرة (LLMs) عبارة عن خوارزميات تعلم عميق مدربة على كميات هائلة من البيانات النصية. وهي تستند إلى بنية المحولات، وهي شبكة عصبية ذات طبقات مخفية متعددة قادرة على معالجة البيانات النصية بالتوازي. تعد نماذج اللغات الكبيرة أقوى من النماذج الأبسط وتتفوق في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك تصنيف النصوص.

على عكس سابقاتها، يمكن لنماذج اللغات الكبيرة تصنيف النصوص دون تدريب مسبق. يستخدمون التصنيف الصفري، وهي طريقة تسمح للنموذج بتصنيف البيانات النصية غير المرئية إلى فئات محددة مسبقًا. على سبيل المثال، يمكنك نشر نموذج تصنيف نصي صفري على Amazon Sagemaker Jumpstart لفرز منشورات قرارات العام الجديد إلى فئات مهنية وصحية ومالية وغيرها من الفئات. 

كيف تقيم أداء تصنيف النصوص؟

قبل نشر مُصنِّفات النصوص لتطبيقات الأعمال، يجب عليك تقييمها للتأكد من أنها لا تعاني من نقص الملاءمة. يعد نقص الملاءمة ظاهرة تؤدي فيها خوارزمية تعلم الآلة أداءً جيدًا في التدريب ولكنها تفشل في تصنيف بيانات العالم الفعلي بدقة. لتقييم نموذج تصنيف النصوص، نستخدم طريقة التحقق المتقاطع (cross-validation). 

التحقق المتقاطع (Cross-validation)

التحقق المتقاطع هو أسلوب تقييم نموذجي يقسِّم بيانات التدريب إلى مجموعات أصغر. ثم يتم تقسيم كل مجموعة إلى عينات للتدريب والتحقق من صحة النموذج. يتدرب النموذج أولاً مع العينة المخصصة ويتم اختباره مع العينة المتبقية. ثم نقارن نتيجة النموذج مع تلك التي شرحها البشر. 

معايير التقييم

يمكننا تقييم نموذج تصنيف النصوص من التقييم على عدة معايير.

  • تصف الدقة (Accuracy) عدد التنبؤات الصحيحة التي أجراها مصنف النصوص مقارنة بالتوقعات الإجمالية. 
  • يعكس الإتقان (Precision) قدرة النموذج على التنبؤ باستمرار بفئة معينة بشكل صحيح. يكون مصنف النصوص أكثر دقة عندما ينتج عددًا أقل من الإيجابيات الخاطئة. 
  • يقيس الاستدعاء (Recall) اتساق النموذج في التنبؤ بنجاح بالفئة المناسبة مقارنة بجميع التوقعات الإيجابية. 
  • تحسب درجة F1 المتوسط التوافقي للدقة والاستدعاء لتوفير نظرة عامة متوازنة لدقة النموذج. 

كيف تقوم بتطبيق تصنيف النصوص؟

يمكنك إنشاء نموذج تصنيف النصوص وتدريبه ونشره باتباع هذه الخطوات.

تنظيم مجموعة بيانات التدريب

يُعد إعداد مجموعة بيانات عالية الجودة أمرًا مهمًا عند التدريب أو الضبط الدقيق لنموذج اللغة لتصنيف النصوص. تسمح مجموعة البيانات المتنوعة والمصنفة للنموذج بتعلم تحديد كلمات أو عبارات أو أنماط معينة والفئات الخاصة بها بكفاءة.

إعداد مجموعة البيانات

لا يمكن لنماذج تعلم الآلة التعلم من مجموعات البيانات الأولية. لذلك، يجب تنظيف مجموعة البيانات وإعدادها باستخدام طرق المعالجة المسبقة مثل الترميز. يقسم الترميز (Tokenization) كل كلمة أو جملة إلى أجزاء أصغر تسمى الرموز (tokens).

بعد الترميز، يجب إزالة البيانات الزائدة والمكررة وغير الطبيعية من مجموعة بيانات التدريب لأنها قد تؤثر على أداء النموذج. يمكنك بعد ذلك تقسيم مجموعة البيانات إلى بيانات التدريب وبيانات التحقق.

تدريب نموذج تصنيف النصوص

اختر نموذج اللغة وقم بتدريبه باستخدام مجموعة البيانات المعدة. أثناء التدريب، يتعلم النموذج من مجموعة البيانات المشروحة ويحاول تصنيف النص إلى فئاته الخاصة. يكتمل التدريب عندما يتقارب النموذج باستمرار مع نفس النتيجة.

التقييم والتحسين

قم بتقييم النموذج باستخدام مجموعة بيانات الاختبار. قارن دقة النموذج وإتقانه واستدعاءه ودرجة F1 مع المعايير المعمول بها. قد يتطلب النموذج المدرب مزيدًا من الضبط الدقيق لمعالجة التجهيز الزائد ومشكلات الأداء الأخرى. قم بتحسين النموذج حتى تُحقِّق نتائج مرضية. 

ما هي التحديات في تصنيف النصوص؟

يمكن للمؤسسات استخدام موارد تصنيف النصوص التجارية أو المتاحة للجمهور لتنفيذ الشبكات العصبونية لتصنيف النصوص. ومع ذلك، يمكن للبيانات المحدودة أن تجعل تنظيم مجموعات بيانات التدريب أمرًا صعبًا في بعض الصناعات. على سبيل المثال، قد تحتاج شركات الرعاية الصحية إلى المساعدة في الحصول على مجموعات البيانات الطبية لتدريب نموذج التصنيف. 

يعد تدريب نموذج تعلم الآلة وضبطه أمرًا مكلفًا ويستغرق وقتًا طويلاً. علاوة على ذلك، قد يكون النموذج مناسبًا أكثر من اللازم أو غير ملائم، مما يتسبب في أداء غير متسق في حالات الاستخدام الفعلي. 

يمكنك إنشاء مصنف نصي باستخدام مكتبات تعلم الآلة مفتوحة المصدر. ومع ذلك، فأنت بحاجة إلى معرفة متخصصة في تعلم الآلة وسنوات من الخبرة في تطوير البرامج لتدريب المصنف وبرمجته ودمجه مع تطبيقات المؤسسة.

كيف يمكن لـ AWS المساعدة في متطلبات تصنيف النصوص؟

المتطلبات؟

إن Amazon Comprehend عبارة عن خدمة معالجة للغات الطبيعية (NLP) تستخدم تقنية تعلم الآلة للكشف عن المعارف الدقيقة والعلاقات القيِّمة من النصوص. تتيح لك واجهة برمجة تطبيقات التصنيف المخصص إنشاء نماذج تصنيف نصية مخصصة بسهولة باستخدام التسميات الخاصة بشركتك دون تعلم أي شيء عن تعلم الآلة (ML).

على سبيل المثال، يمكن لمؤسسة دعم العملاء الخاصة بك استخدام التصنيف المخصص لتصنيف الطلبات الواردة تلقائيًا حسب نوع المشكلة استنادًا إلى كيفية وصف العميل للمشكلة. باستخدام النموذج المخصص الخاص بك، من السهل الإشراف على تعليقات موقع الويب وفرز ملاحظات العملاء وتنظيم مستندات مجموعة العمل.

Amazon SageMaker هي خدمة مُدارة بالكامل يُمكنك استخدامها في تحضير البيانات وإنشاء نماذج تعلم الآلة لأي حالة استخدام وتدريبها ونشرها. لديها بنية تحتية وأدوات وعمليات سير عمل مُدارة بالكامل.

باستخدام Amazon SageMaker JumpStart، يمكنك الوصول إلى النماذج المُعدة مسبقًا ونماذج التأسيس (FMs) وتخصيصها لحالة الاستخدام الخاصة بك مع بياناتك. يوفر SageMaker JumpStart حلولاً شاملة سهلة النشر للعديد من حالات الاستخدام الشائعة الخاصة بتعلم الآلة (ML). يمكنك استخدامه لتصنيف النص وتلخيص المستندات والتعرف على الكتابة اليدوية واستخراج العلاقات والسؤال والإجابة وملء القيم المفقودة في السجلات الجدولية.

ابدأ اليوم في تصنيف النصوص على Amazon Web Services‏ (AWS) عن طريق إنشاء حساب.

الخطوات التالية على AWS

سجِّل الاشتراك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية من AWS.

تسجيل الاشتراك 
ابدأ في التطوير في وحدة التحكم

بدء الإنشاء في وحدة إدارة تحكم AWS.

تسجيل الدخول