ما المقصود بتحليل النص؟

تحليل النص هو عملية استخدام أنظمة الكمبيوتر في قراءة النص المكتوب بخط اليد وفهمه للحصول على رؤى الأعمال. تعمل برامج تحليل النص بطريقة مستقلة على تصنيف المعلومات وفرزها واستخراجها من النص لتحديد الأنماط؛ العلاقات والمشاعر وغيرها من المعرفة القابلة للتنفيذ. يمكنك استخدام تحليل النص في معالجة عدة مصادر نصية بكفاءة ودقة مثل رسائل البريد الإلكتروني والمستندات ومحتوى الوسائط الاجتماعية وتقييمات المنتجات، كما يفعل العنصر البشري تمامًا.

لماذا يُعد تحليل النص مهمًا؟

تستخدم الشركات تحليل النص لاستخراج معارف دقيقة يمكن اتخاذ إجراء بشأنها من مصادر بيانات متنوعة وغير مهيكلة. إذ يعتمدون على الملاحظات الواردة من مصادر مثل رسائل البريد الإلكتروني ووسائل التواصل الاجتماعي والإجابات عن استبيانات العملاء للمساعدة على اتخاذ القرار. ومع ذلك، فإن الحجم الهائل للنص الوارد من تلك المصادر يثبت أنه هائل من دون استخدام برامج تحليل النصوص.

باستخدام تحليل النص، يمكنك الحصول على معلومات دقيقة من المصادر بشكل أسرع. فإن العملية مؤتمتة بالكامل ومتسقة وتعرض بيانات يمكنك التصرف بناءً عليها. على سبيل المثال، يسمح لك استخدام برامج تحليل النص باكتشاف المشاعر السلبية فورًا إزاء منشورات وسائل التواصل الاجتماعي حتى تتمكن من العمل على حل المشكلة

تحليل المشاعر

تستخدم عملية تحليل المشاعر أو التنقيب عن الرأي أساليب تحليل النص لفهم الرأي المنقول في جزء من النص. يمكنك استخدام تحليل المشاعر للمراجعات والمدونات والمنتديات والوسائط الأخرى المتصلة بشبكة الإنترنت لتحديد ما إذا كان عملاؤك سعداء بمشترياتهم أم لا. يساعدك تحليل المشاعر على اكتشاف اتجاهات جديدة وتتبع تغييرات المشاعر وحل مشكلات العلاقات العامة. باستخدام تحليل المشاعر وتحديد كلمات أساسية معينة، يمكنك تتبع التغيرات التي تطرأ على رأي العميل وتحديد السبب الجذري للمشكلة. 

إدارة السجل

يؤدي تحليل النص إلى إدارة الوثائق وتصنيفها والبحث فيها بكفاءة. وهذا يشمل أتمتة إدارة سجلات المرضى ومراقبة الإشارات إلى العلامات التجارية واكتشاف الاحتيال في التأمين. على سبيل المثال، تستخدم شركة LexisNexis Legal & Professional عملية استخراج النص لتحديد سجلات معينة من بين 200 مليون وثيقة.

إضفاء الطابع الشخصي على تجربة العميل

يمكنك استخدام برنامج تحليل النص لمعالجة رسائل البريد الإلكتروني والمراجعات والمحادثات وغيرها من المراسلات النصية. باستخدام المعارف الدقيقة إزاء تفضيلات العملاء وعادات الشراء ومفهوم العلامة التجارية بوجه عام، يمكنك إعداد تجارب مخصصة لشرائح مختلفة من العملاء. 

كيف يعمل تحليل النص؟

إن أساس تحليل النص هو تدريب برنامج الحاسوب على ربط الكلمات بمعانٍ محددة وفهم السياق الدلالي للبيانات غير المهيكلة. وهذا مشابه لكيفية تعلم البشر لغة جديدة عن طريق ربط الكلمات بالأشياء والأفعال والمشاعر. 

يعمل برنامج تحليل النص استنادًا إلى مبادئ التعلم العميق ومعالجة اللغة الطبيعية.

التعلم العميق

إن الذكاء الاصطناعي هو مجال علم البيانات الذي يعلم الحواسيب التفكير مثل البشر. يعرف التعلم الآلي بوصفه تقنية ضمن الذكاء الاصطناعي تستخدم أساليب محددة لتعليم الحواسيب أو تدريبها. بالنسبة إلى التعلم العميق فهو طريقة تعلم آلي مخصصة بدرجة كبيرة تستخدم الشبكات العصبونية أو هياكل برامج تحاكي العقل البشري. تعمل تقنية التعلم العميق على تعزيز برنامج تحليل النص حتى تتمكن تلك الشبكات من قراءة النص بطريقة مشابهة لقراءة العقل البشري.

معالجة اللغة الطبيعية

معالجة اللغة الطبيعية (NLP) هي فرع من فروع الذكاء الاصطناعي تمنح الحواسيب إمكانية اشتقاق المعنى تلقائيًا من النص الطبيعي الذي ألفه الإنسان. حيث تستخدم النماذج والإحصائيات اللغوية لتدريب تقنية التعلم العميق على معالجة بيانات النص وتحليلها، بما في ذلك الصور النصية المكتوبة باليد. تعمل أساليب معالجة اللغة الطبيعية (NLP)، مثل التعرف البصري على الأحرف (OCR)، على تحويل الصور النصية إلى وثائق نصية من خلال البحث عن الكلمات الموجودة في الصور وفهمها.

ما أنواع تقنيات تحليل النص؟

يستخدم برنامج تحليل النص هذه التقنيات الشائعة.

تصنيف النصوص

في تصنيف النص، يتعلم برنامج تحليل النص كيفية ربط كلمات أساسية معينة بموضوعات محددة أو مقاصد المستخدم أو المشاعر. ويتم بذلك باستخدام الأساليب الآتية: 

  • يخصص التصنيف المستند إلى القواعد علامات للنص استنادًا إلى قواعد محددة سابقًا للمكونات الدلالية أو الأنماط النحوية.
  • تعمل الأنظمة القائمة على التعلم الآلي من خلال تدريب برنامج تحليل النص بأمثلة وزيادة دقتها في وضع العلامات للنص. فهي تستخدم نماذج لغوية مثل نموذج بايزي الساذج وآلة المتجهات الداعمة والتعلم العميق لمعالجة البيانات المهيكلة وتصنيف الكلمات وتطوير الفهم الدلالي بينها.

على سبيل المثال، تتضمن التقييمات الإيجابية غالبًا كلمات مثل جيد، وسريع، ورائع. ومع ذلك، قد تتضمن التقييمات السلبية كلمات مثل غير سعيد، وبطيء، وسيئ. يدرب علماء البيانات برنامج تحليل النص للبحث عن مثل هذه المصطلحات المحددة وتصنيف التقييمات سواء أكانت إيجابية أم سلبية. وبهذه الطريقة، يمكن لفريق دعم العملاء مراقبة مشاعر العملاء بسهولة عبر التقييمات.

استخراج النص

يقوم استخراج النص بمسح النص ضوئيًا واستخراج المعلومات الأساسية. فيمكنه تحديد الكلمات الأساسية وسمات المنتج وأسماء العلامات التجارية وأسماء الأماكن والمزيد في جزء من النص. ويطبق برنامج الاستخراج الأساليب الآتية:

  • التعبير النمطي (REGEX): هو مجموعة رموز تم تنسيقها تعمل كشرط سابق لما يتعين استخراجه.
  • الحقول العشوائية الشرطية (CRFs): إنها أسلوب تعلم آلي يستخرج نصًا من خلال تقييم أنماط أو عبارات محددة. فهي أكثر دقة ومرونة من REGEX. 

على سبيل المثال، يمكنك استخدام عملية استخراج النص لمراقبة الإشارات إلى العلامات التجارية على وسائل التواصل الاجتماعي. كما أن تتبع كل ظهور لعلاماتك التجارية على وسائل التواصل الاجتماعية يدويًا يُعد أمرًا مستحيلاً. وسيعلمك استخراج النص بالإرشادات إلى علامتك التجارية في الوقت الفعلي. 

نمذجة الموضوعات

تحدد أساليب نمذجة الموضوعات الكلمات الأساسية ذات الصلة التي تحدث في نص غير مهيكل وتجمعها في عنوان أو موضوع. ويمكن لهذه الأساليب قراءة وثائق نصية متعددة وفرزها في موضوعات استنادًا إلى تكرار الكلمات المتنوعة في الوثيقة. توفر أساليب نمذجة الموضوعات سياقًا للحصول على مزيد من تحليل الوثائق.

على سبيل المثال، يمكنك استخدام أساليب نمذجة الموضوعات للقراءة عبر أرشيف الوثيقة الممسوحة ضوئيًا وتصنيف الوثائق إلى فواتير ووثائق قانونية واتفاقيات العملاء. ومن ثم، يمكنك إجراء أساليب تحليل مختلفة على فواتير لاكتساب معارف دقيقة مالية أو على اتفاقيات العملاء لاكتساب معارف دقيقة للعملاء.

تنقيح معلومات التعريف الشخصية (PII)

يكتشف تنقيح معلومات التعريف الشخصية (PII) معلومات التعريف الشخصية (PII) وإزالتها مثل الأسماء أو العناوين أو أرقام الحساب من وثيقة ما. تساعد عملية تنقيح معلومات التعريف التشخصية (PII) على حماية الخصوصية والامتثال للقوانين واللوائح المحلية.

على سبيل المثال، يمكنك تحليل تذاكر الدعم والمقالات المعرفية لاكتشاف معلومات التعريف الشخصية (PII) وتنقيحها قبل فهرسة الوثائق في الحل القائم على البحث. وبعد ذلك، تصبح حلول البحث خالية من PII في الوثائق.

ما المقصود بتحليلات النصوص؟

تحليلات النصوص هي البيانات الكمية التي يمكنك الحصول عليها من خلال تحليل الأنماط في عينات متعددة من النص. ويتم عرضها في مخططات أو جداول أو رسومات بيانية. 

تحليل النص مقابل تحليلات النصوص

تساعدك تحليلات النصوص على تحديد ما إذا كان ثمة اتجاه أو نمط معين من نتائج تحليل آلاف الأجزاء من التعليقات. وفي الوقت نفسه، يمكنك استخدام التحليل النصي لتحديد ما إذا كانت تعليقات العميل إيجابية أم سلبية.

ما مراحل تحليل النص؟

لتطبيق تحليل النص، أنت بحاجة إلى اتباع عملية منهجية تمر بأربع مراحل.

مرحلة 1—تجميع البيانات

في هذه المرحلة، تجمع بيانات النص من مصادر داخلية وخارجية.

بيانات داخلية

البيانات الداخلية هي محتوى نصي داخلي خاص بأعمالك ومتوفر بسهولة؛ على سبيل المثال، رسائل البريد الإلكتروني والمحادثات والفواتير واستبيانات الموظفين. 

بيانات خارجية

يمكنك إيجاد بيانات خارجية في مصادر مثل منشورات وسائل التواصل الاجتماعي وتقييمات عبر الإنترنت ومقالات الجديدة ومنتديات عبر الإنترنت. إنه من الصعب الحصول على بيانات خارجية لأنها خارجة عن إرادتك. فقد تحتاج إلى استخدام أدوات تجريف الويب أو التكامل مع حلول تابعة لجهات خارجية لاستخراج البيانات الخارجية.

مرحلة 2—تجهيز البيانات

إن تجهيز البيانات يعد جزءًا ضروريًا لتحليل النص. فهو يتضمن هيكلة بيانات نص أولية بتنسيق مقبول للتحليل. يقوم برنامج تحليل النص بأتمتة العملية ويتضمن أساليب معالجة اللغة الطبيعية (NLP) الشائعة الآتية. 

الترميز 

الترميز هو فصل النص الأولي إلى أجزاء متعددة لها معنى دلالي. على سبيل المثال، العبارة تحليلات النصوص تُفيد الشركات ترمز إلى الكلمات النصوص، والتحليلات، وتُفيد، والشركات.

وضع علامات على جزء من الكلام

يخصص أسلوب وضع علامات على جزء من الكلام علامات نحوية للنص المميز برمز. على سبيل المثال، ينتج عن تطبيق هذه الخطوة على الرموز المميزة المذكورة سابقًا ما يأتي:النصوص: اسم؛ التحليلات: اسم؛ تفيد: فعل؛ الشركات: اسم.

التحليل

يُنشئ التحليل روابط هادفة بين الكلمات المميزة برموز وقواعد اللغة الإنجليزية. فهو يساعد برنامج تحليل النص على تصور العلاقة بين الكلمات. 

الكشف المعجمي

الكشف المعجمي هو عملية لغوية تقوم بتبسيط الكلمات في شكل معجمي أو ليما. على سبيل المثال، الشكل المعجمي لكلمة visualizing هو visualize.

إزالة الكلمات المستبعدة

الكلمات المستبعدة هي الكلمات التي توفر القليل من السياق الدلالي للجملة أو لا توفره، مثل و، وأو، ولأجل. وتبعًا لحالة الاستخدام، قد يقوم البرنامج بإزالتها من النص المهيكل. 

مرحلة 3—تحليل نص

تحليل النص هو الجزء الأساسي من العملية، حيث يعالج برنامج تحليل النص النصوص باستخدام أساليب مختلفة. 

تصنيف النصوص

التصنيف هو عملية تخصيص العلامات للبيانات النصية التي تستند إلى القواعد أو الأنظمة المستندة إلى التعلم الآلي.

استخراج النص

يتضمن الاستخراج تحديد وجود كلمات أساسية محددة في النص وربطها بالعلامات. يستخدم البرنامج أساليب مثل التعبيرات الرقمية النمطية والحقول العشوائية الشرطية (CRFs) لإجراء هذه الخطوة.

مرحلة 4—التصور

التصور هو تحويل نتائج تحليل النص إلى تنسيق يسهل فهمه. ستجد نتائج تحليلات النص في الرسومات البيانية والمخططات والجداول. تساعدك النتائج المرئية على تحديد الأنماط والاتجاهات وإنشاء خطط العمل. على سبيل المثال، لنفترض أنه ثمة ارتفاع كبير في عائدات منتجاتك، لكنك تواجه مشكلة في معرفة الأسباب. باستخدام التصور، يمكنك البحث عن كلمات مثل عيوب أو مقاس خاطئ أو عدم الملاءمة بشكل جيدفي التعليقات وجدولتها في مخطط. ومن ثم ستعرف ما المشكلة الأساسية التي تتطلب أولوية قصوى. 

ماذا يقصد بالتنقيب في النص؟

التنقيب في النص هو عملية الحصول على معارف دقيقة نوعية من خلال تحليل نص غير مهيكل. 

تحليل النص مقابل التنقيب في النص

لا يوجد اختلاف بين تحليل النص والتنقيب في النص. يشير كلا المصطلحين إلى العملية نفسها لاكتساب معارف دقيقة قيمة من مصادر مثل رسائل البريد الإلكترونية والإجابات عن الاستبيانات وتغذيات وسائل التواصل الاجتماعي.

كيف يمكن لخدمة Amazon Comprehend المساعدة؟

Amazon Comprehend عبارة عن خدمة معالجة للغات الطبيعية تستخدم تقنية تعلم الآلة للكشف عن المعارف الدقيقة والعلاقات القيِّمة من النصوص. ويمكنك استخدامها لتبسيط سير عمل معالجة الوثائق عن طريق تصنيف المعلومات واستخراجها منها تلقائيًا. على سبيل المثال، يمكنك استخدام خدمة Amazon Comprehend لإجراء المهام الآتية:

  • إجراء تحليل للمشاعر إزاء تذاكر دعم العملاء ومراجعات المنتجات وموجزات وسائل التواصل الاجتماعي والمزيد. 
  • يمكنك دمج خدمة Amazon Comprehend مع خدمة Amazon Lexلتطوير برنامج دردشة آلية ذكي للمحادثات.
  • استخرج المصطلحات الطبية من المستندات والوثائق وحدد العلاقة بينها باستخدام Amazon Comprehend Medical.

ابدأ بإنشاء حساب AWS اليوم.

الخطوات التالية على AWS