انتقل إلى المحتوى الرئيسي

ما المقصود بمولّد تحويل النص إلى صوت؟

مولّد تحويل النص إلى صوت هو برنامج يستخدم تقنيات الذكاء الاصطناعي (AI) لتحويل النص الرقمي إلى ملف صوتي. تتجاوز واجهة المستخدم في التطبيقات الحديثة اللمس إلى التفاعلات الصوتية، إذ يطلب العملاء من التطبيق القيام بالمهام ويستجيب التطبيق شفهيًا. يسمح مولّد تحويل النص إلى صوت لمطوري التطبيقات بإضافة إمكانات صوتية تلقائيًا إلى التطبيقات باستخدام محتوى نصي موجود. يأتي مولّد تحويل النص إلى صوت مع أصوات مدمجة عالية الجودة يمكنها إنشاء ملفات صوتية تحاكي العشرات من الأصوات واللكنات واللهجات البشرية الأصيلة.

ما حالات استخدام مولّد تحويل النص إلى صوت؟

هناك العديد من حالات الاستخدام التجاري لمولّد تحويل النص إلى صوت.

توليد الكلام بلغات متعددة

تسمح مولّدات تحويل النص إلى صوت للمؤسسات بإنشاء ملفات صوتية بسرعة من النص نفسه بلغات مختلفة. بالنسبة للشركات ذات الجمهور العالمي، تساعد هذه المرونة في دعم قاعدة عملاء متعددة اللغات.

التفاعل مع العملاء بكلام طبيعي

تتيح لك أداة تحويل النص إلى صوت إنشاء أصوات طبيعية وواقعية لخطوط خدمة العملاء لديك. بدلاً من الصوت الآلي، فإن الصوت الطبيعي يجعل العملاء يشعرون بالراحة ويساعدهم على التنقل بسلاسة داخل أنظمة دعم العملاء التفاعلية.

إنشاء ملفات صوتية فعّالة من حيث التكلفة للوسائط

سواء كنت تنشئ ملفات صوتية لألعاب الفيديو أو الرسوم المتحركة أو غيرها من أشكال الوسائط، فإن مولّد تحويل النص إلى كلام هو طريقة سريعة وفعّالة من حيث التكلفة لإضفاء الحيوية على النص. يمكن للشركات استخدام SSML، وهي لغة ترميز تستند إلى XML، لتعديل تركيز الملفات الصوتية أو صياغتها أو تجويدها بشكل سلس.

دعم المتعلمين ذوي القدرات المختلفة

استخدام آخر لبرنامج مولّد تحويل النص إلى كلام هو مساعدة الطلاب الذين يعانون عسر القراءة أو صعوبات التعلم الأخرى أو ضعف البصر. من خلال تحويل أي نص إلى كلام منطوق، يمكن للمعلمين جعل موارد التعلُّم أكثر سهولة. بالنسبة للطلاب الذين يعانون صعوبات التعلُّم أو أي ضعف بصري، يبسِّط هذا البرنامج الداعم تجربة التعلُّم.

كيف يعمل مولّد تحويل النص إلى صوت؟

تحويل النص باستخدام خدمة تحويل النص إلى كلام هو عملية متعددة الخطوات تعتمد على التحليل اللغوي وتركيب الكلام ونماذج الذكاء الاصطناعي. يُدرَّب نموذج الذكاء الاصطناعي على مجموعة بيانات صوتية كبيرة مع النصوص المقابلة باللغة المستهدفة. اعتمادًا على بنية النموذج، تتوفر أساليب مختلفة لتحويل النص إلى صوت.

التركيب المتسلسل

تنشئ هذه الطريقة الكلام من خلال الجمع بين مقاطع صغيرة من الكلام البشري المسجَّل. يحلل نموذج الذكاء الاصطناعي بيانات الصوت التدريبية الخاصة به لتحديد الفونميات (الأصوات الفردية) والديفونات (انتقالات الصوت من منتصف الصوت إلى منتصف الصوت التالي) والمقاطع أو الكلمات. وهو يعيِّن هذه المكونات لكلمات مكتوبة فردية.
عند إدخال نص، يقوم النظام بما يلي:

  • تحويل النص إلى تمثيلات صوتية.
  • اختيار مقاطع الصوت الأكثر تطابقًا لتغطية تسلسل الأصوات.
  • الربط أو الجمع بين المكونات الفردية لتشكيل كلمات كاملة تتوافق مع نص الإدخال.

تعطي هذه الطريقة الأولوية للانتقالات السلسة والنبرة الطبيعية (التنغيم والنَظم والنبر) في أثناء عملية التسلسل.

تركيب التحويل العصبوني للنص إلى كلام

يُعد التحويل العصبوني للنص إلى كلام (NTTS) تقدمًا إضافيًا في التركيب المتسلسل. وهو يتألف من مكونين رئيسين.

نموذج التسلسل إلى المخطط الطيفي

هذا هو نموذج التسلسل إلى التسلسل الذي يحوِّل التسلسلات الصوتية النصية إلى تسلسلات موجات صوتية. وينشئ مخططًا طيفيًا، وهو تمثيل مرئي لكيفية توزيع الطاقة الصوتية على مستوى الترددات المختلفة بمرور الوقت. وهو يلتقط التدفق والسياق داخل التسلسل، مع التركيز على الميزات الصوتية التي تجعل الأصوات تبدو طبيعية للأذن البشرية، مثل النبر وطبقة الصوت والنَظم والتنغيم.

المشفر الصوتي العصبوني

بمجرد إنشاء المخطط الطيفي، يُمرر الإخراج إلى مشفر صوتي عصبوني، وهو نموذج تعلم عميق متخصص يحوِّل مخططات الطيف إلى شكل موجة صوتية فعلية. وهو ينتج كلامًا مستمرًا عالي الدقة يتصف بأنه أكثر سلاسة ووضوحًا وواقعية مما يمكن أن يحققه التركيب المتسلسل.

التحويل المولّد للنص إلى كلام

يستخدم التحويل المولّد للنص إلى كلام نماذج لغوية كبيرة بمليارات المعلمات لإنتاج كلام معبِّر عاطفيًا ومدرِّك للسياق وذي طابع حواري. ويمكنه التعلُّم أثناء التنقل وتكييف أسلوب التحدث مع المحتوى ومحاكاة النغمات المقنعة أو التعاطفية أو الحماسية مع استمرار المحادثة. إنه يمثل تحولاً من تحويل النص إلى صوت إلى تحويل النص إلى صوت ذي معنى، لذا فإن الأصوات المولّدة بالذكاء الاصطناعي تبدو مشابهة جدًا للأصوات البشرية الحقيقية.

تعمل العملية المكونة من مرحلتين في تحويل النص إلى الكلام المولّد على النحو التالي:

تحويل شفرة النص إلى كلام

يحوِّل مكون المحوّل نص الإدخال الأولّي إلى رموز كلام وسيطة. رموز الكلام عبارة عن تمثيلات مدمجة ومكتسبة للبيانات التي تشفر النبرة (النَظم والنبر والتنغيم) والعاطفة والفروق اللغوية الدقيقة. وهو يمكنه تفسير دلالات النص والقصد منه، وفهم النغمة، والتركيز على الكلام، وحتى الإشارات العاطفية.

أداة فك ترميز الكلام إلى شكل موجي

تُمرر رموز الكلام بعد ذلك إلى أداة فك ترميز تلافيفية، التي تحوّلها إلى أشكال موجات صوتية أولّية. تعمل أداة فك الترميز هذه بشكل تدريجي، ما يعني أنها تستطيع إجراء تدفق للكلام في الوقت الفعلي. وهي تضمن زمن انتقال منخفضًا وتوفر إخراجًا صوتيًا سلسًا وعالي الدقة للحصول على صوت واقعي بالذكاء الاصطناعي.

كيف يمكنك تنفيذ مولّد تحويل النص إلى صوت؟

لا تتطلب منك مولّدات تحويل النص إلى كلام الحديثة تدريب النماذج من البداية. يمكنك استخدام مولّد تحويل النص إلى صوت مُنشأ مسبقًا باعتباره خدمة سحابية مُدارة بالكامل على مستوى واجهات برمجة التطبيقات (API). فيما يلي العملية التي يجب اتباعها عند تنفيذ مولّد تحويل النص إلى صوت:

إدخال النص

حمِّل النص الكامل الذي تريد تحويله إلى ملف صوتي. يمكنك إما تحميل نص عادي أو استخدام تنسيق SSML. الخيار الأخير هو الأفضل، إذ يتيح لك SSML التحكم في جوانب مثل طبقة الصوت ومستوى الصوت ومعدل الكلام والنطق.

تحديد صوت متاح

تصفَّح مجموعة اللغات واللهجات المتاحة (تتوفر خيارات الذكور والإناث) للعثور على الصوت الذي تريده أن يقرأ النص الذي تريده. حدد هذا المعرِّف الصوتي عند بدء مهمة تركيب الكلام.

توليد إخراج الصوت

احصل على ملفك الصوتي بالتنسيق الذي يناسبك. يمكنك إجراء تدفق للصوت في الوقت الفعلي أو تخزين الصوت المولَّد في تنسيق ملف للاستخدام لاحقًا.

ما الإمكانيات التي يجب أن تبحث عنها عند اختيار مولّد تحويل النص إلى صوت؟

هناك العديد من الإمكانات والخصائص الأساسية التي يجب البحث عنها عند اختيار مولّد فعّال لتحويل النص إلى صوت.

سهولة الاستخدام

يجب أن يوفر مولّد تحويل النص إلى صوت واجهات برمجة تطبيقات (API) مرنة ومجموعات تطوير برمجيات (SDK) للتكامل السهل مع تعليمة التطبيق البرمجية. يجب أن تدعم التكنولوجيا القياسية، مثل لغة ترميز تركيب الكلام (SSML)، بحيث يمكن للمطورين إضافة علامات للتأكيد والتنغيم والصياغة إلى نص الإدخال. يوفر هذا تحكمًا صوتيًا محسنًا مع جعل الصوت أكثر واقعية وطبيعية.

قابلية التخصيص

يجب أن يدعم مولّد تحويل النص إلى صوت العديد من اللغات واللهجات ومتغيرات اللغة. قد تمتلك المؤسسات مفردات مميزة بسبب الصناعة أو المنطقة التي تعمل فيها. يجب أن يسمح مولّد تحويل النص إلى صوت بتخصيص طرق النطق في الصوت المولَّد. يجب أن يسمح لك أيضًا بتكييف الحد الأقصى لمدة تشغيل عبارة معينة. يتيح تعديل هذه المعلمات للشركات خيار تخصيص صوت تحويل النص إلى كلام بالطرق التي تناسب حالة الاستخدام الخاصة بها على أفضل وجه.

خيارات التحسين

يجب أن يدعم مولّد تحويل النص إلى كلام معدلات أخذ العينات المختلفة، ما يسمح للشركات بتحسين جودة الصوت مع ضبط استخدام النطاق الترددي. سيؤدي تغيير معدل أخذ العينات إلى تغيير أحجام MP3 وOGG وPCM للملف.

التكامل مع الأدوات الأخرى

إذا كنت ترغب في استخدام برنامج تحويل النص إلى كلام جنبًا إلى جنب مع أنظمة دعم العملاء، فإن القدرة على التكامل في أدوات مركز الاتصال إلزامية. يجب أن يتكامل برنامج إنشاء النص إلى صوت مع الأدوات الأخرى التي تتعامل مع العملاء لتبسيط إدارة تجربة العملاء.

كيف يمكن أن تدعم AWS متطلبات مولّد تحويل النص إلى صوت؟

Amazon Polly هي خدمة مولّد صوت بالذكاء الاصطناعي مُدارة بالكامل. يمكنك ببساطة إرسال ملفك النصي إلى Amazon Polly API، التي ترجع التدفق الصوتي على الفور. يمكنك تخزين التدفق الصوتي بتنسيق ملف صوتي قياسي أو تشغيله مباشرةً.

مع Amazon Polly، يمكنك:

  • تحويل النص إلى كلام بعشرات الأصوات واللغات النابضة بالحياة لدعم جميع أنواع المستخدمين
  • ضبط معدل الكلام أو طبقة الصوت أو مستوى الصوت في الإخراج حسب الحاجة
  • تخزين الكلام الذي تم توليده مؤقتًا وإعادة تشغيله دون أي تكلفة إضافية
  • تنفيذ إمكانات تحويل النص إلى كلام في الوقت الفعلي بسرعة عالية وعلى نطاق واسع.

يمكنك أيضًا العمل مع فريق Amazon Polly لإنشاء صوت اصطناعي للاستخدام الحصري لمؤسستك وتمييز علامتك التجارية بهوية صوتية فريدة. فيما يلي مثال توضيحي لصوت Amazon Polly، وهو باسم Matthew.

ابدأ باستخدام مولّد تحويل النص إلى صوت من AWS من خلال إنشاء حساب مجاني اليوم.