انتقل إلى المحتوى الرئيسي

ما المقصود ببرنامج تحويل النص إلى صوت؟

من صفحات الويب التي تُقرأ بصوت عالٍ إلى طلب بيانات المستخدم، أصبح الصوت بسرعة هو المعيار السائد كواجهة مستخدم حديثة. يتوقع العملاء بشكل متزايد إمكانات الصوت في كل تطبيق يتفاعلون معه. علاوة على ذلك، يمكن لحالات استخدام تحويل النص إلى صوت في الرعاية الصحية والمبيعات وإنشاء المحتوى وخدمة العملاء والتطبيقات الأخرى أن تسرّع الأتمتة مع تحسين تجربة العملاء. يستكشف هذا الدليل ميزات وإمكانات تحويل النص إلى صوت وكيفية البدء في استخدامها.

ينتج برنامج تحويل النص إلى صوت أو تحويل النص إلى كلام (TTS) "صوتًا" مسموعًا عن طريق تجميع الكلام من النص. يُشغل البرنامج بواسطة محرك تحويل النص إلى كلام مدرَّب على حجم كبير من التسجيلات الصوتية البشرية. وهو يحوّل الكلمات المكتوبة إلى شكلها المنطوق من خلال تحليل أشكال الموجات الصوتية في البيانات الصوتية.

الأصوات المتينة التي تصدر عن الروبوتات هي نتيجة لتقنيات الكلام القديمة. تنتج محركات تحويل النص إلى كلام الحديثة القائمة على الذكاء الاصطناعي المولّد مخرجات لا يمكن تمييزها تقريبًا عن الكلام البشري. يمكن أن يتضمن الصوت المولّد فترات توقف طبيعية ولهجات مختلفة وسرعات مختلفة ونغمات تعكس المشاعر البشرية.

أنواع برامج تحويل النص إلى كلام

يعتمد نوع أداة تحويل النص إلى كلام التي تختارها على حالة استخدامك. بالنسبة للمطورين، تُعد الحزمة المتكاملة القابلة للتخصيص هي الخيار الأفضل لتطوير التطبيقات المتعددة والبيئات المتعددة.

يمكن للمطورين الاختيار من بين برامج تحويل النص إلى كلام مفتوحة المصدر والتجارية مع عمليات النشر المُدارة ذاتيًا، أو خدمة سحابية مُدارة متكاملة تمامًا مثل Amazon Polly. وهي تمكّن التطبيقات الحالية من دمج التحدث كميزة من الدرجة الأولى، ما يخلق الفرصة لفئات جديدة تمامًا من المنتجات التي تدعم الكلام، من تطبيقات الأجهزة المحمولة والسيارات إلى الأجهزة والمعدات.

تأتي Amazon Polly بأربعة محركات صوتية تعتمد على بنى نماذج الذكاء الاصطناعي المختلفة، وهي مناسبة لحالات الاستخدام المختلفة. لاستخدام صوت Amazon Polly، ما عليك سوى تحديد المحرك وعملية تجميع الصوت وتنسيق ملف الإخراج عبر واجهة برمجة التطبيقات في تعليماتك البرمجية. ثم عليك توفير نص الإدخال للمحرك لتركيبه. ستنشئ Amazon Polly ملف الإخراج الصوتي بالتنسيق الذي طلبته. يمكن أيضًا تدريب هذه المحركات بشكل إضافي لتلبية متطلبات الصوت أو العلامة التجارية المحددة.

ما الميزات التي يجب البحث عنها في برامج تحويل النص إلى صوت؟

تتضمن Amazon Polly ميزات تحويل النص إلى صوت التالية الضرورية لتطوير الصوت الحديث.

مجموعة متنوعة من الأصوات

إن امتلاك خيار تحديد لغات ومناطق وأجناس وأصوات مختلفة داخل المنطقة يوفر مجموعة منتجات أكثر شمولاً للتطوير. تدعم Amazon Polly عشرات اللغات، إلى جانب الاختلافات واللهجات القطرية بصيغتَي الأصوات الذكورية والأنثوية.

التكامل القائم على واجهة برمجة التطبيقات

تحقق من أن برنامج تحويل النص إلى كلام يشتمل على واجهة برمجة تطبيقات تعمل بكامل طاقتها ومتوفرة بلغات برمجة متعددة، للحصول على أوسع نطاق من عمليات الدمج على المشروعات المختلفة. توفر Amazon Polly واجهة Amazon Polly API والعديد من مجموعات تطوير البرمجيات (SDK) الخاصة باللغات. يمكن أيضًا الوصول إليها من وحدة إدارة تحكم AWS وواجهة سطر الأوامر (CLI) من AWS. إنك تتمتع بتحكم كامل على جميع إمكانات Amazon Polly، بغض النظر عن كيفية استخدامك لها.

تحكم صوتي دقيق

لغة ترميز تركيب الكلام (SSML) هي لغة ترميز تستند إلى XML تسمح لك بتقديم مزيد من المعلومات حول الطريقة التي يجب أن يبدو بها كلامك. على سبيل المثال، يمكنك تضمين وقفات الكلام والتفسير (مثل التواريخ والمختصرات) وطبقة الصوت ومعدل الصوت ومستوى الصوت والتركيز والتلاشي وعناصر الصوت الأخرى لتخصيص الصوت المولّد. تسمح لك SSML بالتحكم الكامل في مخرجات الصوت ونقل التخصيص إلى أنظمة أخرى.  

تدعم Amazon Polly كلاً من علامات Amazon SSML الشائعة والمخصصة، مثل القدرة على إصدار صوت مثل مذيع الأخبار. تساعدك هذه المرونة في إنشاء كلام واقعي يجذب انتباه الجمهور ويحتفظ به.

روابط بيانات تعريف للرسوم المتحركة المتزامنة

تتطلب بعض التطبيقات، مثل الألعاب والوسائط، رسومًا متحركة بأحرف تتتبع الصوت، بما في ذلك حركات الفم أو متابعة الكلمات بأسلوب الكاريوكي. ستستفيد مقاطع الفيديو التدريبية متعددة اللغات أيضًا من التوقيت المتزامن بلغات متعددة، بحيث يتماشى الصوت مع الفيديو في الوقت نفسه لجميع اللغات.

بالنسبة لمثل هذه الأنواع من التطبيقات، يحتاج المطورون إلى بيانات تعريف لتحديد عناصر الكلام التي تحدث في وقت معين بتنسيق مختوم بالوقت. تسمح لك Amazon Polly بطلب مثل بيانات التعريف الإضافية هذه، أو علامات الكلام، إلى جانب ملفك الصوتي. توفر علامات الكلام معلومات مثل الطابع الزمني للملف الصوتي، والأشكال البصرية (مواضع الوجه والفم عند التحدث بكلمة)، والتفاصيل الأخرى التي تربط النص المكتوب بملف الإخراج الصوتي.

التخصيص

تريد أن يكون برنامج تحويل النص إلى كلام قابلاً للتخصيص بالكامل لتحقيق أقصى قدر من المرونة. على سبيل المثال، يجب أن يكون ملف الإخراج الصوتي قابلاً للتخصيص لتنسيقات وتكوينات مختلفة، بما في ذلك حسب نوع الملف (على سبيل المثال) وحجم الملف وجودة البيانات. يجب أن يكون البرنامج قادرًا على التعامل مع المفردات المخصصة التي تقع خارج بيانات تدريبه.

تدعم Amazon Polly تخصيص تحويل النص إلى صوت في كل مرحلة.

المفردات

يمكنك إنشاء قاموس مخصص مع طرق نطق مخصصة لأسماء الشركات والمختصرات والكلمات الأجنبية والمصطلحات الجديدة. يمكنك طلب مخرجات بتنسيقات صوتية متعددة، مثل MP3 وWAV.

صيغة ملف الإخراج

تدعم Amazon Polly أيضًا الصوت طويل المدة، مثل قراءة المستندات، بصوت طبيعي. يمكنك إنشاء تدفقات صوتية مستمرة للاتصالات ذات النطاق الترددي المنخفض أو وقت الاستجابة المنخفض في حالات الاستخدام في الوقت الفعلي.

الصوت

نقدم أيضًا "صوت العلامة التجارية"، وهو عبارة عن تفاعل مخصص ستعمل من خلاله مع فريق Amazon Polly لتطوير صوت للاستخدام الحصري لمؤسستك. بدلاً من أن تبدو مثل التطبيقات الأخرى، يمكنك إنشاء علامة تجارية فريدة قائمة على الصوت تساعدك على التميز.

كيف يمكنك بدء استخدام برامج تحويل النص إلى صوت؟

يُعد بدء استخدام برامج AWS لتحويل النص إلى صوت أمرًا سهلاً. في هذا الدليل، نقدم عرضًا توضيحيًا سريعًا لخدمة Amazon Polly في وحدة التحكم.

أولاً، سجّل الدخول إلى وحدة إدارة تحكم AWS وافتح وحدة التحكم Amazon Polly. اضغط على Try Polly للبدء. سيُظهر ذلك مربع حوار "تحويل النص إلى كلام".

الخطوة 1 - تحديد محرك

في مربع حوار "تحويل النص إلى كلام"، يمكنك تحديد محرك الصوت الذي تريد استخدامه. تتوفر لدى Amazon Polly حاليًا أربعة محركات صوتية مختلفة للاختيار من بينها.

  • يستخدم المحرك القياسي (Standard) طريقة التركيب المتسلسل كمولّد صوت.
  • يستخدم المحرك العصبوني (Neural) الشبكة العصبونية وطريقة الترميز الصوتي لإنتاج المزيد من الكلام الطبيعي.
  • يستخدم المحرك المولّد (Generative) نموذجًا يحوي مليارات المعلمات المدرَّبة على مجموعة كبيرة ومتنوعة من البيانات الصوتية لإنتاج كلام طبيعي بشكل أفضل.
  • محرك النصوص الطويلة (Long-form) هو محرك آخر من محركات الذكاء الاصطناعي لتحويل النص إلى كلام، وقد طُور للكلام الطويل بأسلوب السرد.

لا تتوفر كل هذه المحركات في كل مناطق AWS.

الخطوة 2 - اختيار لغة

بمجرد اختيار محرك صوت، اختر اللغة التي ترغب في إنشائها وصوت ذكر أو أنثى من القوائم المنسدلة.

يدعم كل محرك صوتي مجموعة مختلفة من اللغات والأصوات القائمة على الذكاء الاصطناعي. على سبيل المثال، إذا حددت المحرك العصبوني، فلن تتوفر سوى اللغات والأصوات التي تدعم تحويل النص العصبوني إلى كلام (NTTS)، وستتعطل كل أصوات المحرك القياسي ومحرك النصوص الطويلة.

الخطوة 3 - تحويل النص إلى كلام

في مربع نص "الإدخال"، غيّر النص الافتراضي إلى إدخال نصك المكتوب. يمكنك اختيار زر "الاستماع" لسماع الإخراج الذي يُقرأ بصوت عالٍ، أو زر "تنزيل" لتنزيل ملف MP3، أو زر "حفظ إلى S3" لحفظ الكلمات المنطوقة في Amazon Simple Storage Service.

الوصول إلى Amazon Polly عبر واجهة برمجة التطبيقات

يمكنك الوصول إلى Amazon Polly من خلال وحدة التحكم، على النحو الوارد أعلاه، أو عبر واجهة برمجة التطبيقات (API) الخاصة بها ضمن تعليمات التطبيق البرمجية. تتيح لك Amazon Polly API القيام بالعديد من الأشياء، بدءًا من الترجمة في الوقت الفعلي إلى إنشاء ترجمات وإضفاء الحياة على ألعاب الفيديو أو شخصيات الرسوم المتحركة الأخرى. جرِّب بعض العينات على GitHub للحصول على أمثلة حول كيفية استخدام Amazon Polly API في التعليمات البرمجية.

كيف يمكن أن تدعم AWS احتياجات برامج تحويل النص إلى صوت؟

يتيح لك تحويل النص إلى صوت إنشاء صوت قائم على الصوت عبر النص بدلاً من الكلام البشري. استُخدمت هذه التقنية في البداية لمساعدة الأشخاص الذين يعانون إعاقات بصرية، ولكنها أصبحت الآن مطلبًا في العديد من التطبيقات وتفاعلات العملاء، بدءًا من ملحقات المتصفح إلى مراكز الاتصال وتطبيقات المؤسسات. باستخدام خدمة مُدارة مثل Amazon Polly، يمكن للمطورين بسهولة دمج محرك أصوات بشرية حديثة في التطبيقات عبر استدعاءات API لتحويل النص إلى كلام. يعتمد تسعير Amazon Polly على المحرك وعدد الأحرف المعالَجة، ويتضمن فئة مجانية للاستخدام الشخصي.

يُعد الصوت المنطوق من Amazon Polly مجرد واحدة من خدمات الذكاء الاصطناعي المولّد التي يمكنك الاستفادة منها في تطوير التطبيقات. ألقِ نظرة على مجموعة حلول الذكاء الاصطناعي على AWS التي تمكِّنك من إنشاء التطبيقات وتوسيع نطاقها بشكل أسرع وأقوى.