انتقل إلى المحتوى الرئيسي

ما المقصود بنسخ الملفات الصوتية؟

ما المقصود بتفريغ الملفات الصوتية؟

تتطلب المؤسسات عمليات تفريغ صوتي على نطاق واسع لحالات الاستخدام المختلفة، تتراوح من ملاحظات الاجتماعات المنظمة إلى تطبيقات الرعاية الصحية. يمكن لتقنيات الذكاء الاصطناعي الحديثة تحويل الصوت إلى نص وتحويل اللهجات والمحادثات المختلفة بين المتحدثين المتعددين إلى مستندات دقيقة ومنسقة. يستكشف هذا الدليل طرق تفريغ الصوت إلى نص لتلبية احتياجات المؤسسات والشركات الصغيرة.

يُعد التواصل القائم على الكلام أمرًا بالغ الأهمية للبشر كي يفهم بعضهم بعضًا تمام الفهم. الصوت طريقة سريعة في الوقت المناسب لتوصيل الأفكار والمعلومات والتعليمات والعواطف. أصبح تسجيل الاتصالات الصوتية وتفريغها نصيًا عبر محولات الصوت إلى نص أمرًا ضروريًا للتذكر والدقة والمزيد من العمل. عند تفريغ الصوت إلى نص، يمكن الاحتفاظ بالمعلومات المهمة والبحث عنها وتحليلها وإعادة مزجها للحصول على رؤى أسرع ودمج فوري في عمليات الأعمال.

في الماضي، كان الشخص يستمع إلى تسجيل صوتي واحد ويكتب محتواه في الوقت نفسه، ويحوِّل الكلمات المنطوقة عن طريق التوقف والبدء من أجل إنتاج نص تفريغ صوتي دقيق. كان لدى مكاتب المحاماة والأطباء والباحثين والمكاتب المهنية الأخرى مجموعات من الناسخين لأداء هذا الدور اليدوي في تفريغ الملاحظات الصوتية إلى نص.

الآن، يمكن للآلات تفريغ الصوت على الفور عبر محوِّل الصوت إلى نص. بدلًا من الجهد البشري في أعمال التفريغ الصوتي، تحوِّل تقنية تحويل الكلام إلى نص (STT) الملفات الصوتية إلى ملفات نصية مكتوبة. يمكن قراءة هذا الملف النصي المكتوب كما هو، وتلخيصه باستخدام أداة تفريغ صوتي بالذكاء الاصطناعي، والعمل تلقائيًا داخل أنظمة البرامج الأخرى، وتحليله بمعزل أو كجزء من مجموعة أوسع، وأكثر من ذلك بكثير. تطبيقات محولات الصوت إلى نص لا حدود لها.

ما المقصود بتقنيات نسخ الملفات الصوتية؟

قد تحتوي الملفات الصوتية على العديد من المتحدثين واللهجات والكلمات الخاصة بالمجال. يمكن أن تختلف التسجيلات الصوتية أيضًا في جودة الصوت. يتطلب تحويل الكلمات المنطوقة إلى نص فهم اللغة الصوتية وبناء الجملة والمعرفة النحوية لإنتاج مخرجات قابلة للقراءة.

كانت برامج تحويل الصوت إلى نص القديمة ترتكب أخطاء وتنتج نصوصًا صعبة القراءة، من دون بنية مناسبة، ومع أخطاء في الترتيب، والكلمات، والقواعد النحوية. تؤدي برامج تحويل الصوت إلى نص الحديثة أداءً أفضل بكثير، إذ تحوِّل الصوت إلى نص يتطابق تطابقًا وثيقًا مع الكلمة المنطوقة، من خلال نصوص دقيقة تتميز بالبنية المكتوبة والقواعد النحوية الصحيحة.

Amazon Transcribe هي خدمة مُدارة بالكامل تحوِّل الكلام إلى نص باستخدام تقنية التعرُّف التلقائي على الكلام (ASR). ويمكنها التعامل مع خصائص الكلام المختلفة، بما في ذلك الاختلافات في معدل التحدث وطبقة الصوت ومستوى الصوت. ويمكن لهذه الخدمة أن تنسخ أكثر من 100 لغة، والتكامل مع سير عمل المطورين وبنية AWS التحتية لتلبية متطلبات تحويل الصوت إلى نص في المؤسسة.

كيف تبدأ في التفريغ الصوتي؟

توجد طريقتان رئيستان لتفريغ الصوت إلى نص، استنادًا إلى نوع ملف الصوت أو الفيديو. يُستخدم التفريغ الصوتي المجمَّع لتفريغ الملفات الصوتية المسجلة مسبقًا، ويُستخدم التفريغ الصوتي البثي للتفريغ الصوتي للبثوث المباشرة للوسائط.

تدعم Amazon Transcribe الصوت الأحادي القناة والثنائي القناة لكلا نوعي التفريغ المجمَّع والبثي للصوت والفيديو.

مخرجات كلا نوعَي التفريغ المجمَّع والبثي للصوت إلى نص تكون بتنسيق ملف JSON. تعتمد الحقول المتوفرة في الإخراج على الميزات التي تضمِّنها في نص التفريغ الصوتي عند تحويل الصوت. كحد أدنى، يحتوي نص التفريغ الصوتي على كل كلمة مُعطاة مع وقت بدايتها وانتهائها ونوعها وتطابقها مع عامل تصفية المفردات ودرجة الثقة للتحقق. تشمل الحقول الأخرى تسميات المتحدثين والكلمات البديلة والقنوات وغيرها.

التفريغ الصوتي البثي

يُستخدم التفريغ الصوتي البثي لإجراء تفريغ نصي للبثوث الصوتية في الوقت الفعلي. تدعم خدمة التفريغ الصوتي البثي من Amazon Transcribe تنسيقَي الصوت FLAC وPCM بترميز signed 16-bit little-endian (وليس WAV) باعتبارهما التنسيقين المفضلين، بالإضافة إلى Ogg Opus. عيِّن معدل العينة الذي يطابق الملف الصوتي لتجنب أخطاء تحويل الصوت إلى نص.

يمكنك استخدام وحدة إدارة تحكم AWS وHTTP/2 وWebSockets والعديد منمجموعات تطوير برمجيات AWS لعمليات التفريغ الصوتي البثي، اعتمادًا على الطريقة التي تريد بها استخدام أداة التفريغ الصوتي.

فيما يلي شرح تفصيلي للتفريغ الصوتي البثي باستخدام وحدة إدارة تحكم AWS.

  1. حدد التفريغ الصوتي في الوقت الفعلي في لوحة التنقل اليمنى.
  2. حدد خيارات مثل اللغة وتحديد المتحدث وإزالة المحتوى والتخصيصات قبل بدء التدفق.
  3. اضغط على زر بدء التفريغ الصوتي للتسجيل مباشرةً في الوقت الفعلي وعرض الإخراج الذي سيبدأ التفريغ الصوتي في مربع إخراج التفريغ الصوتي أدناه.

بمجرد اكتمال تحويل التسجيل الصوتي، يمكنك الضغط على زر تنزيل النص الكامل لتنزيل ملف التفريغ الصوتي بتنسيق JSON مجانًا.

التفريغ الصوتي المجمَّع للملفات

يُستخدم التفريغ الصوتي المجمَّع لإجراء تفريغ صوتي لملف واحد أو أكثر من ملفات الوسائط الموجودة المخزنة في حاوية Amazon S3 السحابية. باستخدام خدمة النسخ المجمَّع، يمكنك تحميل ما يصل إلى 10000 مهمة من مهام الملفات الصوتية في قائمة الانتظار للمعالجة حسب ترتيب الإدخال. يمكن معالجة مهام التسجيل الصوتي بشكل متزامن، وتحويل الملفات الصوتية مرة واحدة، اعتمادًا على اشتراكك.

يدعم التفريغ الصوتي المجمَّع FLAC وWAV (مع ترميز PCM‏ 16 بت) باعتبارهما التنسيقين المفضلين. ومع ذلك، تُدعم أيضًا التنسيقات الأخرى مثل AMR وM4A وMP3 وMP4 وOgg وWebM. تأكد من تعيين معدل العينة الذي يطابق الملف الصوتي لتجنب أخطاء تحويل الصوت إلى نص.

يمكنك استخدام AWS CLI، ووحدة إدارة تحكم AWS، و مجموعات تطوير برمجيات متنوعة من AWS لتحويل الصوت إلى نص باستخدام عملية التفريغ الصوتي المجمَّع.

فيما يلي شرح تفصيلي للتفريغ الصوتي المجمَّع باستخدام وحدة إدارة تحكم AWS.

  1. حمِّل ملف الوسائط الذي تريد تفريغه صوتيًا إلى حاوية Amazon S3.
  2. حدد مهام التفريغ الصوتي في لوحة التنقل اليمنى. ينقلك هذا الإجراء إلى قائمة مهام التفريغ الصوتي.
  3. حدد إنشاء مهمة واملأ الحقول في صفحة حدد تفاصيل المهمة.
  4. بمجرد تكوين المهمة، اضغط على زر إنشاء مهمة للبدء.
  5. ارجع إلى صفحة مهام التفريغ الصوتي، حيث يمكنك رؤية حالة مهمتك.
  6. حدد مسار الملف المرتبط في العمود الأيمن ضمن موقع بيانات الإخراج لعرض ملف التفريغ الصوتي بتنسيق JSON.

ملاحظة: إذا اخترت حاوية مُدارة بالخدمة للإخراج، يمكنك رؤية لوحة معاينة التفريغ الصوتي في صفحة المعلومات الخاصة بمهمة التفريغ الصوتي، بالإضافة إلى زر "تنزيل" لملف تحويل الصوت إلى نص بتنسيق JSON.

أكمل الصفحات التالية خلال عملية التكوين.

بيانات الإدخال

ضمن صفحة بيانات الإدخال، يكون موقع ملف الإدخال على S3 هو ملفك الصوتي في حاوية S3 الحالية، وبيانات الإخراج عبارة عن حاوية مُدارة من قِبل خدمة S3 أو حاوية S3 الخاصة بك.

تكوين المهمة

تسمح لك صفحة تكوين المهمة بتحديد التخصيصات مثل تعريف القناة وتنقيح المحتوى وتصفيته والمفردات المخصصة.

ما بعض الإمكانيات الإضافية للتفريغ الصوتي؟

تتضمن Amazon Transcribe مجموعة من الميزات الإضافية لإنشاء نصوص تفريغ صوتي أكثر فائدة وأمانًا ودقة عند تحويل ملفات الصوت أو الفيديو.

المفردات والنماذج اللغوية المخصصة

يمكن للمستخدمين إنشاء مفردات ونماذج لغوية مخصصة لالتقاط الصوت وتفريغه نصيًا بدقة باستخدام أسماء العلامات التجارية والمختصرات والكلمات التقنية للمجال ومصطلحاته. تفيد النماذج اللغوية المخصصة المؤسسات الكبيرة ذات النظم البيئية اللغوية الداخلية المزدهرة أو الصناعات التقنية العالية التخصص.

المفردات المخصصة هي ملفات أنشأها المستخدم توضح كيفية نطق كلمات معينة. على سبيل المثال، يمكن إضافة مشروع يُسمى VX02Q باعتباره مفردًا مخصصًا ينطوي على استخدام النطق V.X.-Zero-two-Q.

تسمح النماذج اللغوية المخصصة لنموذج تحويل الصوت إلى نص بإكمال تدريب إضافي على مجموعة بيانات موجودة لفهم سياق اللغة الخاصة بالمجال. على سبيل المثال، إذا درَّبت نموذجك من خلال تحميل ملفات نصية لأوراق بحثية في علوم المناخ، فقد يتعلم نموذجك أن "ice floe" هو زوج من الكلمات مرجح أكثر من "ice flow". وبالمثل، إذا كنت تشير إلى منتج باسم "Bzntry"، فإن مجموعة بيانات الملفات الصوتية التي تحتوي على إشارات متعددة لـ "bee-zen-tree" ستطابق الصوت تلقائيًا مع إخراج الكلمة.

كلٌ من التفريغ المجمَّع والبثي من صوت إلى نص يدعم المفردات المخصصة والنماذج اللغوية المخصصة.

الإشراف التلقائي

تتيح لك عامل تصفية المفردات المخصص إخفاء كلمة أو مجموعة كلمات معينة أو استبدالها أو وضع علامة عليها ("vocabularyFilterMatch": true) في مخرجات التفريغ الصوتي ذات التنسيق JSON.

أمثلة:

  • إخفاء الكلمات البذيئة بثلاث علامات نجمية (***)
  • استخدام "NewProduct" ليحل محل اسم المنتج السري قبل الإطلاق
  • حساب عدد العلامات التي تحمل علامة "um" أو "like" في نص التفريغ الصوتي لمساعدة المتحدث على صقل مهاراته في التحدث أمام الجمهور

كلٌ من التفريغ المجمَّع والبثي من صوت إلى نص يدعم عوامل تصفية المفردات.

تنقيح المعلومات المُعرّفة شخصيًا وتحديدها

يمكن تنقيح المعلومات المُعرّفة شخصيًا (PII) تلقائيًا وتمييزها بالوسوم في نصوص التفريغ من صوت إلى نص. يُعد هذا أمرًا مهمًا لتخزين المعلومات الحساسة في الشركات، إذ يمكن أن تخضع المعلومات المُعرّفة شخصيًا لقوانين السرية الصارمة.

أنواع المعلومات المُعرّفة شخصيًا المضمنة في Amazon Transcribe هي الأسماء والعناوين وعناوين البريد الإلكتروني وأرقام الهواتف وتفاصيل الأرقام المصرفية وأرقام التعريف الشخصي وأرقام الضمان الاجتماعي. تُستبدل الكلمة في الملف الذي بتنسيق JSON بـ [PII] في النص الرئيس لنسخة التفريغ الصوتي بواسطة محوِّل الصوت إلى نص، وتُحصى وتُصنف حسب النوع في حقل JSON "التنقيحات".

ترجمة الشاشة

تسمح Amazon Transcribe للمستخدمين بإنشاء ملفات ترجمة WebVTT (*.vtt) وSubRip (*.srt) للاقتران مع مقاطع الفيديو، جنبًا إلى جنب مع ملف الإخراج العادي بتنسيق JSON. تُعرض الترجمة في الوقت نفسه الذي يُنطق فيه النص في ملف الصوت أو الفيديو، وتظل مرئية حتى يكون هناك توقف طبيعي في الصوت أو ينتهي المتحدث من الكلام.

كشف الصوتيات المسيئة

يمكن استخدام Amazon Transcribe لتحديد اللغة المسيئة وتصنيفها. تُوضع علامة على المحتوى المسيء ويُصنف ضِمن سبع فئات، من بينها التحرش الجنسي، والخطاب الذي يحض على الكراهية، والتهديد، والإساءة، والألفاظ النابية، والإهانة، والمحتوى الصارخ. تستخدم Amazon Transcribe تقنيات تحديد متقدمة، بما في ذلك النغمة وطبقة الصوت، لتقديم سياق إضافي للمحادثات.

تحليلات المكالمات

تقدم Amazon Transcribe واجهة برمجة تطبيقات (API) خاصة لخدمة العملاء ومكالمات المبيعات. ويمكنك استخدامها للحصول على رؤى حول مشاعر العملاء والوكلاء، ومحركات المكالمات، وإشارات العبارات، ووقت عدم التحدث، والمقاطعات، وسرعة التحدث، واكتشاف المشكلات في الوقت الفعلي، وتلخيص المحادثة. يمكن أن تجري خدمة Amazon Transcribe أيضًا تنقيح التسجيل الصوتي لما بعد المكالمة، واستبدال المعلومات المُعرّفة شخصيًا (PII) بالصمت للمكالمات المخزَّنة.

التفريغ الصوتي للمحتوى الطبي

تقدم خدمة Amazon Transcribe واجهات برمجة تطبيقات متوافقة مع قانون قابلية نقل التأمين الصحي والمساءلة (HIPAA) توفر نصوص تفريغ من صوت إلى نص باللغة الطبية من الملفات الصوتية مع إعطاء الأولوية لخصوصية بيانات المريض وأمانها. وهي مفيدة في التفاعلات بين الطبيب والمريض، إذ يستغرق تدوين الملاحظات وقتًا طويلاً ويشتت الانتباه ويؤدي إلى اضطراب.

كيف يمكن أن تدعم AWS احتياجاتك من النسخ الصوتي؟

من خلال نسخ الصوت إلى نص يتحول الصوت من وسيلة تواصل لحظية إلى مصدر بيانات مخزّن وقابل للبحث والتحليل وذي قيمة عالية. تجد المؤسسات التي تستخدم تقنية التعرُّف على الكلام لنسخ الصوت فوائد كبيرة في الإنتاجية والتدريب وخدمة العملاء والمبيعات وغيرها.

إن تضمين محوّل الصوت إلى نص Amazon Transcribe داخل مؤسستك يضمن الاحتفاظ بقيمة التسجيلات الصوتية ومضاعفة تطبيقاتها المفيدة. ألقِ نظرة على مجموعة حلول الذكاء الاصطناعي على AWS التي تمكِّنك من إنشاء التطبيقات وتوسيع نطاقها بشكل أسرع وأقوى.