亚马逊AWS官方博客

AWS Media Services 和 SyncWords 让多语种自动字幕和音频配音在直播活动中成为可能

本文由 SyncWords 商业发展与战略部副总裁 Giovanni Galvez 合著。

引言

对业界而言,为直播活动添加实时字幕并不是什么新鲜事。在采用专用硬件编码器嵌入字幕为视频源添加字幕方面,我们已经形成了多套成熟的作业流程。这些作业流程可能会给直播活动的工作流程带来挑战,我们将就此在本文中作进一步的详细说明。

为直播活动嵌入隐藏式字幕的常用方法包括在 EIA-608 和 EIA-708 标准中嵌入字幕。或使用 RTMP onCaptionInfo 嵌入 base-64 编码的 608/708 字幕数据。

上述方法的挑战在于,必须先嵌入字幕,方可处理直播活动进行处理和分发。这通常需要本地单通道字幕编码器设备,作为直播活动实时工作流程的一部分;由于活动可能另需自动生成字幕或直播速录师,因此,还需要额外协调和规划。

另一个挑战在于,608/708 嵌入式字幕无法支持两种以上的语言,尤其是非 608 支持的七种语言。您可能会主张,708 协议在本机能够支持多语种。从协议的角度来看确实如此,但实际上,708 在端到端系统中并未得到更广泛的支持,因此,真正实现 708 完全支持的情况十分少见。这就意味着,如果需要流式传输三种或以上支持 Unicode 字符集的语言(如:中文、日文和韩文),传统的 608/708 编码方法行不通。

随着 2009 年苹果公司推出 HTTP Live Streaming (HLS),Over The Top (OTT) 流媒体广受欢迎,我们可以通过 sidecar 字幕(如:Web Video Text Tracks (WebVTT) 格式)提供多语种隐藏式字幕。

使用 SyncWords 提供实时字幕

这篇博文介绍了一种解决方案,可消除使用嵌入式字幕所带来的挑战。在视频处理和打包工作流程与云端视频软件公司 SyncWords AI 工具之间进行简单的 API 集成,即可轻松启用隐藏式字幕、字幕翻译和 AI 配音选项,无需中断现有的实时视频工作流程。SyncWords 可创建辅助主清单,其中不仅会包含字幕信息,同时又会完整保留原始主清单,提供可靠的备份选项。

SyncWords 提供了使用 AI 添加直播流实时字幕、进行实时翻译的平台。其目标在于推动产品创新和简单集成,从而帮助客户为直播活动提供准确、可靠、实时的多语种字幕和配音服务。

以下是使用 AWS Elemental Media Services 在 AWS 上运行的典型直播活动实时流工作流程。SyncWords 可摄取您的直播活动播放列表,而无需更改现有工作流程。使用 SyncWords Live AI Captioning 服务,可将修改后的带字幕直播播放列表写入您的原始播放列表,例如 AWS Elemental MediaPackage 或 Amazon S3 存储桶。您可以通过 SyncWords 成功向观众提供带字幕和/或音频配音的新播放列表,并提供同步多语种字幕。

强化直播流字幕和同步翻译

在直播活动字幕的制作中,屏幕上的对话和字幕显示之间通常会有 3-4 秒的延迟。出现这种延迟是因为专用硬件需要在每句话说完之后才会生成字幕文本。为应对这一挑战,SyncWords 开发了一种解决方案,可令字幕、需要翻译的语音与直播流实现同步。

SyncWords 可利用 HTTP Live Stream (HLS) 的延迟,计算出字幕和译文的精确时间,同步显示给观众。该同步操作可确保正在观看 OTT 直播节目的无限观众获得最佳的用户体验。这种创新方法将字幕和译文无缝集成到直播流中,消除了明显的延迟,提升了整体观看体验。

通过实时同步,SyncWords 可让观众即时看到准确、同步的字幕和译文。这不仅有利于依靠字幕实现无障碍观看的个人,而且还能提高所有观众的整体参与度和理解力。AWS Elemental Media Services 和 SyncWords 之间的 HLS 解决方案消除了因字幕延迟而造成的困扰与不便,确保直播活动提供无缝、包容的观看体验。

此工作流程的优势如下:

  • 无需更改当前的直播活动渠道
  • 不会中断您的直播活动管渠道,而增添通过单独路径启用多语种字幕的附加选项
  • 您可以构建冗余播放列表,其中主播放列表包含生成的字幕,而您的原始播放列表则作为辅助播放列表,从而提高直播活动的可靠性
  • 无需配置复杂的解决方案,即可为您的直播活动添加多语种隐藏式字幕
  • 将字幕作为服务使用,避免维护复杂的字幕相关工作流程
  • 通过简单集成的方式,为您的直播活动工作流程添加同步的多语种字幕
  • 除实时字幕外,还可为您的工作流程生成实时、已翻译的配音效果
  • 无需直播字幕专用硬件,即可将字幕扩展到无限的直播节目频道,成本效益高

行动号召

如需进一步了解如何使用 AWS 创建直播活动管道,请参阅我们在 AWS 上提供的直播流解决方案页面。此外,如果您有意向开始使用 AWS Elemental Media Services,请访问产品页面。有关直播活动字幕解决方案和集成文档,请访问 SyncWords


Original URL: https://aws.amazon.com/id/blogs/media/multi-language-automatic-captions-and-audio-dubbing-made-possible-for-live-events-with-aws-media-services-and-syncwords/

Chris Zhang

Chris Zhang 是 AWS Elemental 的解决方案架构师。