この AWS ソリューション実装では、どのようなことが可能ですか?
このソリューションは、ライブストリーミングの動画コンテンツの多言語字幕を自動的に生成します。
このソリューションでは、文字起こしと翻訳に機械学習 (ML) サービスを使用することで、速記者を必要とせずに字幕プロセスを自動化できます。これにより、1 つの入力言語で最大 5 つの翻訳済みのキャプション言語が利用できます。速記者と同様に、字幕は音声からわずかに時間的にずれます。このソリューションでは、ブロードキャストグレードのアプリケーションに対して追加のカスタマイズまたは人間による監視が必要になることがあります。
AWS ソリューション実装の概要
AWS はライブストリーミング動画コンテンツのためのリアルタイム字幕生成ソリューションを提供します。このソリューションでは、Amazon Transcribe、Amazon Translate、AWS Lambda を組み合わせ、ライブストリーミング動画向けに多言語で字幕を自動生成するサーバーレスアーキテクチャを構築します。下の図は、ソリューションの実装ガイドと付属の AWS CloudFormation テンプレートを使用して、自動的にデプロイできるアーキテクチャを表しています。

多言語対応自動字幕トラックのアーキテクチャ
ソリューションの AWS CloudFormation テンプレートは、以下の追加のサービスを利用して AWS ライブストリーミングをデプロイします。
- AWS Elemental MediaLive
- AWS Elemental MediaPackage
- Amazon CloudFront
- Amazon CloudWatch Events
- Amazon Simple Notification Service (Amazon SNS)
- Amazon Simple Storage Service (Amazon S3)
- Amazon Transcribe
- Amazon Elastic Container Service (Amazon ECS)
- Amazon Translate
- AWS Lambda
WebVTT の字幕を AWS Elemental MediaPackage に取り込むために、Amazon CloudFront の Lambda@Edge 関数を用いて、AWS Elemental MediaLive から AWS Elemental MediaPackage に送信される HLS ストリームに字幕を挿入します。Amazon MediaLive は、HLS を Amazon CloudFront エンドポイントに出力します。このエンドポイントは、動画ファイルとマニフェストを通過し、AWS Elemental MediaLive から AWS Elemental MediaPackage に渡される WebVTT 字幕ファイルに対してのみ Lambda@Edge 関数を呼び出します。字幕は、WebVTT ファイルに挿入されてから、Amazon MediaPackage に渡されます。
AWS Elemental MediaLive は、音声のみの User Datagram Protocol (UDP) ストリームを Amazon ECS コンテナに出力します。このコンテナは、音声を Amazon Transcribe Streaming に送信します。Amazon Transcribe Streaming は、ストリームに含まれるテキストを非同期応答として受信し、各テキスト応答を Amazon DynamoDB テーブルに書き込みます。この Amazon ECS コンテナは、Amazon SNS 通知を Amazon Translate Lambda 関数にも送信します。この関数は、同じ Amazon DynamoDB テーブルに書き込まれる翻訳済みの字幕を作成します。
各 WebVTT ファイルは Lambda@Edge 関数を呼び出します。この関数は字幕を挿入してから、MediaPackage に送信します。MediaLive は認証ヘッダーを提供します。
多言語対応自動字幕トラック
バージョン 2.0.0
最終更新日: 2020 年 12 月
作成者: AWS
見積りデプロイ時間: 20 分