Amazon Web Services ブログ

Amazon Transcribe でリアルタイムの文字起こしがサポート可能になりました

Amazon Transcribe は、開発者が speech-to-text 機能をアプリケーションに追加することを容易にする自動音声認識サービス (ASR) です。AWS より、ユーザーがライブオーディオストリームを AWS のサービスに渡し、文字に起こされたテキストをリアルタイムで受け取ることを可能にするストリーミングトランスクリプションと呼ばれる新機能が発表されました。

リアルタイムの文字起こしは、コンタクトセンター、メディアとエンターテイメント、法廷での記録管理、財務、および保険など、様々な垂直市場におけるユースケースにメリットを提供します。例えば、コンタクトセンターはリアルタイムの文字起こしでキーワードを検知し、自動的にスーパーバイザーを呼び出すなどのダウンストリームアクションをトリガーできます。メディアでは、ライブ字幕を付けることがニュースまたは番組の生放送に役立ちます。ビデオゲーム企業は、ストリーミングトランスクリプションを使用してゲーム内でのチャットのアクセシビリティ要件を満たし、聴力障害があるプレーヤーを支援できます。法律分野では、法廷でリアルタイムの文字起こしを活用して速記を行うことができる一方、弁護士も供述録取目的でライブのトランスクリプトに法律上の注釈を付けることができます。ビジネスの生産性において、企業は臨機応変に会議のメモを取るためにリアルタイムの文字起こしを活用できます。

ストリーミングトランスクリプションは、お使いのアプリケーションと Amazon Transcribe サービスの間のストリーミングオーディオとトランスクリプトを処理するために HTTP 2 の双方向ストリーム実装を活用します。双方向ストリームは、アプリケーションがデータの送信および受信を同時に処理することを可能にするため、より迅速で反応性の高い結果を得ることができます。

私たちは、独自のアプリケーション内で AWS SDK を使用してストリーミングトランスクリプションを利用する方法を実演するために、アプリケーションの例を作成しました。このアプリケーションは、マイクまたはオーディオファイルからの音声を Amazon Transcribe にストリーミングして、リアルタイムでトランスクリプトを受け取ることを可能にする基本的なユーザーインターフェイスを作成します。

このアプリケーションの例は、AWS の GitHub アカウント (https://github.com/aws-samples) にあります。緑色の Clone or download ボタンを選択し、Download ZIP リンクを選択することによって、アプリケーションの例をダウンロードしてください。その代わりに、Git または SVN を使用してリポジトリをデスクトップにクローンすることもできます。

Apache Maven (https://maven.apache.org/index.html) を使ってアプリケーションを構築し、その結果生成された jar を以下のコマンドで実行してください。

export AWS_ACCESS_KEY_ID=<your key id>
export AWS_SECRET_ACCESS_KEY=<your secret access key>
export AWS_REGION=<desired region endpoint to use, such as us-east-1>
mvn clean package
java -jar target/aws-transcribe-sample-application-1.0-SNAPSHOT-jar-with-dependencies.jar

You should be off and transcribing! Live!

To explore the code, start with the startTranscription method in the TranscribeStreamingClientWrapper class:

return client.startStreamTranscription(
        //Request parameters.Refer to API documentation for details.
        getRequest(sampleRate),
        //AudioEvent publisher containing "chunks" of audio data to transcribe
        requestStream,
        //Defines what to do with transcripts as they arrive from the service
        responseHandler);

オーディオストリームとレスポンスハンドラーをセットアップするために必要なコードは、すべてこのリポジトリにあります。この例は、アプリケーションの開始点として使用することをお勧めします。

文字起こしが成功しますように!


著者について

Paul Zhao は、AWS Machine Learning のシニアプロダクトマネージャーです。 Paul は Amazon Transcribe サービスを管理しており、仕事以外ではオートバイのファンで、木工細工が大好きです。

 

 

 

Paul Kohan は、Amazon Transcribe のシニアソフトウェアエンジニアです。仕事をしていないときは、犬のトビーと一緒にゆっくりする、そしてビデオゲームとボードゲームで遊ぶことを楽しんでいます。