Amazon Transcribe

自動音声認識

Amazon Transcribe は、音声をテキストに変換する機能を開発者がアプリケーションに簡単に追加できるようにする、自動音声認識 (ASR) サービスです。Amazon Transcribe API を使用して、Amazon S3 に保存されたオーディオファイルを分析して、音声を文字起こししたテキストファイルを返すようにできます。

Amazon Transcribe は、カスタマーサポートへの通話の文字起こし、音声/動画コンテンツの字幕生成など、多くの主要アプリケーションで使用できます。一般的な WAV や MP3 などの形式で保存されているオーディオファイルの文字起こしができ、すべての単語についてタイムスタンプが付加されるので、テキストを探すことでオリジナルソース音声の頭出しが簡単にできます。Amazon Transcribe では、言語の進化に対応するため、継続的に学習し、改善を行っています。

AWS re:Invent 2017 Amazon Transcribe の紹介

主な特徴

読みやすい文字起こし

ほとんどの音声認識システムが出力する文字列には句読点がありません。Amazon Transcribe では、深層学習技術が用いられており、句読点の追加や整形が自動的に行われるため、出力は読みやすく、改めて編集する必要がありません。

テレフォニーオーディオのサポート

一般的に、電話の録音品質は低いものです。Amazon Transcribe はテレフォニー品質の音声を扱う際に高い精度を発揮するよう特別に設計されており、カスタマーサポートへの通話の文字起こしなどのユースケースに適しています。 

複数の言語

Amazon Transcribe では米国英語とスペイン語の音声を自動的に文字起こしできます。他の言語についても、間もなくサポートを開始する予定です。    

 

シンプルで使いやすい API

Amazon Transcribe API を使って音声を簡単にテキストに変換できます。複雑なプログラミングは必要ありません。たった数行のコードを使って API をコールするだけで、Amazon S3 に保存されているオーディオファイルから、Transcribe 経由でテキストを取得できます。

カスタム語彙のサポート (今後提供予定)

Amazon Transcribe では音声認識語彙の拡張とカスタマイズを行うことができます。特殊な用語や専門用語、固有の製品名が発話に含まれている場合でも、ベース語彙に新規単語 (発音も含む) を追加することで、特定のユースケースに合った高精度な文字起こしテキストを生成できます。この機能により、作業の無駄がなくなるので、時間を節約し、追加編集の手間が省けます。

タイムスタンプ生成

Amazon Transcribe では、すべての単語にタイムスタンプが付加されるので、テキストを探すことでオリジナル録音音声の頭出しを簡単に行うことができます。

 

複数話者の認識 (今後提供予定)

Amazon Transcribe では話者の変更を認識して、文字起こしテキストに適切な属性を設定できます。これにより、電話、インタビュー、テレビ番組などの複数話者による音声を文字起こしするのに必要となる作業量を大幅に減らすことができます。

ユースケース

Amazon Transcribe では、カスタマーサービス、字幕付与、検索、コンプライアンスなどの幅広いユースケースで文字起こしを利用できます。

カスタマーサービスの向上

音声入力をテキストに変換できるので、Amazon Transcribe を使って、音声入力を検索したり分析したりするテキスト分析アプリケーションを構築できます。カスタマーサポートセンターでは、Amazon Transcribe を使用して音声ベース対話の文字起こしを行い、さらに Amazon Comprehend のような AWS の他のサービスを使用して対話の意味や意図を抽出して、深い分析を行うことができます。

キャプション/サブタイトルワークフロー

Amazon Transcribe を使用して、動画コンテンツに表示するタイムスタンプ付きの字幕を自動生成することによって、コンテンツ生成/メディア配信業者がより訴求力のあるコンテンツを発信できるようになります。

音声アーカイブのカタログ化

このサービスを使って、音声ファイルや動画ファイルの文字起こしを行い、コンプライアンスモニタリングやリスク管理に利用できる完全検索可能なアーカイブを構築できます。お客様は Amazon Transcribe を使用して音声をテキストに変換し、Amazon ElasticSearch を使用してインデックスを作成し、音声/動画ライブラリに対してテキストベースの検索を実行できます。

お客様事例

RingDNA はエンタープライズ販売促進エンジンおよび音声コミュニケーションプラットフォームです。社内営業チームは RingDNA を使用して生産性を劇的に向上させ、営業トークをよりスマートに洗練させ、予測可能なセールスインサイトを獲得し、これまで以上に速く成功へ導くために担当者を訓練しています。 

「RingDNA は営業チームのためのエンドツーエンドのコミュニケーションプラットフォームです。幾百ものエンタープライズ企業が RingDNA を使用して生産性を劇的に向上させ、営業トークをよりスマートに洗練させ、予測可能なセールスインサイトを獲得し、営業成績を向上させ、これまで以上に速く成功へ導くために担当者を訓練しています。RingDNA の対話 AI の重要コンポーネントには、すべての通話の文字起こしを配信するために音声をテキストに変換する良質の変換エンジンが必要です。Amazon Transcribe で高品質な音声認識を大規模に利用でき、良い品質ですべての通話をテキストに文字起こしできることに、RingDNA はとても期待を寄せています」

Howard Brown 氏 – RingDNA、CEO 兼創設者

オーストラリア、シドニーに本社を置く iSentia はアジアパシフィックリージョン有数のメディアインテリジェンスプロバイダーです。同社は、世界各地の 18 のオフィスで運営されており、世界のトップ 100 のブランドのうち 84 社を含む、世界中の 5,000 人以上の顧客をサポートしています。iSentia の製品を利用して、顧客は十分な情報を得て、適切な時期にビジネスとコミュニケーションの意思決定を行っています。

「iSentia では、お客様が自身のブランドのメディアカバレッジを分析してモニタリングできるようにしています。ラジオやテレビのコンテンツから 1 日あたり 13,000 以上のサマリーを作成しています。Amazon Transcribe を使えば、当社はすべての音声/動画コンテンツを文字起こしし、そのテキストデータを Amazon Clair を使ってモニタリングし、分析できます。タイムスタンプや句読点付加などの機能のおかげで、データを検索して掘り下げ、主要なインサイトを当社のお客様にプレゼンテーションすることがとても簡単にできます」

Andrea Walsh 氏 – iSentia、CIO

Amazon Transcribe 料金の詳細

料金ページを見る
始める準備はできましたか?
プレビューにサインアップ
ご不明な点がおありですか?
お問い合わせ