概要

Amazon Transcribe により、AWS のお客様は音声対応アプリケーションに音声のテキスト変換機能を追加することができます。自動音声認識 (ASR) テクノロジーを使用することで、お客様は Amazon Transcribe をさまざまなビジネスアプリケーションに使用できます。このサービスが提供する機能には、自動音声認識、話者のダイアライゼーション、個人を特定できる情報 (PII) リダクション、言語識別などがあります。詳細については、ドキュメントを参照してください。この AI Service Card では、これらの機能の 1 つである Transcribe::StartTranscriptionJob API によって実装された Transcribe – Batch (英語-米国) について説明しています。この機能は、ASR を 英語 (米国) (en-US) ロケールの低帯域幅 (8kHz) または高帯域幅 (16kHz) で実行されます。静的なオーディオファイル (バッチモード) から入手できる録音された音声を処理します。ストリーミングメディアでのほぼリアルタイムの ASR については、Transcribe::StartStreamTranscription API を参照してください。

私たちは、ASR トランスクリプトの単語が、人間のリスナーによって書き起こされた音声サンプルで話された単語とどの程度一致しているかを測定することにより、Transcribe Speech の品質を評価します。話者が「This system can really recognize speech (このシステムは音声を本当に認識することができる)」と言ったとき、私たちは「This system can wreck a nice beach (このシステムはすばらしいビーチを台無しにすることができる)」ではなく、話された言葉がトランスクリプトに含まれていることを期待します。 文字起こしには、以下の 3 種類のエラーが表示される場合があります: 置換 (regnize (認識する) ではなく wreck (台無しにする) など)、挿入 (「nice (すばらしい)」などの余分な単語)、削除 (「really (本当に)」などの単語がない)。正しく文字起こしされた単語はヒットと呼ばれます。Precision、Recall、F1、単語誤り率 (WER) などの品質メトリクスは、ヒット数とエラー数によって異なります。

ASR システムの精度には、複数の要因が影響します。入力オーディオ信号は、さまざまな交絡要因によって変更された音声そのもので構成されます。個々の単語や発話は、使用する頻度、発音方法、および他の単語との組み合わせ方法において、話者ごとに異なります。綴りや意味が異なる単語でも、音に違いがない場合があります。話者同士で重なったり、割り込んだりする場合があります。録音デバイスは品質、および話者に対する位置の点で異なります (例: 遠距離場と近距離場)。録音環境は、バックグラウンドノイズのレベル、エコーの影響の受けやすさ、他の話者の存在の点で異なります。伝送線路はノイズのレベルの点で異なります。Transcribe は、異なる単語の音声を区別し、交絡する変動を無視するように設計されています。

想定されるユースケースと制限

Transcribe – Batch (英語-米国) は、自然に発生する人間の音声を含む音声サンプルでの使用を目的としています。機械的またはデジタル的に変換された音声、または合成音声用には設計されていません。米国英語の単語の文字起こしを行うことを目的としています。その他の言語ロケールについては、「サポートされている言語」を参照してください。Transcribe は、豊富な汎用ボキャブラリーをサポートしています; お客様は、専門領域の単語やフレーズを対象とするカスタムボキャブラリーカスタム言語モデルを追加できます。 Transcribe は、ダイアライゼーションとも呼ばれるスピーカーパーティショニングをサポートしています。API 呼び出しでスピーカーのパーティショニングを有効にすることで、最大 10 人の固有のスピーカーを識別できます。

Transcribe Batch (英語-米国) には、コンタクトセンター分析 (感情/分類/通話速度)、ボイスメールの文字起こし、会議のキャプション生成、メディアコンテンツ (オーディオまたはビデオ) のキャプション生成、およびメディアアーカイブのカタログ化やインデックス作成などのメディアの検索/分析/キーワード分析など、さまざまなアプリケーションがあります。これらのアプリケーションは、1/ 話者の数、2/ チャンネルあたりの話者の数 (つまり、ラップトップや携帯電話などの録音デバイスあたり)、3/ 話者が使用する音声のスタイル、4/ 録音条件 (場所や機器など)、およびその他の要因によって、設計が異なります。例えば、コンタクトセンターの文字起こしアプリケーションでは、2 人の話者が予想されます; 1 チャネルあたり 1 人の話者; 近距離録音 (話者の口をマイクに近づける); 発信者の自宅環境とコンタクトセンターのオペレーターの作業環境の両方からの大きなバックグラウンドノイズ。2 つ目の例は、教育用ビデオのクローズドキャプションの生成を行うアプリケーションです。これは、メディア分析、インデックス作成、検索への入り口です。このアプリケーションでは、複数の話者が予想されます; すべての話者で共有される 1 つのオーディオチャネル; つなぎ言葉、中断、言い淀みは少ないが、領域固有の専門用語が多い文字起こしされた音声; 低レベルのバックグラウンドノイズやその他のオーディオオクルージョン。

Transcribe - Batch (英語-米国) の設計

機械学習: Transcribe は ML と ASR テクノロジーを使用して構築されています。仕組みは次のとおりです: (1) オーディオ入力に関連する音響特性を特定します。(2) これらの特徴に基づいて、候補となる単語レベルの文字列のセットを生成します。(3) 言語モデリングを適用して候補をランク付けし、上位の文字起こしを返します。API 呼び出しの詳細については、デベロッパー用ドキュメントを参照してください。

パフォーマンスの期待: 個別の交絡する変動は、お客様のアプリケーションによって異なります。つまり、同じユースケースをサポートしていても、アプリケーションによってパフォーマンスは異なります。2 つの文字起こしアプリケーション A と B を考えてみましょう。アプリケーション A では、テレビのトークショーのビデオキャプション生成が可能で、録画チャンネルごとに複数の音声が使用でき、高品質のブームマイクがあり、バックグラウンドノイズもごくわずかです。アプリケーション B は、コンタクトセンターがお客様の通話を録音するのに役立ち、お客様がマイクの近くで話し、録音チャネルごとに 1 つの声で話し、字幕のないお客様との対話を行うようにします。A と B では入力の種類が異なるため、各アプリケーションが Transcribe を使用して完全にデプロイされていると仮定しても、エラー率は異なる可能性があります。

テスト主導の方法論: 複数のデータセットを使用してパフォーマンスを評価します。パフォーマンスの完璧な全体像を提供する単一の評価データセットは ありません。これは、評価データセットが人口動態変数的構成 (定義されたグループの数とタイプ)、交絡する変動の量 (コンテンツの質、目的への適合)、使用可能なラベルのタイプと品質、およびその他の要因によって異なるためです。Transcribe のパフォーマンスを測定するには、エンドユーザーの集団を代表するさまざまな話者からのオーディオ録音を含む評価データセットでテストします。各録音には、根拠がある文字起こしとその話者の人口動体変数的属性でラベル付けされています。データセットの全体的なパフォーマンスは、単語誤り率や F1 などのいくつかのメトリクスで表されます。F1 は、予測に含まれる正しい単語の割合 (Recall) に対して、予測された正しい単語の割合 (Precision) を均等にバランスさせたパーセンテージ値です。データセット内のグループは、人口動態変数的属性 (性別、年齢、人種など)、交絡する変数 (録音機器の種類、録音機器から各話者までの距離、後処理やバックグラウンドノイズなど)、またはその 2 つの組み合わせによって定義できます。さまざまな評価データセットは、これらの要因やその他の要因によって異なります。このため、すべてのメトリクス (全体とグループの両方) はデータセットごとに異なります。この変動を考慮して、私たちの開発プロセスでは、複数の評価データセットを使用して Transcribe のパフォーマンスを調べ、Transcribe のパフォーマンスが最も低いグループの精度を上げるための手段を取り、一連の評価データセットの改善に取り組み、その後反復処理を行います。

公平性とバイアス: 私たちの目標は、Transcribe – Batch (英語-米国) が、米国英語の話者が使用するさまざまな発音、イントネーション、語彙、文法上の特徴をうまく利用できるようにすることです。私たちは、中西部やニューヨーク市などの地域によって定義される話者コミュニティや、人種、年齢、性別などのアイデンティティの複数の側面によって定義されるコミュニティを検討しています。これを達成するために、上記の反復開発プロセスを使用します。このプロセスの一環として、さまざまな交絡要因のもとで多様な人間の話者を捉えるためのデータセットを構築します。信頼できる人口動体変数的ラベルが付けられているデータセットで定期的にテストを行っています。Transcribe は人口動態的属性全体で優れたパフォーマンスを発揮することがわかりました。一例として、年齢、祖先、性別、地域の方言 (女性+ヨーロッパ人、男性+45 歳未満など) によって定義された、65 の人口統計グループを対象とした自然な発話のデータセットでは、F1 の単語認識精度は、すべての話者グループで 92% 以上であることがわかりました。話者分割 (ダイアライゼーション) を有効にしたトランスクリプションでは、同じデータセットで、すべての話者グループでダイアライゼーションの精度が 98% 以上であることがわかりました。結果は Transcribe、お客様のワークフロー、評価データセットに依存するため、お客様自身のコンテンツで Transcribe をさらにテストすることをお勧めします。

説明しやすさ: Amazon Transcribe が音声を文字起こしすると、同じ文字起こしの異なるバージョンが作成され、各バージョンに信頼性スコアが与えられます。お客様が代替の文字起こしを有効にした場合、Amazon Transcribe は低い信頼性レベルを持つトランスクリプトの代替バージョンを返します。お客様は、オーディオ入力ごとに生成された候補となる単語やフレーズをより深く理解するために、代替の文字起こしを確認することができます。

堅牢性: 多くの個人にわたるさまざまな種類の変動を捉える大規模なトレーニングデータセットを使用するなど、さまざまな手法を用いて堅牢性を最大化しています。Transcribe ASR への理想的なオーディオ入力には、録音品質が高く、バックグラウンドノイズが少なく、室内の残響が少ないオーディオなどがあります。ただし、Transcribe は、入力が理想的な条件と異なる場合でも回復力があるようにトレーニングされており、ノイズの多い複数の話者の設定でもうまく機能します。

プライバシーとセキュリティ: Amazon Transcribe はオーディオ入力データのみを処理します。オーディオ入力は、サービスによって返される出力に含まれることはありません。入力と出力がお客様間で共有されることはありません。お客様は、AWS Organizations または当社が提供するその他のオプトアウトメカニズムを通じて、顧客コンテンツに関するトレーニングをオプトアウトできます。詳細については、AWS サービス規約のセクション 50.3 および AWS データプライバシー FAQ を参照してください。サービス固有のプライバシーとセキュリティ情報については、Transcribe FAQ のデータプライバシーセクションと Amazon Transcribe セキュリティ ドキュメントを参照してください。

透明性: ユースケースに応じて、Amazon Transcribe をワークフローに組み込んでいるお客様は、ML や ASR テクノロジーの使用をアプリケーションの影響を受けるエンドユーザーやその他の個人に開示し、エンドユーザーがワークフローを改善するためのフィードバックを提供できるようにすることが推奨されます。お客様は、ドキュメントでこの AI Service Card を参照することもできます。

ガバナンス: 私たちは、AWS AI サービスを責任ある方法で構築するための厳格な方法論を採用しています。これには、設計段階で責任ある AI を組み込むという逆算的な製品開発プロセス、責任ある AI サイエンスとデータの専任の専門家による設計コンサルティングと実装評価、日常的なテスト、お客様とのレビュー、ベストプラクティスの開発、普及、およびトレーニングが含まれます。

導入とパフォーマンスの最適化のベストプラクティス

AWS Responsible Use of Machine Learning ガイドで説明されているように、お客様は責任を持ってアプリケーションを構築し、運用することをお勧めします。これには、公平性とバイアス、堅牢性、説明可能性、プライバシーとセキュリティ、透明性、ガバナンスなどの重要な側面に対処するための責任ある AI プラクティスの実装が含まれます。
 
ワークフロー設計: Transcribe を使用するアプリケーションのパフォーマンスは、お客様のワークフローの設計によって異なります。バックグラウンドノイズ、録音機器などの条件については、想定されるユースケースセクションで説明しています。アプリケーションによっては、エンドユーザーから音声をキャプチャするワークフローを定義する Transcribe のお客様が、これらの条件を最適化する場合があります。Transcribe は、API 内での認識パフォーマンスを最適化するための機能をお客様に提供します。これらの機能には、録音条件、サンプルレート、カスタム語彙、カスタム言語モデル、語彙または個人を特定できる情報 (PII) のフィルタリングなどがあります。人間による監視、ワークフローの一貫性、パフォーマンスドリフトの定期的なテストも、お客様の管理下にある重要な考慮事項であり、正確で公正な結果につながります。
 
  1. 録音条件: ワークフローには、マイクから遠く離れて話したり、ノイズの多い条件で話すなど、録音条件での変動に対処する手順を含める必要があります。変動が大きい場合は、すべてのエンドユーザーがアクセスできるヘルプや指示を提供し、入力を定期的かつランダムにサンプリングして録音品質を監視することを検討してください。

  2. サンプルレート: お客様には、入力音声のサンプルレート (低帯域幅 (8kHz) または広帯域 (16kHz) 入力のいずれか) を指定するオプションパラメータがあります。

  3. カスタム語彙: Transcribe は、さまざまな話者コミュニティ (方言の地域、人口動態変数に基づくグループ) で使用されている語彙を認識します。お客様がブランド名や固有名詞、頭字語など、領域や状況固有の単語を追加でサポートしたい場合、お客様はカスタム語彙をデプロイしてそのような単語の文字起こしの精度を向上させることができます。詳細については、カスタム語彙のドキュメントを参照してください。

  4. カスタム言語モデル: お客様のアプリケーションが、単一の単語よりも複雑な領域固有の音声を処理する必要がある場合、お客様はカスタム言語モデルを使用して文字起こしの精度を向上させることができます。例えば、気候科学の講演の録音の文字起こしを行う場合、言葉が出てくる文脈 (「ice flow (氷の流れ)」と「ice floe (浮氷)」など) を学習することで、文字起こしの精度を高めることができる可能性があります。この場合、お客様はカスタム言語モデルをトレーニングして専門用語を認識させることができます。詳細については、カスタム言語モデルのドキュメントを参照してください。

  5. 語彙フィルタリングと PII リダクション: これらの最適化により、文字起こしで生成される言語のセキュリティとプライバシーを向上させることができます。語彙フィルタリングにより、お客様は、顧客定義のリストに基づいて、機密性の高い単語や対象者に適さない単語を文字起こしの結果から隠したり、削除したりできます。PII リダクションにより、お客様は、Transcribe – Batch (英語-米国) で識別される PII タイプに基づいて、PII が削除された文字起こしを生成できます。これらには、名前、住所、クレジットカード番号、SSN などが含まれます。PII タイプの完全なリストや、規制対象のワークロードに PII リダクションを使用する際の考慮事項などの詳細については、語彙フィルタリングPII リダクションのドキュメントを参照してください。

  6. 人間による監視: お客様のアプリケーションワークフローに、個人の権利や重要なサービスへのアクセスに影響する決定など、高いリスクまたは機密性の高いユースケースが含まれる場合は、必要に応じて人間による確認をアプリケーションワークフローに組み込むことをお勧めします。ASR システムは、完全に手動のソリューションによって生じる労力を軽減し、人間がオーディオコンテンツを迅速に確認および評価できるようにするツールとして機能します。

  7. 一貫性: お客様は、許可されているワークフローのカスタマイズやオーディオ入力の種類、および Transcribe の出力を評価するために人間がどのように自分の判断を使用するかについて、ポリシーを設定して実施する必要があります。これらのポリシーは、人口動態変数に基づくグループ全体で一貫している必要があります。オーディオ入力を一貫性なく変更すると、さまざまな人口動態変数グループに不公平な結果をもたらす可能性があります。

  8. パフォーマンスドリフト: お客様が Transcribe に送信する音声の種類が変更されたり、サービスが変更されたりすると、出力が異なる場合があります。これらの変更に対処するために、お客様は Transcribe のパフォーマンスを定期的に再テストし、必要に応じてワークフローを調整することを検討する必要があります。

さらに詳しい情報

用語集

公平性とバイアスとは、AI システムがどのようにしてユーザーのサブポピュレーション (ジェンダー別、民族別など) に影響を与えるかを指します。

説明しやすさとは、 AI システムのアウトプットを理解して評価するメカニズムを持つことを指します。

堅牢性とは、確実に AI システムが動作することを保証するメカニズムを持つことを指します。

プライバシーとセキュリティとは、データが盗難や漏洩から保護されていることを指します。

ガバナンスとは、組織内で責任ある AI プラクティスを定義、実装、実施するためのプロセスを持つことを指します。

透明性とは、利害関係者がシステムの使用について情報に基づいた選択を行えるように、AI システムに関する情報を伝えることを指します。