Amazon Transcribe は、100 以上の言語をサポートする、音声基盤モデルを利用した自動音声認識 (ASR) サービスです。Transcribe の機能を使用すると、音声入力の取り込み、読みやすくレビューしやすいトランスクリプトの生成、カスタマイズによる精度の向上、顧客のプライバシーを確保するためのコンテンツのフィルタリングが可能になります。

音声入力

Transcribe は、ライブ音声や録音された音声または動画入力を処理して、検索および分析のために高品質の文字起こしを提供するように設計されています。また、顧客の通話 (Amazon Transcribe Call Analytics) と医療に関する会話 (Amazon Transcribe Medical) を独自の方法で理解する個別の API も提供しています。

ストリーミングとバッチ文字起こし

既存の音声録音を処理したり、リアルタイム文字起こしのために音声をストリーミングしたりできます。セキュアな接続を使ってこのサービスにライブオーディオストリームを送信すると、その応答として文字に起こされたテキストのストリーミングを受信できます。

音声入力

ドメイン固有のモデル

通話やマルチメディア動画コンテンツに合わせて調整されたモデルを選択できます。例えば、Transcribe は、コンタクトセンターでよくある忠実度の低い電話音声に適応します。

言語の自動識別

Amazon Transcribe を利用すると、音声ファイル内の主要言語を自動的に識別し、トランスクリプトを生成できます。これは、メディアライブラリにさまざまな言語の音声ファイルが含まれている場合に便利です。この機能をメディアコンテンツの分類のために使用して、動画やポッドキャストで話されている主な言語が正しくラベル付けされていることを確認することもできます。

読みやすいトランスクリプト

Amazon Transcribe を利用すると、閲読、レビュー、特定のアプリケーションへの統合を簡単に行うことができる正確なトランスクリプトを生成できます。私たちは、通話記録の分析、字幕作成、コンテンツ検索などの下流のアクティビティで出力を準備できるように取り組んでいます。

句読点と数値の正規化

Amazon Transcribe では句読点や番号の形式が自動で追加されるので、わずかな時間と費用で、人の手による文字起こしに比べても遜色のない出力が仕上がります。数値は、単語ではなく数字または「標準形式」に転写されることもあります。

読みやすいトランスクリプト

タイムスタンプ生成

Amazon Transcribe では、すべての単語にタイムスタンプが付加されるので、オリジナルの録音音声で単語やフレーズを簡単に検索したり、動画に字幕を付けたりすることもできます。

複数話者を認識する

話者の交代を自動で認識してテキストに反映させ、電話、会議、テレビ番組などの会話のやりとりを高精度に読み取ります。話者の識別の詳細については、こちらをご覧ください。

チャネルの識別

コールセンターが 1 個の音声ファイルを Amazon Transcribe に送信すると、このサービスはチャネルのラベルが付いた 1 件のトランスクリプトを自動で識別および生成します。

出力をカスタマイズする

正確性は非常に重要であり、特定のビジネスニーズや言語に合わせてトランスクリプトをカスタマイズするための多くのオプションを提供します。Transcribe では、文ごとに最大 10 個の代替トランスクリプションも提供されるため、コンテンツとドメインに適用される最適なオプションをすぐに選択できます。これは、人間によるインザループ字幕作成ワークフローに役立ちます。

カスタム語彙

カスタム語彙を使用すると、基本語彙に新しい言葉を加えることができ、製品名、技術用語、個人名といった分野固有の用語やフレーズを、より高精度に文字起こしすることができます。

出力をカスタマイズする

カスタム言語モデル

必要に応じて、テキストデータのコーパスを Amazon Transcribe に送信することで、ユースケースやドメインに合わせた独自のカスタム言語モデル (CLM) を構築してトレーニングできます。CLM は、独自のデータを使用して音声認識の精度を高めるのに適した機能です。

ユーザーの安全性とプライバシー機能

顧客のプライバシーと安全を確保することは非常に重要です。必要に応じて、Transcribe を使用すると、機密性の高い単語や視聴者にとって不適切な単語を文字起こし結果からマスクしたり削除したりできます。

語彙フィルタリング

語彙フィルタリング を使用して、トランスクリプトから削除する単語のリストを指定できます。例えば、卑猥な単語や不快な単語のリストを指定すると、Amazon Transcribe はそれらをトランスクリプトから自動的に削除します。

ユーザーの安全性とプライバシー機能

コンテンツの自動秘匿化/ PII 秘匿化

指示があった場合、Amazon Transcribe は、お客様がサポート言語のトランスクリプトから個人を特定できる情報 (PII) を識別してマスキングするのをサポートできます。これにより、コンタクトセンターは、カスタマー体験の洞察を得てエージェントトレーニングを行うために、トランスクリプトを簡単に確認して共有できます。

データ保護

保存中のデータを保護するには、Amazon S3 キー (SSE-S3) を使用するか、独自の AWS Key Management Service キーを指定します。Amazon Transcribe は、TLS (Transport Layer Security) 1.2 を使用します。TLS (Transport Layer Security) 1.2 は、AWS 証明書を使用して、HTTP 経由で認証された接続とインターネット上での安全なデータ転送を可能にする暗号化プロトコルであり、転送中のデータを暗号化します。これにはストリーミング文字起こしも含まれます。 

有害な音声コンテンツの検出

Amazon Transcribe Toxicity Detection は、機械学習を使用して音声会話を礼儀正しく建設的に保ち、安全で包括的なオンライン環境を促進します。有害な音声コンテンツは、人間のモデレーターが簡単に特定して適切な措置を講じられるように、いくつかのカテゴリのいずれかにフラグが立てられます。 

Amazon Transcribe Call Analytics

Amazon Transcribe Call Analytics を使用して、通話のセンチメントや音声の大きさなどの会話の分析情報を抽出し、エージェントの生産性とカスタマーエクスペリエンスを向上させます。

生成系 AI を活用した通話要約により、コンタクトセンターの生産性を向上

通話要約を自動生成して、エージェントが優れたカスタマーエクスペリエンスの提供に集中できるようにし、通話後に手動で要約する手間を減らすことで生産性を向上させます。この機能は、発信者とのやりとりを要約し、通話の理由、問題を解決するために取られた手順、次のステップなどの主要な要素をキャプチャします。 コンタクトセンターのスーパーバイザーは、発信者の問題を調査する際にトランスクリプト全体を読むことなく、通話要約を確認してやり取りのコンテキストをすばやく理解できます。

詳細な通話分析および会話インサイトを抽出

機械学習の力を利用すると、音声テキスト化機能や自然言語処理機能を迅速に適用して、会話に関する貴重なインサイトを得ることができます。その後、お客様とエージェントの感情、検出された問題、会話がない時間、中断、話す速度などの音声特性といったインサイトを着信および発信の通話分析アプリケーションに統合することができます。これにより、スーパーバイザーは、潜在的なお客様の問題、エージェントのコーチング機会、通話の傾向などをより簡単に特定できるようになります。

Amazon Transcribe Call Analytics

自動通話分類によるコンプライアンスおよびモニタリングの向上

会社のポリシーまたは規制要件の遵守のために、通話を大規模にモニタリングします。指定した条件 (語句や会話の特性など) に基づき、独自のカスタムカテゴリを構築し、トレーニングします。例えば、カテゴリラベルを設定して、コールのうち何 % がアップセルやアカウントのキャンセルなのかを確認できます。

リッチな通話トランスクリプトを作成

エージェントが過去のやり取りの会話の詳細にアクセスできるようにします。ターンバイターンのトランスクリプトは、顧客の感情、検出された問題、中断などのインサイトを提供します。

お客様の機密データを保護

会話には、名前、住所、クレジットカード番号、社会保障番号などの機密性の高い顧客データが含まれることがよくあります。Transcribe Call Analytics は、お客様が音声とテキストの両方からこの情報を識別してマスキングするのをサポートします。

コンタクトセンターの統合

Genesys Cloud CX
Genesys Cloud CX は、電話、テキスト、チャットなど複数のチャネルで顧客とエージェントの体験を統一するクラウドコンタクトセンターソリューションです。通話音声を Genesys Cloud 環境から Amazon Transcribe にストリーミングして、エージェントの生産性を向上させ、顧客との対話に関するインサイトを抽出できます。詳細については、「Genesys Cloud AudioHook integration」をご覧ください。 さらに、AWS Live Call Analytics ソリューションを使用して Genesys Cloud 通話の分析を開始します。

Amazon Chime SDK
Amazon Chime SDK はリアルタイムの通信コンポーネントのセットで、これを使用して、デベロッパーは音声通話、ビデオ通話、画面共有機能を独自のウェブ、モバイル、またはテレフォニーアプリケーションにすばやく追加できます。 

Amazon Chime Voice Connector
Amazon Chime Voice Conector を使用すると、SIP ベースのコンタクトセンターと簡単に統合して、Amazon Transcribe でユーザー属性のライブトランスクリプトを生成できます。詳細については、Amazon Chime Voice Connector のドキュメントを参照してください。

Amazon Transcribe Medical

専門医療

HIPAA 準拠の自動音声認識 (ASR) サービスである Transcribe Medical を使用すると、医療会話を簡単に文字に起こすことができます。

ディクテーションモード

医療ディクテーションのユースケースでよく見られるシングルスピーカーの音声を正確に書き起こします。詳細 »

会話モード

臨床医や患者からなるマルチスピーカーの会話音声を正確に文字に起こします。詳細 »

Amazon Transcribe Medical

さまざまな医療専門分野にわたって音声をテキストに書き起こします。詳細 »

バッチAPI

記録された医療音声ファイルを高い同時実行性で大規模に文字起こしします。詳細 »

Streaming API

WebSocket Secure または HTTP/2 プロトコルを介して、ほぼリアルタイムで音声 ストリームを文字に起こします。詳細 »

カスタム語彙

辞書に載っていない可能性のある用語に対してカスタム語彙を使用することで、書き起こしの精度を高めます。詳細 »

チャネルの識別

追加料金なしでマルチチャネル音声を同時に文字起こしします。最終的な一貫した記録を取得します。詳細 »

話者のダイアライゼーション

モノラルチャネル音声内のさまざまな話者からの音声を分離します。詳細 »

料金の詳細

Amazon Transcribe の料金ページにアクセスしてください。

詳細 
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Transcribe を使った構築を始めましょう。

サインイン