音声を文字起こしする
Amazon Transcribe を使用
このステップバイステップチュートリアルでは、Amazon Transcribe を使用して録音された音声ファイルからテキスト原稿を作成する方法を学習します。これには、AWS マネジメントコンソールを使用します。Amazon Transcribe は、開発者が音声をテキストに変換する機能をアプリケーションに簡単に追加できるようにする、自動音声認識 (ASR) サービスです。Amazon Transcribe API を使用して、Amazon Simple Storage Service (S3) に保存された音声ファイルを分析し、音声を文字起こししたテキストファイルを作成できます。
開発者にとって、カスタマーサポートへの通話の文字起こしや、音声および動画コンテンツの字幕生成は、音声をテキストに変換する機能を必要とする一般的な課題です。この課題は、独自の機械学習モデルを最初から構築することによって解決できるかもしれません。ただし、このオプションには時間とコストがかかり、機械学習の専門知識が必要です。こうした難しい方法を選択するのではなく、事前にトレーニングされたフルマネージドサービスの Amazon Transcribe を使用すれば、高品質の文字起こしを短時間で実行できます。
このチュートリアルでは、サンプルの音声ファイルをダウンロードして、これから作成する S3 バケットにアップロードします。そして、Amazon Transcribe を使用してサンプルの音声クリップの文字起こしを行います。これには AWS マネジメントコンソールを使用します。
このチュートリアルは、AWS CLI または Transcribe API を使用する際に利用可能な機能のデモです。本番環境または PoC (概念実証) の実施に関しては、Amazon Transcribe コンソールではなく、これらのプログラムによるインターフェイスを使用することをお勧めします。
このチュートリアルには AWS アカウントが必要です
Amazon Transcribe の無料利用枠を使用すると、簡単に使用を開始できます。AWS アカウントを作成してから最初の 12 か月間は、無料で 1 か月あたり最大 60 分間の音声を文字起こしすることができます。
ステップ 1:S3 バケットを作成し、サンプルの音声ファイルをアップロードする
このステップでは、サンプルの音声ファイルをダウンロードし、これを S3 バケットにアップロードします。Transcribe は、文字起こしをする S3 バケットの音声ファイルまたは動画ファイルのみにアクセスします。
a. ここをクリックすると、このチュートリアルの後半で文字起こしをするサンプルの音声ファイルがダウンロードされます。ファイル名は、transcribe-sample.mp3 です。
b. ここをクリックすると、AWS マネジメントコンソールが新しいブラウザウィンドウで開くため、このステップバイステップガイドを開いたままで操作できます。画面の読み込みが終わったら、ユーザー名とパスワードを入力して作業を開始します。[リージョン] ドロップダウンで、Amazon Transcribe が利用可能なリージョンを選択します。
このチュートリアルの作成時点で、Amazon Transcribe は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (シドニー)、カナダ (中部)、欧州 (アイルランド) のリージョンでご利用いただけます。
e. 一意のバケット名を入力します。バケット名は、Amazon S3 内の既存バケット名の中で一意である必要があります。S3 バケット名の制約は、他にも多数あります。次に、バケットを作成するリージョンを選択します。
[次へ] を選択します。
f. バージョニング、サーバーアクセスロギング、タグ、オブジェクトレベルのロギング、デフォルトの暗号化など、S3 バケットには役立つ多数のオプションがあります。このチュートリアルでは、こうしたオプションを無効にしておきます。
[次へ] を選択します。
ステップ 2:文字起こしジョブを作成する
このステップでは、Amazon Transcribe コンソールを使用して、文字起こしジョブを作成および実行します。
d. [Create transcription job (文字起こしジョブの作成)] ページで、[名前] フィールドに「sample-transcription-job」と入力します。
[言語] はデフォルト値の [English] のままにしておきます。
[Input file location on S3 (S3 内の入力ファイルの場所)] フィールドで、S3 バケット内のサンプルファイルへのリンクを貼り付けます。サンプルファイルへのリンクは、右のスクリーンショットに表示されているものとは異なります。
[形式] はデフォルト値の [mp3] のままにしておきます。
カスタム語彙機能を利用して、アプリケーション固有の語句やフレーズを Amazon Transcribe に認識させることができます。例えば、Etienne のような英語ではない名前です。このチュートリアルでは、この機能は使用しません。
e. [Data location (データの場所)] はデフォルト値の [Amazon default (Amazon のデフォルト)] のままにしておきます。
[Channel identification (チャネル識別)] を有効にすると、Amazon Transcribe では、別々のチャネルで記録された各話者の音声を処理して、チャネルラベルが追加された単一のスクリプトを生成することができます。
[Speaker identification (話者の識別)] を有効にすると、Amazon Transcribe では話者の変更を認識して、文字起こしテキストに適切な属性を設定できます。
このチュートリアルでは、どちらの機能も使用しません。
[作成] を選択して、文字起こしのジョブを開始します。
ステップ 3:文字起こしの結果を確認する
このステップでは、文字起こしジョブの進捗状況を確認し、結果を確認する方法を学習します。
ステップ 4:リソースを終了する
このステップでは、S3 バケットからサンプルファイルを削除し、不要な請求を回避します。
お疲れ様でした。
このチュートリアルで確認したように、Amazon Transcribe では、規模に応じて音声をテキストに変換できます。Amazon Transcribe は、カスタマーサポートへの通話、ビジネスの会議、ブロードキャストテレビ、オンデマンドの動画といったさまざまな音声または動画のファイルに使用できます。
次のお勧め:
規模に応じたテキスト翻訳について学習する
この 10 分間のチュートリアルで、Amazon Translate を使用して、文字起こししたテキストを他の言語に翻訳する方法をご確認ください。
Transcribe API と CLI の使用を開始する
このチュートリアルドキュメントで、Amazon Transcribe API と CLI を使用する方法をご確認ください。
Amazon Comprehend を使用する
この 10 分間のチュートリアルで、Amazon Comprehend を使用してテキストの感情を分析する方法をご確認ください。