メインコンテンツに移動

音声ファイルの文字起こしとは何ですか?

組織は、整理された議事録から医療用途に至るまで、さまざまなユースケースで音声文字起こしを大規模に必要としています。最新の AI テクノロジーは、音声をテキストに書き起こし、さまざまなアクセントや複数の話者間の会話を正確でフォーマットされたドキュメントに変換できます。このガイドでは、企業や中小企業のニーズに合わせて音声をテキストに変換する方法について説明します。

人間がお互いを完全に理解するには、音声ベースのコミュニケーションが不可欠です。音声は、アイデア、情報、指示、感情を素早くその場で伝える手段です。音声コミュニケーションを録音し、音声からテキストへのコンバーターで文字起こしすることは、記憶、正確性、さらなる業務への活用のために不可欠なものとなっています。音声をテキストに文字起こしすると、重要な情報の保持、検索、分析、リミックスが可能になり、より迅速にインサイトを得て、ビジネスプロセスに即座に統合できます。

以前は、人は 1 つの音声録音を聞くと同時にその内容を入力し、停止と開始を繰り返して話し言葉を変換し、正確なトランスクリプトを作成していました。法律事務所、医師、研究者、およびその他の専門家のオフィスには、音声メモから音声をテキストに文字起こしするというこの手作業の役割を実行するためのタイピストプールがありました。

今では、機械は音声からテキストへのコンバーターを介して音声を即座に文字起こしできます。音声テキスト変換 (STT) 技術は、人間が文字起こし作業を行う代わりに、音声ファイルを書き起こされたテキストファイルに変換します。この書き起こされたテキストファイルは、そのまま読むことも、AI トランスクリバーで要約することも、他のソフトウェアシステム内で自動的に処理することも、単独で分析することも、より広範なコーパスの一部として分析することもできます。音声テキストコンバーターの用途は無限です。

音声ファイルの文字起こし技術とは?

音声ファイルには、さまざまな話者、アクセント、およびドメイン固有の単語が含まれている場合があります。音声録音の音質も異なる場合があります。話し言葉をテキストに変換するには、読みやすい出力を生成するために、音声言語の理解と言語構文および文法の知識が必要です。

古い音声テキスト変換ソフトウェアでは、間違いがあり、適切な構造がなく、階層、単語、文法のエラーがある、読みにくいトランスクリプトが生成されました。最新の音声テキスト変換ソフトウェアははるかに優れており、音声を話し言葉に近いテキストに変換し、適切な構造と文法を備えた正確なトランスクリプトを提供します。

Amazon Transcribe は、自動音声認識 (ASR) 技術を使用して音声をテキストに変換するフルマネージドサービスです。話す速度、ピッチ、音量の変化など、さまざまな音声特性に対応できます。100 以上の言語で文字起こしが可能で、開発者のワークフローや AWS インフラストラクチャに組み込んで、企業の音声テキスト変換の要件に対応できます。

音声文字起こしを始めるには?

音声をテキストに文字起こしするには、音声ファイルまたはビデオファイルのタイプに応じて、主に 2 つの方法があります。バッチ文字起こしは録音済みのオーディオファイルの文字起こしに使用され、ストリーミング文字起こしはライブメディアストリームの文字起こしに使用されます。

Amazon Transcribe は、バッチとストリーミングの両方の音声と動画の文字起こしタイプで、シングルチャネルとデュアルチャネルの音声をサポートしています。

バッチとストリーミングの音声からテキストへの文字起こしは、いずれも JSON ファイル形式で出力されます。出力に表示されるフィールドは、音声を変換するときに文字起こしリクエストに含める機能によって異なります。トランスクリプトには、少なくとも、指定された各単語、その開始時刻、終了時刻、種類、ボキャブラリフィルターの一致、および検証可能性の信頼度スコアが含まれています。その他のフィールドには、スピーカーラベル、代替単語、チャネルなどがあります。

ストリーミング文字起こし

ストリーミング文字起こしは、音声ストリームをリアルタイムで文字起こしするために使用されます。Amazon Transcribe ストリーミング文字起こしサービスは、Ogg Opus とともに、FLAC および PCM で署名された 16 ビットリトルエンディアンオーディオ (WAV ではない) を推奨形式としてサポートしています。音声からテキストへの変換エラーを防ぐために、音声ファイルに合ったサンプルレートを設定します。

文字起こしツールの使用方法に応じて、AWS マネジメントコンソールHTTP/2WebSockets、およびさまざまな AWS SDK を使用してストリーミング文字起こしを行うことができます。

以下では、AWS マネジメントコンソールを使用したストリーミング音声文字起こしについて説明します。

  1. 左側のナビゲーションペインで [リアルタイム文字起こし] を選択します。
  2. ストリームを開始する前に、言語、話者の識別、コンテンツの削除、カスタマイズなどのオプションを選択します。
  3. [ストリーミング開始] ボタンをクリックしてリアルタイムで直接録音し、文字起こしを開始する出力を下の文字起こし出力ボックスに表示します。

オーディオ録音の変換が完了したら、[トランスクリプト全文をダウンロードする] ボタンをクリックして、JSON ファイルのトランスクリプトを無料でダウンロードできます。

バッチファイルの文字起こし

バッチ文字起こしは、Amazon S3 クラウドストレージバケットに保存されている 1 つ以上の既存のメディアファイルを文字起こしするために使用されます。バッチサービスを使用すると、キューに最大 10,000 件の音声ファイルジョブをアップロードして、先入れ先出し方式で処理できます。サブスクリプションによっては、音声録音ジョブを同時に処理して、音声ファイルを一度に変換できます。

バッチ文字起こしでは、推奨フォーマットとして FLAC と WAV (PCM 16 ビットエンコーディング) がサポートされています。ただし、AMR、M4A、MP3、MP4、Ogg、WebM などの他のフォーマットもサポートされています。音声からテキストへの変換エラーを防ぐために、音声ファイルに合ったサンプルレートを設定してください。

AWS CLIAWS マネジメントコンソール、およびさまざまな AWS SDK を使用して、バッチ文字起こしプロセスを使用して音声をテキストに変換できます。

以下では、AWS マネジメントコンソールを使用したバッチオーディオの文字起こしについて説明します。

  1. 文字起こしするメディアファイルを Amazon S3 バケットにアップロードします。
  2. 左側のナビゲーションペインで [文字起こしジョブ] を選択します。これにより、文字起こしジョブのリストが表示されます。
  3. [ジョブを作成] を選択し、[ジョブの詳細を指定] ページのフィールドに入力します。
  4. ジョブを設定したら、[ジョブを作成] ボタンをクリックして開始します。
  5. [文字起こしジョブ] のページに戻ると、ジョブのステータスを確認できます。
  6. JSON ファイルのトランスクリプトを表示するには、[出力データの場所] の下の右側の列でリンクされたファイルパスを選択します。

注:出力にサービス管理のバケットを選択した場合、文字起こしジョブの情報ページに文字起こしプレビューペインと、JSON 音声テキスト変換ファイルの [ダウンロード] ボタンが表示されます。

設定時に以下のページを完了してください。

入力データ

[入力データ] ページの [S3 上の入力ファイルの場所] は既存の S3 バケット内の音声ファイルで、[出力データ] は S3 サービス管理バケットまたは独自の S3 バケットです。

ジョブを設定

[ジョブの設定] ページでは、チャネル識別、コンテンツ編集とフィルタリング、カスタムボキャブラリーなどのカスタマイズを選択できます。

その他の文字起こし機能にはどのようなものがありますか?

Amazon Transcribe には、音声ファイルまたは動画ファイルを変換するときに、より便利で安全かつ正確なトランスクリプトを作成するためのさまざまな追加機能があります。

カスタムボキャブラリーと言語モデル

ユーザーはカスタムボキャブラリーと言語モデルを作成して、ドメイン固有のブランド名、略語、専門用語、業界用語を含む音声を正確にキャプチャして書き起こすことができます。カスタム言語モデルは、社内の言語エコシステムが盛んな大規模組織や、高度に専門化された技術産業にメリットをもたらします。

カスタムボキャブラリーは、特定の単語の発音方法を示すユーザーが作成したファイルです。たとえば、VX02Q という名前のプロジェクトを、V.X.-zero-two-Q という発音のカスタムボキャブラリーに追加できます。

カスタム言語モデルを使用すると、音声テキスト変換モデルで既存のデータセットに対する追加のトレーニングを完了し、ドメイン固有言語のコンテキストを理解できます。たとえば、気候科学の研究論文をテキストでアップロードしてモデルをトレーニングした場合、モデルは「ice flow」よりも「ice floe」の方がよりありうる単語の組み合わせであることを学習する可能性があります。同様に、「Bzntry」という名前の製品を参照している場合、「bee-zen-tree」に関する言及が複数ある音声ファイルデータセットは、音声と単語出力を自動的に照合します。

バッチ音声テキスト変換文字起こしとストリーミング音声テキスト変換文字起こしは、どちらもカスタムボキャブラリーとカスタム言語モデルをサポートしています。

自動モデレーション

カスタムボキャブラリーフィルターを使用すると、JSON トランスクリプト出力内の特定の単語または単語の組み合わせをマスキング、置換、またはタグ付け ("vocabularyFilterMatch": true) できます。

例:

  • 不適切な単語を 3 つのアスタリスク (***) でマスキングする
  • 発売前の秘密の製品名を「NewProduct」という単語に置き換える
  • トランスクリプト内の「um」または「like」とラベル付けされたタグの数をカウントして、講演者が人前で話すスキルを磨くのに役立てる

バッチ処理とストリーミングによる音声テキスト変換は、どちらもボキャブラリーフィルターをサポートしています。

PII リダクションと識別

個人を特定する情報 (PII) は、音声からテキストへのトランスクリプトで自動的に編集およびタグ付けできます。PII は厳格な機密保持法に該当する可能性があるため、これは企業で機密情報を保存するうえで重要です。

Amazon Transcribe に含まれる個人情報タイプは、名前、住所、メールアドレス、電話番号、銀行番号の詳細、PIN、社会保障番号です。JSON ファイル内の単語は、音声テキスト変換コンバーターによってトランスクリプトのメインテキスト本文で [PII] に置き換えられ、「redactions」JSON フィールドでタイプ別にカウントおよび分類されます。

字幕

Amazon Transcribe では、ユーザーは通常の出力 JSON ファイルに加えて、WebVTT (*.vtt) および SubRip (*.srt) 字幕ファイルを生成して動画とペアリングすることができます。字幕は、音声ファイルまたは動画ファイルでテキストが読み上げられると同時に表示され、音声が自然に一時停止するか、話者が話し終わるまで表示されます。

毒性検出

Amazon Transcribe は有害な言葉の識別と分類に使用できます。有害コンテンツにはフラグが付けられ、セクシャルハラスメント、ヘイトスピーチ、脅迫、虐待、冒とく、侮辱、グラフィックといった 7 つのカテゴリに分類されます。Amazon Transcribe では、トーンやピッチなどの高度な識別技術を使用して、会話にさらなるコンテキストを追加します。

通話分析

Amazon Transcribe には、カスタマーサービスとセールスコール用の特別な API が用意されています。これを使用することで、顧客やエージェントのセンチメント、通話の目的、特定のフレーズの言及、無言時間、割り込み、話す速度、リアルタイムでの問題検出、会話の要約などに関するインサイトを得ることができます。Amazon Transcribe では、通話後に録音した音声の編集を行うこともできます。これにより、保存された通話の PII を無音に置き換えることができます。

医療分野の文字起こし

Amazon Transcribe は、HIPAA 準拠の API を提供し、患者データのプライバシーとセキュリティを優先しながら、音声ファイルから正確な医療言語の音声テキスト変換を提供します。メモを取ることに時間がかかり、注意が散漫になり、混乱を招く、臨床医と患者のやり取りに有用です。

AWS は音声文字起こしのニーズをどのようにサポートできますか?

音声からテキストへの文字起こしは、音声をポイントインタイムの通信手段から、保存され、検索可能で、分析可能で、価値の高いデータソースに変換します。音声の文字起こしに音声認識を使用している組織は、生産性、トレーニング、顧客サービス、販売などにおいて大きなメリットを実感しています。

Amazon Transcribe の音声テキスト変換コンバーターを組織に埋め込むことで、音声の録音の価値を保持し、その活用範囲を大きく広げることができます。アプリの迅速かつ強力な構築とスケーリングに役立つ、AWS のさまざまな AI ソリューションをご覧ください。