全般

Q: Amazon Transcribe とは何ですか?

Amazon Transcribe は、音声をテキストに簡単に変換するための AWS のサービスです。お客様は、さまざまなビジネスアプリケーション向けに Amazon Transcribe の自動音声認識 (ASR) テクノロジーを利用できます。例えば、カスタマーサービスの音声通話の文字起こし、音声コンテンツや動画コンテンツに対するリアルタイムの字幕生成、音声コンテンツや動画コンテンツの内容分析 (テキストベース) などに、このサービスを利用することができます。 

Q: Amazon Transcribe を他の AWS 製品とどのように組み合わせて使用できますか? 

Amazon Transcribe で音声入力をテキストに変換すると、音声入力をさまざまなテキスト分析アプリケーションで処理できるようになります。例えば、お客様は Amazon Transcribe で変換したテキストデータを Amazon Comprehend で処理することにより、感情分析や話者およびキーフレーズの抽出を行えます。同様に、Amazon Translate や Amazon Polly と統合すると、特定の言語による音声入力を別の言語に翻訳して音声出力できるため、複数の言語による会話を効果的に実現できます。また、Amazon Transcribe と Amazon Elasticsearch を統合することにより、音声ライブラリや動画ライブラリに対してインデックスを作成し、テキストベースの検索を実行することもできます。 

Amazon Transcribe の使用

Q: 開発者が Transcribe を使用するにはどうすればよいですか?

Amazon Transcribe を使い始める最も簡単な方法は、コンソールを使って、文字起こしをする音声ファイルを送信することです。また、AWS コマンドラインインターフェイスから直接サービスを呼び出すことも、任意のサポートされた SDK を使用してアプリケーションと統合することもできます。どの方法でも、Amazon Transcribe を使ってほんの数行のコードを書くだけで、音声ファイルの自動的書き起こしができます。

Q: Amazon Transcribe は、どのような種類の入力に対応していますか?

Amazon Transcribe は 16kHz と 8kHz 両方のオーディオストリーム、WAV、MP3、MP4、FLAC を含む複数のオーディオエンコーディングに対応しています。

Q: Amazon Transcribe はリアルタイムの文字起こしに対応していますか?

はい。Amazon Transcribe を使用すると、ユーザーは HTTP/2 の双方向ストリームを開くことができます。ユーザーが音声ストリームをサービスに渡すと、テキストストリームをリアルタイムで受け取ることができます。 

Q: リアルタイムの文字起こしは、どのようなエンコーディングに対応していますか?

文字起こしのストリーミングは、現在 16 ビットのリニア PCM エンコーディングに対応しています。 

Q: Amazon Transcribe は、どの言語に対応していますか?

言語のサポートについては、ドキュメントページでご確認いただけます。 

Q: Amazon Transcribe はどのようなデバイスで動作しますか? 

Amazon Transcribe の機能の大部分はデバイスに依存しません。通常、Amazon Transcribe は、携帯電話、PC、タブレット端末、IoT デバイス (例: カーオーディオシステム) など、マイクを搭載するあらゆるデバイスで動作します。Amazon Transcribe API では、デバイスに入力されている音声ストリームの品質 (8KHz または 16KHz) が検知され、音声をテキストに変換するうえで適切な音響モデルが選択されます。さらに、開発者は、Transcribe API をアプリケーションで呼び出して音声のテキスト変換機能を利用することができます。 

Q: Amazon Transcribe で処理できる音声コンテンツにサイズ制限はありますか?

Amazon Transcribe のサービス呼び出しは、バッチサービスの API コール 1 回につき 4 時間 (あるいは 2 GB) に制限されます。ストリーミングサービスは、最長 4 時間のオープンな接続に対応できます。 

Q: Amazon Transcribe でサポートされているプログラム言語はどのようなものですか?

Amazon Transcribe バッチサービスは .NET、Go、Java、Javascript、PHP、Python、Ruby をサポートしています。
Amazon Transcribe リアルタイムサービスは、Java SDK、Ruby SDK、および C++ SDK をサポートします。今後も SDK のサポートは拡充されます。詳細については、リソースのページにアクセスしてください。 

Q: カスタム語彙が認識されません。 どうすればよいですか?

音声認識の出力は、カスタム語彙エントリに加えていくつかの要因に依存するため、用語がカスタム語彙に含まれていても、正しく認識されるという保証はありません。
ただし、最も一般的な理由は、カスタム単語に正しい発音がないことです。カスタム単語の発音をまだ入力していない場合は、入力してみてください。すでに入力している場合は、正しいことを再確認するか、必要に応じて他の発音のバリエーションを含めます。これは、発音フィールドが異なる複数のエントリをカスタム語彙ファイルに作成することによって実行できます。

Q: 出力にカスタム単語が多すぎるのはなぜですか?

カスタム語彙は、ターゲットを絞った単語の少数のリストに対して最適化されています。 より大きな語彙は、特にそれらが同じように発音されている単語を含んでいるとき、カスタム単語の過剰な生成につながることがあります。リストが大きいなら、稀な単語と音声ファイルで実際に出現すると予想される単語に減らすことを試みてください。複数のユースケースをカバーする大きな語彙がある場合は、ユースケースごとに別々のリストに分割してください。短くて音が他の多くの単語と似ている単語は、過剰な生成 (出力に表示されるカスタム単語が多すぎる) につながる可能性があります。こうした単語は、周囲の単語と組み合わせて、ハイフンで区切ったフレーズとしてリストすることをお勧めします。たとえば、カスタム単語「A.D.」は「A.D.-converter」などのフレーズの一部として含めるなどです。

Q: 発音を与える方法には、IPA またはカスタム語彙テーブルの SoundsLike フィールドの 2 つがあります。どちらが良いですか?

IPA は、より正確な発音を可能にします。IPA を生成できる場合は、IPA の発音を入力する必要があります (たとえば、IPA の発音がある辞書またはオンラインのコンバーターツールから)。

Q: IPA を使いたいのですが、言語の専門家ではありません。使用できるオンラインツールはありますか?

オックスフォード英語辞典やケンブリッジ英英辞典 (オンライン版を含む) などのいくつかの標準辞書は、IPA の発音を提供します。また、オンラインコンバーターもあります (例、英語の場合 easypronunciation.com または tophonetics.com) が、ほとんどの場合、これらのツールは基礎となる辞書に基づいており、固有名詞などの一部の単語に対して正しい IPA を生成しないことに注意してください。Amazon Transcribe は、サードパーティ製のツールを推奨していません。

Q: 同じ言語の異なるアクセントに固有の異なる IPA 標準を使用する必要がありますか? (例、アメリカ英語とイギリス英語)

処理する音声ファイルに適した IPA 標準を使用してください — つまり、イギリス英語の話し手の音声を処理することを予想している場合は、イギリス英語の発音標準を使用してください。許可されている IPA シンボルのセットは、Amazon Transcribe でサポートされている言語や方言によって異なります。発音に使用できる文字だけが含まれていることを確認してください。IPA 文字セットの詳細は、次の場所のドキュメントにあります: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

Q: カスタム語彙テーブルの SoundsLike フィールドを使って発音を入力するにはどうすればよいですか?

単語やフレーズを小さな断片に分割し、単語の発音を模倣する言語の標準的な正書法を使用して各断片に発音を入力することができます。たとえば、英語では、 Los-Angeles というフレーズに対する発音のヒントを loss-ann-gel-es のように指定できます。Etienne という単語のヒントは、eh-tee-en となります。ヒントの各部分はハイフン (-) で区切ります。入力言語で使用できる任意の文字を使用できます。

Q: 頭字語を提供する 2 つの異なる方法 (ピリオド付きとピリオドなし、発音付き) はどのように機能しますか?

ピリオドを含む頭字語を使用する場合、スペルの発音は内部的に生成されます。ピリオドを使用しない場合は、発音フィールドに発音を入力してください。頭字語の中には、綴りによる発音または単語のような発音であるかはっきりしないものもあります (たとえば、NATO は「‘ɛn eɪ ti oʊ’ (N. A.T. O.)」ではなく「‘n eɪ t oʊ’ (nay-toh)」と発音されることがよくあります)。

Q: カスタム発音の使用方法の例はどこにありますか?

サンプルの入力フォーマットと例は、次の場所のドキュメントにあります: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html

Q: 間違った IPA を使用するとどうなりますか? よくわからない場合は、IPA を入力しない方がよいでしょうか?

システムは、提供された発音を使用します。これによって、発音が正しく、話された語と一致する場合、単語が正しく認識される可能性が高くなります。正しい IPA を生成しているかどうかわからない場合は、音声ファイルを IPA の発音を含む語彙と、単語のみを含む語彙 (および、オプションで display-as 形式) で処理し、比較してください。発音を提供しない場合、サービスは近似値を使用しますが、入力よりもうまくいくかどうかはわかりません。

Q: DisplayAs フォームを使用する場合、文字起こしされている元の言語とは無関係の文字セットを表示できますか? (例、「Street」を「街道」と出力).

はい。フレーズでは特定の言語に対して制限された文字セットしか使用できませんが、DisplayAs 列では \t (TAB) 以外の UTF-8 文字を使用できます。

料金と可用性

Q: 費用はどれくらいですか?

詳細は Amazon Transcribe の料金ページをご覧ください。

Q: Amazon Transcribe はどの AWS リージョンで利用できますか?

AWS グローバルインフラストラクチャのリージョン表をご覧ください。

データプライバシー

Q:Amazon Transcribe で処理された音声入力は保存されますか? また、AWS でどのように使用されますか?

Amazon Transcribe では、サービスの提供と保守、ならびに Amazon Transcribe やその他の Amazon 機械学習/人口知能技術の開発と品質向上のためにのみ、サービスで処理された音声入力を保存して使用することがあります。お客様のコンテンツを使用することは、関連テクノロジーの開発やトレーニングなど、Amazon Transcribe の顧客満足度を継続的に改善するために重要です。当社は、お客様のコンテンツに含まれる個人情報を使用して、お客様やお客様のエンドユーザーを製品、サービス、またはマーケティングのターゲットにすることはありません。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ を参照してください。 Amazon Transcribe や他の Amazon 機械学習/人工知能技術の品質の向上を目的として、お客様のコンテンツが保存されないようにオプトアウトすることができます。AWS サポートまでお問い合わせください。

Q.Amazon Transcribe で保存された音声入力は削除できますか?

はい。お客様のアカウントに関連付けられた音声入力の削除リクエストについては、AWS サポートにお問い合わせください。音声入力を削除すると、Amazon Transcribe のサービスが低下する場合があります。

Q: Amazon Transcribe で処理および保存されたコンテンツには誰がアクセスできますか?

Amazon Transcribe で処理されたコンテンツにアクセスできるのは承認された従業員のみです。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ を参照してください。

Q: Amazon Transcribe で処理および保存されたコンテンツの所有権は誰が保持しますか?

お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の同意なく使用することはありません。

Q: Amazon Transcribe で処理されたコンテンツが、Amazon Transcribe を使用している AWS リージョンの外に移動されることはありますか?

Amazon Transcribe で処理されたすべてのコンテンツは、お客様が Amazon Transcribe を使用している AWS リージョン内で暗号化され、保存されます。Amazon Transcribe で処理されたコンテンツの一部は、Amazon Transcribe の顧客満足度やその他の Amazon 機械学習/人工知能技術を継続的に改善、開発することに関連する場合に限って、別の AWS リージョンに保存されることがあります。Amazon Transcribe や他の Amazon 機械学習/人工知能技術の品質の向上を目的として、お客様のコンテンツが保存されないようにオプトアウトする場合は、AWS サポートまでお問い合わせください。他の AWS リージョンにお客様のコンテンツが保存されることはありません。お客様のアカウントに関連付けられた音声入力の削除リクエストについては、AWS サポートにお問い合わせください。AWS の最優先事項は、お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティです。また、AWS では、転送中や保管時の暗号化など、お客様のコンテンツへの不正アクセスやお客様のコンテンツの公開を防ぐように設計された、高度で信頼できる技術的および物理的な規制を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、https://aws.amazon.com/compliance/data-privacy-faq/ を参照してください。

Q: 13 歳未満の子どもを対象としていて、児童オンラインプライバシー保護法 (COPPA) を遵守する必要があるウェブサイト、プログラム、その他のアプリケーションに関連して、Amazon Transcribe を使用することはできますか?

はい。必要な通知の実施および COPPA に基づく証明可能な親の同意の取得の義務を含む Amazon Transcribe サービス条件の遵守を前提として、全体または一部が 13 歳未満の子どもを対象とするウェブサイト、プログラム、その他のアプリケーションに関連して、Amazon Transcribe を使用できます。

Q: 自分のウェブサイト、プログラム、またはアプリケーションが COPPA の対象かどうかを知るにはどうすればよいですか?

COPPA の要件についての情報、およびお客様のウェブサイト、プログラム、その他のアプリケーションが COPPA の対象かどうかを確認するためのガイダンスについては、米連邦取引委員会が提供および管理するリソースを直接参照してください。このサイトには、サービスの全体または一部が 13 歳未満の子どもを対象としているかどうかを確認する方法に関する情報も記載されています。

Amazon Transcribe 料金の詳細

料金表のページを見る
始める準備はできましたか?
Amazon Transcribe コンソールをお試しください
ご不明な点がありますか?
お問い合わせ