Amazon Web Services ブログ

Windows アプリケーションで Amazon Polly を使用する

AWS は、開発者がクラウドでアプリケーションを構築できるように幅広いサービスを提供しています。同時に、Windows デスクトップアプリケーションもこうしたサービスを利用できます。本日、Amazon Polly for Windows をリリースいたします。これは、SAPI 準拠の Windows アプリケーションで Amazon Polly の音声を利用できるようにするオープンソースエンジンです。

SAPI とは? SAPI (Speech Application Programming Interface) は、デスクトップアプリケーションが音声合成を実装できるようにする Microsoft Windows API です。アプリケーションが SAPI をサポートしていれば、インストールされている SAPI 音声のいずれかにアクセスして音声を生成することができます。

すぐに使用できる Microsoft Windows には、サポートされている任意の音声アプリケーションで使用できる 1 つの SAPI 男性および女性音声が用意されています。Amazon Polly for Windows を使用すると、使用した分に料金を支払うだけで、25 種類を超える言語で 50 種類を超える追加の音声をインストールすることができます。  詳細については、Amazon Polly のドキュメントを参照し、テキスト読み上げ音声の完全なリストを確認してください。

AWS アカウントの作成

AWS アカウントをまだお持ちでない場合は、こちらからサインアップできます。これにより、無料利用枠で 12 か月間利用できます。最初の 12 か月間、最初の 500 万文字/月まで Amazon Polly は無料です。これは、どれくらいの量でしょうか? 一例として、James Joyce による「Ulysses」は 730 ページで、約 150 万文字になります。したがって、Amazon Polly で本全体を 3 回読んでも、今月の残りの期間にさらに 500,000 文字を無料で処理することができます。

アカウントの設定

  1. AWS アカウントにログインします。
  2. ログインしたら、上部のメニューバーで [Services] をクリックし、検索ボックスに「IAM 」と入力します。ポップアップが表示されたら、[IAM] をクリックします。
  3. 左側で [Users] をクリックします。
  4. [Add User] をクリックします。
  5. polly-windows-user」と入力します (任意の名前を使用できます)。
  6. [Programmatic access] チェックボックスをクリックし、[AWS Management Console access] はオフのままにします。
  7. [Next: Permissions] をクリックします。
  8. [Attach existing policies directly] をクリックします。
  9. ページの下部の [Filter: Policy type] の横にある検索ボックスに「polly」と入力します。
  10. [AmazonPollyReadOnlyAccess] の横にあるチェックボックスをクリックします。
  11. [Next: Review] をクリックします。
  12. [Create user] をクリックします。

重要: ウェブページを閉じないでください。手順 3 でアクセスキー ID とシークレットアクセスキーの両方が必要になります。

手順 2: AWS CLI for Windows のインストール

ここをクリックして、AWS CLI for Windows をダウンロードします。

手順 3: AWS クライアントの設定

Amazon Polly for Windows には、polly-windows と呼ばれる AWS プロファイルが必要です。これにより、Amazon Polly エンジンが正しいアカウントを使用していることが保証されます。

  1. Windows コマンドプロンプトを開く
  2. 次のコマンドを入力します。
    aws configure --profile polly-windows 
  3. AWS アクセスキー ID と AWS シークレットアクセスキーの入力を求められたら、前の手順での値を使用します。
  4. [Default] リージョンでは、Enter を押してデフォルト (us-east-1) を使用するか、別のリージョンを入力します。必ずすべて小文字を使用してください。
  5. デフォルトの出力形式については、Enter を押すだけです。
  6. 次のコマンドを実行して、これが機能することを確認します。音声のリストが表示されるはずです。
    aws --profile polly-windows polly describe-voices 

手順 4: Windows 用 Amazon Polly TTS エンジンのインストール

ここをクリックしてインストーラをダウンロードして実行します。インストーラが正常に機能したことを確認できます。Amazon Polly for Windows には PollyPlayer が付属しています。これは、追加のソフトウェアなしで音声を試すことができるアプリケーションです。音声を選択してテキストを入力し、[Say It] をクリックするだけです。

アプリケーションで Amazon Polly Voice を使用する

Amazon Polly の音声は、Windows SAPI を実装している Windows アプリケーションからアクセスできます。つまり、Amazon Polly の音声をインストールしたら、使用する Amazon Polly の音声をアプリケーションの音声リストから選択するだけです。

Amazon Polly は SSML (Speech Synthesis Markup Language) をサポートしています。これにより、タグを追加して音声生成をカスタマイズすることができます。Amazon Polly for Windows では、リクエストを送信するときにプレーンテキストまたは SSML タグを使用できます。標準の Amazon Polly の制限は、リクエストごとに最大 3,000 文字、または合計 6,000 文字が請求されます (SSML タグは請求されません)。

例: Adobe Captivate で Amazon Polly for Windows を使用する

e ラーニングコンテンツの構築は、音声生成の優れたユースケースです。過去には、コンテンツマネージャーは音声コンテンツを録音し、コンテンツの変更に応じて再録音する必要がありました。Adobe Captivate などの e ラーニングデザイナーと Amazon Polly の音声を使用すると、必要なときにいつでもコンテンツを簡単に作成し、動的に更新できます。

SAPI 対応の e ラーニングソリューションを使用できます。このデモでは、Captivate を使用して簡単なスライドを作成することで、音声コンテンツをすばやく簡単に追加できることを示します。Captivate をまだお持ちでない場合は、こちらから無料の試用版をダウンロードできます。

手順 1: プロジェクトの作成

Captivate を起動し、[New Project / Blank Project] をクリックして、新しいプロジェクトを作成します。

この時点で、1 つのスライドを持つ新しい空白のプロジェクトができます。

手順 2: 音声コンテンツの追加

[Audio] メニューで [Speech Management] をクリックします。

これにより、音声管理モーダルウィンドウが表示され、音声コンテンツをスライドに追加できます。[Speech Agent] ドロップダウンをクリックし、[Amazon Polly – US English – Salli (Neural)] を選択します。  デフォルトでは、すべてのスライドがこの音声を使用します。

[+] ボタンをクリックして、コンテンツを追加します。

テキストボックスで、「My name is Salli.My speech is generated by Amazon Polly.」と入力します。

次に、音声を生成する必要があります。内部では、Captivate が Windows SAPI ドライバーを使用して AWS をコールバックし、音声を生成します。[Save] および [Generate Audio] をクリックします。

音声が生成されたら、[Generate Audio] ボタンの横にある [Play] ボタンをクリックして、音声をプレビューすることができます。

Salli がテキストを読み上げるのが聞こえます。[Close] ボタンをクリックします。

ウィンドウを閉じた後、プロジェクト全体をプレビューして、スライドの音声を聞くことができます。

Amazon Polly の幅広い音声により、コンテンツマネージャーは音声の無限の組み合わせを構築して実験することができます。コンテンツと音声の選択はいつでも更新できるため、コンテンツ管理者は録音スタジオに行かなくても、音声プレゼンテーションとコンテンツの両方を最新に保つことができます。

これで、Amazon Polly for Windows をインストールしたので、SSML タグを使用してさまざまな音声のバリエーションを試してみてください。これらはすべて Windows で完全にサポートされています。そして、Amazon Polly for Windows はオープンソースであるため、機能を投稿したり、機能要求を送信したりできます。Amazon Polly フォーラムでフィードバックを共有できます。Amazon Polly for Windows の使用に関するアイデアをお聞かせください。


著者について

Troy Larson は、AWS プロフェッショナルサービスのシニア DevOPs クラウドアーキテクトです。