Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon Kendra を使用して、よくある質問ボットをよりスマートに

製品やサービスを選択をするとき、私たちは質問が浮かんできます。職場の IT ヘルプデスクに最後に行ったときのことを思い出してください。 「IT ヘルプデスクはいつ開くか?」とか、「自分のノートパソコンを修理に出している間、代わりをものを使えるか?」などと考えたのではないでしょうか。  このような質問に対し迅速で正確な応答ができれば、顧客の満足度が向上します。サポートスタッフはこれらの質問に簡単に答えることができますが、効率的とは言えないでしょう。このような繰り返しの作業は、自動化に適しています。お客様は即座に応答を受け取り、サポートスタッフは問題の解決に集中できるからです。 このようなボットとの会話を可能にするには、各質問を個別のインテントとしてモデル化します。サンプルの発話はユーザーの質問を自然言語形式で取り込むように設計されており、ボットが応答して回答します。これは、質問が 2 つや 3 つの場合にはよいですが、質問の数が増えるとインテントの数も増え、ボットの定義が絶えず変化します。こうなると、ほとんどの応答が単なる静的テキストとなり、少々効率が悪くなる可能性があります。もう一つの方法は、質問のリストをデータベースに取り込み、データベースにクエリを実行して各質問に回答することです。これは、QnABot ボットが行うことと似ています。この設計では、すべての質問にインテントを追加する必要はありません。ただし、自然言語の入力がデータベースのエントリと異なる場合、検索は言語の変化に対応できるくらいスマートである必要があります。たとえば、「画面の修理にはどのくらい時間がかかりますか?」と「画面を修理する時間はどの程度ですか?」という質問に対して、同じ答えを提供する必要があります。 最近の Amazon Kendra のリリースでは、自然言語の質問を使って、よくある質問、ドキュメント内の回答、ドキュメント全体へのリンクなど、探している回答を取得できるようになりました。Amazon Kendra では、構造化されていないデータから特定の回答を抽出できます。Amazon Kendra をコンテンツにポイントするだけで、Amazon Kendra がコンテンツにインデックスを付けて回答します。Amazon Kendra コンソールまたは API を使用して、よくある質問やドキュメントにインデックスを付け、検索インデックスを作成できます。Amazon Kendra はインデックスを使って検索クエリに最も近い一致を見つけ、対応する回答を返します。 この投稿では、Amazon Lex チャットボットを Amazon Kendra と統合し、エンドユーザーが Slack などのメッセージングプラットフォームから Amazon Kendra にクエリできるようにする方法をご紹介します。  次の図は、このアイデアを示しています。 Amazon Lex チャットボットの構築 この記事では、ボットをモデリングするために、次のような会話を使用します。 ユーザー: IT ヘルプデスクはどこにありますか? エージェント: 37 階の 201 号室 (エレベーターを降りて、右手 2 つ目の部屋) […]

Read More

重要なドキュメントを処理するための Amazon Textract と Amazon Augmented AI の併用

ドキュメントは、金融、医療、法律、および不動産などの数多くの業界全体における記録管理、コミュニケーション、コラボレーション、そして取引のための主な手段です。たとえば、毎年、数百万の住宅ローン申請書と数億の納税申告書が処理されます。ドキュメントは構造化されていないことがよくあります。コンテンツの場所や形式は、2 つの類似したフォーム間で異なる場合があります。非構造化ドキュメントは、検索と検出、ビジネスプロセスの自動化、およびコンプライアンス管理を可能にするために、時間がかかる複雑なプロセスが必要になります。機械学習 (ML) を使用してこれらの非構造化ドキュメントの処理を自動化する場合、人間の判断を必要とする機密ワークフローの管理に役立つように人間のレビューを組み込むことができます。 Amazon Textract を使用すると、ほぼすべてのドキュメントからテキストとデータを簡単に抽出できます。Amazon Augmented AI (Amazon A2I) を使用すると、機械学習の予測で人間によるレビューを簡単に実装できます。この記事では、Amazon Textract と Amazon A2I を利用して、機械学習の経験がなくても、構造化ドキュメントと非構造化ドキュメントの両方から非常に正確なデータを自動的に抽出する方法を示します。Amazon Textract は、Amazon A2I と直接統合されているため、たとえば、低品質のスキャンや手書きの荒いドキュメントのレビューを人間が簡単に行えるようにします。Amazon A2I は、レビュー担当者がレビュータスクを完了するために必要な指示とツールを備えたウェブインターフェイスを提供します。 AWS が可用性に優れたスケーラブルな環境での高度な機械学習モデルの構築、トレーニング、およびデプロイメントを処理するので、皆さんには簡単に使用できる API アクションでこれらのサービスを活用していただきます。Amazon Textract フォームデータ抽出 API と Amazon A2I を使用して、人間のレビュー担当者が必要な条件を定義できます。これらのビジネス条件をいつでも調整して、精度と費用対効果の適切なバランスを実現できます。たとえば、モデルがその予測について 90% 未満の確信しか持っていない場合、機械学習モデルがドキュメントのコンテンツについて行う予測 (または推論) を人間が確認するように指定できます。また、ドキュメントで重要なフォームフィールドを指定して、人間によるレビューに送信することもできます。 Amazon A2I を使用して、Amazon Textract 予測のランダムなサンプルを人間のレビュー担当者に送信することもできます。これらの結果を使用して、利害関係者にモデルのパフォーマンスを通知し、モデルの予測を監査できます。 前提条件 この記事では、次の前提条件を満たす必要があります。 IAM ロールを作成する – 人間によるレビューのワークフローを作成するには、ヒューマンタスク UI でレンダリングするオブジェクトの読み取りと人間によるレビュー結果の書き込みの両方について、Amazon S3 にアクセスするための Amazon A2I […]

Read More

CI/CD パイプラインで Amazon Translate を使用してウェブサイトまたはアプリケーションを自動的に翻訳する

AWS では、ウェブサイトやアプリケーションを数分でグローバルにデプロイできます。これは、大企業であっても個人の開発者であっても、世界中のユーザー、つまり潜在的な顧客にリーチできることを意味します。けれども、最高のエクスペリエンスを提供するには、顧客に身近なコンテンツを提供するだけでなく、そのコンテンツを顧客の母国語で利用できるようにする必要があります。 ウェブサイトやアプリケーションの翻訳は、ローカリゼーションおよびインターナショナライゼーション (それぞれ L10N および I18N) と呼ばれるプロセスの一部です。コンテンツをローカライズするために、企業は翻訳者を雇う (専門的なリソースが必要で、ターゲット言語の数が多い場合はさらにその傾向が顕著) か、システムを構築したのと同じ開発者にタスクを割り当てます (これは最適な結果が得られることを保障できず、また開発者がより重要なタスクを遂行する上で支障になる)。 Amazon Translate は、手頃な価格で迅速かつ高品質な翻訳を実現するニューラル機械翻訳サービスです。サポートされている言語の詳細については、「Amazon Translate とは?」 を参照してください。 Amazon Translate は、自動的にスケーリングして大量のテキストを処理します。ビジネスの特定の詳細情報を翻訳するようにカスタマイズでき、料金は翻訳したテキストの量に対してのみ発生します。 この記事は、英語で記述された UI を含むウェブサイトと、Amazon Translate を使用して自動的にスペイン語にローカライズする継続的統合パイプラインを作成します。次の図は、このソリューションのアーキテクチャを示しています。   ウェブサイトのローカリゼーションに関する入門書 ウェブサイトまたはアプリケーションのローカライズは、通常、開発者と翻訳者の間で共有するタスクです。開発者は、ローカライズする必要のあるテキストを含むユーザーインターフェイスへのプレースホルダーまたはタグの挿入を監視する一方、翻訳者は、このようなプレースホルダーを必要な言語に翻訳する責任を負っています。 各チームの責任をより適切に分離し、メンテナンスを容易にするために、開発者は通常、翻訳ペアのみを含む翻訳者用のファイルを個別に作成しています。翻訳の発生方法とこれらのファイルの形式に関する具体的な詳細は、ローカライズするコンポーネントの言語、フレームワーク、テクノロジースタックによって異なりますが、全体的な考え方は通常同じです。(たとえば、Symfony を使用する PHP サイトは YAML ファイルに依存し、Spring で記述した Java アプリはおそらく.properties ファイルを使用しています)。 この記事は Flask で記述された単純な Python ウェブサイトで動作し、ウェブブラウザから送信される Accept-Language ヘッダー (値はユーザーの設定によって異なります) に応じて言語を切り替えます。ウェブサイトは実際に出来上がった翻訳を処理するために Babel と呼ばれるパッケージを使用しています。Babel は、Python の gettext モジュールの上にあるユーティリティとラッパーのセットで、同時に GNU gettext 上の抽象化レイヤーでもあります。 […]

Read More

リモートワークの取り組みの立ち上げと拡大を支援するために、AWS IQ の料金体系が 2020 年 6 月 30 日まで延長されます

最近の記事「Working from Home? Here’s How AWS Can Help」では、お客様がリモートワークや在宅勤務の取り組みを立ち上げ拡張するのに役立つ、AWS からのいくつかの手法をご紹介しています。こういったソリューションの立ち上げは、しばしば、専門家のアドバイスの下で行うほうが最良の (そしてより迅速な) 結果につながります。オンデマンドのプロジェクト作業に関し、AWS 認定済みの専門サードバーティ企業と連携するため必要な助けは、AWS IQから入手することができます。このリソースへのアクセス、および、高いスキルにより関連サービスを提供しているコンサルタントコミュニティとの連携を支援するため、AWS IQ では、3% の購入者料金と 15% の専門家料金を 2020 年 6 月 30 日まで延長します。即効性のために、AWS IQ への支払いは 100%、関連業務に従事している IQ エキスパートに手渡されます。 現在皆様が、仕事、学業、コミュニティ環境の中で、多くの変化にさらされているということを AWS は理解しています。そういった皆様は、他の AWS IQ のお客様同様に、Amazon WorkSpaces を使うチームのためにリモートデスクトップを設定したり、Amazon Connect によりクラウドで問い合わせセンターを立ち上げたり、増加する着信量に対応するためにセンターのチャットボットを追加するための支援がご必要だと思います。あるいは、世の中の多くのビジネス (例えばレストラン、学校、医療サービス、個人の小売店など) と同様に、オンラインの導入と移行を迅速に行う必要もあるでしょう。AWS IQ のエキスパートたちは、広範囲のプロジェクトに対し遠隔からの実践的な助言を提供します。そのプロジェクトには、ウェブサイトのホスティング、データベースの移行、ネットワークの設定、分析ソリューションの構築、さらに AWS のサービス利用量の最適化などが含まれます。 AWS IQ エキスパート 多くの技能労働者が新しい困難に直面しています。AWS IQ では、こういったエキスパートの方たちに、ご自身の AWS スキルを活用して収入を得る機会を提供しています。この業務の範囲は、AWS のサービスの設定といった小さな作業から、エンドツーエンドのアプリケーション開発といった大規模プロジェクトにまでおよびます。AWS IQ […]

Read More

Amazon Polly を使用した日本語テキスト読み上げの最適化

Amazon Polly は、高度なディープラーニングテクノロジーを使用して、29 の言語および 61 の音声でテキスト入力を音声波形に変換するシステムである、テキスト読み上げ (TTS) 機能を提供するクラウドサービスです。Amazon Polly サービスは、自動コンタクトセンター、言語学習プラットフォーム、翻訳アプリ、および記事の読み上げなどのさまざまなユースケースのために音声合成を使用するデジタル製品の開発において企業をサポートしています。 Amazon Polly は現在、ポートフォリオに 2 つの日本語音声を提供しています。日本語は、その筆記体系の複雑さのために、TTS システムに多くの課題をもたらす言語です。 この投稿では、日本語が TTS に与える課題の概要、Amazon Polly がそれらの課題に対処する方法、およびカスタマーエクスペリエンスを最適化するために開発者が利用できるものについて説明します。 日本語は TTS にとって課題が多い言語 日本語の書記体系は、主に 3 つの書記法 (漢字、平仮名、および片仮名) で構成されており、多くの場合、これらの書記法は同じ意味合いで使用できます。たとえば、「キャンドル」を表す単語は、漢字 (蝋燭)、平仮名 (ろうそく)、または片仮名 (ロウソク) で書くことができます。漢字は表語文字であり、平仮名と片仮名 (総称して仮名と呼ばれます) は、発音をより正確に表す音節文字です。日本語の文章には、ほとんどの場合、漢字と仮名の両方が含まれています。 この豊富な書記法により、日本語を話す人はクリエイティブに筆記することができ、熟語の読みは、構成文字 (当て字) から予想されるものとは異なる場合があります。これは、人名でさらに顕著であり、文字の連なりからその名前の発音方法を常に予測できるとは限りません。 TTS フロントエンドの最初のステップの 1 つは、文を単語に分割することです。これは、日本語においては、別の課題となります。英語では、単語をスペースで確定的に分離できるため、タスクは簡単です。日本語は、間にスペースを入れずに単語をつなぎ合わせます。そのため、単語の終わりと次の単語の始まりを予測するモデルが必要です。英語で、Applesonatable などの文字の順序を個々の単語に分解することを想像してみてください。言語的な知識に基づき、これが「Apple son at able」ではなく「Apples on a table」であることがわかります。 これを行うにはモデルに教える必要があります。 さらに、日本語の単語の発音は周囲の文脈に大きく依存します。同じ漢字の連なりの単語であっても、発音が異なり、文脈に応じて異なる意味を有することがあります (同形異義語)。これらは TTS にとって最大の課題です。次の例は、この発音の違いを示しています。 「とうきょうと」と発音される「東京都」は「東京という都市」を意味します […]

Read More

Amazon Personalize の推奨スコアのご紹介

Amazon Personalize を使用すると、Amazon.com で使用されているのと同じ機械学習テクノロジーを使用して、事前の機械学習の経験を必要とせずに、ウェブサイト、アプリ、広告、メールなどをパーソナライズできます。Amazon Personalize を使用すると、シンプルな API インターフェイスを介してユーザーのためにパーソナライズされたレコメンデーションを生成できます。Amazon Personalize は、パーソナライズされたレコメンデーションごとに生成された推奨スコアの提供を開始しました。これらのスコアは、レコメンデーションの関連性の相対的差異を理解するのに役立ちます。この投稿では、これらのスコアの使用法と解釈につ​​いて説明します。 推奨スコアの使用 Amazon Personalize の推奨スコアは、レコメンデーションに追加のビジネスロジックを適用するのに役立ちます。以下の例をいくつか見てみましょう。 相対しきい値を超えるアイテムを推奨します。たとえば、返されたアイテムの中で最高スコアの 50% を超えるスコアを持つアイテムのみを推奨します。推奨スコアが 0.001 を超えるアイテムのみを推奨するなど、絶対しきい値を設定することはお勧めしません。 あるユーザーについて、アイテムのスコアが非常に高い場合は、特別なアクションを実行します。たとえば、アイテムのスコアが 0.2 を超える場合、ユーザーに特別な通知を送信するか、特別な UI エレメントを表示して、この信頼性の高いアイテムについてユーザーに知らせます。 レコメンデーションの関連性と、スポンサー付きコンテンツの表示などの他のビジネス目標との間でバランスを調整するなど、Personalize の結果に対してカスタマイズされた再ランキングを実行します。 推奨スコアは、リアルタイムレコメンデーションおよびバッチレコメンデーションを通じて利用できます。リアルタイムレコメンデーションについては、Amazon Personalize コンソールからも利用できます。スコアは、次のレシピを使用して作成されたソリューションバージョンで有効となります。 arn:aws:personalize:::recipe/aws-hrnn arn:aws:personalize:::recipe/aws-hrnn-metadata arn:aws:personalize:::recipe/aws-hrnn-coldstart arn:aws:personalize:::recipe/aws-personalized-ranking 現時点では、aws-sims および aws-popularity-count レシピを使用して作成されたソリューションのスコアは使用できません。 この投稿では、コンソールで推奨スコアを取得する方法の簡単なデモを行います。これまでに Amazon Personalize を使用したことがない場合は、続行する前に開始方法を参照してください。 リアルタイムレコメンデーションのスコアの取得 Amazon Personalize コンソールでは、GetRecommendations または GetPersonalizedRanking API からのチェック結果を簡単に見つけることができます。本番アプリケーションでは、AWS CLI または言語固有の SDK を使用してこれらの API を呼び出します。推奨スコアを取得するには、Amazon […]

Read More

アクティブラーニングで Amazon SageMaker ラベリングワークフロー用の独自のモデルを持ち込む

Amazon SageMaker Ground Truth を使うと、正確にラベル付けされた機械学習 (ML) データセットを簡単に低価格で構築することができます。ラベル付けコストを削減するために、SageMaker Ground Truth はアクティブラーニングを使用して、ラベル付けが難しいデータオブジェクト (画像やドキュメントなど) と簡単なものを区別します。難しいデータオブジェクトは人間の労働者に送信して注釈を付け、簡単なデータオブジェクトは自動的に機械学習でラベル付けします (自動化されたラベル付けまたは自動ラベリング)。 SageMaker Ground Truth の自動ラベリング機能は、事前定義された Amazon SageMaker アルゴリズムを使用してデータにラベルを付け、サポートされている SageMaker Ground Truth 組み込みタスクタイプの 1 つを使用してラベリングジョブを作成する場合にのみ使用できます。 このブログ記事を使って、独自のアルゴリズムでアクティブラーニングワークフローを作成し、そのワークフローでトレーニングと推論を実行します。この例は、カスタムラベル付けジョブでアクティブラーニングと自動注釈を実行するための出発点として使用できます。 この記事には 2 つの部分があります。 パート 1 では、Amazon SageMaker 組み込みアルゴリズムの BlazingText を使用してアクティブラーニングワークフローを作成する方法を示します。 パート 2 では、BlazingText アルゴリズムをカスタム ML モデルに置き換えます。 これらのパートで使用するコードを実行およびカスタマイズするには、ノートブックインスタンスの SageMaker Examples セクションにあるノートブック bring_your_own_model_for_sagemaker_labeling_workflows_with_active_learning.ipynb(ノートブック) を使用します。このコードはさらにカスタマイズできます。たとえば、この GitHub リポジトリの src ディレクトリにあるコードを使用して、ランダムな選択とは異なるアクティブラーニングロジックを使用できます。 この記事では、UCI ニュースデータセットを使用したカスタムアクティブラーニングワークフローについて説明します。このデータセットには、ビジネス […]

Read More

Memsource の機械翻訳管理機能である Memsource Translate に Amazon Translate が追加

これは Memsource のゲスト投稿です。彼らの言葉によれば、「AI を搭載した翻訳テクノロジーで業界を先導することにより、より簡単に、より速く、そしてさらに費用対効果の高い方法でローカリゼーションを行います」とのことです。 Memsource と Amazon Translate は、パートナーシップを強化しています。Memsource の機械翻訳 (MT) 管理機能である Memsource Translate で Amazon Translate を使用できるようになりました。 多くの Memsource ユーザーから共通の問題をお寄せいただきました。選択する機械翻訳エンジンが多すぎるため、ソースコンテンツの翻訳に最適な結果を決定するプロセスが難しくて面倒だというご意見でした。さらに、エンジンが頻繁に変更され、常に新しい言語ペアが追加されます。Memsource の社内評価によると、70% 以上の翻訳プロジェクトで、顧客は最も効果的な機械翻訳エンジンを使用できていないことがわかりました。 Memsource Translate は、内容に最適なエンジンを自動的に選択する、新しい機械翻訳管理機能です。高品質の翻訳を簡単かつ迅速に提供します。また、Memsource の AI を搭載した機能の最新バージョンである機械翻訳品質推定 (MTQE) も含まれています。この機能は、事後編集が行われる前に、リアルタイムで機械翻訳出力の品質スコアを提供します。 サポートされているエンジンの 1 つとして Amazon Translate が追加されたことをお知らせいたします。 Memsource アカウントさえあれば、Amazon Translate で Memsource Translate を使用できます。初めてサインアップすると、無料 Memsource Translate といった文字が表示され、内容をテストできます。 選択機能 選択は、翻訳の言語ペアに基づいています。次の図は、そのプロセスを示しています。 内容をアップロードして言語ペアを選択すると、Memsource Translate は最高ランクのエンジンを自動で選択します。その後、機械翻訳の品質スコアを確認できます。その結果、翻訳者の生産性が向上し、コストが削減されます。 将来の展望 今後数か月のうちに、テキストのコンテンツタイプ (分野) […]

Read More

Amazon Elastic Inference で PyTorch モデル向け Amazon EC2 の推論コストを削減する

Amazon Elastic Inference を使用して、Amazon SageMaker と Amazon EC2 の両方で PyTorch モデルの推論を加速し、推論コストを削減できるようになりました。 PyTorch は、動的なコンピューティンググラフを使用する一般的なディープラーニングフレームワークです。これにより、命令的で慣用的な Python コードを使用してディープラーニングモデルを簡単に開発できます。推論は、トレーニングされたモデルを使用して予測を行うプロセスです。PyTorch などのフレームワークを使用するディープラーニングアプリケーションの場合、推論は計算コストの最大 90% を占めます。ディープラーニングモデルはさまざまな量の GPU、CPU、およびメモリリソースを必要とするため、推論に適切なインスタンスを選択することは困難です。通常、スタンドアロン GPU インスタンスでこれらのリソースの 1 つを最適化すると、他のリソースが十分に活用されなくなります。したがって、未使用のリソースに対して料金を支払うことになる可能性があります。 Elastic Inference は、Amazon SageMaker インスタンスタイプや EC2 インスタンスタイプ、または Amazon ECS タスクに適切な量の GPU による推論アクセラレーションをアタッチできるようにすることで、この問題を解決します。アプリケーションの全体的なコンピューティングとメモリのニーズに最適な AWS の CPU インスタンスを選択し、アプリケーションのレイテンシー要件を満たすために適切な量の GPU による推論アクセラレーションを個別にアタッチできます。これにより、リソースをより効率的に使用し、推論コストを削減できます。PyTorch が、Elastic Inference でサポートされるディープラーニングフレームワークとして TensorFlow と Apache MXNet に加わります。この記事の執筆時点でリリースされているバージョンは 1.3.1 です。 この記事では、Amazon EC2 インスタンスと Elastic […]

Read More

Amazon Polly を使用した日本語テキスト読み上げの最適化

Amazon Polly は、高度な深層学習テクノロジーを使用して、29 の言語および 61 の音声で、人間のように聞こえる音声を合成するテキスト読み上げ( TTS )を提供するクラウドサービスです。Amazon Polly サービスは、自動コンタクトセンター、言語学習プラットフォーム、翻訳アプリ、および記事の読み上げなど、幅広い用途に対応する音声合成を使用するデジタル製品の開発において企業をサポートしています。 Amazon Polly は現在、2 つの日本語音声を提供しています。日本語は書記体系が複雑であるため、TTS システムに多くの課題をもたらします。 この投稿では、日本語が TTS に与える課題の概要、Amazon Polly がそれらの課題に対処する方法、および正しい発音を合成してカスタマーエクスペリエンスを最適化するために開発者が利用できる手法について説明します。 日本語はTTS にとって課題が多い言語 日本語の書記体系は、主に 3 つの書記法(漢字、平仮名、片仮名)で構成されており、多くの場合、これらの書記法は互換できます。たとえば、ロウソクを表す単語は、漢字(蝋燭)、平仮名(ろうそく)、または片仮名(ロウソク)で書くことができます。 漢字の読み方には音読みと訓読みがあり、さらに熟語の読みは、当て字の場合など、構成文字の読みから予想されるものとは異なる場合があります。これは、人名の場合に特に顕著であり、文字列からその名前の発音を常に予測できるとは限りません。 TTS システムの最初のステップの 1 つは、文を単語に分割することです。英語の場合、単語はスペースで分かれているためこの作業は簡単ですが、日本語の場合は一筋縄にはいきません。日本語は、間にスペースを入れずに単語をつなぎ合わせるため、単語と単語の境界を予測するモデルが必要になります。英語で、Applesonatable などの文字列を個々の単語に分解する場面を想像してください。言語的な知識を用いると、“Apple son at able” ではなく “Apples on a table” であることがわかります。これを自動的に行うにはモデルを学習する必要があります。 さらに、日本語の単語の発音は周囲の文脈に大きく依存します。同じ漢字の連なりの単語であっても、発音が異なり、文脈に応じて異なる意味を有することがあります (同形異義語)。これらはTTS にとって最大の課題です。例えば「東京都」を「とうきょうと」と読むと「現在の日本の首都」を指しますが、「ひがしきょうと」と読むと「京都の東部」を指します。また、「行った」を「いった」と読むと、「ある場所に出かけたこと」を意味しますが、「おこなった」と読むと、「何かを実行したこと」を意味します。 「東京都に行った」は、「東京/都/に/行った」と分割でき、この場合は「とうきょうとにいった」と読みますが、「東/京都/に/行った」の場合は「ひがしきょうとにいった」と読みます。これらの両方の場合において、「行った」は「いった」と読みますが、「東京都に行った事業の報告をする」という文脈では、2 番目の意味(「何かを実行したこと」)となり、「いった」ではなく「おこなった」と読みます。 さらに、日本語は高低アクセント言語であるため、アクセントの違いによって単語の意味に違いが生じる可能性があります。例として、雨(頭高型アクセント)と飴(平板型アクセント)があります(いずれも標準語・共通語のアクセント)。平仮名で書くと両方とも「あめ」ですが、アクセントの表記はありません。 これらの困難に対処するために、Amazon Polly は日本語のTTS システムでいくつかの機械学習(ML)モデルを採用しています。ML モデルは、周囲の単語およびその構文(文法)および形態(単語構造)情報に関する情報を使用して、単語の発音または高低アクセントおよび抑揚を予測します。これらのモデルは、言語のパターンを一般化するのに役立ち、合成されたことのない文の発音および抑揚を予測できます。 私たちは Amazon Polly のモデルの改善に継続的に取り組んでいますが、それでもサービスが正しい発音を予測できない場合があります。人間は、書かれた文脈が不十分でも、より広い文化的または状況的知識から文脈情報を推測し、筆記された文を理解できます。これらの情報の一部は現在の TTS モデルでは利用できず、または利用可能な情報はあってもモデルがそれを使って正確な予測を行うことができないこともあります。母国語話者でさえ、背景知識がないために正しい発音を予測するのに苦労する場合があります。これは、人名や地名で特によくあることで、たとえば、「愛」という名前は、「あい」、「めぐみ」、「まなみ」、「まな」など、少なくとも 28 通りの読み方があります。 これらの問題を回避するために、日本語テキストの発音をコントロールする方法がいくつかあります。 […]

Read More