Amazon Web Services ブログ

Category: Amazon Polly

Amazon Connect

Amazon ConnectとAmazon Lexの連携により洗練された会話体験を実現

本記事は、Brian Yost、Anubhav MishraによるCreating a sophisticated conversational experience using Amazon Lex in Australian Englishを翻訳したものをベースに、日本語対応のための編集を行ったものです。 コンタクトセンターにおいて、ユーザーが担当窓口を番号で選択する典型的なIVRは、ユーザーの問い合わせが多岐に渡る場合に選択肢や階層が多くなり、顧客体験を低下させてしまう事があります。真に魅力的な会話体験を実現するためには、ユーザーの意図を正確に理解する高品質な音声認識と、自然言語理解が必要です。 Amazon Lexは、音声やテキストを使ってあらゆるアプリケーションに会話型インターフェースを構築するためのサービスです。Amazon Lexが日本語に対応したことより、ユーザーが発する日本語を正確に理解し、堅牢でローカライズされた会話体験を提供することができます。また、Amazon Pollyが自然に聞こえるように合成した日本語音声でユーザーに応答し、完全にローカライズされた会話体験を提供することができます。 この記事では、日本語をサポートするチャットボットを構築し、Amazon Connectの問い合わせフローに組み込むことによって、コンタクトセンターのユーザーに優れた体験を提供する方法を紹介します。

Read More

Amazon Lex が日本語に対応。東京リージョンでお使いいただけます

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、シニアエバンジェリストの亀田です。 Amazon Lex が日本語に対応し、東京リージョンでお使いいただけますのでお知らせいたします。 Amazon Lex Amazon Lex はチャットボット向けの会話型 AIを提供するサービスで、Alexaと同じテクノロジーを利用した会話インターフェースの構築が可能となります。 音声をテキストに変換するためのディープラーニングを利用した自動音声認識(ASR)と、テキストの意図を認識する自然言語理解(NLU)機能が提供されているため、文字チャットだけではなく、音声入力により、リアルな会話の相互作用を備えたアプリケーションの構築が簡単に行えます。音声には、Amazon Pollyが用いられ、自然な日本語でユーザーに応答し、また発音のカスタマイズ等も可能です。 2021年4月2日現在、日本語の他に、英語、フランス語、ドイツ語、イタリア語、スペイン語に対応しています。 Lex には皆さんの開発をより簡便化させるために、いくつかのテンプレートがあらかじめ備わっています。ここでは、旅行予約を行うテンプレートをみてみます。 Intents, Utterances, Slots, Prompts, Fulfillment という用語がでています。これらはそれぞれ以下の目的で用いられます。 Intents : 花の注文やホテルの予約など、ユーザーが達成したい目標です。ボットには少なくとも1つのインテントが必要となります。デフォルトでは、すべてのボットに単一の組み込みインテントであるフォールバックインテントが含まれています。このインテントは、Lexが他のインテントを認識しない場合に使用されます。たとえば、ユーザーがホテルの予約インテントに「花を注文したい」と言うと、フォールバックインテントがトリガーされます。ここに新規のインテントを追加し会話インターフェースを作りこんでいくことになります。 Utterances: ユーザーがインテントをトリガーするために使用すると予想される10個以上のフレーズを提供する必要があります。例えば、ホテルを予約したい場合、「旅行」から会話を始めるユーザーもいれば、「ホテル予約」と指示を出すユーザーもいます。なるべく多くのフレーズを設定することで、ユーザーの意図を取り組みやすいインターフェースを作ることができます。Lexは、これらのフレーズから一般化して、ユーザーがインテントをトリガーしたいことを認識します。 Slots: 上記utterancesの中にも含まれるケースがある、Lexの会話ボットが実現したい具体的な内容です。例えば、ホテルの予約ボットであれば、「場所」、「日付」、「宿泊日数」、「部屋の種類」などです。Lexはこれらの情報を取得するために、ユーザーとの会話を行う、と言い換えることができます。 Prompts: Prompts は上記Slotsと連携して、Lexが発話してユーザーに質問を行う会話です。上記の例でいうと「Location」というSlotsに対して、Lexは「どちらの都市に滞在しますか?」とユーザーに話しかけます。 Fulfillment:Slotsで設定された必要な情報が集まった時点で、Lexか行う処理を定義します。以下の例であれば、ホテルの予約を行うために、空き部屋や価格照会、予約行為を行うAWS Lambda関数を起動します。 Lexにはその他より良い音声ないしはチャットインターフェースを実現させるための機能が備わっています。 例えば、「Sentiment analysis」の機能は、ユーザーの会話やチャットに入力された文字列に対して、感情分析を行います。ユーザーがNegativeな入力を多くしている場合、会話インターフェースをより洗練させるヒントがそこから得られるかもしれません。現在日本語音声は女性であれば「Mizuki」、男性であれば「Takumi」という2つのエンジンが備わっています。ユーザーが途中で気が変わり会話をやめた場合、処理を終了させるタイムアウトのコントロールなども可能です。 以下のようにマネージメントコンソールで現在開発中の会話インターフェース試すこともできます。チャットだけではなく、ブラウザ経由で音声をマイクから拾い、音声によるテストも可能です。 作成されたBotはマネージメントコンソール右上から、「Publish」ボタンをおすと、公開されます。 フロントエンドへの実行は以下のドキュメントに詳細が記載されています。 https://docs.aws.amazon.com/lex/latest/dg/examples.html 例えば、AWS Amplifyへ組み込む場合、以下のような内容を記載し設定します。以下の例では、Amazon Cognitoを用いて認証を行い、その後LexのBotを呼び出しています。LexのBotはARNではなく、aliasで呼び出しています。 import Amplify from ‘aws-amplify’; Amplify.configure({ Auth: { identityPoolId: ‘ap-northeast-1:xxx-xxx-xxx-xxx-xxx’, […]

Read More

Amazon Polly を使用した日本語テキスト読み上げの最適化

Amazon Polly は、高度な深層学習テクノロジーを使用して、29 の言語および 61 の音声で、人間のように聞こえる音声を合成するテキスト読み上げ( TTS )を提供するクラウドサービスです。Amazon Polly サービスは、自動コンタクトセンター、言語学習プラットフォーム、翻訳アプリ、および記事の読み上げなど、幅広い用途に対応する音声合成を使用するデジタル製品の開発において企業をサポートしています。 Amazon Polly は現在、2 つの日本語音声を提供しています。日本語は書記体系が複雑であるため、TTS システムに多くの課題をもたらします。 この投稿では、日本語が TTS に与える課題の概要、Amazon Polly がそれらの課題に対処する方法、および正しい発音を合成してカスタマーエクスペリエンスを最適化するために開発者が利用できる手法について説明します。 日本語はTTS にとって課題が多い言語 日本語の書記体系は、主に 3 つの書記法(漢字、平仮名、片仮名)で構成されており、多くの場合、これらの書記法は互換できます。たとえば、ロウソクを表す単語は、漢字(蝋燭)、平仮名(ろうそく)、または片仮名(ロウソク)で書くことができます。 漢字の読み方には音読みと訓読みがあり、さらに熟語の読みは、当て字の場合など、構成文字の読みから予想されるものとは異なる場合があります。これは、人名の場合に特に顕著であり、文字列からその名前の発音を常に予測できるとは限りません。 TTS システムの最初のステップの 1 つは、文を単語に分割することです。英語の場合、単語はスペースで分かれているためこの作業は簡単ですが、日本語の場合は一筋縄にはいきません。日本語は、間にスペースを入れずに単語をつなぎ合わせるため、単語と単語の境界を予測するモデルが必要になります。英語で、Applesonatable などの文字列を個々の単語に分解する場面を想像してください。言語的な知識を用いると、“Apple son at able” ではなく “Apples on a table” であることがわかります。これを自動的に行うにはモデルを学習する必要があります。 さらに、日本語の単語の発音は周囲の文脈に大きく依存します。同じ漢字の連なりの単語であっても、発音が異なり、文脈に応じて異なる意味を有することがあります (同形異義語)。これらはTTS にとって最大の課題です。例えば「東京都」を「とうきょうと」と読むと「現在の日本の首都」を指しますが、「ひがしきょうと」と読むと「京都の東部」を指します。また、「行った」を「いった」と読むと、「ある場所に出かけたこと」を意味しますが、「おこなった」と読むと、「何かを実行したこと」を意味します。 「東京都に行った」は、「東京/都/に/行った」と分割でき、この場合は「とうきょうとにいった」と読みますが、「東/京都/に/行った」の場合は「ひがしきょうとにいった」と読みます。これらの両方の場合において、「行った」は「いった」と読みますが、「東京都に行った事業の報告をする」という文脈では、2 番目の意味(「何かを実行したこと」)となり、「いった」ではなく「おこなった」と読みます。 さらに、日本語は高低アクセント言語であるため、アクセントの違いによって単語の意味に違いが生じる可能性があります。例として、雨(頭高型アクセント)と飴(平板型アクセント)があります(いずれも標準語・共通語のアクセント)。平仮名で書くと両方とも「あめ」ですが、アクセントの表記はありません。 これらの困難に対処するために、Amazon Polly は日本語のTTS システムでいくつかの機械学習(ML)モデルを採用しています。ML モデルは、周囲の単語およびその構文(文法)および形態(単語構造)情報に関する情報を使用して、単語の発音または高低アクセントおよび抑揚を予測します。これらのモデルは、言語のパターンを一般化するのに役立ち、合成されたことのない文の発音および抑揚を予測できます。 私たちは Amazon Polly のモデルの改善に継続的に取り組んでいますが、それでもサービスが正しい発音を予測できない場合があります。人間は、書かれた文脈が不十分でも、より広い文化的または状況的知識から文脈情報を推測し、筆記された文を理解できます。これらの情報の一部は現在の TTS モデルでは利用できず、または利用可能な情報はあってもモデルがそれを使って正確な予測を行うことができないこともあります。母国語話者でさえ、背景知識がないために正しい発音を予測するのに苦労する場合があります。これは、人名や地名で特によくあることで、たとえば、「愛」という名前は、「あい」、「めぐみ」、「まなみ」、「まな」など、少なくとも 28 通りの読み方があります。 これらの問題を回避するために、日本語テキストの発音をコントロールする方法がいくつかあります。 […]

Read More

[AWS Black Belt Online Seminar] AI Service 資料及び QA 公開

先日 (2019/9/24) 開催しました AWS Black Belt Online Seminar「AI Service」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。   20190924 AWS Black Belt Online Seminar AWS AI Service from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. Forecast で使用される祝日情報は日本の祝日を全て網羅していますか? A. 全ての祝日への対応は保証しておりません。Amazon Forecastでは祝日の判定に Jollyday を利用しています。 Q. AWS Textractの利用構成例において「Textract ⇒ Lambda」という流れになっていましたが、TextractからLambdaを呼び出すことができるのでしょうか? A. ご紹介した構成例は、スペースの都合上、一部のサービスとの連携を省略しています。詳細は、各サービスのドキュメントを御覧ください。 — 今後の AWS Webinar | イベントスケジュール 直近で以下を予定しています。各詳細およびお申し込み先は下記URLからご確認いただけます。皆様のご参加をお待ちしております。 【AWS Innovate Online Conference】 AWS Innovate は、AWS […]

Read More

【開催報告】Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –

こんにちは。AWS ソリューションアーキテクトの八木達也 ( @ygtxxxx ) です。 7月23日に、「Digital Advertising Japan Seminar 2018 – Machine Learning 事例祭り –」を開催いたしました。 AWSジャパン主催でデジタル広告業界の方向けのイベントを開催するのは2年ぶりでしたが、定員60人のところ55名の方にお集まりいただき、盛況となりました。             このイベントは「Digital Advertising、AdTech 領域における Machine Learningの実践知」を「互いに学び合う」ことができる場を作ることを目標としていたため、AWSメンバーによるプレゼンテーションだけではなく、お客様プレゼンテーションを中心としたAGENDAを構成しました。機会学習という領域における、テクノロジー視点でのお取組み、組織育成視点でのお取組み、それぞれの視点で最先端な活動をなさる方々よりご登壇を頂きました。 まずは主催者の唐木/八木よりオープニングセッションを行いました。 唐木より全体の説明を行い、八木より「Machine Learning for Digital Advertising」というタイトルでプレゼンテーションを行いました。 Machine Learning for Digital Advertising from Amazon Web Services Japan 次に、アナリティクス スペシャリスト ソリューションアーキテクトの志村より「AWS ML Services Update」というタイトルでプレゼンテーションを行いました。 AWS ML Update from Amazon […]

Read More

AWS 機械学習ソリューションについて学べる新しいデジタルトレーニング

こんにちわ。 アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。   今年の1月に、AWSがご提供している機械学習関連サービスの、無料のトレーニングコースについてご案内しました。このコースはクラウドのスキルを磨いたり Machine Learning (ML)を学びやすくするために提供しており、「ディープラーニングの概要 (Introduction to Deep Learning)」や「Amazon SageMaker の概要 (Introduction to Amazon SageMaker)」といった新しいコースが含まれています。   こちらの日本語版がリリースされましたので、みなさんにご案内いたします。 オンデマンドウェビナー一覧 以下のコースが日本語字幕付きで提供を開始しています。動画視聴がポップアップブロックで開始されない場合は、ブラウザのポップアップブロックを設定してください。 https://www.aws.training にて登録後、各トレーニングをご利用いただけます。 Introduction to AWS Machine Learning Services (Japanese) (日本語字幕版) Introduction to Deep Learning (Japanese) (日本語字幕版) Introduction to AWS Greengrass (Japanese) (日本語字幕版) Introduction to Artificial Intelligence (Japanese) (日本語字幕版) Introduction to […]

Read More

Policybazaar.com が、Amazon Polly を採用して、効率とカスタマーエクスペリエンスを強化

これは、PolicyBazaar.com の最高技術責任者兼チーフプロダクトオフィサーである、Ashish Gupta 氏のゲストブログ記事です。彼ら自身の言葉によれば、「PolicyBazaar.com はインドで最大の保険マーケットプレイスであり、顧客は購入前に複数の保険商品を比較することができます。」 2008 年の創業以来、Policybazaar.com は、インドが保険を購入する方法を再定義した新しい FinTech エコシステムを開拓してきました。私たちの 10 年間の長い旅の間、課題は私たちの絶え間ない進化と進歩の内在的な部分でした。  私たちのビジネスが成長するための核心は、消費者の問題を迅速かつ効率的に解決することです。私たちには哲学があります — つぼみのうちに摘み取る!2017 年、事業規模が拡大しました。平均取引件数が、以前の月当たり 12 万件から月当たり 25 万件に増加したのです。これは、私たちが以前よりもより多くの消費者を管理し、以前よりも多くの消費者の問題を解決したことを意味しました。2017 年、約 1 億件の顧客からの電話問い合わせを管理しました。 明らかに、この成長に追いつくために革新する必要があります。従来のツールを使って顧客の期待に応えることは不可能です。 したがって、新しい最先端の技術革新を採用することが最重要です。TTS (text-to-speech) ソリューションである、Amazon Polly が、日常の課題を解決するのに最適なツールでした。Amazon Polly の採用により、顧客サービスを次のレベルに引き上げ、より大きな成果性と高い生産性を実現しました。現在、Amazon Polly は次の方法で使用しています。 音声ブロードキャスト 重大な音声アラート 受信通話 Amazon Polly は、多目的用途に適した事前定義の応答の共有から、「ドキュメントが保留中です」や「アップロードに問題がありました」などの顧客の問い合わせにシフトすることを可能にして、プロセスと効率に差をつけました。Amazon Polly では、システムがお客様を識別し、個人ベースで質問を解決する音声通話を生成します。 つまり、特定の問題に重点を置いて関連性のあるメッセージを送信できるようになったのです。一例があります。「住所の証明を提出していただきありがとうございます。ただし、お客様が提出された所得の証明は間違っています。3 ヶ月の銀行口座明細書、または 3 ヶ月分の給料明細を送っていただけますか?」Amazon Polly への移行により、シームレスなカスタマーエクスペリエンスが増加し、より実践的なコミュニケーションが促進されます。 Amazon Polly と社内 IVR 通話サービスである PBee Connect を統合して以来、特に対処の通話がある場合に、顧客関与の大幅な改善が見られました。 私たちの場合、4 […]

Read More

Amazon Polly が HIPAA に準拠

Amazon Polly は、文章をリアルな音声に変換できるサービスです。話すことができるアプリケーションを構築可能な、まったく新しいカテゴリの音声対応製品です。Amazon Polly API は、AWS HIPAA 準拠サービスです。 何十種類もの生き生きとした音声を多数の言語に変換でき、最適な音声を選択して、音声対応アプリケーションを構築できます。例として、英国最大の診断およびヘルスケアソリューション提供企業 Inhealthcare 社 の事例があります。同社は Amazon Polly を使用して、英国の全人口向けに遠隔ホームモニタリングをサポートする、デジタルインフラストラクチャを構築しました。この事例では、サービスを大規模に展開するために自動電話システムが最適なコミュニケーションチャネルとして使われています。なぜならば、インターネットにアクセスできなかったり、スマートフォンを持っていなくても、ほぼすべての人がサービスを使用できるからです。また多くの高齢者の方々にとって、従来の電話機は使い勝手がよく、安心して使えます。Inhealthcare 社が患者様のケアを提供するために、どのように Amazon Polly を使用しているのかについて、詳しくはブログ投稿を参照してください。 HIPAA 準拠は、Amazon Polly を利用できる、すべての AWS リージョンに適用されます。PHI を保存、処理、転送するように AWS HIPAA 準拠サービスを設定する方法に関する情報およびベストプラクティスについては、アマゾン ウェブ サービスの HIPAA セキュリティおよびコンプライアンスのためのアーキテクチャ設計ホワイトペーパーを参照してください。 AWS Business Associate Addendum (BAA) をご使用の場合は、Amazon Polly で医療情報 (PHI) が含まれているテキストから音声を作成することができます。AWS BAA を使用していない場合や AWS HIPAA で規制されているワークロードの実行に関するその他のご質問があれば、お問い合わせください。 今回のブログ投稿者について Binny Peh は AWS Machine Learning […]

Read More

Initiafy と Amazon Polly でアクセス可能なトレーニングを作成する

これは、Initiafy の Ronan O’Sullivan と Conor McNally によって投稿されたゲストブログです。彼ら自身の言葉を借りれば、「Initiafy は、会社が契約社員、一時労働者、または季節労働者を採用し、仕事を始める前にトレーニングする点で助けとなる、契約社員管理ソフトウェアのリーディングプロバイダーです。このソフトウェアには、世界中に 30 万人以上のユーザーがいます」。 私たちは摩天楼、道路のネットワーク、油田リグ、水力発電のダム、原子力発電所、風力発電機、吊り橋、そして世界を満たしている他の信じがたいような人間工学の偉業に慣れてしまっており、それらの建設のために払われた驚くべき労力を見過ごしてしまうことがあります。こういったプロジェクトはロボットにより構築されたのではありません。それらを生み出すには、プロセスを設計、合理化、改善するのに用いられたテクノロジーに加えて、人々の巨大な労力が必要でした。 Initiafy は、プロジェクトの労働力の要素をより生産的で、効率的なものにします。重工業のプロジェクトは契約社員に依存しており、それには文書、健康と安全、品質管理を扱う管理上の課題が伴っています。Initiafy は、労働者に柔軟性のある仕方でトレーニングを施し、一時労働力全体にわたって高い標準を保つ点で役立つ、オンラインプラットフォームでの契約社員管理システムを提供しています。Initiafy は多くの国で事業を運営しており、様々な国から来た労働者を対象としています。それで、すべての労働者がトレーニングを受けられるようにすることは非常に重要です。 このブログでは、Amazon Polly を、様々な会社が Initiafy のプラットフォーム上で契約社員のために構築したトレーニングコースと完全に統合するという問題を扱っています。Amazon Polly が、コースの構築とコースのコンテンツにどのように柔軟性をもたらすか、そしてあらゆる種類の契約社員にとってアクセスしやすいものとするかについて説明します。 契約社員の採用に関する問題 重工業では、労働者の採用に関して、多くの課題に直面します。契約社員は、自分の役割に固有の、密度の高い技術情報を受け取ること、そして重要な健康と安全のための慣行に関するトレーニングを受けることが必要です。Initiafy は、会社に対し、契約社員のためにマルチメディアコンテンツを含むコースをデザインする機会を与えています。 非常に重要な安全と技術情報を与えることはひとつの課題です。重工業では、労働力として、様々な国からの、リテラシーのレベルも異なる契約社員を雇用するからです。Initiafy は、労働者間の言語の障壁を乗り越え、教育を受けられなかった、または教育が不足しているために非識字である場合もある労働者をサポートするためのツールを探していました。 Amazon Polly の使い方 Initiafy のプラットフォームでは、労働者はオンラインのトレーニングコースを受講します。コースはテキスト、ビデオ、画像、そして通常はコースのチャプターの終わりごとに用意されたクイズのようなインタラクティブコンテンツを含む、スライドに分割されています。Amazon Polly を使えば、テキスト形式のコンテンツは、あらゆる労働者がアクセスできるものになります。テキスト形式はなっていない、その他の音声コンテンツも追加できます。 コースを準備する担当者は、Amazon Polly で音声と言語を選択します。それからこれはオーディオファイルとして保存され、Amazon S3 バケット内に置かれます。コースの作成者は、労働者がどの程度多くのオーディオを聞く必要があるかもコントロールできます。たとえば、オーディオが 100% 再生されるまでは、次のスライドに進めないように設定することができます。このようにして、労働者がコースのコンテンツに取り組むように促します。 HTML 形式のコースコンテンツは削除されます。テキストストリームの残りはスライド単位で分割されて、バックグラウンドで Amazon Polly にアップロードされます。コースコンテンツには、次のように 3 つのタイプがあります。 HTML コンテンツは完全に削除されます。 テキストはスライドごとに含められていて、Amazon Polly によって読み上げられます。 トレーニング中に労働者に対して読み上げられる隠しテキストというものもあり、これはスライドには表示されません。 […]

Read More

Amazon Polly が Nexmo の次世代型テキスト読み上げのユースケースを強化

この記事は Nexmo, the Vonage API Platform の プロダクトディレクター、ボイスアンド RTC、Roland Selmer 氏によるゲストブログ記事です。彼は Nexmo についてこのように述べています。「テキストメッセージング、チャット、ソーシャルメディア、音声などを通じて、リアルタイムかつ容易にカスタマーと情報を共有するのに必要なツールを提供することで、デジタルカスタマーエクスペリエンスを再考できるようにします。」 ビジネスがアプリケーションにコミュニケーション機能を統合できるようにするクラウドコミュニケーションプロバイダーとして、Nexmo, the Vonage API Platform は、 当社のカスタマーために提供している合成音声ユースケースの多くに役立つテキスト読み上げ (TTS) ソリューションが必要でした。私たちの選ぶソリューションは、Nexmo のグローバル TTS 製品を強化するために、当社のテクノロジー要件と製品哲学に合致している必要がありました。 Amazon Polly はこれらの基準のすべてを完璧に満たしていました。このパワフルなサービスは、Nexmo の合成音声ユースケースの核となるメインエンジンとなっています。このサービスは言語と音声で幅広い分野を網羅しています。 Amazon Polly を活用した Nexmo ユースケース Nexmo では、アプリケーショントゥパーソン (A2P) コミュニケーションのインターフェイスとして音声に注目しており、当社のカスタマーがこの最も自然なコミュニケーション方法を第一に独自のアプリケーションに統合できるようにします。Amazon Polly はその屋台骨と言えます。 特に、様々な業界のお客様が次に示す主要なユースケースにおいて、より良いビジネス収益を上げるために、Amazon Polly を活用した TTS を利用することができました。 音声放送 重大な音声アラート 着信通話通知 2 要素認証 (2FA) による PIN コードのフェイルオーバー音声配信 音声放送: […]

Read More