Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon Forecast がサポートする自動補完機能による、ターゲットおよび関連データセット内での欠落した値の管理

Amazon Forecast は、機械学習 (ML) を使用する完全マネージド型サービスです。このサービスでは、ML の経験を必要とせずに非常に正確な予想を生成できます。Forecast が利用可能なユースケースは多岐にわたります。たとえば、製品需要の見積り、サプライチェーンの最適化、人事計画、エネルギー需要の予測、クラウドインフラストラクチャの使用状況の算定などが考えられます。 Forecast では、プロビジョニングすべきサーバー、あるいは手動で構築すべき機械学習モデルなどは存在しません。また、お支払いは実際に使用した分のみであり、最低料金や前払い料金を求められることはありません。Forecast の使用には、予想すべき数値に関する履歴データと、その予想に影響を与える可能性のある関連データが必要がなだけです。この関連データとしては、価格、行事、天候など、時間的に変化するデータや、色、ジャンル、地域など分類に関するデータなどがあります。このサービスは、用意されたデータに基づき、機械学習モデルのトレーニングとデプロイを自動的に行います。また、予想結果を取得するためのカスタム API も利用できます。 現実世界で予想を実施する際に一般的に見られる事象として、生データにおける値の欠落が挙げられます。履歴 (あるいは時系列の) データから値が欠落しているということは、すべての時点において対応した値が利用可能とは限らない、ということを意味します。値が欠落するには、多くの理由があります。たとえば、特定の時点でトランザクションが発生しなかったり装置にエラーがある場合、あるいは、測定自体が適切に実施されなかった場合などに、値の欠落が生じます。 Forecast では、関連あるいはターゲットの時系列データセット、および履歴上や予想期間における、欠落データ (既存の NaN も含みます) の自動補完機能をサポートしています。関連時系列 (RTS) データには、通常、プロモーションや価格もしくは在庫切れなどの、ターゲットの数値 (製品需要) と相関性がある情報が含まれています。これらにより、予想結果の精度が向上することが期待できます。欠落した値に関しては、value、median、min、max、zero、mean、および nan (対象が時系列の場合のみ) といった各種のロジックを、特定のユースケースに合わせ適用できます。Forecast では、CreatePredictor API の FeaturizationConfig により、これらの機能を提供しています。 今回の記事では、Forecast の GitHub レポジトリ からサンプルノートブックを入手して、関連がある、あるいはターゲットの時系列 (TTS) データセットに対し、欠落した値の補完機能を適用していきます。 Forecast における欠落した値の処理 時系列上で値が欠落しているということは、結局、多くの理由により、それ以降の処理のために対応した値が利用不可能になるということを意味します。製品セールスを表している時系列データが欠落していることは、その製品が販売不可能な状態にあると解釈できます。この状況としては、製品が存在しない期間 (リリース前や非推奨となった後など) 、もしくは、製品は存在するものの販売できない期間 (部分的な在庫切れ) などが挙げられます。また、ある期間にセールスデータが記録されなかった場合も、値の欠落が生じます。 「(not available for sale (販売中止)」というユースケースでは、一般的にターゲットの値が zero となりますが、そこで失われたはずの値 (nan) […]

Read More

AWS DeepComposer での独自のデータを使った音楽ジャンルモデルの作成

 AWS DeepComposer は、生成 AI を教え、敵対的生成ネットワーク (GAN) を使って提供されたメロディを完全にオリジナルな曲に変換する AWS の教育サービスです。AWS DeepComposer を使用することにより、事前訓練済みの音楽ジャンルモデル (ジャズ、ロック、ポップ、シンフォニー、ジョナサン・コールトンなど) のひとつを使用する、または独自のモデルをトレーニングできます。音楽データファイルは、カスタム音楽ジャンルモデルをトレーニングする一環として NumPy オブジェクトに保存します。この記事は、GitHub にある Lab 2 – Train a custom GAN model のトレーニング手順に沿って、MIDI ファイルを AWS DeepComposer に適切なトレーニング形式に変換する方法について説明します。 このユースケースでは、レゲエ音楽ジャンルモデルをトレーニングするために独自の MIDI ファイルを使用します。源をジャマイカ島に発するレゲエ音楽は、通常、ベースギター、ドラム、および打楽器を使用しますが、この記事の手順は汎用性が高いため、どの音楽ジャンルにでも使用できます。 トレーニングデータを生成するためのデータ処理 トレーニングデータの開始状態となるのが MIDI (.mid) ファイルです。ソフトウェアはファイルを生成 (および読み込み) し、ファイルには曲譜と再生サウンドに関するデータが含まれています。データ処理の一環として、MIDI ファイルを NumPy アレイに変換し、それらを単一の .npy ファイルでディスクに永続化する必要があります。以下の図は、この変換プロセスを示すものです。 .csv ファイルは、機械学習でのデータの保存用に幅広く使用されていますが、.npy ファイルはトレーニングプロセスにおけるより高速な読み込み用に高度に最適化されています。.npy ファイルの最終シェイプは (x、32、128、4) になります。これは、(number of samples, number of […]

Read More

Alexa が Amazon Translate の使用により、海外のお客様の獲得を拡大

 Amazon Alexa は、15 のロケールで利用でき、8 言語に対応しています。Alexa が異なる言語を理解して対応するには、新しい文法規則を学習する必要があります。また、Alexa に搭載されるコンテンツを新しい言語に翻訳する必要があります。さらに、Alexa は、新しいサッカーリーグ、地域の有名人、重要な歴史上の出来事など、国固有のトピックについて学ぶ必要があります。 この投稿では、Alexa が Amazon Translate を使用して数多くの質問をさまざまな言語で理解し、意味の通じる回答を迅速に提供する方法について説明します。 Amazon Translate とは Amazon Translate は、高品質な翻訳を手頃な価格で迅速に提供するニューラル機械翻訳サービスです。ニューラル機械翻訳とは、深層学習モデルを使用して正確で自然な音声の翻訳を提供する、言語翻訳の一種です。Amazon Translate でサポートされている言語の詳細については、「サポートされている言語」を参照してください。 Alexa とは Alexa は、Amazon 製かサードパーティー製かを問わず、何億ものデバイスで利用できる Amazon のクラウドベースの音声サービスです。Alexa によって自然な音声による体験を構築でき、日常的に使用するテクノロジーをさらに直感的に操作できます。 Alexa による Amazon Translate の使用方法 Alexa は毎日新しいタイプの質問を受けています。Alexa に 1 つのインテントを認識する学習をさせるには、そのインテントを呼び出すための発話リストを手作業で作成しなければならない場合があります。詳細については、「Best Practices for Sample Utterances and Custom Slot Type Values」を参照してください。 たとえば、以下のコードはインテント GetStockPrice に対する数例の発話リストです。 {会社} の株価を知りたいのですが {会社} […]

Read More

Kubeflow Pipelines 用 Amazon SageMaker コンポーネントの紹介

本日、Kubeflow Pipelines 用の Amazon SageMaker コンポーネントを発表しました。今回の記事では、Kubeflow Pipelines SDK を使用しながら、Amazon SageMaker コンポーネントにより最初の Kubeflow パイプラインを構築する方法をご説明します。 Kubeflow は、カスタム ML パイプラインを構築しようとする Kubernetes ユーザーに良く使用されている、オープンソースの機械学習 (ML) ツールキットです。  Kubeflow Pipelines は Kubeflow のアドオン機能であり、ポータブルかつスケーラブルなエンドツーエンドの ML ワークフローのために、構築およびデプロイの手段をユーザーに提供します。しかしながら、この Kubeflow Pipelines をデータサイエンティストが使用する際には、データラベリングのワークフローやモデルチューニングなど、生産性向上のためのツールを、ご自身で追加で実装する必要があります。 さらに、Kubeflow Pipelines を使用する ML Ops チームには、CPU や GPU インスタンスを含む Kubernetes クラスターの管理が必要であり、投資から得る収益を最大化するために、それらの利用率を常に高く維持することも求められます。データサイエンスチーム全体でクラスターの利用率を最大化することは簡単ではなく、ML Ops チームに余計な運用経費を負担させることになります。たとえば、GPU インスタンスの利用は深層学習トレーニングや推論といったような要求の厳しいタスクに制限し、CPU インスタンスには、データの前処理や Kubeflow Pipelines のコントロールプレーンなど要求レベルの低いタスクを受け持たせる、といったことが必要です。 その代替手段である Kubeflow Pipelines 向けの Amazon SageMaker コンポーネントにより、ユーザーはパワフルな […]

Read More

AWS COVID-19 ナレッジグラフの作成とクエリ

このブログ記事では、AWS CloudFormation および Amazon Neptune を使用して AWS COVID-19 ナレッジグラフ (CKG) を再作成し、お客様の AWS アカウントの Amazon SageMaker でホストされている Jupyter ノートブックを使用してグラフをクエリする方法について詳しく説明します。CKG は、AWS COVID-19 データレイクでホストされる COVID-19 Open Research Dataset (CORD-19) の探索と分析を支援します。グラフの強みは、学術論文、著者、科学的概念、機関の間のつながりにあります。CKG は、CORD-19 検索ページの強化にも役立ちます。 AWS COVID-19 データレイクは、新型コロナウイルス (SARS-CoV-2) とこれに関連する病気である COVID-19 の広がりおよび特性についての、またはそれに関する最新のデータセットが収集され、一元化されたリポジトリで、一般公開されています。詳細については、「COVID-19 データの分析用のパブリックデータレイク」と「AWS COVID-19 パブリックデータレイクの探索」を参照してください。 CKG は、Neptune、CORD-19 データセット、および Amazon Comprehend Medical のアノテーションを使用して構築されています。2020 年 4 月 17 日の時点で、CORD-19 データセットは 52,000 件を超える学術論文で構成され、そのうち 41,000 […]

Read More

Amazon Transcribe Medical を使用して COVID-19 関連用語の音声テキストの精度を向上させる

世界中がパンデミックの進行具合に合わせて対応しているため、COVID-19 に関連する情報に正確にアクセスし、その情報を利用して分析することは、これまで以上に重要になりました。医療危機に関するトピックは、ニュースレポート、ソーシャルメディア、ビジネス会議、ラジオとポッドキャスト、カスタマーサポートコール、特に臨床医と患者の会話などのさまざまなチャネルを通じて、私生活や仕事におけるさまざまな側面に浸透しています。より多くのデータ分析アプリケーションビルダーが求める医療用音声認識機能では、COVID-19 用語を含む動画と音声をダウンストリーム分析用のテキストに効率的かつ正確に文字起こしすることができます。この記事は、Amazon Transcribe Medical でカスタム語彙を使用して COVID-19 用語をよりよく認識する方法を示しています。 Amazon Transcribe Medical は、音声テキスト変換機能をアプリケーションに追加することを容易にする完全マネージド型の音声認識サービス (ASR) です。深層学習を利用したこのサービスは、すぐに使用できる医療用音声認識モデルを提供しています。このモデルを医療およびライフサイエンスドメインのさまざまな音声アプリケーションに統合できます。これで、カスタム語彙機能を使用して、薬の名前、製品ブランド、医療処置、病気など、より具体的な医療用語を正確に文字起こしできます。文字起こしをしたい用語を入力して、各用語を対応する発音と表示フォームに関連付けることができます。カスタム語彙は、Amazon Transcribe Medical が利用可能なすべての AWS リージョンでご利用いただけます。 COVID-19 固有用語の文字起こし バッチ (非同期) 文字起こし API とストリーミング (同期) 文字起こし API はどちらもカスタム語彙をサポートしています。この記事では、前者を使用してカスタム語彙のメリットをお見せします。 この使用例では、Amazon Simple Storage Service (Amazon S3) バケットに保存されたオーディオファイル (covid-19.wav) を使用します。Amazon S3 の使用については、Amazon Simple Storage Service の使用開始を参照してください。以下は、音声ファイルの文字起こしです。 「COVID-19 としても知られている 2019 年度コロナウイルス病は、重症急性呼吸器症候群コロナウイルス 2 によって引き起こされる感染症です。略して SARS-CoV-2 です。この病気は、2019 年 12 […]

Read More

Amazon AI サービスを使用して Veeva Vault PromoMats に保存されているアセットを分析してタグ付けする

Veeva Systems は、グローバルなライフサイエンス業界向けのクラウドベースソフトウェアのプロバイダーであり、臨床、規制、品質など、複数の領域に対応する製品を提供しています。Veeva の Vault Platform は、単一のプラットフォームでコンテンツとデータの両方を管理します。これにより、コンテンツ、データ、およびワークフローを使用してエンドツーエンドのプロセスを管理する強力なアプリケーションをデプロイできます。Vault Platform は、ビジネスアプリケーションの迅速な設定と変更によるカスタマイズのほか、他のシステムとのシームレスな統合により、Veeva Vault 機能を拡張し、データを移行し、または処理を自動化することを可能にする、オープンアーキテクチャと包括的な API を提供します。 商業空間におけるそのような製品の 1 つが Veeva Vault PromoMats です。165 を超える国の 400 を超えるライフサイエンス企業が、Veeva Vault PromoMats で商用コンテンツとデジタルアセット管理を行っています。 Veeva Vault PromoMats は、デジタルアセット管理とレビューおよび配信機能を組み合わせ、簡単なレビューと承認に加えて、チャネル全体での自動コンテンツ配信と配信停止を提供し、すべてのデジタル資産と資料の完全な可視性と制御を提供します。Veeva Vault PromoMats は、準拠コンテンツの信頼できる唯一の情報源を提供します。これにより、ローカルの製品マネージャーは、自らが必要とするものにすばやくアクセスし、検索し、見つけることができます。 典型的なデジタルマーケティングチームは、Veeva Vault PromoMats を使用して、世界中の従業員のために、マーケティングアセットを保存、検索、キュレート、レビュー、および配布します。これらのアセットは、電子メール、ウェブページ、画像、動画、オーディオファイルなど、さまざまです。再利用を促進するために、マーケティングチームは通常、グローバルに配された人のチームを使用して、これらのアセットを分析してタグ付けし、簡単に検索できるようにします。この現在のプロセスは、不正確で、一貫性がなく、非効率的なタグ付けの影響を受けやすく、人のチームが特定のアセットを見つけるために貴重な工数を費やすことにつながります。組織は通常、コンテンツを正確かつ簡単に検索できるようにレビュアーのチームを設けます。これにより、コストが増加するだけでなく、チームに付加価値を生まない膨大な作業に集中することを余儀なくさせるため、有能な人員がもたらすことのできる付加価値が減少することになります。 お客様から遡って解決法を考えるとき、これらの手動プロセスを自動化するには、次のことが可能なソリューションが必要です。 コンテンツタイプ (電子メール、テキスト、画像、メディアファイルなど) を識別する コンテンツを区別し、識別されたコンテンツタイプに対応する分類に基づく値の付与を自動化する アセットへのタグ付けの自動化を有効にし、これらのアセットを簡単に検索するソリューションを提供する タグ付けのための機械学習 (ML) 値などを使用して、継続的に強化する この投稿では、Amazon AI サービスを使用して、Veeva Vault に格納されているリッチコンテンツを迅速かつ確実に、コスト効率よく、大規模に分析する方法を紹介します。この投稿では、全体的なアーキテクチャ、ソリューションとダッシュボードをデプロイする手順、およびアセットメタデータのタグ付けのユースケースについて説明します。このユースケースの概念実証コードベースの詳細については、GitHub リポジトリをご覧ください。 ソリューションの概要 次の図は、ソリューションのアーキテクチャを示しています。 Veeva […]

Read More

Amazon Personalize を使ったオムニチャネルでのパーソナライゼーション

顧客とブランドとの接点となるタッチポイントが、デジタルとリアルライフとの入り組んだ関係に変化していくなか、顧客を引き付けるためのパーソナライズされた体験を販売チャネルをまたいで提供することは、気が遠くなる程の大仕事になっています。同時に、顧客からの期待度も増大し続けます。モバイル、ウェブ、E メール、SMS、問い合わせセンター、そして対面を通じた接触の間で、シームレスに体験が移行できない場合、現代の顧客は急速にブランドへの関心を低下させるのです。 Amazon Personalize では、機械学習 (ML) アルゴリズムを応用して、キャンペーンと呼ばれるパーソナライズされたレコメンデーションを生成します。これは、履歴からユーザーの好みを学習するとともに、ユーザーが関心を膨らませている対象にもリアルタイムで適応できるものです。このパワフルなツールは、真にパーソナライズされた顧客体験を生み出すための力になります。しかしながら、Amazon Personalize を別々のチャネル間に配置するためには、そこでの体験を機能させるのに必要なアーキテクチャやツールに関しての、熟慮されたアプローチが必要となります。 この記事では、3 つの一般的なチャネル、つまり、ウェブとモバイルのアプリケーション、メッセージ、そして対話を通じパーソナライズされたレコメンデーションを提供するサンプルのフルスタック E コマースアプリケーションに、Amazon Personalize を統合する方法をご紹介します。分離されたマイクロサービスアーキテクチャをいくつかの AWS Lambda 関数と組み合わせることで、Amazon Personalize のキャンペーンが利用できるようになり、また、各チャネル間で顧客の意図を追跡できるようになります。次の図に、今回のソリューションを示します。   ソリューションの概要 このソリューションは、GitHub レポジトリ、Retail Demo Store の一部として提供されます。このプロジェクトでは、ウエブ、モバイル、メッセージ、および対話の各オムニチャネルで、パーソナライゼーションの提供方法を紹介するフルスタックの E コマース用サンプルウェブアプリケーションを、お使いの AWS アカウントにデプロイします。このアプリケーションは、次に示すような複数のデバイスタイプに対応し、他の多くの業界向けのモデルとしても使用できるような、典型的な E コマース/小売りのユースケースとなっています。 次の図は、この記事で扱うアーキテクチャにおける各部の関係を示しています。この記事では、Amazon Personalize の単一デプロイから、3 つの異なるコミュニケーションチャネル全体に対し、パーソナライズしたレコメンデーションを供給する方を見ていきます。真のオムニチャネルでのユーザー体験にとって、曖昧ながらも多くの場合に重要であり、このユースケースにおいて共有された Amazon Personalize キャンペーンを使う理由ともなる要件とは、全チャネルを通じて同じ論理ユーザーを特定可能にするということです。そしてもちろん Amazon Personalize では、ユーザーが膨らませている関心にもリアルタイムで適応できるのが、最もパワフルな機能の 1 つとなっています。このことは、次に示すアーキテクチャにより、リアルタイムのレコメンデーションを複数のチャネルに拡張することで実現されます。 多くの企業が顧客とのつながりを保つために使う主要なチャネルは、モバイルとウェブのアプリケーションです。前出の図の中で 1、2、および 3 として描かれているこのチャネルでは、モバイルもしくはウェブアプリケーションが Amazon Personalize に対しクリックストリームイベントを送信することでリアルタイムのレコメンデーションを実現しています。同時に、パーソナライズされた製品レコメンデーションを、Amazon Elastic Container Service […]

Read More

Amazon QuickSight で Amazon SageMaker 機械学習予測を視覚化する

AWS は、QuickSight における Amazon SageMaker 統合の一般提供を発表いたします。この一般提供により、お客様独自の Amazon SageMaker ML モデルと QuickSight を統合し、拡張データを分析したり、ビジネスインテリジェンスダッシュボードで直接使用したりできるようになりました。ビジネスアナリスト、データエンジニア、またはデータサイエンティストのいずれの方でも、わずか数クリックで ML 推論を実行することが可能です。このプロセスでは新しいデータに基づいた予測を行い、Amazon SageMaker モデルを、顧客離れの可能性の予測や営業活動優先化のためのリードスコアリング、そしてローン申請の信用リスク評価といったさまざまなユースケースに利用します。 お客様のユースケース Change Healthcare は、米国の医療システムにおける臨床、財務、および患者エンゲージメントの結果を改善するためのデータおよび分析主導型ソリューションを提供する大手独立系医療テクノロジー企業です。 Change Healthcare の AI エンジニアリングのシニアディレクターである Jayant Thomas 氏はこう述べます。「Amazon SageMaker を過払いや無駄の削減といったさまざまな機械学習のユースケースに活用しています。Amazon QuickSight に SageMaker 統合が追加され、喜ばしく思っています。これにより SageMaker 型推論アーキテクチャのワークフローと開発サイクルが合理化されるため、BI や ML Insights、ダッシュボード公開の主なソリューションとして QuickSight が強化されているのです。」 Amazon QuickSight と Amazon SageMaker の統合 従来であれば、トレーニング済みモデルからの予測を BI ツールに移行するのはかなり大変な作業です。データを Amazon Simple Storage Service (Amazon […]

Read More

Amazon Aurora 機械学習を使用して顧客に関する洞察を得る

近年、AWS のお客様は、ますます多様化するデータセットとデータソースで機械学習 (ML) を実行しています。組織データの大部分は Amazon Aurora などのリレーショナルデータベースに保存されているため、このリレーショナルデータを ML モデルのトレーニングに利用できるようにし、ML モデルを使用してデータベースアプリケーションで予測を行えるようにするニーズが一般的にあります。この記事では、Aurora から本番データを簡単に抽出し、Amazon SageMaker で ML モデルをトレーニングし、モデルの推論を本番データベースとアプリケーションに統合する方法を示します。また、一般的な ML ユースケースを拡張して顧客離れを予測し、顧客離れを防止するという実際のビジネス目標を達成する方法も説明します。セッティングに大手電話会社を用います。 勤務する通信会社で、CEO から会議に呼び出されたとします。「当社のサービスを解約する、つまり「顧客離れ」をするお客様が毎年約 15% います! お客様を失うと、新しいお客様を獲得するには高い費用がかかります。これは当社の年次結果に大きな重しになります。  どのお客様が解約する可能性が高いかを予測して、そのお客様にサービスを使い続けてもらえるようなインセンティブを与えることができますか? 機械学習 (ML) を使ってこれに役立てられますか?」 いつまでも続くこの議論を簡潔にまとめます。 ML エンジニアは次のように言いました。「うーん、そうですね。すべての顧客データが Amazon Aurora リレーショナルデータベースに保存されていますね。DBA がこのデータを取得できれば、解約する顧客を予測する ML モデルを構築できます。Amazon SageMaker XGBoost Built In Model を使ってこれを行えます。これは、一般的に回帰、分類、ランク付けの問題に用いられるアルゴリズムです。そしてSageMaker 自動モデルチューニングで、かなり良いモデルが得られるはずです」 DBA は、「もちろん! 本番データベースの一部のダンプを提供できます。AWS は Amazon Aurora から S3 をダウンロードできるようにしているため、簡単に行えます」 CEO は唸りました。「誰が離れるのかを予測したいんじゃないんです! 顧客離れを防ぎたいんです!」 「顧客離れに最も関連している要因を教えてもらえれば、ターゲットを絞ったインセンティブプログラムを構築できます」とマーケティング部は述べました。 […]

Read More