Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon EKS が EC2 Inf1 インスタンスのサポートを開始

Amazon Elastic Kubernetes Service (EKS) は、短期間で機械学習ワークロードのための主要な選択肢になりました。開発者の俊敏性と Kubernetes のスケーラビリティを組み合わせており、AWS で利用可能な Amazon Elastic Compute Cloud (EC2) インスタンスタイプの幅広い選択肢 (C5、P3、G4 ファミリーなど) からお選びいただけます。 モデルがより高度になるにつれ、高スループットで予測を素早く提供するためにハードウェアアクセラレーションがますます求められています。本日より、AWS のお客様は、Amazon Elastic Kubernetes Service で Amazon EC2 Inf1 インスタンスを使用できるようになりました。これにより、クラウドでの高いパフォーマンスを最小限の予測コストで実現できます。 EC2 Inf1 インスタンス入門 Inf1 インスタンスは、AWS re:Invent 2019 でリリースされました。これらは AWS が一から構築したカスタムチップの AWS Inferentia を使用しており、機械学習の推論ワークロードが加速します。 Inf1 インスタンスは複数のサイズで利用可能で、1、4、または 16 の AWS Inferentia チップがあり、最大 100 Gbps のネットワーク帯域幅と最大 19 Gbps の EBS […]

Read More

Amazon SageMaker を使用して本番稼働で ML モデルの A/B テストを行う

 完全マネージドサービスの Amazon SageMaker では、開発者やデータサイエンティストが機械学習 (ML) モデルを迅速に構築、トレーニング、デプロイできます。Intuit、Voodoo、ADP、Cerner、Dow Jones、Thompson Reuters をはじめとする何万人ものお客様が、Amazon SageMaker を使って ML プロセスで発生する負担の大部分を解消しています。Amazon SageMaker を使用すれば、ホストされたエンドポイントに ML モデルをデプロイし、リアルタイムに推論結果を取得できます。エンドポイントのパフォーマンスメトリクスは Amazon CloudWatch で簡単に表示でき、自動スケーリングを有効化することで、トラフィックに基づいて自動的にエンドポイントのスケールを調整できるほか、可用性を失うことなく本番稼働でモデルを更新できます。 e コマースアプリケーションなど、多くの場合、オフラインでのモデル評価では不十分であり、モデル更新の意思決定をする前に、本番稼働でモデルの A/B テストを実施する必要があります。Amazon SageMaker を使用すると、エンドポイントで複数の本番稼働用バリアントを実行することで、ML モデル上で A/B テストを簡単に実施できます。本番稼働用バリアントを使用することで、さまざまなトレーニングデータセット、アルゴリズム、および ML フレームワークを使用してトレーニングされた ML モデルをテストしたり、異なるインスタンスタイプのモデルの振る舞いをテストしたり、あるいは上記すべてを組み合わせたテストを行うことができます。 今までの場合、Amazon SageMaker は、ユーザーがエンドポイント上の各バリアントに指定した配分に基づいて、バリアント間の推論トラフィックを分割していました。これは、各バリアントにどれくらいのトラフィックを送るかを制御する必要がある一方で、リクエストを特定のバリアントにルーティングする必要がない場合に役立ちます。たとえば、本番稼働でモデルを更新して、トラフィックの一部を新規モデルに転送することで、既存のモデルと比較する必要がある場合などです。しかしユースケースによっては、特定のモデルで推論リクエストを処理して、特定のバリアントを呼び出す必要があります。たとえば、異なるカスタマーセグメントをまたいで ML モデルがどのような振る舞いをするかをテストおよび比較し、あるセグメントのカスタマーからのリクエストすべてを、特定のバリアントを用いて処理する必要がある場合などです。 今では、どのバリアントで推論リクエストを処理するかを選べるようになりました。各推論リクエストで TargetVariant ヘッダーを指定することで、Amazon SageMaker は指定されたバリアントでリクエストを処理します。 ユースケース: Amazon Alexa Amazon Alexa では、Amazon SageMaker を使用して、さまざまな ML ワークロードを管理しています。Amazon Alexa […]

Read More

Amazon SageMaker と Amazon Augmented AI によるオブジェクトの検出とモデルの再トレーニング

ヘルスケア、メディア、ソーシャルメディアプラットフォームなどの業界では、画像分析ワークフローを使用して、画像内のオブジェクトやエンティティを識別し、画像全体を把握しています。たとえば、e コマースのウェブサイトでは、画像内に存在するオブジェクトを使って関連する検索結果を表示することも可能です。画像がぼやけていたり、微妙なニュアンスがある場合、画像分析が困難な場合があります。このような場合には、人による判断で機械学習 (ML) のループを終了させたり、画像についてアドバイスする必要が出てくるでしょう。 この投稿では、Amazon SageMaker を使用して物体検出の ML モデルを構築、トレーニング、デプロイします。さらに Amazon Augmented AI (Amazon A2I) を使って、画像内で見つけたオブジェクトをレビュー担当者が識別またはレビューできるようにするカスタムワーカーテンプレートを作成し、レンダリングできるようにします。完全マネージドサービスの Amazon SageMaker では、開発者やデータサイエンティストが ML モデルを迅速に構築、トレーニング、デプロイできます。Amazon SageMaker により ML 処理の各ステップでの面倒な作業から解放されるため、高品質なモデルの開発がさらに容易になります。Amazon A2I は、お客様がヒューマンレビューワークフローを構築し、ML モデルの予測をレビューおよび検証するのに役立つ完全マネージドサービスです。 さらに Amazon Rekognition を使ってオブジェクトを検出し、事前に定義したクラスのセットからオブジェクトを識別したり、Amazon Rekogition Custom Labels でカスタムモデルをトレーニングします。ご自身のデータを持ち込むだけで、ビジネスニーズに固有の画像内のオブジェクトやシーンを検出することができます。 ヒューマンワークフローが必要となる他の一般的なユースケースには、画像や動画のコンテンツモデレーション、さらにドキュメント、翻訳、感情分析からのテキストやエンティティの抽出があります。ML モデルで不適切なコンテンツを識別したりエンティティを抽出したりできますが、ユースケースに基づいたモデルの予測を検証するには人の介入が必要になることもあります。Amazon A2I は、これらのヒューマンワークフローを迅速に作成する支援を行います。 Amazon A2I を使って、ML 予測のランダムなサンプルをヒューマンレビュー担当者に送信することもできます。これらの結果を使い、利害関係者にモデルのパフォーマンスを通知し、モデルの予測を監査できます。 前提条件 この投稿では、次の前提条件が必要です。 IAM ロール – ヒューマンタスク UI でレンダリングするオブジェクトを読み込み、結果を書き込むためには、Amazon Simple Storage Service (Amazon […]

Read More

REA Group は、Amazon Rekognition を使用していかに画像コンプライアンスの自動化を実現したか

 Amazon Rekognition は、画像や動画内のオブジェクト、人物、文字、場面および活動を識別し、さらに不適切な内容を検知する、機械学習 (ML) ベースの画像および映像分析サービスです。Amazon Rekognition のテキスト検出機能は、画像や動画のテキストコンテンツを認識し、抽出することを可能にします。たとえば画像共有アプリやソーシャルメディアアプリでこの機能を使用すると、テキスト検索により、同じキーワードでインデックス化された画像を表示させることができます。メディアアプリやエンターテインメントアプリの場合、広告、ニュース、スポーツのスコア、字幕など、画面上のテキストに基づいて動画をカタログ化できます。 次のスクリーンショットは、画像内テキスト の抽出例を示しています。 この記事では、REA Group が DetectText API を通じてAmazon Rekognition Text in Image 機能を使用することで、不動産リスティングにいかに自動画像コンプライアンスソリューションを導入したかについて説明します。 REA Group について REA Group は、不動産向けデジタル広告を専門とする多国籍企業です。創業から 20 年以上を数える同社は、オーストラリア、マレーシア、香港、タイ、インドネシア、シンガポール、中国で事業を展開しています。REA Group は、アジアで iproperty.com.my、 squarefoot.com.hk、thinkofliving.com といった主要ポータルブランドを運営しているほか、シンガポールとインドネシアで不動産広告サイトを展開する 99 Group を傘下に収めています。さらに、インドの不動産広告サイトである Move, Inc や PropTiger の大株主でもあります。REA Group のウェブサイトは、消費者に向けた不動産の売買および賃貸サービスに加え、最新の不動産ニュース、改装のヒント、ライフスタイル情報などを提供しており、1 日あたりの訪問者数は何百万人にも上ります。 画像コンプライアンスの課題 REA Group が提供する検索ベースのポータルでは、消費者は売主がアップロードした販売中の不動産の画像を検索し、幅広い選択肢の中から選び出すことができます。REA チームは、アップロードされた画像がしばしば利用規約に違反していることに気づきました。たとえば、売主の商標や連絡先の詳細が含まれた画像がアップロードされていることがあり、そのことがリード帰属問題を引き起こしていました。そこで同社は、画像の中に許可されないコンテンツがないかを人の目で確認するためのチームを立ち上げましたが、日々膨大な量の画像がアップロードされる中、審査プロセスが増えたことで不動産リスティング広告が掲載されるまでに数日の遅れが出るようになってしまいました。 画像コンプライアンスソリューション REA チームは、規約に準拠していない画像を自動的に検出し、売主に通知する画像コンプライアンスシステムを開発しました。当初は、Amazon Elastic Compute […]

Read More

Amazon SageMaker Ground Truth での 3D オブジェクトトラッキングとセンサーフュージョンのデータのラベル付け

 Amazon SageMaker Ground Truth は、3D ポイントクラウドデータのラベル付けをサポートするようになりました。リリースされた機能セットの詳細については、この AWS ニュースブログの記事を参照してください。 このブログ記事では、3D ポイントクラウドデータから必要なデータ変換を実行して、SageMaker Ground Truth で 3D オブジェクト追跡ユースケースのラベル付けジョブを作成する方法を具体的に説明します。 自律型運転車 (AV) 企業は通常、LiDAR センサーを使用して、車両周辺環境の 3D についての理解度を高めます。たとえば、LiDAR センサーを車両に取り付けて、特定の時点で周囲の 3D 環境スナップショットを継続的にキャプチャします。LiDAR センサーの出力は、一連の 3D ポイントクラウドフレームです (通常、キャプチャレートは 1 秒あたり 10 です)。車両の周囲から関心のあるオブジェクト (他の車両や歩行者など) を自動的に追跡できる知覚システムを構築するために、これらの企業は、最初に 3D ポイントクラウドフレーム内のオブジェクトに手動でラベルを付け、次にラベル付けされた 3D フレームを使用して機械学習 (ML) モデルをトレーニングします。 知覚システムの構築に関しては、複数のセンサーからの入力を使用して、個々のセンサーの欠点を軽減するのが一般的な方法です。たとえば、ビデオカメラは、信号が赤、黄、緑のいずれであるかなどの重要なコンテキスト情報を提供できますが、通常、暗い状況では知覚が制限されます。一方、LiDAR センサーは、交通信号の色のような特定のコンテキストを理解することはできませんが、外が明るいか暗いかに関係なく、360 度にわたって深度ある知覚を提供できます。 SageMaker Ground Truth は、ML トレーニングデータセットを構築するための一連の 3D ポイントクラウドフレームにわたってオブジェクトに簡単にラベルを付け、最大 8 台のビデオカメラ入力を備えた LiDAR データのセンサーフュージョンをサポートします。ビデオフレームと […]

Read More

新機能 – Amazon SageMaker Ground Truth で 3D ポイントクラウドにラベルを付ける

 AWS re:Invent 2018 で開始された Amazon Sagemaker Ground Truth は、機械学習データセットに簡単に注釈を付けることができる Amazon SageMaker の機能です。顧客は、組み込みのワークフローを使用して画像およびテキストデータ、またはカスタムワークフローを使用して他のタイプのデータに効率的かつ正確にラベルを付けることができます。データサンプルは自動的に従業員 (プライベート、サードパーティー、または MTurk) に配布され、注釈は Amazon Simple Storage Service (S3) に保存されます。オプションで、自律型データラベル付けを有効にして、データセットのラベル付けに必要な時間と関連するコストの両方を削減することもできます。 約 1 年前に、自律型運転用の 3 次元 (3D) データセットのラベル付けに関心を示した自動車業界のお客様にお会いしました。LIDAR センサーによってキャプチャされたこれらのデータセットは、特に複雑で大きいです。データは、通常 5 万〜500 万個のポイントを含むフレームに保存され、それぞれ最大数百メガバイトになることがあります。フレームは個別に、または移動するオブジェクトの追跡を容易にするシーケンスで保存されます。 ご想像のとおり、従業員は複雑な 3D シーンをナビゲートし、さまざまなオブジェクトクラスに注釈を付ける必要があるため、これらのデータセットのラベル付けには非常に時間がかかります。多くの場合、これには非常に複雑なツールの構築と管理が必要です。Ground Truth チームは、お客様がよりシンプルで効率的なワークフローを構築できるよう常に支援することを目指しており、より多くのフィードバックを収集して、仕事に取り掛かりました。 本日、Amazon Sagemaker Ground Truth に、組み込みのエディタと最新の支援ラベル機能を使用して 3D ポイントクラウドにラベルを付けられるようになったことをお知らせいたします。 3D ポイントクラウドラベル付けの紹介 他の Ground Truth タスクタイプと同様に、3D ポイントクラウドの入力データは S3 バケットに保存する必要があります。また、S3 フレームの場所とその属性の両方を含む […]

Read More

[AWS Black Belt Online Seminar] AWS AI Language Services 資料及び QA 公開

先日 (2020/06/02) 開催しました AWS Black Belt Online Seminar「AWS AI Language Services」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。 20200602 AWS Black Belt Online Seminar AWS AI Language Services from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. Amazon Textract = AI-OCR という理解で宜しいでしょうか。 A. OCR (Optical Character Recognition) は単純な文字認識を一般的に指すかと思いますが、Amazon Textarct はひとまとめの文字を単語として認識したり、フォームやテーブルもあわせて認識することが可能です。 Q. Textract のフォームの抽出とありましたが、フォームとは具体的にどういったものでしょうか? A. 入力項目とその入力内容がセットになっている項目を指します。例えば、確定申告書のようなものであれば、「First Name」という項目に「John」のように氏名を記入する項目があるかと思いますが、これをフォームと呼んでいます。Textract は「First Name」と「John」をセットで抽出することが可能です。 Q. 現在対応していないファイル形式でもText に変換すれば良いでしょうか? […]

Read More

Amazon Personalize を使用して StockX でパーソナライズされたユーザーエクスペリエンスを先駆けて提供

この記事は、StockX 社の Sam Bean 氏と Nick Roberts II 氏によるゲスト投稿です。彼らの言葉を借りると、「StockX はユニークなビッド/アスク市場で e コマースに革命を起こしているデトロイトのスタートアップ企業です。当社のプラットフォームはニューヨーク証券取引所をモデル化し、スニーカーやストリートウェアなどの製品を高価値の取引可能な製品として扱っています。StockX は、透明なマーケットエクスペリエンスにより、真の市場価格で信頼性の高い、人気の高い製品を手に入れられるようにしています」。 2019 年に StockX が急成長している間に、機械学習 (ML) エンジニアの小さなグループが Amazon Personalize を使用してホームページに Recommended For You 製品行を追加しました。これが最終的にトップパフォーマンスを発揮するホームページ行になりました。この記事では、カスタマイズされたユーザーエクスペリエンスを提供するために Amazon Personalize とこれまでどのように取り組んできたかをご紹介します。 当社の市場のダイナミクスから、パーソナライズされたユーザーエクスペリエンスを提供する必要があります。サイトへのトラフィックの急上昇は、主にドロップによって引き起こされます。スニーカーやストリートウェア市場では、ドロップは人気の高い限定版アイテムを事前に伝達してリリースすることを指します。顧客の製品に対する関心の多様性は急拡大していますが、ユーザーはまだまだ最新リリースから特定の人気商品を検索することがよくあります。その結果、頻繁に大規模な DDoS のようなトラフィックがプラットフォームに流入することになり、バックエンドのスケーラビリティが最優先事項になります。さらに、当社のチームは、ブラックフライデーの直前に、Recommend For You 製品行をリリースする予定でした。このような要因により、スケーリング、リアルタイムでの変更、顧客の変化に対応できる堅牢なレコメンデーションエンジンの必要性が高まりました。 当社の取り組みも 3 年が経過し、ユーザーエクスペリエンスのパーソナライゼーションを成長の中心的な目標として優先するようになりました。当社の顧客ベースは、スニーカーコレクターのみから着実に進化し、ますますカジュアルで好奇心の強いユーザーを抱えるようになりました。感謝祭の週末は、このような新しい顧客にパーソナライズされたエクスペリエンスを提供することにより、顧客維持を図る機会になりました。2019 年の年末が近づき、計画にさらなる制約が加わりましたが、Amazon Personalize により、季節性のトラフィックの急増に合わせて、拡大し続けるユーザーのために高度に精選された魅力的なエクスペリエンスを創造することができました。 初期段階 当社のチームは当初、プラットフォームのパーソナライゼーションのギャップを埋めるためにサードパーティベンダーを模索しました。ただし、既製のソリューションを購入するのは費用がかかり、他とは一線を画す当社の e コマース市場にとっては柔軟性に欠けていました。このような既製のソリューションは、多くの場合、ML プロセスのすべての側面について融通が利きませんでした。サードパーティが提供できるものよりも高い柔軟性が必要ではありましたが、この問題に完全に自前のソリューションが必要であるとまでは考えませんでした。 次に、階層型リカレントニューラルネットワーク (HRNN) である Amazon Personalize コアリコメンダーと同等のカスタムニューラルネットワークを構築することについて調査しました。当社のチームはモデルを構築する準備ができていましたが、堅牢性、スケーラビリティ、時間など、特定の交絡変数を考慮する必要がありました。当社は、質の高いサービスを構築して、顧客に説得力のある体験をしてもらい、休日のトラフィックの急増に追いつくために、時間と戦っていました。カスタムモデルの調整に必要な開発時間および推論パフォーマンスにまつわる不確実性により、ML マイクロサービスを構築するのに相応しい要件を挙げていく必要がありました。これにより、どの部分を構築し、どの部分を購入するかを特定できました。当社の要件は次のとおりです。 データ収集 – […]

Read More

Ubuntu 18 DLAMI、P3dn インスタンスの EFA、Amazon FSx for Lustre を使用した大規模なマルチ GPU 分散深層学習トレーニング

AWS Deep Learning AMI (Ubuntu 18.04) は、EC2 Accelerated Computing インスタンスタイプの深層学習用に最適化されており、複数のノードにスケールアウトして分散ワークロードをより効率的かつ簡単に実行できます。同 AMI は、分散型深層学習のトレーニング向けにビルド済み Elastic Fabric Adapter (EFA)、Nvidia GPU スタック、および多くの深層学習フレームワーク (TensorFlow、MXNet、PyTorch、Chainer、Keras) を備えています。深層学習ソフトウェアとドライバーのインストールや機械学習 (ML) インフラストラクチャの構築に時間を費やす必要はありません。代わりに、より短時間で大規模なジョブのトレーニングに集中し、ML モデルでより速く反復することができます。 この記事では、AWS High Performance Computing (HPC) アーキテクチャで大規模な高性能、ネットワーク依存、低レイテンシー、高度に結合された ML 分散トレーニングを簡単に実行できることを示します。HPC アーキテクチャには、Ubuntu 18 DLAMI、P3dn インスタンス上の Elastic Fabric Adapter (EFA)、および Amazon FSx for Lustre が含まれます。また、マルチノード GPU クラスターで PyTorch フレームワークを使用して Bidirectional Encoder Representations from Transformers モデルを実行する方法について説明します。さらに、この記事では、AWS ParallelCluster […]

Read More

Amazon Forecast がサポートする自動補完機能による、ターゲットおよび関連データセット内での欠落した値の管理

Amazon Forecast は、機械学習 (ML) を使用する完全マネージド型サービスです。このサービスでは、ML の経験を必要とせずに非常に正確な予想を生成できます。Forecast が利用可能なユースケースは多岐にわたります。たとえば、製品需要の見積り、サプライチェーンの最適化、人事計画、エネルギー需要の予測、クラウドインフラストラクチャの使用状況の算定などが考えられます。 Forecast では、プロビジョニングすべきサーバー、あるいは手動で構築すべき機械学習モデルなどは存在しません。また、お支払いは実際に使用した分のみであり、最低料金や前払い料金を求められることはありません。Forecast の使用には、予想すべき数値に関する履歴データと、その予想に影響を与える可能性のある関連データが必要がなだけです。この関連データとしては、価格、行事、天候など、時間的に変化するデータや、色、ジャンル、地域など分類に関するデータなどがあります。このサービスは、用意されたデータに基づき、機械学習モデルのトレーニングとデプロイを自動的に行います。また、予想結果を取得するためのカスタム API も利用できます。 現実世界で予想を実施する際に一般的に見られる事象として、生データにおける値の欠落が挙げられます。履歴 (あるいは時系列の) データから値が欠落しているということは、すべての時点において対応した値が利用可能とは限らない、ということを意味します。値が欠落するには、多くの理由があります。たとえば、特定の時点でトランザクションが発生しなかったり装置にエラーがある場合、あるいは、測定自体が適切に実施されなかった場合などに、値の欠落が生じます。 Forecast では、関連あるいはターゲットの時系列データセット、および履歴上や予想期間における、欠落データ (既存の NaN も含みます) の自動補完機能をサポートしています。関連時系列 (RTS) データには、通常、プロモーションや価格もしくは在庫切れなどの、ターゲットの数値 (製品需要) と相関性がある情報が含まれています。これらにより、予想結果の精度が向上することが期待できます。欠落した値に関しては、value、median、min、max、zero、mean、および nan (対象が時系列の場合のみ) といった各種のロジックを、特定のユースケースに合わせ適用できます。Forecast では、CreatePredictor API の FeaturizationConfig により、これらの機能を提供しています。 今回の記事では、Forecast の GitHub レポジトリ からサンプルノートブックを入手して、関連がある、あるいはターゲットの時系列 (TTS) データセットに対し、欠落した値の補完機能を適用していきます。 Forecast における欠落した値の処理 時系列上で値が欠落しているということは、結局、多くの理由により、それ以降の処理のために対応した値が利用不可能になるということを意味します。製品セールスを表している時系列データが欠落していることは、その製品が販売不可能な状態にあると解釈できます。この状況としては、製品が存在しない期間 (リリース前や非推奨となった後など) 、もしくは、製品は存在するものの販売できない期間 (部分的な在庫切れ) などが挙げられます。また、ある期間にセールスデータが記録されなかった場合も、値の欠落が生じます。 「(not available for sale (販売中止)」というユースケースでは、一般的にターゲットの値が zero となりますが、そこで失われたはずの値 (nan) […]

Read More