Amazon Web Services ブログ

Category: SageMaker

金融サービスにおける機械学習のベストプラクティス

本投稿は、金融サービスのお客様が AWS でエンドツーエンドの機械学習ソリューションを構築して運用化する支援をしている Stefan Natu 、Amazon SageMaker のシニア事業開発マネージャーである Kosti Vasilakakis 、アマゾン ウェブ サービス、ワールドワイド金融サービス事業開発の資本市場スペシャリストである Alvin Huang 、アマゾン ウェブ サービスのプリンシパル機械学習アーキテクチャ兼 AI/ML ソリューションアーキテクチャのシニアマネージャー であるDavid Ping の4名による寄稿を翻訳したものです。 先日、AWS は機械学習 (ML) ワークフローを構築している金融機関のためのセキュリティとモデルガバナンスに関する考慮事項の要点をまとめた新しいホワイトペーパー、金融サービスにおける機械学習のベストプラクティスを公開しました。このホワイトペーパーは、セキュリティとコンプライアンスに関する一般的な考慮事項について説明し、エンドツーエンドの例を詳しく説明するハンズオンデモとワークショップの提供を目的としています。このホワイトペーパーでは金融サービスの考慮事項に着目していますが、認証とアクセスの管理、データとモデルのセキュリティ、および ML 運用化 (MLOps) のベストプラクティスに関する情報のほとんどは、ヘルスケアなどのその他の規制対象業界にも当てはまります。 次の図にあるように、一般的な ML ワークフローには複数のステークホルダーが関与します。ワークフローを適切に制御して運用化するには、ビジネスステークホルダー、SysOps 管理者、データエンジニア、ソフトウェアエンジニア、および DevOps エンジニアを含めた複数のチームと連携する必要があります。 このホワイトペーパーでは、各チームのための考慮事項を説明すると共に、Amazon SageMaker と AWS のその他サービスを使用して ML ワークロードを構築、トレーニング、およびデプロイする方法の例と図解も提供します。具体的には、規制された環境でワークロードを実行するお客様からのフィードバックに基づいて、以下のトピックを取り上げています。 セキュアな ML 環境のプロビジョニング – これには以下が含まれます。 コンピューティングとネットワークの分離 – インターネット接続がないお客様のプライベートネットワークに Amazon SageMaker をデプロイする方法。 […]

Read More

【開催報告 & 資料公開】 AI/ML@Tokyo #6 AutoGluon 開催報告

アマゾン ウェブ サービス ジャパン株式会社 機械学習ソリューションアーキテクトの宇都宮 (Twitter: @shokout) です。AWS Japan では、AI/ML 関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年9月3日にオンラインで開催された AWS AI/ML@Tokyo #6 では、AWS ソリューションアーキテクトより、AutoGluon という AutoML を実現する OSS の概要と、AutoGluon を Amazon SageMaker 上で活用するための手法に関して解説いたしました。

Read More

Amazon SageMakerでのディープラーニング学習時における、GPUパフォーマンスチューニングのためのI/O最適化

GPUはディープラーニングの学習スピードを著しく向上させ、学習にかかる時間を数週間からほんの数時間へと短縮させる可能性があります。しかし、GPUを使用する恩恵を十分に得るためには以下の点を考慮する必要があります。 基盤となるハードウェアを十分に稼働させるためのコードの最適化 最新の高性能なライブラリとGPUドライバの使用 GPUの計算と一致する速度でデータがGPUに供給されるためのI/Oとネットワーク操作の最適化 マルチGPUもしくは分散学習の際のGPU間の通信の最適化 Amazon SageMakerは開発者とデータサイエンティストがあらゆる規模で迅速かつ簡単に機械学習(ML)モデルをビルド、学習、デプロイするためのフルマネージドサービスです。この記事では、インフラ基盤やディープラーニングフレームワークに関わらず、Amazon SageMakerでの学習時におけるGPUパフォーマンスの最適化に関して、I/Oの改善の一般的なテクニックに焦点を当てます。典型的には、I/Oの処理ルーチンを最適化するだけで、GPUを用いた学習全体で最大10倍のパフォーマンス向上がみられます。

Read More

【開催報告】AWS AI/ML@Tokyo #5

アマゾン ウェブ サービス ジャパン株式会社の呉(Twitter: @kazuneet)です。AWS Japan では、2020年からAI/ML関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年7月9日にオンラインで開催された AWS AI/ML@Tokyo #5では、AWS Japan によるAmazon EKS (Kubernetes + Kubeflow) と Amazon SageMaker を題材とした機械学習基盤選択の考え方と、 実際に機械学習基盤として Amazon SageMaker と Airflow を組み合わせた機械学習パイプラインを構築されたお客様をゲストスピーカーにお招きし、お客様による「体験談」をお話し頂きました。

Read More

イノベーションの加速: AWS のサーバーレス機械学習は F1 で洞察を得るのにどのように役立つか

 FORMULA 1 (F1) は 2020 年に 70 周年を迎えます。これはリアルタイムのスキルとエンジニアリングおよび技術力を組み合わせた数少ないスポーツの 1 つです。F1 では常にテクノロジーが中心的な役割を果たしてきました。ルールとツールの進化が F1 の DNA に組み込まれています。レースは 10 分の 1 秒で雌雄を決するので、ファンは引き込まれ、ドライバーとチームは常に限界にチャレンジし続けています。 ピットストップは 2 秒未満~ 1 分超まで、5G がかかるコーナリングとブレーキング、最高速度は時速 375 km に達し、22 か国でレースが開催されています。その進化と新技術の採用においてこれほどダイナミックなスポーツはありません。FORMULA 1 は継続的にイノベーションを追求しており、最新のイノベーションは、ドライバーとチームが一瞬で決定したことを視聴者に伝えることによって、5 億を超えるファンの成長基盤のエクスペリエンスを強化し、データと分析の力によってトラック上とトラック外で何が起こるかについての理解を向上させています。 各レースカーに 300 のセンサーが装着され、1 秒あたり 1.1M のデータポイントを生成してレースカーからピットに送信されるため、ファンのエクスペリエンスは反応型からリアルタイムにシフトしています。これにより、トラック上でのアクションが加速しています。F1 は、Amazon SageMaker で作成され、AWS Lambda でホストされている機械学習 (ML) モデルなどのクラウドネイティブテクノロジーを活用することで、ドライバーのパフォーマンス、そして限界にチャレンジしているかどうかをピンポイントで調べることができます。その結果、オーバーテイクやピットストップの戦いの結果を予測できます。放送パートナーやデジタルプラットフォームを通じて、世界中のファンとこのような洞察を瞬時に共有できます。 この記事では、Amazon ML Solutions Lab とプロフェッショナルサービスチームが F1 と協力して、AWS テクノロジーを駆使したリアルタイムのレース戦略予測アプリケーションをどう構築して、「ピットウォール」(チームの司令基地) の決定を視聴者に伝えているか、そしてそれがどう […]

Read More

Amazon SageMaker での AutoGluon-Tabular の活用 AWS Marketplace 編

前回の記事では、Amazon SageMaker で独自コンテナを用いて AutoGluon-Tabular を活用し、数行で高精度な機械学習モデルが構築できることをご紹介致しました。今回は、AWS Marketplace に出品されている AutoGluon-Tabular のソフトウェアを活用し、コードを記述することなく、機械学習モデルを構築する方法をご案内します。 AWS Marketplace は、ソフトウェア、データ、およびサービスを簡単に検索、購入、デプロイ、管理するために使用できる厳選されたデジタルカタログであり、セキュリティ、ネットワーク、ストレージ、データベース、といった様々なカテゴリに属する何千というソフトウェアが出品されています。今回は新しく、AutoGluon-Tabular が出品されたので、こちらを使用して機械学習モデルを構築してみます。 Step1: CSVファイルを用意します AutoGluon-Tabular ではテーブルデータを対象としています。学習データやテストデータは、pandas などの標準的なライブラリを使用して Python で読み込める有効な CSV ファイルとして格納されていれば良く、手動で前処理を行う必要はありません。各カラム名に該当するヘッダーは付けてください。後のステップで予測対象の目的変数のカラム名を指定します。 今回は、元のデータを7:3の比率で学習データとテストデータにランダムに分割し2つのファイルを作成しました。 Step2: CSVファイルをS3にアップロードします Step1 の CSV ファイルを Amazon S3 にアップロードしましょう。 Step3: SageMakerのコンソールでトレーニングジョブを実行します まず、SageMaker のコンソールの左ペインにある「アルゴリズム」(下記1)のセクションをクリックし、表示された右上の「アルゴリズムを探す」ボタン(下記2)をクリックしてください。 飛んだ先のマーケットプレイスのページの検索ボックスで autogluon を検索して、表示された「 AutoGluon-Tabular 」をクリックしてください。 飛んだ先のマーケットプレイスの AutoGluon-Tabular のページで「 Continue to Subscribe 」ボタンをクリックしてください。 料金やライセンスに関する説明が表示されますので、確認して「 Accept Offer 」ボタンをクリックしてください。AutoGluon-Tabular は OSS  であり、アルゴリズムの使用自体には料金は発生しません。SageMaker […]

Read More

Amazon SageMaker での AutoGluon-Tabular の活用 BYOC 編

表データに対する分類、回帰というタスクは機械学習のタスクの中でもビジネスに最も親密に結びついています。もし、以前にこのようなタスクに取り組まれていたなら、表データに対する推論の利用用途が多岐にわたることをご存知でしょう。ビジネスにおいて、ユーザーの購買活動、保険請求金額、医療レポート、IoT からのセンサーデータなど多種多様なソースから収集したデータに基づいて、機械学習モデルを構築することが重要となります。しかしながら、そのような多様性のあるデータを扱うことは容易ではありません。 このような問題に対し、これまでは専門家による懇切丁寧な特徴量エンジニアリングを通したアプローチがとられていました。しかしながら、近年、機械学習コンペティションでは複数のモデルのアンサンブルによるアプローチが主流となりつつあります。コンセプトとなっているのは複数のモデルを組み合わせてさらに良いモデルを作ることです。これは集合知と呼ばれており、それぞれのモデルがより多様で独立しているときに効果を発揮します。 AutoGluon-Tabular ではこのアイデアを取り入れています。多層スタックアンサンブルという手法も用いることにより AutoGluon-Tabular は AutoML のフレームワークとして様々なタスクに対して優れた精度を記録しています。また、AutoGluon-Tabular はシンプル、堅牢、高効率、高精度、フォールトトレラントを考慮しデザインされており、複雑な処理なしに高精度のモデルが作成可能です。 この AutoGluon-Tabular は Amazon SageMaker の独自コンテナ および AWS Marketplace を活用頂くことで簡単にお使い頂けます。これにより、たった数行のコードで高精度な機械学習モデルを作成することが可能となります。また、フルマネージドサービスである Amazon SageMakerを 利用することで、ラベリングタスクとの統合、セキュアでスケーラブルなモデルの作成、スポットインスタンスを利用したコスト削減が可能となります。 この投稿では、Amazon SageMaker での独自コンテナを活用する、BYOC( Bring Your Own Container ) という方法で AutoGluon-Tabular の活用 し、高精度な学習モデルを作成、デプロイし、すぐさまお客様のビジネスに利用する方法をご紹介します。また、次回の記事では、AWS Marketplace にあるソフトウェアを用いることで、コードを記述することなく活用頂く方法についてもご案内しています。 Amazon SageMaker での独自コンテナを用いた AutoGluon-Tabular の活用 本セクションでは、Amazon SageMaker ノートブックインスタンスを用いて、AutoGluon-Tabular モデルを学習し、推論を行う方法について順を追ってご説明致します。サンプルコードの詳細については、GitHub のリポジトリを参照下さい。 ステップ1: SageMaker ノートブックインスタンスの作成 このチュートリアルの最初のステップは、SageMaker ノートブックインスタンスを作成することです。今回は、コストの低い ml.t2.medium インスタンスを選びます。作成の際には、AmazonSageMakerFullAccess ポリシーを含む […]

Read More

Cisco は、ハイブリッド機械学習ワークフローを作成するために Amazon SageMaker と Kubeflow を使用

この記事は、Cisco の AI/ML ベストプラクティスチームのメンバーによるゲスト投稿です。そのメンバーには、テクニカルプロダクトマネージャーの Elvira Dzhuraeva 氏、上級エンジニアの Debo Dutta 氏、プリンシパルエンジニアの Amit Saha 氏が含まれます。 Cisco は、多くのビジネスユニットに機械学習 (ML) と人工知能 (AI) を適用する大企業です。CTO オフィスにある Cisco AI チームは、AI と ML を使用するビジネスユニット全体の会社のオープンソース (OSS) AI/ML ベストプラクティスを担当しています。また、Kubeflow オープンソースプロジェクトと MLPerf/MLCommons の主要な貢献者でもあります。チームの使命は、Cisco のビジネスユニットとお客様の両方が使用できるアーティファクトとベストプラクティスを ML で作成することです。このソリューションはリファレンスアーキテクチャとして共有しています。 ローカライズされたデータ要件などのビジネスニーズに応えて、Cisco はハイブリッドクラウド環境を運用しています。モデルトレーニングは独自の Cisco UCS ハードウェアで行われますが、多くのチームはクラウドを活用して推論を行い、スケーラビリティ、地理的冗長性、復元力を活かしています。けれども、ハイブリッド統合では一貫した AI/ML ワークフローを構築してサポートするために深い専門知識と理解が必要になることが多いため、このような実装はお客様にとって困難な場合があります。 これに対処するために、Amazon SageMaker を使ってクラウド内のモデルにサービスを提供するハイブリッドクラウドを実装するために、Cisco Kubeflow スターターパックを使用する ML パイプラインを構築しました。このリファレンスアーキテクチャを提供することで、お客様が複雑なインフラストラクチャ全体でシームレスで一貫性のある ML ワークロードを構築して、直面する可能性のあるあらゆる制限を満たすことを支援することを目指しています。 Kubeflow は、Kubernetes 上の ML […]

Read More

Amazon SageMaker と Amazon ES を使用しての画像検索アプリケーションの構築

時に人は、探しているものを適格に説明するための言葉を見つけることに、難しさを感じるものです。古いことわざでも、「百聞は一見にしかず」と言います。 言葉による説明より、実際の例や画像を示す方が便利なことも多く、これは、検索エンジンで何かを見つけようとしている場合には顕著です。 今回の記事では、画像検索の結果を提供できるフルスタックのウェブアプリケーションを含む画像検索アプリケーションを、ゼロから、1 時間もかからず構築していきます。 特に、ファッション系およびホームデコレーション系などの小売業や E コマース企業では、画像検索を利用して顧客エンゲージメントを改善できます。画像検索により、販売者は購入者に対し、テーマもしくは形状的に関連のあるアイテムを提案できるようになります。これは、テキストのみのクエリを使用している販売者では、簡単に実現することはできないでしょう。Gartner によれば、「ウェブサイトを早期に画像および音声検索が可能となるよう再設計するブランドでは、そのデジタルコマース収益が、2021 年までに最大 30% 増加することが見込める。」とのことです。 高レベルな画像検索の例 Amazon SageMaker は完全マネージド型サービスであり、あらゆる開発者やデータサイエンティストに対し、機械学習 (ML) モデルを迅速に構築、トレーニング、デプロイするための手段を提供します。同じく完全マネージド型サービスである Amazon Elasticsearch Service では、Elasticsearch のデプロイ、保護、実行を、簡単かつ大規模に、コスト効率良く行えます。Amazon ES では、k–近傍 (KNN) 検索が行えます。これは、製品レコメンデーション、不正検出、画像や動画および意味論的なドキュメントの取得など、今回のものと類似性のあるユースケースで検索を強化するためにも使用できます。軽量かつ効率的な非メトリクス空間ライブラリ (NMSLIB) を使用して構築された KNN は、数千のディメンションにわたる数十億のドキュメントに関する、大規模かつ低レイテンシーの近傍検索を、通常の Elasticsearch クエリと同じ手軽さで実行することを可能にします。 この画像検索のアーキテクチャを次の図に示します。 ソリューションの概要 画像検索アーキテクチャの実装作業は、次の 2 つのフェーズにより構成されます。 サンプルの画像データセットを用い、参照用の KNN インデックスを Amazon ES 上に構築します。 Amazon SageMaker エンドポイントと Amazon ES に新しい画像を登録し、類似性のある画像を取得します。 参照用 KNN インデックスの作成 このステップでは、Amazon SageMaker でホスティングされている事前トレーニング済みの […]

Read More

Euler Hermes が Amazon SageMaker を使ってタイポスクワッティングを検出する方法

これは Euler Hermes のゲスト投稿です。彼らの言葉によれば、「100 年以上にわたり、信用保険業界の世界的リーダーを務める Euler Hermes は、より簡単で安全なデジタル製品を提供するためにクライアントに同行し、世界の商取引における重要な触媒となっています」 Euler Hermes は、毎月 600,000 を超える B2B トランザクションを管理し、世界中の 3,000 万社を超える企業からのデータ分析を実現しています。大規模の人工知能と機械学習 (ML) がビジネスの中心になりました。 Euler Hermes は、さまざまなユースケースで ML を使用しています。最近の例では、タイポスクワッティングの検出があります。これは、サイバーセキュリティチームと IT イノベーションチームがクライアントをより良く保護するためのアイデアワークショップの後に行われました。結局のところ、データが AWS クラウドにあり、数分で適切なツールをデータサイエンティストの手に渡せるようになると、アイデアから本番環境への移行がかつてないほど容易になります。 タイポスクワッティング (ハイジャック) は、サイバーセキュリティ攻撃の一種です。これは、他の潜在的な問題の中でも、フィッシング詐欺、ID の盗難、広告、およびマルウェアのインストールを目的としていますが、登録されたドメインが正当で評判がよく有名なものによく似たインターネットドメイン名で構成されています。タイポスクワッティングのソースは、さまざまなトップレベルドメイン (TLD)、タイプミス、スペルミス、コンボスクワッティング、または異なるフレーズのドメインなど、さまざまです。 私たちが直面した課題は、Euler Hermes ブランドまたはその製品を悪用するために使用される可能性のある、疑わしい登録ドメインをすばやく検出する ML ソリューションを構築することでした。 ML ワークフローを簡素化し、市場投入までの時間を短縮するために、Amazon SageMaker を使用することを選択しました。このフルマネージド AWS サービスは、Amazon Simple Storage Service (Amazon S3) または AWS Lambda などの他の AWS サービスと統合しながら、基盤となるインフラストラクチャを気にすることなく、大規模な […]

Read More