Amazon Web Services ブログ

Tag: SageMaker

Amazon SageMaker での AutoGluon-Tabular の活用 AWS Marketplace 編

前回の記事では、Amazon SageMaker で独自コンテナを用いて AutoGluon-Tabular を活用し、数行で高精度な機械学習モデルが構築できることをご紹介致しました。今回は、AWS Marketplace に出品されている AutoGluon-Tabular のソフトウェアを活用し、コードを記述することなく、機械学習モデルを構築する方法をご案内します。 AWS Marketplace は、ソフトウェア、データ、およびサービスを簡単に検索、購入、デプロイ、管理するために使用できる厳選されたデジタルカタログであり、セキュリティ、ネットワーク、ストレージ、データベース、といった様々なカテゴリに属する何千というソフトウェアが出品されています。今回は新しく、AutoGluon-Tabular が出品されたので、こちらを使用して機械学習モデルを構築してみます。 Step1: CSVファイルを用意します AutoGluon-Tabular ではテーブルデータを対象としています。学習データやテストデータは、pandas などの標準的なライブラリを使用して Python で読み込める有効な CSV ファイルとして格納されていれば良く、手動で前処理を行う必要はありません。各カラム名に該当するヘッダーは付けてください。後のステップで予測対象の目的変数のカラム名を指定します。 今回は、元のデータを7:3の比率で学習データとテストデータにランダムに分割し2つのファイルを作成しました。 Step2: CSVファイルをS3にアップロードします Step1 の CSV ファイルを Amazon S3 にアップロードしましょう。 Step3: SageMakerのコンソールでトレーニングジョブを実行します まず、SageMaker のコンソールの左ペインにある「アルゴリズム」(下記1)のセクションをクリックし、表示された右上の「アルゴリズムを探す」ボタン(下記2)をクリックしてください。 飛んだ先のマーケットプレイスのページの検索ボックスで autogluon を検索して、表示された「 AutoGluon-Tabular 」をクリックしてください。 飛んだ先のマーケットプレイスの AutoGluon-Tabular のページで「 Continue to Subscribe 」ボタンをクリックしてください。 料金やライセンスに関する説明が表示されますので、確認して「 Accept Offer 」ボタンをクリックしてください。AutoGluon-Tabular は OSS  であり、アルゴリズムの使用自体には料金は発生しません。SageMaker […]

Read More

Amazon SageMaker での AutoGluon-Tabular の活用 BYOC 編

表データに対する分類、回帰というタスクは機械学習のタスクの中でもビジネスに最も親密に結びついています。もし、以前にこのようなタスクに取り組まれていたなら、表データに対する推論の利用用途が多岐にわたることをご存知でしょう。ビジネスにおいて、ユーザーの購買活動、保険請求金額、医療レポート、IoT からのセンサーデータなど多種多様なソースから収集したデータに基づいて、機械学習モデルを構築することが重要となります。しかしながら、そのような多様性のあるデータを扱うことは容易ではありません。 このような問題に対し、これまでは専門家による懇切丁寧な特徴量エンジニアリングを通したアプローチがとられていました。しかしながら、近年、機械学習コンペティションでは複数のモデルのアンサンブルによるアプローチが主流となりつつあります。コンセプトとなっているのは複数のモデルを組み合わせてさらに良いモデルを作ることです。これは集合知と呼ばれており、それぞれのモデルがより多様で独立しているときに効果を発揮します。 AutoGluon-Tabular ではこのアイデアを取り入れています。多層スタックアンサンブルという手法も用いることにより AutoGluon-Tabular は AutoML のフレームワークとして様々なタスクに対して優れた精度を記録しています。また、AutoGluon-Tabular はシンプル、堅牢、高効率、高精度、フォールトトレラントを考慮しデザインされており、複雑な処理なしに高精度のモデルが作成可能です。 この AutoGluon-Tabular は Amazon SageMaker の独自コンテナ および AWS Marketplace を活用頂くことで簡単にお使い頂けます。これにより、たった数行のコードで高精度な機械学習モデルを作成することが可能となります。また、フルマネージドサービスである Amazon SageMakerを 利用することで、ラベリングタスクとの統合、セキュアでスケーラブルなモデルの作成、スポットインスタンスを利用したコスト削減が可能となります。 この投稿では、Amazon SageMaker での独自コンテナを活用する、BYOC( Bring Your Own Container ) という方法で AutoGluon-Tabular の活用 し、高精度な学習モデルを作成、デプロイし、すぐさまお客様のビジネスに利用する方法をご紹介します。また、次回の記事では、AWS Marketplace にあるソフトウェアを用いることで、コードを記述することなく活用頂く方法についてもご案内しています。 Amazon SageMaker での独自コンテナを用いた AutoGluon-Tabular の活用 本セクションでは、Amazon SageMaker ノートブックインスタンスを用いて、AutoGluon-Tabular モデルを学習し、推論を行う方法について順を追ってご説明致します。サンプルコードの詳細については、GitHub のリポジトリを参照下さい。 ステップ1: SageMaker ノートブックインスタンスの作成 このチュートリアルの最初のステップは、SageMaker ノートブックインスタンスを作成することです。今回は、コストの低い ml.t2.medium インスタンスを選びます。作成の際には、AmazonSageMakerFullAccess ポリシーを含む […]

Read More

【開催報告】AWS AI/ML@Tokyo #3

アマゾン ウェブ サービス ジャパン株式会社の伊藤です。AWS Japan では、2020年からAI/ML関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年4月23日にオンラインで開催された AWS AI/ML@Tokyo #3では、AWS Japan によるAmazon SageMaker Studioの紹介と、Amazon SageMaker をご利用いただいているお客様をゲストスピーカーにお招きし、実際に導入頂いたお客様による「体験談」をお話し頂きました。

Read More

Amazon SageMakerですぐに利用可能: Deep Graph Library

本日、グラフニューラルネットワークを簡単に実装できるオープンソースのライブラリ Deep Graph Library が Amazon SageMaker で使用できる機能が発表されました。 近年では、手書き文字・画像・動画などの複雑なデータから、精巧なパターンを抽出できる優れた能力によって、深層学習が世の中を席巻しています。しかしながら、このようなカテゴリーに分類されないデータは多く存在しており、こうしたデータはグラフを使うことでより適切に表現可能な場合があります。直感的にも、畳み込みニューラルネットワークや回帰型ニューラルネットワークのような従来のニューラルネットワークは、このようなデータに対して適切ではないことがわかりますし、新たなアプローチが必要と言えます。 グラフニューラルネットワークとは グラフニューラルネットワーク(GNN)は最近開発された機械学習に関連した技術の中で最もわくわくするものの一つで、これらの参考文献を読むことで、まずは概要を理解できます。 GNNは次のようなデータセットに対する予測モデルを作成するために使用されます。 ソーシャルネットワーク: 人同士の関係性を示すグラフ 推薦システム: カスタマーと商品の関係性を示すグラフ 化学構造解析: 化合物が原子やそれらの結合としてモデル化されているグラフ サイバーセキュリティ: ソースとデスティネーション IP アドレスの関係性を示すグラフ 多くの場合、これらのデータセットは非常に大きく、その一部にしかレベル付けがなされていません。例えば、詐欺行為の検出を目的として、特定の人物が詐欺を働く確率を予測するために、詐欺を過去に働いたことがある既知の人物との関係性を解析するシナリオを考えます。これは、グラフの一部のみが詐欺師または善良な人物としてラベルづけされている半教師あり学習のタスクになります。そして、人手でラベル付けした大規模なデータセットを用意して、データを「linearize」し、従来の機械学習アルゴリズムを適用するよりも良いソリューションであると言えます。 このような問題へ取り組むにあたって、それぞれの業界知識 (小売、金融、化学など) 、コンピュータサイエンスの知識 (Python, 深層学習, オープンソースのツール) 、IT インフラの知識 (モデルのトレーニング、デプロイ、スケールリングの方法) が必要になります。全てのスキルを習得できる方はごく少数でしかないため、Deep Graph LibraryやAmazon SageMakerのようなツールが必要とされています。 Deep Graph Libraryの紹介 Github上で2018年 12月にリリースされたDeep Graph Library (DGL) とは、研究者や科学者が自分たちのデータセットを対象に、GNNのすばやい開発・学習・評価を補助してくれるPythonのオープンソースライブラリです。 DGLは PyTorch や Apache MXNet のようなポピュラーなディープラーニングフレームワークの上で動作するようになっています。これらのフレームワークに関する知識がある場合は、初心者でも安心な実装例を通して簡単に使い始めることができます。GTC 2019 で開催されたワークショップの資料も非常に参考になります。実装例を試したあと、DGL で実装された最先端のモデルをここから試すことも可能です。例えば、Graph Convolution Network (GCN) と CORA […]

Read More