Amazon Web Services ブログ

Amazon SageMakerの新機能: ワークフロー、アルゴリズム、認定

過去12ヵ月間、MLを何万人もの開発者やデータ科学者の手に渡して、完全に管理されたサービスである、Amazon SageMaker を利用しているお客様が – 詐欺の発見予測エンジンのチューニングで machine learning に大進歩を遂げたのを見て参りました。昨年 re:Invent に SageMakerを導入して以来、その大半は顧客のフィードバックに基づいた、ほぼ100の新機能を追加しました。Amazon SageMakerの主な新機能の発表で、今日も同じドラムビートを継続しています。

SageMakerワークフローの紹介

今日では、machine learning のワークフローの構築、管理、共有を容易にするために、Amazon SageMakerの新しい自動化、統合化、それにコラボレーション機能を発表しています。

Machine learning は高度なコラボレーションプロセスです。ドメイン経験と技術スキルを組み合わせることは成功の基盤であり、さまざまなデータセットや機能を用いた複数の反復と実験が必要になることがよくあります。開発者が進捗状況を共有し、多くの共同作業者からフィードバックを収集する必要が頻繁にあります。成功モデルの訓練は、必ずしもホールインワンとはなるとは限らないので、重要な決定を追跡し、成功した部品を再生し、成功したものを再利用し、成功しなかったものに関する助けを得ることが重要になります。これらの反復の管理、繰り返し、共有を簡単にする新機能を導入しています。

SageMaker Search による実験管理

成功したMLモデルの開発には、継続的な実験、新しいアルゴリズムの試行、ハイパーパラメータのモデル化が必要です。その間には、潜在的に小さな変更が性能と正確さに及ぼす影響を観察しなければなりません。この反復運動は、データセット、アルゴリズム、パラメータのユニークな組み合わせで「勝利」モデルの醸成の追跡が難しいことを意味します。

データ科学者および開発者は、Amazon SageMaker Searchを使用して、machine learning モデルトレーニングの実験を整理、追跡、評価することができます。SageMaker Searchを使用すると、AWSコンソールから数千もの Amazon SageMaker モデルトレーニング実行の中から、最も関連性の高いモデルトレーニングの実行を即座に発見し評価することができます。

バージョン管理によるコラボレーション

データ科学者、開発者、データエンジニア、アナリスト、ビジネスリーダーは、しばしばアイデアやタスクを共有し、協力してmachine learning を推進する必要があります。従来のソフトウェア開発とのこの種のコラボレーションの事実上の標準は、バージョン管理です。それはMLでも重要な役割を果たしており、Git の統合と視覚化をAmazon SageMaker に追加することで、簡単に作成しています。

顧客は、GitHub、AWS CodeCommit、または Git リポジトリとSageMaker ノートブックのリンク、公私のリポジトリの複製、IAM、LDAP、AWS Secrets Manager を用いた Amazon SageMaker でのリポジトリ情報の安全な保存を可能にしています。新しいオープンソースのノートブックアプリの使用で、SageMaker でのブランチ、マージ、バージョンを直接確認できます。

ステップ関数とApache Airflow によるオートメーション

MLは調整配列での完全なワークフローの実行には、複数のステップが必要になる場合があります。たとえば、Amazon Athenaでクエリを実行して AWS Glue でのデータ集約の準備前に、SageMaker でモデルをトレーニングし、製造へと展開することがあります。これらのステップを自動化し、複数のサービスでそれらを調整すれば、再利用可能かつ再現性のある MLワークフローを構築し、エンジニアや科学者間で共ができます。

ステップ機能を使用して、エンドツーエンドのワークフローでSageMaker のステップの自動化や統合が可能になりました。Amazon S3への公開データセットの自動化、SageMakerでのデータのMLモデルのトレーニング、予測にモデルの展開などが可能です。AWS Step Functions は、SageMaker (およびGlue) ジョブが成功または失敗するまで監視し、ワークフローの次のステップへの移行か、ジョブを再試行します。それには内蔵エラー処理、パラメータ渡し、状態管理、実行中のMLワークフローの監視可能なビジュアルコンソールが含まれています。

ステップ関数に加えて、現在、多くの開発者は、多段階のワークフローを作成、スケジュール、監視するのに人気あるオープンソースフレームワークのApache Airflowを使用しています。Amazon SageMaker は Airflowと統合されているため、使用していたものと同じ統合ツールを使用して、データの準備、トレーニング、チューニングなどのSageMakerタスクを実行できます。Airflowを初めて使用する場合は、CloudFormationを使用して、わずか数回クリックして新しいインスタンスを開始し、AWSでワークフローの統合を開始できます。

これらの新機能は、来月初めにテストドライブのために利用できるようになります。

新しいアルゴリズムとフレームワーク

さほど前ではない頃に、machine learning での「ビジネスの経費」の一部は、適切なレベルの精度を達成とこれらのアルゴリズムをラボから、大規模で複雑なトレーニングデータセットを実行できる実世界に持ち出すという、新しいアルゴリズムの研究開発に多大に投資しました。顧客はSageMaker では、独自のコンテナに独自コードを組み込むか、独自のSageMakerアルゴリズムを使用するか、20行のコードで完全に管理されたMXNet、TensorFlow、PyTorch、Chainerアルゴリズムを実行するという、3通りの方法でモデルをトレーニングするアルゴリズムを実行できます。当社もテキスト分類のためのBlazingText、画像のオブジェクト検出など、1年を通して新しいアルゴリズムを追加してきました。

不審なIPアドレス (IP Insights)、高次元オブジェクト ( Object2Vec) の低次元埋め込み、それに古いが優れモノである – 監督無しのグループ分け (K-means クラスタリング)を検出する、従来の方法で期待していたよりも10倍優れたパフォーマンスで、ペタバイト規模のデータセットをサポートするように設計された、新しい組み込みアルゴリズムを発表することを嬉しく思います。研究開発部門全体を必要とせずに、開発者はSageMakerの他のAPIと同様、これらのアルゴリズムにアクセスでき、低コストのトレーニングを迅速かつ低コストで実現できます。

また、1年を通じて新しいフレームワークサポート( PyTorch 1.0 と Chainerを含む) を追加し、その他は (MXNet 1.3のような最新版で) 更新し、間もなく顧客は高度に分散されたトレーニングのために完全に管理されたHorovod ジョブや、推論のためのscikit-learn and Spark MLeapの実行が可能になることを発表します。

新しいコンプライアンス標準と認定

セキュリティ、暗号化、コンプライアンス、認定はすべて、machine learning の重要な分野です。データ(およびモデルやノートブックなどのデータに依存する資産)の規制や組織上の要件を満たすことができるのは、MLを使用するすべての人にとって、ジョブゼロです。

System and Organizational Controls(SOC)レベル1、レベル2、レベル3の監査に SageMaker を追加することができました。SOCレポートはAWS Management Console から入手でき、SOC3 レポートをPDF形式でダウンロードできます。これらのコントロールは、SageMaker の既存の認定を補完しており、このサービスは、ISO 9001: 2015, 27001: 2013、27017: 2015、27018: 2014、PCI DSS 3.2 レベル1の対象となり、AWS のHIPAA、BAAの対象となります。ITARワークロードは、AWS GovCloud(米国)地域の SageMakerで実行できます。

Amazon SageMaker を使った実社会の Machine Learning

 これらの新機能、アルゴリズム、認定は、より多くのMachine learning ワークロードをさらに大勢の開発者にもたらすのに役立ちます。ほぼ排他的に顧客の要求に集中することで、Amazon SageMakerを使用して machine learning を実用的かつ有用にするための真の進歩を遂げています。人工知能については、認定、実験、自動化が常に最初に考慮されるとは限りませんが、これらの機能により、モデルの構築、トレーニング、導入に要する時間がさらに短縮されることがわかります。R&D部門全体は必要としません。

疑わしいIPアドレス (IP Insights)を検出する新しい組み込みアルゴリズム、また高次元オブジェクト (Object2Vec) 用の低次元の埋め込みを、従来の方法で想定された10倍の優れた性能のペタバイト規模のデータセットをサポートするように設計されています。R&D部門全体は必要とせずに、どの開発者もアクセスできます

 

 Matt Wood 博士、AWS 人工知能担当ジェネラルマネージャー