Amazon SageMaker Feature Store

機械学習機能のフルマネージドリポジトリ

Amazon SageMaker Feature Store は、機械学習 (ML) 機能を保存、更新、取得、共有するためのフルマネージド型の専用リポジトリです。

機能は、モデルがトレーニングおよび推論中に予測を行うために使用する属性またはプロパティです。たとえば、音楽プレイリストを推奨する ML アプリケーションで、曲の評価、以前に聴いた曲、および曲を聴いた時間などが機能に含まれます。ML モデルの精度は、正確な機能セットと構成に基づいています。多くの場合、これらの機能は、複数のモデルをトレーニングする複数のチームによって繰り返し使用されます。また、モデルのトレーニングに使用された機能セットは、リアルタイムの予測 (推論) を行う際に利用可能でなければなりません。ほとんどの組織がトレーニング用と推論用の 2 つの異なる機能ストアを保持しているため、さまざまなアクセスパターン間で一貫性と最新機能の単一ソースを維持することが課題となっています。

Amazon SageMaker Feature Store は、機能を保存してアクセスできる専用のリポジトリであるため、チーム間で機能に名前を付けたり、整理したり、再利用したりする作業を簡単に行えます。SageMaker Feature Store は、トレーニング中の機能とリアルタイムの推論のために統合ストアを提供します。追加のコードを記述したり、機能の一貫性を保つために手動プロセスを作成したりする必要はありません。SageMaker Feature Store は、保存されている機能のメタデータ (機能名やバージョン番号など) を追跡するため、インタラクティブなクエリサービスである Amazon Athena を使用して、適切な属性の機能をバッチまたはリアルタイムでクエリできます。SageMaker Feature Store は機能を引き続き更新します。推論中に新しいデータが生成されると、単一のリポジトリが更新されるため、トレーニングや推論中にモデルを使用できる、新しい機能が常に利用可能です。

Amazon SageMaker Feature Store: ML アプリの機能を保存、検出、および共有する (29:42)

主な特徴

多くのソースからデータを取り込む

Amazon SageMaker Feature Store に機能を取り込む方法はたくさんあります。Amazon Kinesis Data Firehose などのストリーミングデータソースを使用できます。Amazon SageMaker Data Wrangler などのデータ準備ツールで機能を作成し、数回クリックするだけでそれらを SageMaker Feature Store に直接保存することもできます。

検索と検出

Amazon SageMaker Feature Store のタグとインデックス機能を使って、SageMaker Studio のビジュアルインターフェイスから簡単に見つけることができます。機能カタログを閲覧することで、チームは機能に対する理解をさらに深め、機能が特定のモデルに役立つかどうかを判断することができます。

機能の一貫性を確保する

Amazon SageMaker Feature Store は、トレーニングと推論の両方で同じ機能を利用できるようにすることで、モデルが正確な予測を行えるようにします。トレーニングと推論は非常に異なるユースケースであるため、ストレージ要件はそれぞれ異なります。SageMaker Feature Store は、両方の要件に対応しています。トレーニング中、モデルは完全なデータセットを使用します。これには数時間かかることがよくあるため、推論はミリ秒単位で行う必要があり、通常はデータのサブセットが必要となります。たとえば、プレイリストで次のベスト曲を予測するモデルでは、数千曲でモデルをトレーニングしますが、推論中、SageMaker Feature Store は最後の 3 曲のみから次の曲を予測します。SageMaker Feature Store を使用すれば、モデルはトレーニングの実行 (通常はオフラインでバッチ実行) とリアルタイム推論のために同じ機能セットにアクセスできます。

機能を標準化する

同じ機能の定義が異なることは、ビジネス全体においてよくあることです。たとえば、「温度」は摂氏または華氏で定義でき、「日付」は日・月・年または月・日・年で表記することができます。Amazon SageMaker Feature Store は、機能の定義を単一のリポジトリに保存することでチーム間の混乱を解消し、各機能がどのように定義されているかを明確にします。機能を明確に定義すると、さまざまなアプリケーションで機能を再利用しやすくなります。

Amazon SageMaker パイプラインと統合する

Amazon SageMaker Feature Store は Amazon SageMaker Pipelines と統合して、自動化された機械学習ワークフローを作成し、機能検索と検出を追加して、再利用します。その結果、ML ワークフローに機能の検索、検出、再利用を簡単に追加できます。

お客様

The Climate Corporation
「Climate では、世界中の農家に正確な情報を提供して、データ主導の意思決定を行えば、1 エーカーあたりの収益を最大化できると信じています。これを実現するために、機械学習ツールなどのテクノロジーに投資して、栽培者の収穫量など、機能と呼ばれる測定可能なエンティティを使用してモデルを構築しました。Amazon SageMaker Feature Store を使用すれば、複数のチームの機能に簡単にアクセスして、再利用できる中央機能ストアを備えた ML モデルの開発を加速できます。SageMaker Feature Store を使用すると、オンラインストアを使用してリアルタイムで機能にアクセスしたり、さまざまなユースケースでオフラインストアを使用してスケジュール通りに機能を実行したりできます。SageMaker Feature Store を使用すれば、ML モデルをより迅速に開発できます」

Daniel McCaffrey、気候変動データおよび分析部門のバイスプレジデント、Climate

Intuit
「私たちは、2017 年に AWS で Intuit の新しい機械学習プラットフォームを構築しました。これは、モデルの開発、トレーニング、ホスティングに関する Amazon SageMaker の強力な機能と、調整および機能エンジニアリングにおける Intuit 独自の機能を組み合わせたものです。その結果、モデル開発のライフサイクルを大幅に短縮しました。以前は丸 6 か月かかっていたものが、今では 1 週間もかからないうちに、AI 機能を TurboTax、QuickBooks、および Mint 製品に取り組むようになり、作業を大幅に高速化しました。当社では Amazon SageMaker Feature Store のリリースに向けて AWS と緊密に協力してきました。フルマネージド機能ストアの見通しによれば、組織全体で複数の機能リポジトリを維持する必要がなくなります。当社のデータサイエンティストは、中央ストアの既存の機能を使用して、チームやモデル全体で機能の標準化と再利用の両方を推進できるようになります」

Mammad Zadeh、Intuit データプラットフォームエンジニアリング部門バイスプレジデント

Experian
「Experian は、消費者が金融生活において信用を理解して利用できるようにし、貸し手が信用リスクを管理できるよう支援することが私たちの責任であると信じています。財務モデルを構築するためのベストプラクティスを引き続き実装する際に、機械学習を活用する製品の生産を加速するソリューションを検討しています。Amazon SageMaker Feature Store は、ML アプリケーションの機能を保存して再利用するための安全な方法を提供します。複数のアカウントにわたってリアルタイムアプリケーションとバッチアプリケーションの両方の一貫性を保つ機能は、当社のビジネスにおける重要な要件です。Amazon SageMaker Feature Store の新機能を使用することで、お客様が信用を管理し、ニューエコノミーのコストを削減できるようになります」

Geoff Dzhafarov、チーフエンタープライズアーキテクト、Experian Consumer Services

「DeNA は、インターネットと AI/ML を使用してインパクトと喜びを提供することを使命としています。価値に基づくサービスを提供することが主な目標であり、当社ではビジネスとサービスがその目標を達成するための準備ができていることを確認し、組織全体で機能を見つけて再利用したいと考えています。...Amazon SageMaker Feature Store は、さまざまなアプリケーションで機能を再利用するための簡単で効率的な方法を提供してくれます。Amazon SageMaker Feature Store は、標準機能の定義を維持する場合にも役に立ちますし、モデルをトレーニングして本番環境にデプロイする際の一貫した方法論を支援します。Amazon SageMaker のこれらの新機能により、ML モデルのトレーニングとデプロイをより迅速に行うことができるため、最高のサービスでお客様を喜ばせることができます」

Kenshin Yamada、ゼネラルマネージャー/AI システム部システムユニット、DeNA

Care.com
「個別家計から国内総生産におよぶまでの経済成長には、供給と需要が一致する強力な医療産業が不可欠です。Amazon SageMaker Feature Store は、一貫したキュレーション済みのデータセットを使用することで、データサイエンスおよび開発チーム全体でより適切に拡張を行えると確信しています。新たに発表された Amazon SageMaker の機能により、さまざまなアプリケーションに向けた ML モデルの開発とデプロイを加速し、リアルタイムの推奨を迅速に行うことで、お客様が多くの情報に基づいた意思決定を行えるように支援します」

Clemens Tummeltshammer、データサイエンスマネージャー、Care.com

「3M は ML を使用して、サンドペーパーなどの実証済みの製品を改善し、ヘルスケアを含む他のいくつかの分野でイノベーションを推進しています。当社では、3M のより多くの領域に機械学習をスケールすることを計画しているため、データとモデルの量は急速に増加し、毎年 2 倍になっています。SageMaker の新機能はスケールに役立つため、当社にメリットをもたらしてくれるものであると確信しています。Amazon SageMaker Data Wrangler を使用すると、モデルトレーニング用のデータの準備がはるかに簡単になり、Amazon SageMaker Feature Store を使用すると、同じモデル機能を何度も作成する必要がなくなります。最後に、Amazon SageMaker Pipelines は、データの準備、モデルの構築、およびモデルのデプロイをエンドツーエンドのワークフローに自動化するのに役立つため、モデルの市場投入までの時間を短縮できます。当社の研究者たちは、3M の科学の新たなスピードを活用することを楽しみにしています」

David Frazee 氏、テクニカルディレクター、3M Corporate Systems Research Lab

AWS Machine Learning ブログ

Amazon SageMaker Feature Store と Apache Spark によるポイントインタイムクエリを使用した正確な機械学習トレーニングデータセットの構築

ブログを読む »

AWS Machine Learning ブログ

Amazon SageMaker を使用した特徴エンジニアリングパイプラインの自動化

ブログを読む »

AWS Machine Learning ブログ

Amazon SageMaker Feature Store を使用して、アカウントやチーム間で機能の再利用を可能にします。

ブログを読む »

AWS Machine Learning ブログ

Amazon SageMaker Feature Store のキーとなる機能の理解

ブログを読む »

AWS Machine Learning ブログ

Amazon SageMaker Feature Store でのストリーミング取り込みを使用して、ML を活用した意思決定をほぼリアルタイムで行う

ブログを読む »

AWS ニュースブログ

新着 – Amazon SageMaker Feature Store を使用して機械学習機能を保存、検出、および共有する

ブログを読む »

Amazon SageMaker Feature Store の使用を開始する