投稿日: Jan 10, 2022
Amazon SageMaker Feature Store が強化され、データのバッチ取り込みを容易にすることのできる Apache Spark 向けの強力なコネクタが追加されました。Amazon SageMaker Feature Store は、機械学習 (ML) モデル機能を保存、更新、取得、共有するためのフルマネージド型の専用リポジトリです。これまで、SageMaker Feature Store には、PutRecord API、SageMaker Python SDK の FeatureGroup.ingest 機能、SageMaker Processing ジョブなどの方法でデータを取り込むことが可能でした。
バッチ取り込みの場合、Amazon EMR や Processing ジョブなどの Spark ソースからデータを取り込むことができます。この場合、複数の Spark DataFrame レコードを何度も参照して、特徴グループと特徴名で PutRecord API を複数回構成する必要があるので多くの時間がかかります。この新しいリリースでは、Apache Spark 向けの SageMaker Feature Store コネクタを使用して、これらのステップを簡素化および自動化することができます。このコネクタは Spark のすべてのライブラリで使用することができ、Amazon EMR 上の既存の特徴エンジニアリングパイプラインにシンプルな API コールを追加して、SageMaker Feature Store へのデータのバッチ取り込みを容易にすることができます。さらに、コネクタでは、SageMaker Feature Store オフラインストアへの直接取り込みを行ってバックフィル処理をシンプルにすることもできます。
詳細については、ドキュメントを参照してください。使用を開始するには、Amazon SageMaker コンソールにログインしてください。