投稿日: Dec 7, 2022
Amazon SageMaker Feature Store は、オフラインストアで Apache Iceberg テーブルフォーマットを使用して特徴グループを作成できる機能をサポートするようになりました。オフラインストアには、過去の機械学習の特徴が保管され、論理的な特徴グループにまとめられ、モデルトレーニングやバッチ推論に使用されます。Apache Iceberg は、オフラインストアなどの非常に大規模な分析データセット用のオープンテーブルフォーマットです。大量のファイルをテーブルとして管理し、Amazon S3 での使用に最適化された最新の分析データレイク操作をサポートします。
特にストリーミング時など、データを取り込むと、小さなファイルが大量に生成され、それによって必要なファイル操作の数が増え、クエリのパフォーマンスに悪影響を及ぼす可能性があります。Iceberg を使用すると、パーティション内で小さなデータファイルをまとめて大きなファイルに置き換えてファイル数を減らせるため、クエリを大幅に高速化できます。この小さなファイルをまとめる操作は並列処理され、特徴グループで実行中の読み取りおよび書き込み操作には影響しません。新しい特徴グループを作成するときに、Iceberg オプションを選択した場合、SageMaker Feature Store は Parquet ファイルフォーマットを使用して Iceberg テーブルを作成し、そのテーブルを AWS Glue データカタログに登録します。
詳細は、こちらのドキュメントでご確認いただけます。利用開始するには、Amazon SageMaker コンソールから SageMaker Studio にアクセスしてください。