投稿日: Oct 23, 2023
Amazon SageMaker Feature Store は、カスタムデータソースを特徴量処理パイプラインに組み込む機能をサポートしています。より充実した多彩な ML 特徴量を構築するには、さまざまなデータソースを組み込み、実行する変換関数を定義します。データから ML 特徴量への処理は SageMaker Feature Store が担います。
今回のリリースにより、Amazon Kinesis などのストリーミングデータソースに接続し、Spark Structured Streaming を使用して変換を作成できます。Spark Structured Streaming は、リアルタイムにデータを処理するためのスケーラブルで耐障害性に優れたストリーム処理エンジンです。特徴量のバッチ処理のために Amazon Redshift、Snowflake、Databricks などのデータウェアハウスに接続し、スケジュールに基づいて特徴量処理を開始することも、Amazon EventBridge ルールを使用してトリガーによって特徴量処理を開始することもできます。Amazon SageMaker Feature Store によって、パイプラインが作成および管理され、ML モデルの提供とトレーニングに使用する特徴量グループに書き込みが行われます。Amazon SageMaker Studio の 1 つの環境で、パイプライン実行の追跡、系統の可視化およびデータソースまでの特徴量のトレースバック、特徴量処理コードの表示などの操作すべてを行うことができます。
詳細は、こちらのドキュメントからご確認いただけます。使用を開始するには、Amazon SageMaker コンソールから SageMaker Studio にアクセスしてください。