投稿日: Jun 8, 2021
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と機能エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。本日より、Amazon SageMaker Data Wrangler 内のデータソースとして Snowflake を使用し、Snowflake 内のデータを機械学習用に簡単に準備できるようになりました。
Amazon SageMaker Data Wrangler のデータソースとして Snowflake が採用されたことで、コードを 1 行も書くことなく Snowflake に迅速かつ簡単に接続できるようになりました。さらに、Snowflake のデータを Amazon S3 に保存されているデータや、Amazon Athena や Amazon Redshift を介してクエリされたデータと結合し、機械学習用のデータを準備することができるようになりました。接続すると、Snowflake に保存されているクエリデータをインタラクティブに照会したり、300 以上の設定済みのデータ変換を使って簡単にデータを変換したり、データを理解したり、設定済みの堅牢な可視化テンプレートのセットを使って潜在的なエラーや極端な値を特定したりすることができます。モデルを本番環境にデプロイする前に、データ準備ワークフローの不整合をすばやく特定し、問題を診断できます。最後に、データ準備ワークフローを Amazon S3 にエクスポートして、Amazon SageMaker Autopilot、Amazon SageMaker Feature Store、Amazon SageMaker Pipelinesなどの他の SageMaker 機能で使用することができます。