投稿日: Aug 22, 2023
Amazon SageMaker Data Wrangler を使用すると、Amazon SageMaker Studio での機械学習 (ML) 用データの集約と準備に要する時間が、数週間から数分に短縮されます。SageMaker Data Wrangler を使用すると、Amazon S3、Amazon Athena、Amazon Redshift、Amazon EMR、Snowflake といった定評のある各種ソースや、50 を超えるその他のサードパーティソースからのデータにアクセスできます。本日より、EMR Hive および Presto 接続の AWS Lake Formation でロールベースのアクセスコントロールを使用して、SageMaker Data Wrangler で ML 用のデータセットを作成できるようになりました。
管理者が Lake Formation で EMR のロールベースアクセスを設定し、SageMaker Studio で使用される IAM ロールへのデータアクセスを提供すると、同じ IAM ロールを使用して SageMaker Data Wrangler から EMR に接続し、Lake Formation による認証と承認を行うことができます。EMR Hive 接続と Presto 接続を使用して、Lake Formation によって管理される S3 データレイク内のデータを参照したり、ML 用のデータセットを作成したりできます。その後、SageMaker Data Wrangler のビジュアルインターフェイスと Spark によってサポートされる 300 以上の組み込みの分析およびデータ変換機能を使用して、コードを記述することなく、データ品質の把握、データのクリーニング、特徴量の作成をすばやく行うことができます。また、SageMaker Autopilot を使用してモデルの学習やデプロイを行い、SageMaker Pipeline との統合を使用して特徴量エンジニアリング、学習、推論パイプラインのデータ準備プロセスを運用可能にする作業も、すべて SageMaker Data Wrangler から行うことが可能です。
SageMaker Data Wrangler で現在サポートされているすべてのリージョンにおいて EMR と Lake Formation がサポートされています。詳細については、こちらのブログ記事および AWS テクニカルドキュメントを参照してください。