投稿日: Oct 14, 2021
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。
本日より、ワークグループを使用して Amazon Athena でデータをクエリし、データセットのマルチキー結合を有効にし、相関と重複行を視覚化し、データフローをエクスポートする際にカスタマーマネージドキーを提供できるようになりました。これにより、機械学習用のデータの準備がより簡単かつ迅速になります。これらの機能の詳細な説明を以下に記載しています。
- Athena Workgroup のサポート。 Amazon Athena Workgroups は、同じ AWS アカウントで実行されているユーザー、チーム、またはアプリケーション間でクエリ実行およびクエリ履歴を切り分けるために使用できるリソースタイプです。本日より、任意のワークグループを使用して、SageMaker Data Wrangler の Athena でデータをクエリできるようになりました。
- データの準備に役立つ 2 つの新しい視覚化:
- SageMaker Data Wrangler の特徴相関の視覚化を使用すると、データセット内の特徴の相関を簡単に計算し、それらを相関マトリックスとして視覚化できます。
- 新しい重複行検出の視覚化により、データセットに重複行があるかどうかをすばやく検出できます。
- マルチキー結合。 SageMaker Data Wrangler で 2 つのデータセットを結合するときに複数の列を指定し、SageMaker Data Wrangler フロー内の中間ステップを削除できるようになりました。
- Amazon Key Management Service (KMS) を使用したカスタマーマネージドキー (CMK) のサポート。本日より、SageMaker Data Wrangler 内からエクスポートされたノートブックに加えて、「S3 へのエクスポート」機能の両方を使用するときに KMS キーを指定できるようになりました。
Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新のリリースにアップグレードしてから、Amazon SageMaker Studio を開き、メニューから [File] (ファイル) > [New] (新規) > [Flow] (フロー) とクリックするか、SageMaker Studio ランチャーから [new data flow] (新規データフロー) をクリックします。新機能の詳細については、ドキュメントをご覧ください。