投稿日: May 7, 2021
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と機能エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。本日より、Amazon SageMaker Data Wrangler tの新機能を使用して、次のような機械学習用のデータ準備作業をより簡単かつ迅速にできるようになります。Amazon S3 へのクロスアカウントアクセス、最大 1000 列のデータのサポート、分散ジョブ、新しい SageMaker Data Wrangler ノートブックの使用体験。
Amazon S3 クロスアカウントアクセスが使えるようになると、アクセス可能な任意の S3 バケットからデータをインポートして、どのアカウントにあるかに関係なく、S3 バケット内のデータを簡単に参照できます。S3 バケットに移動すると、S3 バケットのコンテンツをインタラクティブに参照し、シングルクリックで Amazon SageMaker Data Wrangler にインポートすることができます。さらに、多くの機械学習アプリケーションでは、数百の列があるデータセットを準備する必要があります。1000 列のデータセットのサポートが開始されたことで、機械学習アプリケーション用のデータを簡単に準備できます。また、分散ジョブを使用すると、複数のインスタンスでデータ処理ワークロードをスケールアウトして、ほぼすべてのサイズのデータを処理できるようになります。本日より、ml.m5.4xlarge、ml.m5.12xlarge、ml.m5.24xlarge インスタンスタイプに対して 1 を超えるインスタンス数を指定して、データ処理ワークロードを簡単にスケールアウトできるようになります。最後に、SageMaker Data Wrangler の新しいノートブックエクスペリエンスにより、ジョブノートブックが使いやすくなります。このノートブックは、設定が簡単になるように再編成されていて、ドキュメントも提供されるため、より早く使用を開始できます。