投稿日: May 6, 2022
Amazon SageMaker Data Wrangler は、ML の初めての完全統合開発環境 (IDE) である Amazon SageMaker Studio で、機械学習 (ML) のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler は、デフォルトで ml.m5.4xlarge 上で実行します。SageMaker Data Wrangler には PySpark で記述された組み込みのデータ変換および分析が含まれるので、デフォルトインスタンスで大規模なデータセット (最大数百ギガバイト (GB) のデータ) を効率的に処理できます。
本日より、より多くの CPU または メモリを搭載した追加の M5 または R5 インスタンスタイプを SageMaker Data Wrangler で使用して、データ準備ワークロードのパフォーマンスを向上させることができます。Amazon EC2 M5 インスタンスは、さまざまなワークロード向けに、コンピューティング、メモリ、ネットワーキングリソースをバランスよく提供しています。Amazon EC2 R5 インスタンスは、メモリ最適化インスタンスです。M5 と R5 の両方のインスタンスタイプは、非常に大きなデータセット (最大数テラバイト (TB) のデータ) に対する組み込みの変換の実行や、Panda で記述されたカスタム変換の中規模のデータセット (最大数十 GB) のデータへの適用など、多くの CPU とメモリが必要な用途に最適です。
Amazon SageMaker Data Wrangler でサポートされるようになったインスタンスの詳細については、ブログ、AWS のドキュメント、および料金ページを参照してください。SageMaker Data Wrangler の使用を開始するには、AWS のドキュメントを参照してください。