Amazon SageMaker Canvas がデータフローのインポートと ML のデータ準備の高速化のサポートを開始
Amazon SageMaker Canvas の Amazon SageMaker Data Wrangler は、Amazon SageMaker Studio Classic からのデータフローのインポートに加えて、機械学習 (ML) のためのより高速かつ柔軟なデータ準備をサポートするようになりました。SageMaker Canvas の最新バージョンの SageMaker Data Wrangler を使用すると、カスタム区切り文字やより多くのサンプリングオプションを使用して S3 からデータをより簡単にインポートし、パフォーマンスを向上させてデータを準備できるようになりました。さらに、変換をより迅速に検証でき、データレシピをより簡単に反復処理できます。SageMaker Studio Classic からデータフローをインポートして、SageMaker Canvas の最新のデータ準備機能や拡張機能を利用することもできます。
大量のデータの集約、分析、変換は、繰り返しの多い反復的なプロセスであるため、MLプロジェクトで最も時間のかかる作業です。これらの新しい機能強化により、top-k、ランダム、層別など、さまざまなサンプリング方法でデータをインポートし、必要に応じてサンプルサイズと方法を調整して代表的なサンプルを取得できます。低レイテンシーでデータを変換し、変換がデータサイズに与える影響をすばやく検証し、必要に応じてステップの順序を変更できます。さらに、データレシピをコピーしてデータソースを置き換えて、さまざまなデータセットやモデルで再利用できます。最後になりましたが、既存のデータフローをすべて SageMaker Studio Classic の SageMaker Data Wrangler から SageMaker Canvas にワンクリックでインポートすることも、S3 またはローカルファイルのアップロードを通じて特定のデータフローを手動でインポートすることもできます。
これらの拡張データ準備機能は、SageMaker Canvas がサポートされているすべての AWS リージョンでご利用いただけます。詳細については、ブログと AWS のテクニカルドキュメントをご覧ください。