投稿日: Nov 2, 2023
Amazon EMR Studio から Amazon SageMaker Data Wrangler を起動して、機械学習 (ML) 用のローコードデータ準備を行うことができるようになりました。Amazon EMR とは、Apache Spark、Apache Hive、Presto などのオープンソースフレームワークを使用して、ペタバイトスケールのデータ処理、相互分析、機械学習を行うクラウドビッグデータソリューションです。Amazon SageMaker Data Wrangler を使用すれば、機械学習 (ML) 用データの集約と準備にかかる時間を、数週間から数分に短縮できます。新しい統合により、EMR Studio から SageMaker Data Wrangler を起動して、コードを記述せずに ML 用のデータを準備する操作が簡単になりました。
ML ワークフローにおいて、大量データの分析、変換、準備は重要であり、最も時間のかかる部分でもあります。本日より、お客様は EMR Studio から SageMaker Data Wrangler を起動して、既存の EMR クラスターを検出して接続できるようになりました。その後、Data Wrangler のビジュアルインターフェイスを使用し、Data Quality and Insights レポートを使用してデータを分析したり、データをクリーンアップしたり、Spark でサポートされる 300 種類以上の変換を使用して ML 用の機能を作成したりすることができます。分散した処理ジョブを使用して大規模データセットの処理をスケールしたり、組み込みのスケジューリング機能を使用してデータ準備を自動化したり、エンドツーエンドのトレーニングや推論ワークフローのために SageMaker Pipeline と統合したりできます。また、SageMaker Data Wrangler の SageMaker Autopilot 統合を使用することで、ビジュアルインターフェイスを使用して ML モデルのトレーニングとデプロイを自動的に行うこともできます。
新しい統合は、EMR と SageMaker Data Wrangler が利用可能なすべての商用リージョンで利用できます。詳細については、AWS のテクニカルドキュメントをご覧ください。