投稿日: Dec 8, 2022

Amazon SageMaker Data Wrangler を使用すると、Amazon SageMaker Studio での機械学習 (ML) 用データの集約と準備に要する時間が、数週間から数分に短縮されます。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。 本日より、Amazon EMR Presto に大規模クエリエンジンとして接続して大量のデータセットを取り込み、Data Wrangler のビジュアルインタラクティブで ML 用データをわずかな時間で準備できるようになります。

ML ワークフローにおいて、大量データの分析、変換、準備は重要であり、最も時間のかかる部分でもあります。データサイエンティストやデータエンジニアは、大規模データの準備に、Amazon EMR で実行されている Apache Spark、Apache Hive、および Presto を活用できます。本日より、ビジュアルインターフェイスを使用して、Data Wrangler から Presto エンドポイントを実行している既存の EMR クラスターを見つけて接続できるようになります。データベース、テーブル、スキーマを閲覧したり、Presto クエリを作成して ML 用のデータセットを選択、プレビュー、作成したりできます。 さらに、Data Wrangler のビジュアルインターフェイスを使用して データ品質およびインサイトレポートを使用してデータを分析し、Spark コードを作成せずに Spark にサポートされる 300 以上の組み込み変換を使用して ML 用のデータをクリーンアップし、機能を作成できます。SageMaker Autopilot との統合を利用して、ML モデルのトレーニングとデプロイを自動的に行えます。最終的には、分散した処理ジョブを使用して大規模データセットの処理を拡張したり、組み込みのスケジューリング機能を使用してデータ準備を自動化したり、SageMaker Pipeline でトレーニング推論のために本番ワークフローでデータ準備を実行できます。

Data Wrangler の EMR Presto のサポートは、現在 Data Wrangler のサポート対象となっているすべてのリージョンにて追加料金なしで提供されます。 詳細については、こちらのブログ記事および AWS 技術ドキュメントをご覧ください。