投稿日: Mar 10, 2023
Amazon SageMaker Data Wrangler を使用すると、Amazon SageMaker Studio での機械学習 (ML) 用データの集約と準備に要する時間が、数週間から数分に短縮されます。Data Wrangler を使用すると、さまざまな一般的なソース (Amazon S3、Amazon Athena、Amazon Redshift、Amazon EMR Presto、Snowflake) や、40 を超えるその他のサードパーティソースからのデータにアクセスできます。本日より、Amazon EMR Hive をビッグデータクエリエンジンとして接続し、非常に大規模なデータセットを ML 用に取り込むことができます。
大量のデータを集約して準備することは、ML ワークフローの重要な部分です。データサイエンティストやデータエンジニアは、大規模データの処理に、Amazon EMR で実行されている Apache Spark、Apache Hive、および Presto を活用できます。本日より、Data Wrangler のビジュアルインターフェイスを使用して、Hive エンドポイントを実行している既存の EMR クラスターを見つけて接続できるようになります。Data Wrangler の SQL エクスプローラーを使用して、データベース、テーブル、スキーマを閲覧したり、Hive クエリを作成して、データセットの選択、プレビュー、作成を行うことができます。その後、Spark に支えられている 300 種類以上の組み込み分析と変換を使用して、データを視覚的に分析し、コードを書かなくても ML 機能を作成できます。お客様は、Data Wrangler のビジュアルインターフェイスから、SageMaker パイプラインで SageMaker Autopilot を使用してモデルをトレーニングおよびデプロイしたり、ジョブのスケジュールを設定したり、データ準備を運用したりすることもできます。
Data Wrangler は、現在 Data Wrangler がサポートされているすべてのリージョンで EMR Hive をサポートしています。詳細については、こちらのブログ記事および AWS 技術ドキュメントをご覧ください。