投稿日: Apr 1, 2022

Amazon SageMaker Data Wrangler は、ML の初めての完全統合開発環境 (IDE) である Amazon SageMaker Studio で、機械学習 (ML) のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。Amazon Simple Storage Service (Amazon S3)、Amazon Athena、Amazon Redshift、Snowflake など幅広い種類のデータソースからデータをインポートできます。本日より、Amazon SageMaker Data Wrangler 内のデータソースとして Databricks を使用し、Databricks 内のデータを機械学習用に簡単に準備できるようになりました。AWS パートナーである Databricks は、組織が分析のためにデータを準備し、組織全体でデータサイエンスとデータ主導の意思決定を強化し、ML を迅速に採用するのを支援します。

SageMaker Data Wrangler のデータソースとして Databricks を使用すると、Databricks にすばやく簡単に接続し、SQL を使用して Databricks に保存されているデータをインタラクティブにクエリし、インポートする前にデータをプレビューすることができます。さらに、Databricks のデータを Amazon S3 に保存されているデータや、Amazon Athena、Amazon Redshift、Snowflake を介してクエリされたデータと結合し、ML のユースケースに適したデータセットを作成することができるようになりました。データをインポートすると、SageMaker Data Wrangler の組み込みの視覚化を使用してデータを探索および分析し、潜在的なエラーや極値を特定できます。コードを 1 行も記述することなく、ワンホットエンコーディングやデータバランシングなどの ML 固有の変換を含む、300 以上の組み込みデータ変換を使用して、データのクレンジングや機能の設計をすばやく行うことができます。また、Amazon SageMaker Clarify を使用してバイアスを検出し、ターゲットリークを見つけ、クイックモデルを使用して「whatif」分析を実行し、ML モデルをトレーニングして本番環境にデプロイする前でも、ML モデルに影響を与える機能の重要性やその他のデータ品質の問題を理解できます。最後に、数回クリックするだけで、処理済みデータを Amazon SageMaker Feature Store または AmazonS3 にエクスポートして、SageMaker Autopilot または SageMaker Training で ML モデルをトレーニングできます。さらに、データ準備ワークフローをエクスポートして、SageMaker 処理ジョブのより大きなデータセットで実行したり、Amazon SageMaker パイプラインのステップとして実行したりすることもできます。

Databricks と SageMaker Data Wrangler の統合の詳細については、ブログまたは AWS ドキュメントをご覧ください。SageMaker Data Wrangler を今すぐ使用するには、AWS ドキュメント料金ページをご覧ください。