Amazon SageMaker Data Wrangler

機械学習用の表形式データや画像データを準備する最も速くて簡単な方法

なぜ、SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler は、ML 用表形式データや画像データの集約と準備に要する時間を、数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化、大規模処理など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SQL を使って、さまざまなデータソースから必要なデータを選択し、素早くインポートすることができます。次に、データ品質とインサイトレポートを使用して、データ品質を自動的に検証し、重複した行やターゲットリークなどの異常を検出することができます。SageMaker Data Wrangler には 300 以上のデータ変換が組み込まれているので、コードを記述しなくても素早くデータを変換することができます。

Amazon SageMaker Data Wrangler 概要

SageMaker データラングラーのメリット

データの選択、データインサイトの理解、データ変換を行い、数分で機械学習 (ML) 用のデータを準備します。
ML モデルの精度をすばやく見積もり、モデルを本番環境にデプロイする前に問題を診断します。
PySpark コードを作成したり、Apache Spark をインストールしたり、クラスターを立ち上げたりすることなく、データ準備を本番環境に迅速に移行できます。

仕組み

Amazon SageMaker Data Wrangler の仕組み

データへのアクセス、選択、クエリの高速化

SageMaker Data Wrangler データ選択ツールを使用すると、さまざまな一般的なソース (Amazon Simple Storage Service [Amazon S3]、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon EMR、Snowflake、and Databricks Delta Lake など) および 50 を超えるその他のサードパーティーのソース (Salesforce、SAP、Facebook Ads、Google Analytics など) から表形式データや画像データに迅速にアクセスして選択できます。また、SQL を使用したデータソースのクエリを記述し、CSV、Parquet、ORC および JSON、データベーステーブルなどのさまざまなファイル形式から SageMaker にデータを直接インポートすることもできます。

データインサイトの生成とデータ品質の把握

SageMaker Data Wrangler は、データ品質 (欠損値、重複行、データ型など) を自動的に検証し、データの異常 (外れ値、クラスの不均衡、データ漏洩など) を検出するのに役立つデータ品質とインサイトレポートを提供します。データ品質を効果的に検証できれば、ML モデルトレーニング用のデータセットを処理するためにドメインナレッジを迅速に適用することができます。

視覚化でデータを理解する

SageMaker Data Wrangler は、堅牢な事前設定済みの視覚化テンプレートのセットを使用して、データを理解し、潜在的なエラーと極値を特定するのに役立ちます。ヒストグラム、散布図、箱ひげ図、折れ線グラフ、棒グラフはすべて、データに適用できるように組み込まれています。特徴重要度や特徴の相関を示す、より高度な ML 固有の可視化機能 (バイアスレポート、特徴相関、多重共線性、ターゲットリーク、時系列など) も利用できます。これらのツールには [分析] タブからアクセスできます。

データをより効率的に変換する

SageMaker Data Wrangler には、PySpark ベースのビルド済みデータ変換が 300 以上用意されているため、コードを 1 行も記述せずに、データを変換してデータ準備ワークフローをスケールできます。あらかじめ設定された変換機能は、JSON ファイルの平坦化、重複行の削除、平均値または中央値による欠損データのインピュテーション、ワンホットエンコーディングなどの一般的なユースケースをカバーし、時系列データ特有の変換機能は ML 用の時系列データの準備を加速させるために利用できます。画像データについては、SageMaker Data Wrangler には一般的な画像補正 (ぼかし、補正、サイズ変更など) とクリーニング操作 (破損画像や重複画像の削除など) が用意されています。また、PySpark、SQL、Pandas でカスタム変換を作成することができます。SageMaker Data Wrangler には、CV ユースケース用のカスタム変換を作成するための画像 (imgaug、OpenCV) ライブラリと、カスタム変換の作成を合理化するコードスニペットの豊富なライブラリが用意されています。

データの予測力を理解する

SageMaker の Data Wrangler Quick Model 機能では、データの予測力を推定することができます。Quick Model は、データを自動的にトレーニングデータとテストデータセットに分割し、デフォルトのハイパーパラメータを持つ XGBoost モデルでデータを学習させます。SageMaker Data Wrangler は、解決しようとしているタスク (例えば、分類やリグレッションなど) に基づき、モデルの要約、特徴量の要約、混乱マトリックスを提供し、データ準備フローを迅速に反復するのに役立ちます。

ML データ準備ワークフローの自動化とデプロイ

SageMaker Data Wrangler UI を使用すると、PySpark コードを作成したり、Apache Spark をインストールしたり、クラスターを立ち上げたりすることなく、大規模なデータセットにスケールアップできます。ジョブの起動やスケジュール設定により、データを素早く処理したり、SageMaker Studio のノートブックに書き出したりすることができます。SageMaker Data Wrangler では、SageMaker Data Wrangler ジョブ、SageMaker 特徴量ストア、SageMaker Autopilot、SageMaker Pipelines などの複数のエクスポートオプションを提供し、データ準備フローを ML ワークフローに統合するための機能を利用できます。また、データ準備ワークフローを SageMaker がホストするエンドポイントにデプロイすることも可能です。最後に、SageMaker Canvas のビジュアルインターフェイスを使用して、データを直接エクスポートして ML モデルをトレーニングすることもできます。

お客様

Invista
「INVISTA では、変革を推進し、世界中のお客様に利益をもたらす製品とテクノロジーの開発を目指しています。ML はカスタマーエクスペリエンスを向上させる方法だと考えています。しかし、データセットが数億行に及ぶため、データの準備、ML モデルの大規模な開発、デプロイ、管理にとって有用なソリューションが必要でした。Amazon SageMaker Data Wrangler を使用することにより、データをインタラクティブに選択、クリーニング、探索、把握できるようになり、データサイエンスチームは数億行に及ぶデータセットにも簡単にスケールできる特徴量エンジニアリングパイプラインを作成できるようになりました。Amazon SageMaker Data Wrangler を使用すれば、ML ワークフローをより迅速に運用できます」

INVISTA、元リードデータサイエンティスト、Caleb Wilkinson 氏

3M
「3M は ML を使用して、サンドペーパーなどの実証済みの製品を改善し、ヘルスケアを含む他のいくつかの分野でイノベーションを推進しています。当社では、3M のより多くの領域に ML をスケールすることを計画しているため、データとモデルの量は急速に増加し、毎年 2 倍になっています。SageMaker の新機能はスケールに役立つため、当社にメリットをもたらしてくれるものであると確信しています。Amazon SageMaker Data Wrangler を使用すると、モデルトレーニング用のデータの準備がはるかに簡単になり、Amazon SageMaker Feature Store を使用すると、同じモデル特徴量を何度も作成する必要がなくなります。最後に、Amazon SageMaker Pipelines は、データの準備、モデルの構築、およびモデルのデプロイをエンドツーエンドのワークフローに自動化するのに役立つため、モデルの市場投入までの時間を短縮できます。当社の研究者たちは、3M の科学の新たなスピードを活用することを楽しみにしています」

3M Corporate Systems Research Lab、元テクニカルディレクター、David Frazee 氏

Deloitte
「Amazon SageMaker Data Wrangler を使用すると、新製品を市場に投入するために必要な ML データ準備のプロセスを加速する変換ツールの豊富なコレクションを使用して、すぐに全力でデータ準備のニーズに対応することが可能となります。そして、当社のクライアントのニーズを満たす測定可能かつ持続可能な結果を数か月ではなく数日で提供することを可能にする、デプロイされたモデルをスケールする速度により、当社のお客様は恩恵を受けます」

Deloitte、プリンシパル、AI Ecosystems and Platforms Leader、Frank Farrall 氏

NRI
「当社のエンジニアリングチームは AWS プレミアコンサルティングパートナーとして AWS と緊密に連携して、お客様が運用効率を継続的に改善できるように革新的なソリューションを構築しています。ML は当社の革新的なソリューションの中核となりますが、データ準備ワークフローには高度なデータ準備技術が含まれているため、本稼働環境で運用できるようになるまでかなりの時間がかかります。データサイエンティストは、Amazon SageMaker Data Wrangler を使用して、データの選択、消去、探索、視覚化など、データ準備ワークフローの各ステップを完了することができます。これにより、データ準備プロセスを加速し、ML 用のデータを簡単に用意することができます。Amazon SageMaker Data Wrangler を使用すれば、ML 用のデータをより迅速に準備できます」

NRI 日本、常務執行役員、大元成和氏

equilibrium
「Population Health Management 市場における当社の活動の場は、より多くの医療費の支払者、医療提供者、薬剤給付管理者、およびその他の医療機関に拡大し続けているため、クレームデータ、登録データ、および薬局データなどのデータを ML モデルに供給するデータソースのエンドツーエンドプロセスを自動化するソリューションが必要でした。Amazon SageMaker Data Wrangler を使用することで、検証と再利用が容易な一連のワークフローを使用して、ML のためにデータを集約して準備するのにかかる時間を短縮できます。これにより、モデルの配信時間と質が劇的に向上し、データサイエンティストがより多くの成果を生み出し、データの準備にかかる時間が 50% 近く短縮されました。さらに、SageMaker Data Wrangler は、複数の ML のイテレーションと大幅な GPU 時間を節約し、薬局、診断コード、ER 訪問、および患者の入院だけでなく、人口統計学的およびその他の社会的決定要因など、何千もの特徴量を備えたデータマートを構築できるため、クライアントのためのエンドツーエンドプロセス全体を高速化するのに役立ちました。SageMaker Data Wrangler を使用すると、トレーニングデータセットを構築するために優れた効率でデータを変換し、ML モデルを実行する前にデータセットに関するデータインサイトを生成し、大規模な推論/予測のためにリアルワールドデータを準備できます」

Equilibrium Point IoT、CEO、Lucas Merrow 氏

SageMaker Data Wrangler の使用を開始する

ブログ

ブログ

Amazon SageMaker Data Wrangler でデータ品質とインサイトを備えたデータ準備を加速

ブログ

Amazon SageMaker Data Wrangler で SaaSアプリケーションをデータソースとしてサポート

ブログ

Amazon SageMaker Data Wrangler を使用して、Databricks から機械学習用のデータを準備

ブログ

Amazon SageMaker Data Wrangler で PySpark と Altair のコードスニペットを使用してデータを準備する

ブログ

クロスアカウントの Amazon Redshift から Amazon SageMaker Data Wrangler にデータをインポート

ブログ

Amazon SageMaker Data Wrangler を Amazon SageMaker Studio でデフォルトのライフサイクル設定で使用する

実践演習

チュートリアル

SageMaker Data Wrangler を開始するためのステップバイステップチュートリアル

ワークショップ

ユースケースで SageMaker Data Wrangler を使用する方法を調べる

デモ動画

動画

re:Invent 2022: SageMaker Data Wrangler でデータ準備を加速

re:Invent 2022: データ準備を加速 (56:45)
動画

SageMaker Data Wrangler バーチャルワークショップを使用して機械学習用のデータをすばやく準備

ML バーチャルワークショップのためのデータをすばやく準備 (1:18:08)
動画

AWS On Air 2020: AWS 次のステップの紹介SageMaker Data Wrangler

AWS On Air 2020: AWS 次のステップの紹介SageMaker Data Wrangler (27:51)
動画

SageMaker Data Wrangler Deep Dive デモ

SageMaker Data Wrangler Deep Dive デモ (28:13)

最新情報

  • 日付 (新しい順)
結果が見つかりません
1