Amazon SageMaker Data Wrangler

機械学習用のデータを準備するための最も迅速かつ簡単な方法

Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と機能エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、さまざまなデータソースから必要なデータを選択し、シングルクリックでインポートできます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、機能をすばやく正規化、変換、および結合できます。SageMaker Data Wrangler の視覚化テンプレートを使用すると、ML 用の最初の完全統合開発環境 (IDE) である Amazon SageMaker Studio で表示することにより、これらの変換が意図したとおりに完了したことをすばやくプレビューおよび検査できます。データの準備ができたら、Amazon SageMaker Pipelines を使用して完全に自動化された ML ワークフローを構築し、Amazon SageMaker モダンアプリケーションで再利用できるように保存できます。

Amazon SageMaker DataWrangler でデータ準備を加速 (33:07)

ML のデータを数分で準備する

数回のクリックだけでデータを選択してクエリする

SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store などの複数のデータソースからデータをすばやく選択できます。また、データソースのクエリを記述し、CSV ファイル、Parquet ファイル、データベーステーブルなどのさまざまなファイル形式から SageMaker にデータを直接インポートすることもできます。

データを簡単に変換する

SageMaker Data Wrangler は、列タイプの変換、1 つのホットエンコーディング、平均または中央値を用いた欠落データの補完、列の再スケール、データ/時間の埋め込みなど、300 以上の幅広い事前設定済みデータ変換を提供しているため、コードを 1 行も記述せずにモデルに効果的に使用できる形式にデータを変換できます。たとえば、テキストフィールドの列を 1 回のクリックで数値の列に変換したり、PySpark、SQL、および Pandas でカスタム変換を作成したりできます。

視覚化でデータを理解する

SageMaker Data Wrangler は、堅牢な事前設定済みの視覚化テンプレートのセットを使用して、データを理解し、潜在的なエラーと極値を特定するのに役立ちます。ヒストグラム、散布図、箱ひげ図、折れ線グラフ、および棒グラフのすべてを利用できます。ヒストグラムなどのテンプレートを使用すると、コードを記述せずに独自のビジュアライゼーションを簡単に作成および編集できます。

ML モデルの精度をすばやく見積もる

ML データ準備の問題をより迅速に診断して修正する

SageMaker Data Wrangler を使用すると、モデルを本番環境にデプロイする前に、データ準備ワークフローの不整合をすばやく特定し、問題を診断できます。準備したデータが正確なモデルになるかどうかをすばやく特定できるため、パフォーマンスを向上させるために追加の機能エンジニアリングが必要かどうかを判断できます。

ワンクリックで準備から生産までを完了する

ML データ準備ワークフローを自動化する

データ準備ワークフローをノートブックまたはコードスクリプトにワンクリックでエクスポートして、本番環境に移行します。SageMaker Data Wrangler は、データ準備ワークフローを Amazon SageMaker Pipelines とシームレスに統合して、モデルのデプロイと管理を自動化します。また、Amazon SageMaker Feature Store で機能を公開しているため、チーム間で機能を共有したり、他の人がそれらを独自のモデルや分析に再利用したりできます。

お客様

Invista
「INVISTA では、変革を推進し、世界中のお客様に利益をもたらす製品とテクノロジーの開発を目指しています。機械学習はカスタマーエクスペリエンスを向上させる方法だと考えていますが、数億行に及ぶデータセットでは、データの準備、ML モデルの大規模な開発、デプロイ、および管理を支援するソリューションが必要でした。Amazon SageMaker Data Wrangler を使用することで、データをインタラクティブかつ効果的に選択、クレンジング、探索、および理解できるようになり、データサイエンスチームが数億行に及ぶデータセットに簡単にスケールできる機能エンジニアリングパイプラインを作成できるようになりました。Amazon SageMaker Data Wrangler により、MLワークフローをより迅速に運用できます」

INVISTA、リードデータサイエンティスト、Caleb Wilkinson 氏

3M
「3M は ML を使用して、サンドペーパーなどの実証済みの製品を改善し、ヘルスケアを含む他のいくつかの分野でイノベーションを推進しています。当社では、3M のより多くの領域に機械学習をスケールすることを計画しているため、データとモデルの量は急速に増加し、毎年 2 倍になっています。SageMaker の新機能はスケールに役立つため、当社にメリットをもたらしてくれるものであると確信しています。Amazon SageMaker Data Wrangler を使用すると、モデルトレーニング用のデータの準備がはるかに簡単になり、Amazon SageMaker Feature Store を使用すると、同じモデル機能を何度も作成する必要がなくなります。最後に、Amazon SageMaker Pipelines は、データの準備、モデルの構築、およびモデルのデプロイをエンドツーエンドのワークフローに自動化するのに役立つため、モデルの市場投入までの時間を短縮できます。当社の研究者たちは、3M の科学の新たなスピードを活用することを楽しみにしています」

3M Corporate Systems Research Lab、テクニカルディレクター、David Frazee 氏

Deloitte
「Amazon SageMaker Data Wrangler を使用すると、新製品を市場に投入するために必要な機械学習データ準備のプロセスを加速する変換ツールの豊富なコレクションを使用して、すぐに全力でデータ準備のニーズに対応することが可能となります。そして、当社のクライアントのニーズを満たす測定可能かつ持続可能な結果を数か月ではなく数日で提供することを可能にする、デプロイされたモデルをスケールする速度により、当社のお客様は恩恵を受けます」

Deloitte、Principal、AI Ecosystems and Platforms Leader、Frank Farrall 氏

NRI
「当社のエンジニアリングチームは AWS プレミアコンサルティングパートナーとして AWS と緊密に連携して、お客様が運用効率を継続的に改善できるように革新的なソリューションを構築しています。機械学習は当社の革新的なソリューションの中核となりますが、データ準備ワークフローには高度なデータ準備技術が含まれているため、本稼働環境で運用できるようになるまでかなりの時間がかかります。データサイエンティストは、Amazon SageMaker Data Wrangler を使用して、データの選択、消去、探索、視覚化など、データ準備ワークフローの各ステップを完了することができます。これにより、データ準備プロセスを加速し、機械学習用のデータを簡単に用意することができます。Amazon SageMaker Data Wrangler を使用すれば、機械学習用のデータをより迅速に準備できます。」

NRI 日本、執行役員、大元 成和 氏

Equilibrium Point IoT
「Population Health Management 市場における当社の活動の場は、より多くの医療費の支払者、医療提供者、薬剤給付管理者、およびその他の医療機関に拡大し続けているため、クレームデータ、登録データ、および薬局データなどのデータを機械学習モデルに供給するデータソースのエンドツーエンドプロセスを自動化するソリューションが必要でした。Amazon SageMaker Data Wrangler を使用することで、検証と再利用が容易な一連のワークフローを使用して、機械学習のためにデータを集約して準備するのにかかる時間を短縮できます。これにより、モデルの配信時間と質が劇的に向上し、データサイエンティストがより多くの成果を生み出し、データの準備にかかる時間が 50% 近く短縮されました。さらに、SageMaker Data Wrangler は、複数の機械学習のイテレーションと大幅な GPU 時間を節約し、薬局、診断コード、ER 訪問、および患者の入院だけでなく、人口統計学的およびその他の社会的決定要因など、何千もの機能を備えたデータマートを構築できるため、クライアントのためのエンドツーエンドプロセス全体を高速化するのに役立ちました。SageMaker Data Wrangler を使用すると、トレーニングデータセットを構築するために優れた効率でデータを変換し、機械学習モデルを実行する前にデータセットに関するデータインサイトを生成し、大規模な推論/予測のためにリアルワールドデータを準備できます」

Equilibrium Point IoT、CEO、Lucas Merrow 氏

Amazon SageMaker Data Wrangler を今すぐ開始する

AWS マネジメントコンソールで機械学習用のデータの準備を開始する