Amazon Web Services ブログ
NEW – Amazon SageMaker Data Wrangler が SaaS アプリケーションをデータソースとしてサポート
データは機械学習を促進します。機械学習では、データ準備とは、生データをさらなる処理と分析に適した形式に変換するプロセスです。データ準備の一般的なプロセスは、まずデータを収集し、そのデータをクリーニングして、ラベルを付け、最後に検証と視覚化を行います。高品質で適切なデータを取得することは、多くの場合、複雑で時間のかかるプロセスです。
これが、AWS で機械学習 (ML) ワークロードを構築するお客様が Amazon SageMaker Data Wrangler の機能を高く評価する理由です。SageMaker Data Wrangler を使用すると、お客様はデータ準備プロセスを簡素化し、データ準備ワークフローの必要なプロセスを単一のビジュアルインターフェイス上で完了することができます。Amazon SageMaker Data Wrangler は、機械学習のためのデータの集約と準備にかかる時間を短縮するのに役立ちます。
ただし、データの急増により、お客様は通常、製造データ用の SAP OData、お客様のパイプライン用の Salesforce、Web アプリケーションデータ用の Google アナリティクスなど、外部の Software as a Service (SaaS) アプリケーションを含む複数のシステムに分散したデータを使用します。ML を使用してビジネス上の問題を解決するには、お客様はこれらすべてのデータソースをまとめる必要があります。現在、Amazon S3 または Amazon Redshift にデータを取り込むには、独自のソリューションを構築するか、サードパーティのソリューションを使用する必要があります。これらのソリューションはセットアップが複雑で、費用対効果が高くない場合があります。
Amazon SageMaker Data Wrangler によるデータソースとしての SaaS アプリケーションのサポートをご紹介
本日から、ML 用の外部 SaaS アプリケーションデータを Amazon SageMaker Data Wrangler に集約して、ML 用のデータを準備できるようになったことをお知らせします。この機能により、Amazon AppFlow 経由で 40 以上の SaaS アプリケーションをデータソースとして使用し、これらのデータを Amazon SageMaker Data Wrangler で利用できるようにすることができます。データソースを AppFlow によって AWS Glue データカタログに登録すると、Data Wrangler SQL エクスプローラーを使用してこれらのデータソースのテーブルとスキーマを参照できます。この機能により、Amazon AppFlow を使用して SaaS アプリケーションと SageMaker Data Wrangler 間のシームレスなデータ統合が可能になります。
この新機能のクイックプレビューを次に示します。
Amazon SageMaker Data Wrangler のこの新機能は、SaaS アプリケーションと AWS サービスの間でデータを安全に交換できるようにするフルマネージド型の統合サービスである Amazon AppFlow との統合を利用して機能します。Amazon AppFlow を使用すると、Salesforce、SAP、Amplitude などの SaaS アプリケーションとサポートされているすべてのサービスの間で、Amazon S3 または Amazon Redshift への双方向のデータ統合を確立できます。
その後、Amazon AppFlow を使用して、データを AWS Glue データカタログでカタログ化できます。これは、Amazon AppFlow を使用して Amazon S3 デスティネーションコネクタ用の AWS Glue データカタログとの統合を作成できる新しい機能です。この新しい統合により、お客様はクローラーを実行しなくても、Amazon AppFlow フローの設定から直接数回クリックするだけで SaaS データアプリケーションを AWS Glue データカタログでカタログ化できます。
フローを確立して AWS Glue データカタログに挿入すると、このデータを Amazon SageMaker Data Wrangler 内で使用できます。これで、通常どおりデータ準備を行うことができます。Amazon Athena クエリを記述してデータをプレビューしたり、複数のソースからのデータを結合したり、データをインポートして ML モデルトレーニングに備えることができます。
この機能では、いくつかの簡単な手順を行って、SaaS アプリケーション間で Amazon AppFlow を介して Amazon SageMaker Data Wrangler へのシームレスなデータ統合を実行する必要があります。この統合は 40 以上の SaaS アプリケーションをサポートしています。サポート対象アプリケーションの完全なリストについては、サポート対象のソースアプリケーションとデスティネーションアプリケーションのドキュメントを参照してください。
Amazon AppFlow 用の Amazon SageMaker Data Wrangler のサポートを開始
この機能の仕組みを詳しく見てみましょう。このシナリオでは、Salesforce からデータを取得し、Amazon SageMaker Data Wrangler を使用してデータ準備を行う必要があります。
この機能を使い始めるには、まず Amazon AppFlow でデータソースを AWS Glue データカタログに登録するフローを作成する必要があります。Salesforce アカウントとの接続は既に行われており、今必要なのはフローを作成することだけです。
注意すべき重要な点の 1 つは、SaaS アプリケーションデータを Amazon SageMaker Data Wrangler で使用できるようにするには、Amazon S3 を宛先とするフローを作成する必要があるということです。次に、AWS Glue データカタログ設定でCreate a Data Catalog (データカタログの作成) テーブルを有効にする必要があります。このオプションは、Salesforce データを AWS Glue データカタログに自動的にカタログ化します。
このページでは、必要な AWS Glue データカタログアクセス許可を持つユーザーロールを選択し、データベース名とテーブル名のプレフィックスを定義する必要があります。さらに、このセクションでは、JSON、CSV、Apache Parquet形式などのデータ形式の設定と、ファイル名セクションにタイムスタンプを追加する場合のファイル名の設定を定義できます。
SaaS データを Amazon AppFlow と AWS Glue データカタログに登録する方法の詳細については、Amazon AppFlow フローからのデータ出力のカタログ化ドキュメントページを参照してください。
SaaS データの登録が完了したら、IAM ロールが AppFlow の Data Wrangler のデータソースを表示できることを確認する必要があります。IAM ロールのポリシーの例を次に示します。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": "glue:SearchTables",
"Resource": [
"arn:aws:glue:*:*:table/*/*",
"arn:aws:glue:*:*:database/*",
"arn:aws:glue:*:*:catalog"
]
}
]
}
AWS Glue データカタログによるデータカタログ作成を有効にすると、この時点から Amazon SageMaker Data Wrangler は新しいデータソースを自動的に検出し、 Data Wrangler SQL エクスプローラーを使用してテーブルとスキーマを参照できるようになります。
今度は、Amazon SageMaker Data Wrangler ダッシュボードに切り替えて、Connect to data sources (データソースに接続) を選択します。
次のページで、Create connection (接続を作成) し、インポートするデータソースを選択する必要があります。このセクションでは、使用可能なすべての接続を確認できます。ここで、Salesforce 接続が既に使用可能であることがわかります。
データソースを追加したい場合は、Set up new data sources (新しいデータソースの設定) セクションに統合できる外部 SaaS アプリケーションのリストが表示されます。外部の SaaS アプリケーションをデータソースとして認識する方法については、How to enable access (アクセスを有効にする方法) を選択すると詳細が表示されます。
次に、データセットをインポートして Salesforce 接続を選択します。
次のページでは、接続設定を定義し、Salesforce からデータをインポートできます。この構成が完了したら、Connect (接続) を選択します。
次のページには、Amazon AppFlow と AWS Glue データカタログですでに設定されている appflowdatasourcedb
という名前の Salesforce データが表示されます。また、テーブルプレビューとスキーマを確認して、必要なデータかどうかを確認することもできます。
次に、SageMaker Data Wrangler SQL エクスプローラー内で SQL クエリを実行して、このデータを使用してデータセットの構築を開始します。次に、Import query (クエリのインポート) を選択します。
さらに、データセットの名前を定義します。
この時点で、データ準備プロセスを開始できます。Analysis (分析) タブに移動して、データインサイトレポートを実行できます。この分析により、データ品質の問題と、予測したい ML の問題に基づいて問題を解決するために次に行う必要がある変換に関するレポートが得られます。データ分析機能の使用方法の詳細については、ブログ記事の Amazon SageMaker Data Wrangler のデータ品質とインサイトを利用してデータ準備を加速するを参照してください。
この場合、必要のない列がいくつかあり、これらの列を削除する必要があります。Add step (ステップを追加) を選択します。
お気に入りの機能の 1 つは、Amazon SageMaker Data Wrangler が多数の ML データ変換を提供していることです。これにより、データのクリーニング、変換、および特徴量エンジニアリングのプロセスを 1 つのダッシュボードで効率化できます。SageMaker Data Wrangler が変換データに提供するものの詳細については、このデータの変換ドキュメントページを参照してください。
このリストでは、Manage columns (列の管理) を選択します。
次に、Transform (変換) セクションでDrop column (列をドロップ) オプションを選択します。さらに、必要のない列をいくつか選択します。
完了すると、不要な列が削除され、先ほど作成したDrop column (列をドロップ) のデータ準備手順が Add step (手順の追加) セクションに表示されます。
Amazon SageMaker Data Wrangler 内のデータフローのビジュアルも見ることができます。この例では、データフローは非常に基本的なものです。しかし、データ準備プロセスが複雑になっても、このビジュアル表示により、すべてのデータ準備手順を簡単に確認できます。
この時点から Salesforce データを使って必要なことを実行できます。例えば、Export to (エクスポート先) を選択し、Add destination (宛先を追加) メニューからAmazon S3 を選ぶことで、データを Amazon S3 に直接エクスポートできます。この場合は、Add destination (宛先を追加) を選んでから Amazon S3 を選択して、データ処理後に Amazon S3 にデータを保存する Data Wrangler を指定します。
Amazon SageMaker Data Wrangler では、スケジュールされたジョブを使用して同じデータ準備フローを柔軟に自動化できます。また、 SageMaker パイプライン (Jupyter Notebook 経由) と SageMaker フィーチャーストア (Jupyter Notebook 経由) を使って特徴量エンジニアリングを自動化したり、SageMaker 推論パイプライン (Jupyter Notebook 経由) を使用して推論エンドポイントにデプロイしたりすることもできます。
留意点
関連ニュース – この機能により、Amazon SageMaker Data Wrangler によるデータの集約と準備が簡単に行えます。この機能は Amazon AppFlow および AWS Glue データカタログとの統合であるため、Amazon AppFlow が AWS Glue データカタログ統合のサポートおよび強化されたデータ準備を提供開始ページで詳細を確認することをお勧めします。
可用性 – Amazon SageMaker Data Wrangler は、Amazon AppFlow が現在サポートしているすべてのリージョンで利用可能なデータソースとして SaaS アプリケーションをサポートしています。
料金 – Amazon SageMaker Data Wrangler でサポートされている SaaS アプリケーションを使用するための追加コストはかかりませんが、Amazon SageMaker Data Wrangler のデータを取得するために Amazon AppFlow を実行するにはコストがかかります。
この機能の詳細については、Software as a Service (SaaS) プラットフォームからのデータのインポートドキュメントページをご覧ください。また、入門ガイドに従って、Amazon SageMaker Data Wrangler によるデータ集約と SaaS アプリケーションデータの準備を開始してください。
構築がうまくいきますように。
– Donnie
原文はこちらです。