投稿日: Nov 30, 2022
本日、AWS は、Amazon AppFlow と統合された Amazon SageMaker Data Wrangler で、40 種類を超えるサードパーティアプリケーションを機械学習 (ML) 用のデータソースとして利用できるようになったことを発表しました。Amazon SageMaker Data Wrangler を使用すると、機械学習 (ML) 用データの集約と準備に要する時間が、数週間から数分に短縮されます。機械学習用に質の高いデータを準備するには、各種ツールを使用してさまざまなソースからデータを集約する必要があるため、多くの場合、複雑な手順が必要となり、多くの時間がかかります。SageMaker Data Wrangler を使用すると、Amazon S3、Amazon Athena、Amazon Redshift、Snowflake、Databricks、Salesforce Customer Data Platform といった定評のある各種データソースのデータを検討してインポートできます。今回のリリースでは、40 種類を超えるサードパーティアプリケーションデータソース (Salesforce Marketing、SAP、Google Analytics、LinkedIn など) から Amazon AppFlow を通じてデータを簡単に集約できるようになりました。
Amazon AppFlow は、サードパーティアプリケーションから Amazon S3 などの AWS のサービスにデータを安全に転送することを可能にし、わずか数クリックで AWS Glue データカタログ内にデータカタログを作成することを可能にするフルマネージド型サービスです。AppFlow にデータソースをセットアップした後に、Data Wrangler SQL エクスプローラーを使用してそれらのデータソースのテーブルやスキーマを閲覧できます。Athena のクエリを記述することで、データをプレビューして自分のユースケースとの関連性を確認したり、機械学習モデルの学習データをインポートしたりできます。また、インポートしたデータを結合して機械学習に適したデータセットを作成することもできます。データをインポートした後に、300 を超える組み込みの分析機能やデータ変換機能を使用して、データ品質の把握、データのクリーニング、特徴の作成をすばやく行うことができます。また、SageMaker Autopilot を使用すれば、モデルの学習やデプロイを行うことができます。さらに、特徴量エンジニアリングパイプライン、学習パイプライン、デプロイパイプラインのデータ準備プロセスを Data Wrangler の SageMaker Pipeline と統合して運用することも可能です。
Data Wrangler は、AppFlow で現在サポートされているすべてのリージョンにおける 40 種類を超えるサードパーティデータソースをサポートしています。この機能は、Data Wrangler と AppFlow の料金を除き、追加料金なしでご利用いただけます。