投稿日: Aug 21, 2023
Amazon Sagemaker Data Wrangler は、SageMaker Data Wrangler へのデータのプレビューとインポート、および SageMaker Data Wrangler からエクスポートされたデータの送信先として S3 Access Points をサポートするようになりました。機械学習用に質の高いデータを準備するには、各種ツールを使用してさまざまなソースからデータを集約する必要があるため、多くの場合、複雑な手順が必要となり、多くの時間がかかります。SageMaker Data Wrangler を使用すると、Amazon S3、Amazon Athena、Amazon Redshift、Snowflake、Databricks といった定評のある各種データソース、および 40 を超える SaaS データソースのデータを探索し、インポートできます。さまざまなアプリケーション、チーム、および個人がデータを集約してアクセスする共有データセットを保存する場所として、Amazon S3 を利用されるお客様が増えています。S3 Access Points により、きめ細かなレベルできめ細かいアクセス制御を行うことができます。単一のバケットポリシーを変更する代わりに、特定のユースケースに合わせた個別のポリシーを使用して複数のアクセスポイントを作成できるため、設定ミスや機密データへの意図しないアクセスのリスクを軽減できます。本日より、SageMaker Data Wrangler を利用しているお客様は、S3 に保存されている共有データセットからデータを簡単に準備できるようになると同時に、組織内のデータアクセスを組織が安全に制御できるようになります。
データをインポートした後に、300 を超える組み込みの分析機能やデータ変換機能を使用して、データ品質の把握、データのクリーニング、特徴量の作成をすばやく行うことができます。また、SageMaker Autopilot を使用すれば、モデルの学習やデプロイを行うことができます。さらに、特徴量エンジニアリングパイプライン、学習パイプライン、デプロイパイプラインのデータ準備プロセスを SageMaker Data Wrangler の SageMaker Pipeline と統合して運用することも可能です。
SageMaker Data Wrangler が現在サポートしているすべてのリージョンで Amazon S3 Access Points がサポートされます。詳細については、AWS の技術ドキュメントを参照してください。