发布于: Aug 21, 2023

Amazon SageMaker Data Wrangler 现在支持 S3 接入点,可用于预览数据并将其导入到 SageMaker Data Wrangler,以及作为从 SageMaker Data Wrangler 导出的数据的目的地。为 ML 准备高质量的数据通常既复杂又耗时,因为需要使用不同的工具汇总各种来源和格式的数据。使用 SageMaker Data Wrangler,您可以浏览并导入来自各种常见来源的数据,例如 Amazon S3、Amazon Athena、Amazon Redshift、Snowflake、Databricks 和 40 多种 SaaS 数据来源。客户越来越多地使用 Amazon S3 存储共享数据集,其中数据由不同的应用程序、团队和个人汇总和访问。S3 接入点使组织能够在细粒度级别授予精细访问控制权限。组织无需修改单项桶策略,而是可以使用针对特定应用场景量身定制的单独策略创建多个接入点,从而降低配置错误或意外访问敏感数据的风险。即日起,SageMaker Data Wrangler 让客户可以更轻松地通过存储在 S3 中的共享数据集准备数据,同时使组织能够安全地控制组织中的数据访问权限。 

导入数据后,您可以快速了解数据质量、清理数据并通过 300 多种内置分析和数据转换创建特征。您还可以通过 SageMaker Autopilot 训练和部署模型,并通过与 SageMaker Data Wrangler 中的 SageMaker Pipeline 的集成,在特征工程、训练或部署管道中操作数据准备流程。

SageMaker Data Wrangler 在 Data Wrangler 目前支持的所有区域都支持 Amazon S3 接入点。要了解更多信息,请参阅 AWS 技术文档