发布于: Sep 22, 2022
Amazon SageMaker Data Wrangler 可将 Amazon SageMaker Studio 中的机器学习 (ML) 所需数据的聚合和准备时间从数周缩短至几分钟。Amazon SageMaker Studio 是首个适用于机器学习的完全集成式开发环境 (IDE)。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个直观的界面完成数据准备工作流程的每个步骤,包括数据选择、清洗、探索和可视化等。您可以导入来自多个数据来源的数据,例如 Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Snowflake,以及 Amazon Athena 支持的 26 个联合查询数据来源。从今天开始,从 Athena 数据来源导入数据的客户可以配置 S3 查询输出位置和数据留存期,以控制 Athena 存储中间数据的位置和时间。
Amazon Athena 是一种交互式查询服务,让您能够轻松浏览 Glue 数据目录,并使用标准 SQL 直接分析 Amazon S3 和 26 个联合查询数据来源中的数据。Data Wrangler 支持 Athena 工作组,可提供一个自定义的 S3 查询输出位置。从今天开始,您可以为 Athena 查询输出指定一个自定义的 S3 位置,或者继续使用 Data Wrangler 中现有的默认桶。现在,Athena 查询输出的默认数据留存期为 5 天,以控制存储成本。您可以更改这个数据留存期,使其符合您的需求以及您组织的数据安全准则。通过 Athena 导入数据后,您可以使用 Data Wrangler 可视化界面连接来自多个来源的数据,通过数据质量和洞察报告以及其他内置的可视化功能来浏览和分析您的数据,以发现潜在错误和极端值。您可以快速清理数据,并通过 300 多个内置的数据转换来设计功能。您可以创建一个作业来处理更大的数据集,或者直接从 Data Wrangler 启动 SageMaker Autopilot 训练作业,使用准备好的数据自动为您的业务问题找到最佳模型。