Amazon SageMaker Canvas 现在支持数据流导入,并支持更快地为 ML 准备数据

发布于: 2024年8月20日

Amazon SageMaker Canvas 中的 Amazon SageMaker Data Wrangler 现在支持从 Amazon SageMaker Studio Classic 导入数据流,以及更快、更灵活地为机器学习 (ML) 准备数据。借助 SageMaker Canvas 中最新版本的 SageMaker Data Wrangler,您现在可以使用自定义分隔符和更多采样选项更轻松地从 S3 导入数据,并以更高的性能准备数据。此外,您还可以更快地验证转换,并轻松迭代数据配方。您还可以从 SageMaker Studio Classic 导入数据流,以利用 SageMaker Canvas 中最新的数据准备功能和增强功能。

聚合、分析和转换大量数据是 ML 项目中最耗时的部分,因为这是一个高度迭代和重复的过程。借助这些新的增强功能,您可以使用不同的采样方法(例如 top-k、随机或分层采样)导入数据,并根据需要调整样本大小和方法以获得代表性样本。您可以以更低的延迟转换数据,快速验证转换对数据大小的影响,并根据需要对步骤重新排序。此外,您还可以复制数据配方并替换数据来源,以将其重复用于不同的数据集和模型。最后但并非最不重要的一点是,您可以一键将所有现有数据流从 SageMaker Studio Classic 中的 SageMaker Data Wrangler 导入到 SageMaker Canvas,也可以通过 S3 或本地文件上传手动导入特定的数据流。

这些增强的数据准备功能现已在所有支持 SageMaker Canvas 的 AWS 区域推出。有关更多信息,请参阅博客AWS 技术文档