发布于: Dec 8, 2020
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 Amazon SageMaker Data Wrangler,您可以简化数据准备和功能工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。
对于大多数 ML 模型,您可能要花费数周或数月的时间来汇总和准备来自不同来源的数据:转置、转换并验证原始数据,以生成可用于训练模型和进行预测的特征。您需要编写代码来创作数据转换,以将数据转换为可高效用于模型的格式,您还需编写可以跨大量数据源大规模运行的其他代码。如果将这些时间用在能产生更高价值的任务上,效果会好得多。
借助 Amazon SageMaker Data Wrangler 的数据选择工具,您可以从各种数据源(包括 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation 和 Amazon SageMaker Feature Store)中选择所需的数据,然后单击一下便可导入这些数据。Amazon SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种特征。借助 Amazon SageMaker Data Wrangler 的可视化模板,您可以在 Amazon SageMaker Studio(首个面向 ML 的完全集成开发环境 (IDE))中查看这些转换,从而快速预览并检查这些转换是否按预期完成。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动的 ML 工作流程,并将其保存在 Amazon SageMaker Feature Store 中以供重复使用。
Amazon SageMaker Data Wrangler 现已在提供 Amazon SageMaker Studio 的所有区域全面推出。要开始使用 Amazon SageMaker Data Wrangler,请参阅我们的文档。