发布于: May 6, 2022

Amazon SageMaker Data Wrangler 可将 Amazon SageMaker Studio 中的机器学习(ML)所需数据的聚合和准备时间从数周减少至几分钟。Amazon SageMaker Studio 是首个适用于 ML 的完全集成式开发环境(IDE)。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个直观的界面完成数据准备工作流程的每个步骤,包括数据选择、清洗、探索和可视化等。SageMaker Data Wrangler 原定设置以 ml.m5.4xlarge 规模运行。SageMaker Data Wrangler 包括以 PySpark 编写的内置数据转换和分析,能够在原定设置实例上高效处理高达数百 GB 的大型数据集。 

即日起,您可以在 SageMaker Data Wrangler 中使用具有更大 CPU 和内存的其他 M5 或 R5 实例,从而提升数据准备工作负载的性能。Amazon EC2 M5 实例可针对各种工作负载实现计算、内存和联网资源平衡。Amazon EC2 R5 实例是内存优化型实例。M5 和 R5 实例类型都非常适合 CPU 和内存密集型应用程序,例如,运行超大规模数据集(高达数 TB)的内置转换,或在中型数据集(几十 GB)上应用以 Panda 编写的自定义转换。

要了解有关 Amazon SageMaker Data Wrangler 新支持的实例的更多信息,请访问博客或 AWS 文档以及定价页面。要开始使用 SageMaker Data Wrangler,请访问 AWS 文档