Amazon SageMaker Data Wrangler 现在支持使用更多 M5 和 R5 实例完成交互式数据准备

发布于: May 6, 2022

Amazon SageMaker Data Wrangler 可将 Amazon SageMaker Studio 中的机器学习（ML）所需数据的聚合和准备时间从数周减少至几分钟。Amazon SageMaker Studio 是首个适用于 ML 的完全集成式开发环境（IDE）。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并从单个直观的界面完成数据准备工作流程的每个步骤，包括数据选择、清洗、探索和可视化等。SageMaker Data Wrangler 原定设置以 ml.m5.4xlarge 规模运行。SageMaker Data Wrangler 包括以 PySpark 编写的内置数据转换和分析，能够在原定设置实例上高效处理高达数百 GB 的大型数据集。

即日起，您可以在 SageMaker Data Wrangler 中使用具有更大 CPU 和内存的其他 M5 或 R5 实例，从而提升数据准备工作负载的性能。Amazon EC2 M5 实例可针对各种工作负载实现计算、内存和联网资源平衡。Amazon EC2 R5 实例是内存优化型实例。M5 和 R5 实例类型都非常适合 CPU 和内存密集型应用程序，例如，运行超大规模数据集（高达数 TB）的内置转换，或在中型数据集（几十 GB）上应用以 Panda 编写的自定义转换。

要了解有关 Amazon SageMaker Data Wrangler 新支持的实例的更多信息，请访问博客或 AWS 文档以及定价页面。要开始使用 SageMaker Data Wrangler，请访问 AWS 文档。

Amazon SageMaker Data Wrangler 现在支持使用更多 M5 和 R5 实例完成交互式数据准备

终止对 Internet Explorer 的支持