Amazon SageMaker Canvas 扩展功能上线，以便更好地为机器学习准备和分析数据

发布于: Aug 9, 2022

我们很高兴地宣布在 Amazon SageMaker Canvas 中扩展了数据准备和分析功能，其中包括替换缺失值、替换异常值，以及让您可以为数据集灵活选择不同样本大小。Amazon SageMaker Canvas 是一个可视化的点击式界面，可帮助业务分析师自行生成准确的 ML 预测，而无需任何机器学习 (ML) 经验或编写任何代码。SageMaker Canvas 可轻松访问和组合各种来源的数据，自动清理数据，以及构建 ML 模型，只需点击几下即可生成准确的预测。

从今天开始，通过 SageMaker Canvas，您能够替换缺失值以更快地准备数据，替换数据中的异常值以构建更准确的 ML 模型，还可以灵活地选择数据集样本的大小以加快数据分析。

替换缺失值：缺失值在数据集中很常见，而且会影响 ML 模型的准确性。SageMaker Canvas 中的这项新功能可帮助您用自定义值替换（也称为插补）数据中的缺失值，并更快地准备数据，同时保持数据集完整。例如，您可以将数值列中的缺失值替换为数据的平均值或中值，或自定义值。这可确保您的数据在构建 ML 模型之前准备就绪。

替换异常值：数据范围内的异常值或稀有值可能会导致构建 ML 模型时出现较大的方差或偏差。SageMaker Canvas 现在使您能够检测数字列中的异常值，并帮助将它们替换为特定范围内的值。您可以选择标准偏差或自定义范围，并用此指定范围内的最小值和最大值替换异常值。

数据集样本大小的选择：SageMaker Canvas 现在支持您选择数据集样本的大小以更好地分析数据。采样是一种统计技术，通过处理少量且可管理的数据来识别大型数据集中的模式和趋势，同时支持准确的数据分析以构建 ML 模型。SageMaker Canvas 使用随机采样方法，通过这种方法可以更快地了解您的数据。默认情况下，Canvas 使用数据集中的 20,000 行样本大小。您现在可以根据数据集的大小选择 500 行到 40,000 行之间的样本数据，从而为您提供灵活性和控制权。

新功能增加了 SageMaker Canvas 支持的数据准备功能和高级数据转换的范围。要了解更多信息并开始使用，请参阅文档和产品页面。

Amazon SageMaker Canvas 扩展功能上线，以便更好地为机器学习准备和分析数据

终止对 Internet Explorer 的支持