发布于: Aug 9, 2022
我们很高兴地宣布在 Amazon SageMaker Canvas 中扩展了数据准备和分析功能,其中包括替换缺失值、替换异常值,以及让您可以为数据集灵活选择不同样本大小。Amazon SageMaker Canvas 是一个可视化的点击式界面,可帮助业务分析师自行生成准确的 ML 预测,而无需任何机器学习 (ML) 经验或编写任何代码。SageMaker Canvas 可轻松访问和组合各种来源的数据,自动清理数据,以及构建 ML 模型,只需点击几下即可生成准确的预测。
从今天开始,通过 SageMaker Canvas,您能够替换缺失值以更快地准备数据,替换数据中的异常值以构建更准确的 ML 模型,还可以灵活地选择数据集样本的大小以加快数据分析。
替换缺失值:缺失值在数据集中很常见,而且会影响 ML 模型的准确性。SageMaker Canvas 中的这项新功能可帮助您用自定义值替换(也称为插补)数据中的缺失值,并更快地准备数据,同时保持数据集完整。例如,您可以将数值列中的缺失值替换为数据的平均值或中值,或自定义值。这可确保您的数据在构建 ML 模型之前准备就绪。
替换异常值:数据范围内的异常值或稀有值可能会导致构建 ML 模型时出现较大的方差或偏差。SageMaker Canvas 现在使您能够检测数字列中的异常值,并帮助将它们替换为特定范围内的值。您可以选择标准偏差或自定义范围,并用此指定范围内的最小值和最大值替换异常值。
数据集样本大小的选择:SageMaker Canvas 现在支持您选择数据集样本的大小以更好地分析数据。采样是一种统计技术,通过处理少量且可管理的数据来识别大型数据集中的模式和趋势,同时支持准确的数据分析以构建 ML 模型。SageMaker Canvas 使用随机采样方法,通过这种方法可以更快地了解您的数据。默认情况下,Canvas 使用数据集中的 20,000 行样本大小。您现在可以根据数据集的大小选择 500 行到 40,000 行之间的样本数据,从而为您提供灵活性和控制权。