发布于: Oct 6, 2021

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习(ML)数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。

即日起,您可以使用 Amazon SageMaker Data Wrangler 的新功能,帮助您更轻松、更快地为机器学习(ML)准备数据,包括新的时间序列转换系列功能和两个新的时间序列可视化功能,从您的时间序列数据中快速生成洞察。新的时间序列转换功能支持缺失值插补、时间序列特征化(例如,傅里叶系数、自相关统计数据、熵等)、重采样操作符以将数据集降采样或升采样为统一频率、时滞功能和滚动窗口函数。新的转换功能还支持更常用的操作,如分组、统一长度、展平和导出向量值列。

此外,您现在可以在 Amazon SageMaker Data Wrangler 中通过新的时间序列可视化功能将数据的季节性和趋势可视化,并识别异常。例如,通过季节性和趋势可视化功能,您可以将季节性影响从销售数据的趋势中分离出来。此外,通过异常值检测可视化功能,您可以识别客户购买数据集中的异常值,以检测客户购买行为的变化。

要开启使用 Amazon SageMaker Data Wrangler 的新功能,您可以在升级到最新版本后打开 Amazon SageMaker Studio 并从菜单中单击 File > New > Flow(文件 > 新建 > 流)或者从 SageMaker Studio 启动程序中单击“new data flow”(新数据流)。要了解有关新的时间序列转换和可视化功能的更多信息,请查看文档