发布于: Oct 17, 2022
今天,我们很高兴地宣布 Amazon SageMaker Data Wrangler 支持重新拟合转换。为了使 XgBoost 等算法使用数据,数据科学家必须使用独热编码等转换将非数值转换为数值。由于独热编码等转换依赖数据,因此这些转换通常称为拟合转换。由于数据会随时间不断变化,必须更新或重新拟合这些转换,将数据变化考虑在内。此外,在处理示例数据集时,必须更新转换,将示例数据集与大型数据集之间的更改考虑在内。使用独热编码等转换可生成额外的信息,数据准备管道中需要跟踪和捕获这些信息。省略或错误地跟踪此信息可能会导致数据准备过程出错。如果不支持重新拟合转换,很多数据科学家将无法轻松指定何时使用转换的拟合版本或重新拟合对新数据的转换。数据科学家也缺少一种轻松的方法在重新拟合新数据集时生成转换管道的更新版本。
Data Wrangler 现在可以在数据流中跟踪所有适用转换的拟合转换。这些拟合转换现在可用于根据需要更轻松地准备新数据。用户可以指定何时要重复使用转换或重新拟合对数据的新转换。重新拟合功能既能在启动 Data Wrangler 处理任务时在 Data Wrangler 可视化界面中使用,也能在创建任务笔记本中使用。只需在创建任务工作流的“受训参数”下选择“重新拟合”,即可重新拟合流中的转换。Data Wrangler 还可以自动生成新的流文件,其中包含用于重新拟合转换的更新值。