发布于: Nov 30, 2022
Amazon SageMaker Data Wrangler 将聚合和准备机器学习数据所需的时间从数周缩短到了数分钟。借助 Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流程的每个步骤,包括通过低代码可视化界面进行数据选择、可视化、清理和准备。许多机器学习从业人员希望直接在笔记本中研究数据集,以发现潜在的数据质量问题,例如信息缺失、极值、分布不均匀的数据集或偏差,这样他们就可以纠正此类问题,从而更快地为训练机器学习模型准备数据。机器学习从业人员可以花费数周时间编写样板代码来可视化和检查数据集的不同部分,以识别和修复潜在问题。
即日起,Data Wrangler 在 Amazon SageMaker Studio 笔记本中提供内置的数据准备功能,机器学习从业人员只需在笔记本中点击几下,就能以可视化方式查看数据特征、发现问题和解决数据质量问题。当用户在其笔记本中显示数据框架(数据的表格表示形式)时,SageMaker Studio 笔记本会自动生成图表,帮助用户了解其数据分布模式,发现错误数据、缺失数据或异常值等潜在问题,并建议通过转换数据来解决这些问题。此外,通过新功能,用户还可以识别影响机器学习模型性能的目标列数据质量问题(例如数据不平衡或数据类型混杂),并建议通过转换数据来解决这些问题。机器学习从业人员选择转换数据后,SageMaker Studio 笔记本会在笔记本内生成相应的代码,以便每次运行笔记本时都可以重复应用数据转换。
此功能已在 SageMaker Studio 笔记本目前支持的所有区域全面推出,不额外收费。
开始使用之前,请参阅以下资源: