发布于: Dec 14, 2022

今天,我们很高兴地宣布,在 Amazon SageMaker Data Wrangler 中推出自动生成的特征层面的可视化内容。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。Data Wrangler 提供各种可配置的可视化选项,从常规数据可视化(例如直方图、散点图或表格摘要)到高级可视化(例如时间序列数据的异常检测或季节性趋势分解、数据泄露和用于满足机器学习需求的特征偏差)。 

即日起,SageMaker Data Wrangler 会自动为数据集中的每个特征生成可视化内容。导入数据集后,您将在数据集每列的顶部看到这些可视化内容。这种自动化通过在特征层面自动生成与数据分布和数据质量相关的见解,进一步减少了数据科学家无差别的繁重工作。 

借助自动生成的可视化内容,您无需编写任何代码,即可立即获得与数据分布和数据类型相关的见解。这些见解可帮助您轻松检测数据集中每列的数据质量问题,例如异常值、缺失值或无效值等。此外,您还可以将鼠标悬停在可视化结果上来查看详细的统计数据,例如计数和百分比。  

此功能已在 Data Wrangler 目前支持的所有 AWS 区域全面推出和自动激活,不额外收费。 要了解更多信息,请参阅 AWS 新闻博客SageMaker Data Wrangler 产品文档