通过 Amazon SageMaker Data Wrangler 深入了解数据和数据质量

发布于: Apr 27, 2022

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习（ML）数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流程的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具，您可以从多个数据源中快速选择数据，例如 Simple Storage Service（Amazon S3）、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks Delta Lake 和 Snowflake。

今天，我们宣布在 Data Wrangler 中全面推出数据质量和洞察报告功能。以前，为了深入了解 ML 的数据和数据质量，数据科学家必须编写大量代码来进行导入、处理和分析并最终导出这些洞察，这是一个耗时费力的过程。如今，借助于对数据和数据质量洞察的支持，数据科学家现在只需几次点击即可即时访问这些洞察。这种新的报告会自动验证数据质量并检测数据中的异常。数据科学家和数据工程师可以使用此工具高效、快速地将领域知识应用于处理数据集，以进行 ML 模型训练。

报告包括下列部分：

汇总统计数据。此部分深入提供有关行数、特征、缺失百分比、有效百分比、重复行以及特征类型细分（例如，数字与文本）的洞察。
数据质量警告。此部分提供旨在指出数据异常的警告，包括的项目有：存在少数类、目标基数高、罕见目标标签、不平衡类分布、偏态目标、重尾目标、目标中的异常值、回归频繁标签、无效值等。
目标列洞察。此部分提供有关目标列的统计信息，包括有效百分比、缺失百分比、异常值百分比、单变量统计数据（如最小值/中位值/最大值），还提供包含异常值或无效目标值的观测值示例。
快速模型。数据洞察报告自动根据数据训练模型，以提供对特征工程进度的定向检查，并在报告中提供关联的模型统计数据。
特征重要性。此部分按照在准备数据洞察和数据质量报告时自动计算的特征重要性提供特征排名。
异常行和重复行。数据质量和洞察报告使用孤立森林算法检测异常样本，并显示数据集中可能存在的重复行。
特征详情。此部分提供数据集中每个特征的汇总统计数据以及目标变量的相应分布。

要了解有关如何创建数据质量和洞察报告以及如何将其纳入数据准备工作流程的更多信息，请阅读博客。

要开启使用 Amazon SageMaker Data Wrangler 的新功能，您可以在升级到最新版本后打开 Amazon SageMaker Studio，并从顶部菜单中单击 File > New > Flow（文件 > 新建 > 流）或者从 SageMaker Studio 启动程序中单击 New data flow（新数据流）。要详细了解新推出的功能，请参阅文档。

通过 Amazon SageMaker Data Wrangler 深入了解数据和数据质量

终止对 Internet Explorer 的支持