发布于: Feb 2, 2022
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习(ML)数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流的每个步骤,包括通过单个可视界面进行数据选择、清洗、探索和可视化。借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据源中快速选择数据,例如 Amazon S3 、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker 特征存放区和 Snowflake。
今天,我们宣布 Data Wrangler 对 JSON、JSONL 和 ORC 文件格式的支持全面开放。您现在可以通过 Data Wrangler 浏览、预览和导入使用这些文件格式的数据。ORC 文件格式是一种用于存储 Hive 数据的高效方式,但难以使用文本编辑器预览这种数据。借助 Data Wrangler 中对 ORC 文件格式的支持,您现在可以像 csv 文件一样轻松浏览 ORC 文件中的数据。要详细了解如何使用 Data Wrangler 导入 ORC 文件并准备 JSON 数据,请参阅博客。
此外,我们还宣布全面开放多种新的转换,这包括:用于处理数据集中类失衡问题的转换、用于处理具有数组和 JSON 格式字符串的列的转换,以及一个用于为具有高基数的类别数据进行编码的相似性编码转换。这些转换进一步丰富了 Data Wrangler 已有的 300 多种转换,其中包括许多用于处理时间序列数据的转换。以下是这些新增转换的详细描述:
- 数据平衡。 数据集经常会失衡,偏向某个目标类别。新增的平衡转换可根据您的需求,帮助对稀疏的少数类进行多采样。此外,您现在还可以使用合成少数类多采样技术(SMOTE)为少数类生成新的样本,此功能现已在 Data Wrangler 中正式推出。SMOTE 会自动利用数据集中几组类似的行,为少数类生成新的观察值。要详细了解如何使用 Data Wrangler 处理失衡的数据集,请参阅博客。
- 处理结构化列。 对于包含数组的列,新推出的 explode array(打散数组)转换会为数组中的每个值生成一个新的行。对于 JSON 格式的字符串,新推出的 flatten structured column(拉平结构化列)转换会为 JSON 格式的字符串中的每个键值对创建新的列。要详细了解如何使用 Data Wrangler 处理结构化列,请参阅博客。
- 为类别变量编码。 使用新推出的相似性编码转换,您现在可以高效地对具有高基数的类别变量进行编码。许多数据科学家会经常为类别变量应用独热编码,从而将每个类别值转换为一个独立的列。这种独热编码过程可将由美国州名组成的单个列转化为 50 个新的二进制值变量(每个州一个变量)。现在 Data Wrangler 推出相似性编码功能后,您可以显著减少为一个类别变量编码的列数,同时保持甚至还可提高模型的性能。
最后,我们宣布全面开放一键式 Create job(创建任务)体验,以用于启动数据处理任务。从今天开始,您可以单击 Create job(创建任务)按钮,从而按照您在 Data Wrangler 流中指定的步骤启动数据处理任务。您仍可使用 Data Wrangler 中的数据处理笔记本来启动数据处理任务,以及将 Data Wrangler 集成到 MLOps 管道中。要详细了解如何使用 Data Wrangler 启动数据处理任务,请参阅博客。