使用 Amazon SageMaker Data Wrangler 准备 JSON 和 ORC 数据、完成数据集平衡编码以及一键式启动数据处理任务

发布于: Feb 2, 2022

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习（ML）数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流的每个步骤，包括通过单个可视界面进行数据选择、清洗、探索和可视化。借助 SageMaker Data Wrangler 的数据选择工具，您可以从多个数据源中快速选择数据，例如 Amazon S3 、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker 特征存放区和 Snowflake。

今天，我们宣布 Data Wrangler 对 JSON、JSONL 和 ORC 文件格式的支持全面开放。您现在可以通过 Data Wrangler 浏览、预览和导入使用这些文件格式的数据。ORC 文件格式是一种用于存储 Hive 数据的高效方式，但难以使用文本编辑器预览这种数据。借助 Data Wrangler 中对 ORC 文件格式的支持，您现在可以像 csv 文件一样轻松浏览 ORC 文件中的数据。要详细了解如何使用 Data Wrangler 导入 ORC 文件并准备 JSON 数据，请参阅博客。

此外，我们还宣布全面开放多种新的转换，这包括：用于处理数据集中类失衡问题的转换、用于处理具有数组和 JSON 格式字符串的列的转换，以及一个用于为具有高基数的类别数据进行编码的相似性编码转换。这些转换进一步丰富了 Data Wrangler 已有的 300 多种转换，其中包括许多用于处理时间序列数据的转换。以下是这些新增转换的详细描述：

数据平衡。 数据集经常会失衡，偏向某个目标类别。新增的平衡转换可根据您的需求，帮助对稀疏的少数类进行多采样。此外，您现在还可以使用合成少数类多采样技术（SMOTE）为少数类生成新的样本，此功能现已在 Data Wrangler 中正式推出。SMOTE 会自动利用数据集中几组类似的行，为少数类生成新的观察值。要详细了解如何使用 Data Wrangler 处理失衡的数据集，请参阅博客。
处理结构化列。 对于包含数组的列，新推出的 explode array（打散数组）转换会为数组中的每个值生成一个新的行。对于 JSON 格式的字符串，新推出的 flatten structured column（拉平结构化列）转换会为 JSON 格式的字符串中的每个键值对创建新的列。要详细了解如何使用 Data Wrangler 处理结构化列，请参阅博客。
为类别变量编码。 使用新推出的相似性编码转换，您现在可以高效地对具有高基数的类别变量进行编码。许多数据科学家会经常为类别变量应用独热编码，从而将每个类别值转换为一个独立的列。这种独热编码过程可将由美国州名组成的单个列转化为 50 个新的二进制值变量（每个州一个变量）。现在 Data Wrangler 推出相似性编码功能后，您可以显著减少为一个类别变量编码的列数，同时保持甚至还可提高模型的性能。

最后，我们宣布全面开放一键式 Create job（创建任务）体验，以用于启动数据处理任务。从今天开始，您可以单击 Create job（创建任务）按钮，从而按照您在 Data Wrangler 流中指定的步骤启动数据处理任务。您仍可使用 Data Wrangler 中的数据处理笔记本来启动数据处理任务，以及将 Data Wrangler 集成到 MLOps 管道中。要详细了解如何使用 Data Wrangler 启动数据处理任务，请参阅博客。

要开启使用 Amazon SageMaker Data Wrangler 的新功能，您可以在升级到最新版本后打开 Amazon SageMaker Studio，并从菜单中单击 File > New > Flow（文件 > 新建 > 流）或者从 SageMaker Studio 启动程序中单击 new data flow（新数据流）。要详细了解新推出的功能，请参阅文档。

使用 Amazon SageMaker Data Wrangler 准备 JSON 和 ORC 数据、完成数据集平衡编码以及一键式启动数据处理任务

终止对 Internet Explorer 的支持