在 Amazon SageMaker Data Wrangler 中，使用 PySpark 和 Altair 代码片段可以比以往更快速地准备和可视化数据

发布于: Jun 16, 2022

当今，我们使用 PySpark 和 Altair，并在 Amazon SageMaker Data Wrangler 中支持代码片段，使准备和可视化数据变得更快、更容易。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并完成数据准备工作流的每个步骤，包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具，您可以从多个数据来源中快速选择数据，例如 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks 和 Snowflake。

从今天开始，您可以使用 Amazon SageMaker Data Wrangler 中的 PySpark 和 Altair 代码片段，更快地准备和可视化数据。PySpark 是 Python 中 Apache Spark 的接口。Altair 是一个用于 Python 的声明式统计可视化库，它基于 Vega 和 Vega-Lite。以前，使用 Data Wrangler 的数据科学家如果想用 PySpark 或 Altair 编写代码来准备和可视化数据，他们会从一个空白编辑器开始，或者在互联网上搜索代码片段。现在，希望使用 PySpark 在 SageMaker Data Wrangler 中编写自定义转换的数据科学家，可以从 30 多个 PySpark 代码片段中搜索以满足数据处理需求，如删除行、批量重命名、强制转换和重组列，以及过滤文本列中包含特定字符串的值。此外，希望编写 Altair 代码以在 SageMaker Data Wrangler 中创建可视化的数据科学家，可以从 Altair 代码片段中搜索以创建热图、分仓散点图和来自 SageMaker Data Wrangler 内部的填充步骤图。

要开启使用 Amazon SageMaker Data Wrangler 的新功能，您可以在升级到最新版本后打开 Amazon SageMaker Studio，并单击菜单中的 File > New > Flow（文件 > 新建 > 流），或者从 SageMaker Studio 启动程序中单击“new data flow”（新建数据流）。要详细了解新功能，请阅读博客并查看文档。

在 Amazon SageMaker Data Wrangler 中，使用 PySpark 和 Altair 代码片段可以比以往更快速地准备和可视化数据

终止对 Internet Explorer 的支持