发布于: Jun 16, 2022
当今,我们使用 PySpark 和 Altair,并在 Amazon SageMaker Data Wrangler 中支持代码片段,使准备和可视化数据变得更快、更容易。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并完成数据准备工作流的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据来源中快速选择数据,例如 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks 和 Snowflake。
从今天开始,您可以使用 Amazon SageMaker Data Wrangler 中的 PySpark 和 Altair 代码片段,更快地准备和可视化数据。PySpark 是 Python 中 Apache Spark 的接口。Altair 是一个用于 Python 的声明式统计可视化库,它基于 Vega 和 Vega-Lite。以前,使用 Data Wrangler 的数据科学家如果想用 PySpark 或 Altair 编写代码来准备和可视化数据,他们会从一个空白编辑器开始,或者在互联网上搜索代码片段。现在,希望使用 PySpark 在 SageMaker Data Wrangler 中编写自定义转换的数据科学家,可以从 30 多个 PySpark 代码片段中搜索以满足数据处理需求,如删除行、批量重命名、强制转换和重组列,以及过滤文本列中包含特定字符串的值。此外,希望编写 Altair 代码以在 SageMaker Data Wrangler 中创建可视化的数据科学家,可以从 Altair 代码片段中搜索以创建热图、分仓散点图和来自 SageMaker Data Wrangler 内部的填充步骤图。