Amazon SageMaker Data Wrangler

为机器学习准备表和图像数据的最快、最简单方法

为什么选择 SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习(ML)表和图像数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和特征工程的过程,并从单个可视化界面完成数据准备工作流的每个步骤(包括数据选择、清理、探索、可视化和大规模处理)。您可以使用 SQL 从多种数据来源中选择想要的数据并快速导入。接下来,您可以使用数据治理和洞察报告自动验证数据质量并检测异常情况,例如重复行和目标泄漏。SageMaker Data Wrangler 包含 300 多个内置数据转换,因此您无需编写任何代码即可快速转换数据。

Amazon SageMaker Data Wrangler 概览

SageMaker Data Wrangler 的优势

选择数据、了解数据见解并转换数据,以便在几分钟内为机器学习(ML)做好准备。
在将模型部署到生产环境之前快速估计 ML 模型的准确性并诊断问题。
无需编写 PySpark 代码、安装 Apache Spark 或启动集群,即可更快地将数据准备投入生产。

工作原理

Amazon SageMaker Data Wrangler 工作原理

更快地访问、选择和查询数据

借助 SageMaker Data Wrangler 数据选择工具,您可以快速访问和选择来自各种热门来源(例如 Amazon Simple Storage Service [Amazon S3]、Amazon Athena、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks)以及 50 多个其他第三方来源(例如 Salesforce、SAP、Facebook Ads 和 Google Analytics)的表和图像数据。您还可以使用 SQL 编写数据来源查询,并将数据从各种文件格式(例如 CSV、Parquet 和 JSON)和数据库表直接导入 SageMaker。

生成数据洞察并理解数据质量

SageMaker Data Wrangler 提供数据质量和洞察报告,自动验证数据质量(如缺失值、重复行和数据类型)并帮助检测数据中的异常情况(如异常值、类不平衡和数据泄漏)。一旦可以有效地验证数据质量,就可以快速应用领域知识处理数据集,进行 ML 模型训练。

通过可视化理解您的数据

SageMaker Data Wrangler 通过一组强大的预配置可视化模板帮助您了解数据并识别潜在错误和极值。内置直方图、散点图、盒须图、折线图和条形图,可应用于您的数据。还提供更高级的 ML 特定可视化(例如偏差报告、特征相关性、多重共线性、目标泄漏和时间序列)来显示特征重要性和特征相关性。可以从 “分析” 选项卡访问这些工具。

更高效地转换数据

SageMaker Data Wrangler 提供 300 多种预构建的、基于 PySpark 的数据转换,因此您可以转换数据并扩展数据准备工作流程,而无需编写任何代码。预配置的转换涵盖常见的用例,例如展平 JSON 文件、删除重复行、用均值或中值填充缺失数据、独热编码以及时间序列特定的转换器,以加速为 ML 准备时间序列数据。对于您的图像数据,SageMaker Data Wrangler 提供常见的图像增强(如模糊、强化和调整大小)和清理操作(如删除损坏的图像和重复的图像)。您还可以使用 PySpark、SQL 和 Pandas 编写自定义转换。SageMaker Data Wrangler 提供图像(imgaug、OpenCV)库,用于为 CV 使用案例创建自定义转换,并提供丰富的代码片段库,简化自定义转换的创作。

了解数据的预测能力

SageMaker Data Wrangler 快速模型功能提供对数据的预期预测能力的估计。Quick Model 可自动将您的数据拆分为训练和测试数据集,并使用默认超参数在 XGBoost 模型上训练数据。根据您要解决的任务(例如,分类或回归),SageMaker Data Wrangler 提供模型摘要、特征摘要和混淆矩阵,可帮助您快速迭代数据准备流程。

自动化和部署 ML 数据准备工作流程

借助 SageMaker Data Wrangler UI,您可以扩展到大型数据集,而无需编写 PySpark 代码、安装 Apache Spark 或启动集群。您可以启动或安排作业以快速处理您的数据或将其导出到 SageMaker Studio 笔记本。SageMaker Data Wrangler 提供多种导出选项,包括 SageMaker Data Wrangler 作业、SageMaker Feature Store 和 SageMaker Pipelines,使您能够将数据准备流程集成到 ML 工作流程中。或者,您也可以将数据准备工作流程部署到 SageMaker 托管端点。最后,您可以使用 SageMaker Canvas 的可视化界面直接导出数据来训练 ML 模型

客户

Invista
“在 INVISTA,我们以转型为动力,并致力于开发可让全球客户从中受益的产品和技术。我们将机器学习视为改善客户体验的一种方式。但是,对于包含数亿行的数据集,我们需要一个解决方案来帮助我们准备数据,并大规模地开发、部署和管理机器学习模型。借助 Amazon SageMaker Data Wrangler,我们现在可以以交互方式有效地选择、清理、探索和理解我们的数据,使我们的数据科学团队能够创建特征工程管道,这些管道可以毫不费力地扩展到跨越数亿行的数据集。有了 Amazon SageMaker Data Wrangler,我们可以更快地执行机器学习工作流程。”

Caleb Wilkinson,INVISTA 前首席数据科学家

3M
“通过使用机器学习,3M 正在改进久经考验的产品,比如砂纸,并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”

David Frazee,3M 公司系统研究实验室前技术主管

Deloitte
“Amazon SageMaker Data Wrangler 使我们能够利用丰富的转换工具集来满足数据准备需求,这些转换工具可加快将新产品推向市场所需的机器学习数据准备过程。反过来,我们的客户可以从我们扩展部署模型的速度中受益,这使我们能够在几天而不是几个月的时间内提供可衡量、可持续的结果,以满足客户的需求。”

Frank Farrall,Deloitte AI 生态系统和平台首席负责人

NRI
“作为 AWS 高级咨询合作伙伴,我们的工程团队正在与 AWS 紧密合作,以构建创新的解决方案来帮助我们的客户不断提高其运营效率。机器学习是我们创新解决方案的核心,但是我们的数据准备工作流程涉及复杂的数据准备技术,因此在生产环境中投入使用需要花费大量的时间。借助 Amazon SageMaker Data Wrangler,我们的数据科学家可以完成数据准备工作流程的各个步骤,包括数据选择、清理、探索和可视化,这有助于我们加速数据准备过程并轻松准备用于机器学习的数据。有了 Amazon SageMaker Data Wrangler,我们可以更快地为机器学习准备数据。”

Shigekazu Ohmoto,NRI Japan 高级企业常务董事

equilibrium
“随着我们在人口健康管理市场中持续扩展到更多健康支付机构、提供商、药品福利管理者和其他卫生机构,我们需要一种自动完成端到端流程的解决方案,作为向机器学习模型提供信息的数据来源,包括索赔数据、参加数据和药店数据。使用 Amazon SageMaker Data Wrangler,我们现在能够使用一组更容易验证和重复利用的工作流程缩短为机器学习聚合和准备数据所用的时间。这极大地提高了我们模型的交付速度和质量,提升了数据科学家的效率,并将数据准备时间缩短了接近 50%。此外,SageMaker Data Wrangler 还帮助我们节省了多重机器学习迭代并显著减少了 GPU 时间,为客户加快了整个端到端流程的速度,因为我们现在能够构建具有数千种特点的数据集市,包括药店、诊断代码、ER 访视、住院以及人口统计学和其他社会决定因素。通过 SageMaker Data Wrangler,我们可以极其高效地转换数据以构建训练数据集,在运行机器学习模型之前根据数据集生成数据见解,并为大规模推理/预测准备真实数据。”

Lucas Merrow,Equilibrium Point IoT 首席执行官

开始使用 SageMaker Data Wrangler

博客

博客

利用 Amazon SageMaker Data Wrangler 中的数据质量和见解加速数据准备

博客

Amazon SageMaker Data Wrangler 支持 SaaS 应用程序作为数据来源

博客

使用 Amazon SageMaker Data Wrangler 从 Databricks 准备数据以供机器学习

博客

在 Amazon SageMaker Data Wrangler 中使用 PySpark 和 Altair 代码片段准备数据

博客

将数据从跨账户 Amazon Redshift 导入到 Amazon SageMaker Data Wrangler

博客

在 Amazon SageMaker Studio 中以默认生命周期配置使用 Amazon SageMaker Data Wrangler

动手练习

教程

开始使用 SageMaker Data Wrangler 的分步教程

研讨会

在使用案例中探索如何使用 SageMaker Data Wrangler

演示视频

视频

re:Invent 2022:使用 SageMaker Data Wrangler 来加快数据准备

re:Invent 2022:加快数据准备(56:45)
视频

使用 SageMaker Data Wrangler Virtual Workshop 快速准备 ML 数据

为 ML 虚拟研讨会快速准备数据(1:18:08)
视频

AWS on Air 2020:AWS 新功能SageMaker Data Wrangler

AWS on Air 2020:AWS 新功能SageMaker Data Wrangler(27:51)
视频

SageMaker Data Wrangler 深入演示

SageMaker Data Wrangler 深入演示(28:13)

新增内容

  • 日期(最新到最老)
未找到任何结果
1