Amazon SageMaker Data Wrangler

准备机器学习数据的最快、最简单的方法

Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。借助 SageMaker Data Wrangler,您可以简化数据准备和功能工程的过程,并完成数据准备工作流程的每个步骤,包括通过单个可视界面进行数据选择、清理、探查和可视化。使用 SageMaker Data Wrangler 的数据选择工具,您可以从各种数据源中选择所需的数据,然后单击一下即可导入。SageMaker Data Wrangler 包含 300 多种内置数据转换,因此您无需编写任何代码即可快速标准化、转换和组合各种功能。借助 SageMaker Data Wrangler 的可视化模板,您可以在 Amazon SageMaker Studio(首个面向 ML 的完全集成开发环境 (IDE))中查看这些转换,从而快速预览并检查这些转换是否按预期完成。当数据准备就绪后,您可以使用 Amazon SageMaker Pipelines 构建全自动的 ML 工作流程,并将其保存在 Amazon SageMaker 特征存放区中以供重复使用。

使用 Amazon SageMaker Data Wrangler 来加速数据的准备(33:07)

在几分钟内准备机器学习数据

只需单击几下即可选择和查询数据

借助 SageMaker Data Wrangler 的数据选择工具,您可以从多个数据源中快速选择数据,例如 Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation 和 Amazon SageMaker Feature Store。您还可以针对数据源编写查询,并将数据从各种文件格式(如 CSV 文件、Parquet 文件和数据库表)直接导入 SageMaker。

轻松转换数据

SageMaker Data Wrangler 提供了 300 多种预配置的数据转换选择,例如转换列类型、独热编码、使用均值或中值插补缺失数据、重新缩放列以及数据/时间嵌入,因此您可以将数据转换为可有效用于模型的格式,而无需编写任何代码。例如,您只需单击一下即可将文本字段列转换为数值列,也可以在 PySpark、SQL 和 Pandas 中编写自定义转换。

通过可视化了解您的数据

SageMaker Data Wrangler 通过过一组强大的预配置可视化模板帮助您了解数据并识别潜在误差和极值。提供直方图、散点图、框须图、折线图和条形图。模板(如直方图)可让您轻松创建和编辑自己的可视化内容,而无需编写任何代码。

快速评估 ML 模型准确性

更快地诊断和修复 ML 数据准备问题

SageMaker Data Wrangler 可让您快速识别数据准备工作流程中的不一致之处,并在模型部署到生产之前诊断问题。您可以快速确定准备的数据是否可以生成准确的模型,从而确定是否需要其他功能工程来提高性能。

只需单击一下即可从准备进入到生产

自动执行 ML 数据准备工作流程

只需单击一下,即可将数据准备工作流程导出到笔记本或代码脚本中,以将其投入生产。SageMaker Data Wrangler 可将您的数据准备工作流程与 Amazon SageMaker Pipelines 无缝集成,以便自动执行模型部署和管理。它还在 Amazon SageMaker Feature Store 中发布了各种功能,使您能够在团队中共享功能,而其他人可以将其重新用于自己的模型和分析。

客户

Invista_Logo
“在 INVISTA,我们以转型为动力,并致力于开发可让全球客户从中受益的产品和技术。我们将机器学习视为一种改善客户体验的方式,但是对于跨数亿行数据的数据集,我们需要一款解决方案来帮助准备数据,大规模开发、部署和管理 ML 模型......借助 Amazon SageMaker Data Wrangler,我们现在可以有效地交互选择、清理、探查和了解我们的数据,使我们的数据科学团队能够创建功能工程管道,以便轻松扩展到跨数亿行数据的数据集......借助 Amazon SageMaker Data Wrangler,我们可以更快地运行 ML 工作流程。”

Caleb Wilkinson,INVISTA 首席数据科学家

3M_Logo
“通过使用 ML,3M 正在改进久经考验的产品(如砂纸),并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”

David Frazee,3M 公司系统研究实验室技术主管

Deloitte_Logo
“Amazon SageMaker Data Wrangler 使我们能够利用丰富的转换工具集来满足数据准备需求,这些转换工具可加快将新产品推向市场所需的机器学习数据准备过程。反过来,我们的客户可以从我们扩展部署模型的速度中受益,这使我们能够在几天而不是几个月的时间内提供可衡量、可持续的结果,以满足客户的需求。”

Frank Farrall,Deloitte AI 生态系统和平台首席负责人

NRI_Logo-White
“作为亚马逊云科技的高级咨询合作伙伴,我们的工程团队正在与亚马逊云科技紧密合作,以构建创新的解决方案来帮助我们的客户不断提高其运营效率。机器学习是我们创新解决方案的核心,但是我们的数据准备工作流程涉及复杂的数据准备技术,因此在生产环境中投入使用需要花费大量的时间。借助 Amazon SageMaker Data Wrangler,我们的数据科学家可以完成数据准备工作流程的各个步骤,包括数据选择、清理、探索和可视化,这有助于我们加速数据准备过程并轻松准备用于机器学习的数据。有了 Amazon SageMaker Data Wrangler,我们可以更快地为机器学习准备数据。”

NRI Japan 高级常务董事 Shigekazu Ohmoto

开始使用 Amazon SageMaker Data Wrangler

开始在 AWS 管理控制台中准备机器学习数据