跳至主要内容

Amazon SageMaker Data Wrangler

以最快速、最简单的方式准备机器学习数据 – 现已在 SageMaker Canvas 中推出

为什么选择 SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler 将表格、图像和文本数据的数据准备时间从几周缩短到几分钟。借助 SageMaker Data Wrangler,您可以通过可视化自然语言界面简化数据准备和特征工程。使用 SQL 和 300 多个内置的转换快速选择、导入和转换数据,无需编写代码。生成直观的数据质量报告,以检测不同数据类型的异常,并估算模型性能。扩展以处理数 PB 的数据。

SageMaker Data Wrangler 的优势

选择数据、了解数据洞察并转换数据,以便在几分钟内为机器学习(ML)准备好数据。
在将模型部署到生产环境之前快速估计机器学习模型的准确性并诊断问题。
无需编写 PySpark 代码、安装 Apache Spark 或启动集群,即可更快地将数据准备投入生产。

工作原理

更快地访问、选择和查询数据

With SageMaker Data Wrangler, you can quickly access tabular, text, and image data from Amazon services such as S3, Athena, Redshift, and 50+ third-party sources. You can select data with visual query builder, write SQL queries, or import data data directly in various formats such as CSV, and Parquet.

生成数据洞察并理解数据质量

SageMaker Data Wrangler provides a data quality and insights report that automatically verifies data quality (such as missing values, duplicate rows, and data types) and helps detect anomalies (such as outliers, class imbalance, and data leakage) in your data. Once you can effectively verify data quality, you can quickly apply domain knowledge to process datasets for ML model training.

通过可视化理解您的数据

SageMaker Data Wrangler helps you understand your data through robust built-in visualization templates such as histograms, scatter plots, feature importance, and correlations. Accelerate data exploratory with intuitive data quality reports that detect anomalies across data types and provide recommendations to improve data quality.

更高效地转换数据

SageMaker Data Wrangler offers over 300 prebuilt PySpark transformations and a natural language interface to prepare tabular, timeseries, text and image data without coding. Common use cases such vectorize text, featurize datetime, encoding, balancing data, or image augmentation are covered. You can also author custom transformations in PySpark, SQL, and Pandas or use natural language interface to generate code. A built-in library of code snippets simplifies writing custom transformations.

了解数据的预测能力

SageMaker Data Wrangler provides a Quick Model analysis to estimate your data's predictive power. You get estimated model accuracy, feature importance, and a confusion matrix to help you validate your data quality before training models.

自动化和部署机器学习数据准备工作流

SageMaker Data Wrangler lets you scale to prepare petabyte of data without coding PySpark or spinning up clusters. Launch processing jobs directly from the UI, or integrate data prep into ML workflows by exporting data to SageMaker Feature Store or integrating with SageMaker Pipelines. You can also export data flows as Jupyter notebooks or Python script for programmatic replication of your data preparation steps.

客户

Investa

“在 INVISTA,我们以转型为动力,并致力于开发可让全球客户从中受益的产品和技术。我们将机器学习视为改善客户体验的一种方式。但是,对于包含数亿行的数据集,我们需要一个解决方案来帮助我们准备数据,并大规模地开发、部署和管理机器学习模型。借助 Amazon SageMaker Data Wrangler,我们现在可以以交互方式有效地选择、清理、探索和理解我们的数据,使我们的数据科学团队能够创建特征工程管道,这些管道可以毫不费力地扩展到跨越数亿行的数据集。有了 Amazon SageMaker Data Wrangler,我们可以更快地执行机器学习工作流程。”

INVISTA 的前首席数据科学家 Caleb Wilkinson

Horizontal logo of Invista featuring a stylized circular yellow and red design with the company name 'Invista' in red text.

3M 企业系统研究实验室

“通过使用机器学习,3M 正在改进久经考验的产品,比如砂纸,并推动其他领域的创新,包括医疗保健。随着我们计划将机器学习扩展到 3M 的更多领域,我们看到数据和模型的数量正在快速增长 – 每年翻一番。我们热衷于新的 SageMaker 功能,因为它们将帮助我们实现扩展。Amazon SageMaker Data Wrangler 使准备模型训练数据变得更加容易,并且 Amazon SageMaker Feature Store 消除了重复创建相同模型功能的需要。最后,Amazon SageMaker Pipelines 将帮助我们自动准备数据、构建模型并将模型部署到端到端工作流程中,以便缩短模型的上市时间。我们的研究人员期待着利用 3M 的新科学速度。”

David Frazee,3M 公司系统研究实验室前技术主管

3M company logo with red '3M' text alongside black company name.

Deloitte

“Amazon SageMaker Data Wrangler 使我们能够利用丰富的转换工具集来满足数据准备需求,这些转换工具可加快将新产品推向市场所需的机器学习数据准备过程。反过来,我们的客户可以从我们扩展部署模型的速度中受益,这使我们能够在几天而不是几个月的时间内提供可衡量、可持续的结果,以满足客户的需求。”

Frank Farrall,Deloitte AI 生态系统和平台首席负责人

Deloitte logo in black text with a green dot on the right, on a transparent background.

NRI

“作为 AWS 高级咨询合作伙伴,我们的工程团队正在与 AWS 紧密合作,以构建创新的解决方案来帮助我们的客户不断提高其运营效率。机器学习是我们创新解决方案的核心,但是我们的数据准备工作流程涉及复杂的数据准备技术,因此在生产环境中投入使用需要花费大量的时间。借助 Amazon SageMaker Data Wrangler,我们的数据科学家可以完成数据准备工作流程的各个步骤,包括数据选择、清理、探索和可视化,这有助于我们加速数据准备过程并轻松准备用于机器学习的数据。有了 Amazon SageMaker Data Wrangler,我们可以更快地为机器学习准备数据。”

NRI Japan 的高级企业常务董事 Shigekazu Ohmoto

NRI blue logo in bold sans-serif typeface.

Equilibrium

“随着我们在人口健康管理市场中持续扩展到更多健康支付机构、提供商、药品福利管理者和其他卫生机构,我们需要一种自动完成端到端流程的解决方案,作为向机器学习模型提供信息的数据来源,包括索赔数据、参加数据和药店数据。使用 Amazon SageMaker Data Wrangler,我们现在能够使用一组更容易验证和重复利用的工作流程缩短为机器学习聚合和准备数据所用的时间。这极大地提高了我们模型的交付速度和质量,提升了数据科学家的效率,并将数据准备时间缩短了接近 50%。此外,SageMaker Data Wrangler 还帮助我们节省了多重机器学习迭代并显著减少了 GPU 时间,为客户加快了整个端到端流程的速度,因为我们现在能够构建具有数千种特点的数据集市,包括药店、诊断代码、ER 访视、住院以及人口统计学和其他社会决定因素。通过 SageMaker Data Wrangler,我们可以极其高效地转换数据以构建训练数据集,在运行机器学习模型之前根据数据集生成数据见解,并为大规模推理/预测准备真实数据。”

Lucas Merrow,Equilibrium Point IoT 首席执行官

Logo for Equilibrium, featuring the word 'equilibrium' in black with orange arrows above and below the text.

开始使用 SageMaker Data Wrangler

视频

最新资讯

Amazon SageMaker Canvas 现已能支持数据流导入,也能更快地为机器学习准备数据

08/20/2024

阅读案例

使用 Amazon EMR Studio 提供的 Amazon SageMaker Data Wrangler 为机器学习启动低代码数据准备工作

11/02/2023

阅读案例

Amazon SageMaker Data Wrangler 现在支持 Amazon EMR 基于角色的访问控制

08/22/2023

阅读案例

Amazon Sagemaker Data Wrangler 现在支持 S3 接入点

08/21/2023

阅读案例

Amazon SageMaker 宣布与 Salesforce Data Cloud 进行新的直接集成

08/04/2023

阅读案例