发布于: Nov 30, 2022

今天,AWS 宣布 Amazon SageMaker Data Wrangler 通过与 Amazon AppFlow 集成,正式为 40 多个作为机器学习 (ML) 数据来源的第三方应用程序提供支持。Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。为 ML 准备高质量的数据通常非常复杂、耗时,因为它需要使用不同的工具聚合不同来源和格式的数据。使用 SageMaker Data Wrangler,您可以浏览并导入各种常见来源(例如 Amazon S3、Amazon Athena、Amazon Redshift、Snowflake、Databricks 和 Salesforce Customer Data Platform)中的数据。从今天开始,我们可以让客户通过 Amazon AppFlow 轻松聚合超过 40 个第三方应用程序数据来源中的 ML 数据,这些数据来源包括 Salesforce Marketing、SAP、Google Analytics、LinkedIn 等。 

Amazon AppFlow 是一项完全托管式服务,支持客户将数据从第三方应用程序安全地传输到 AWS 服务(如 Amazon S3),且只需单击几下即可在 AWS Glue Data Catalog 中编目数据。在 AppFlow 中设置数据来源后,您可以使用 Data Wrangler SQL Explorer 浏览这些数据源中的表和架构。您可以编写 Athena 查询以预览数据,确保它与您的使用案例相关,并导入数据以准备机器学习 (ML) 模型训练。您还可以在导入后联接多个来源中的数据,为 ML 创建正确的数据集。导入数据后,您还可以快速了解数据质量、清理数据并通过 300 多个内置分析和数据转换创建特征。您还可以通过 SageMaker Autopilot 训练和部署模型,并通过与 Data Wrangler 中的 SageMaker Pipeline 的集成,在特征工程、训练或部署管道中操作数据准备过程。

Data Wrangler 在 AppFlow 当前支持的所有区域中支持 40 多个第三方数据来源。除了支付 Data Wrangler 和 AppFlow 成本外,此功能无需额外付费。

开始使用之前,请参阅以下资源: