亚马逊AWS官方博客

借助 Amazon SageMaker Canvas 的新功能,使用自然语言探索和准备数据



今天,我很高兴向大家介绍一项功能:在 Amazon SageMaker Canvas 中使用自然语言指令实现对机器学习(ML)数据的探索、可视化和转换。

SageMaker Canvas 现已支持使用由基础模型(FM)驱动的自然语言指令,以补充其用于数据探索、分析、可视化和转换的综合性数据准备功能。使用自然语言指令,您现在可以通过探索和转换数据,构建高度精确的机器学习模型。此项新功能基于 Amazon Bedrock。

数据是有效机器学习的基础,而转换原始数据,使其适合用来构建机器学习模型并生成预测,将是获得更深刻见解的关键。分析、转换和准备数据,以构建机器学习模型,这往往是机器学习工作流程中最耗时的部分。SageMaker Canvas 拥有超过 300 种内置的转换和分析功能,并且能够提供深入的数据质量洞察报告,您无需编写任何代码,即可流畅、快捷地为机器学习完成数据准备工作。从现在开始,您可以使用自然语言指令实现对数据的探索、可视化和转换,这加快并简化了 SageMaker Canvas 中的数据探索和数据准备流程。

如今,您可以通过自然语言体验查询和响应,这将加快数据准备任务的流程。您可以借助与语境相关的引导式提示语快速开始,理解并探索您的数据。

比如,我想使用 SageMaker Canvas 构建一个机器学习模型,用于预测房价。首先,我需要准备住房数据集,以便构建准确的模型。要开始使用新的自然语言指令,我需要打开 SageMaker Canvas 应用程序,在左侧的导航窗格中选择 Data Wrangler。在数据选项卡下,我要从可用的数据集列表中选择 canvas-housing-sample.csv 作为数据集,然后选择创建数据流,并点击创建。我会看到数据集的表格视图,以及对通过聊天准备数据这项新功能的简介。

数据流

选择通过聊天准备数据,将显示聊天界面,其中包含一组与我的数据集相关的引导式提示语。我可以使用其中的任意提示语,也可以查询数据,获取其他信息。

聊天界面

首先,我想了解数据集的质量,以判断是否存在任何异常值或异常情况。我要求 SageMaker Canvas 生成一份数据质量报告来完成这项任务。

数据质量

我了解到,我的数据没有重大问题。现在,我想以可视化方式展示数据中几个特征的分布情况。我要求 SageMaker Canvas 绘制一张图表。

查询

我现在想对某些行进行过滤,以转换数据。我要求 SageMaker Canvas 删除人口少于 1000 的行。Canvas 删除了这些行,向我显示了转换后的数据预览,我还可以查看并更新用于生成转换结果的代码。

代码视图

我对预览结果很满意,并将转换后的数据添加到了右侧的数据转换步骤列表中。SageMaker Canvas 会将该步骤与代码一并添加。

转换

现在,我的数据已经转换完毕,我可以继续构建机器学习模型以预测房价,甚至可以使用同一个 SageMaker Canvas 可视化界面将模型部署到生产环境中,这无需编写任何代码。

为机器学习准备数据从未如此简单!

可用性
支持 Amazon SageMaker Canvas 和 Amazon Bedrock 的所有 AWS 区域均可使用 Amazon SageMaker Canvas 中的此项新功能,利用自然语言查询探索和转换数据。

了解详情
Amazon SageMaker Canvas 产品页面

立即构建!

— Irshad