亚马逊AWS官方博客
全新 – 推出即用型模型,并支持 Amazon SageMaker Canvas 中的自定义文本和图像分类模型
今天,AWS 宣布推出 Amazon SageMaker Canvas 中的新功能,这些功能可帮助业务分析师通过机器学习(ML)在几分钟内从数千个文档、图像和文本行中生成见解。从今天开始,您可以访问即用型模型,创建自定义文本和图像分类模型以及以前支持的表格数据自定义模型,所有这些操作都无需具备机器学习经验,也无需编写一行代码。
不同行业的业务分析师希望应用人工智能/机器学习解决方案从各种数据中获得见解,并且响应业务利益相关者的临时分析请求。通过在工作流程中应用人工智能/机器学习,分析师可以自动执行耗时且容易出错的手动过程,例如检查、分类以及从原始数据、图像或文档中提取见解。但是,将人工智能/机器学习应用于业务问题需要具备技术专业知识,而构建自定义模型可能需要数周甚至数月。
Amazon SageMaker Canvas 于 2021 年推出,是一项可视化的点击式服务,业务分析师可借助该服务使用各种即用型模型或创建自定义模型,自行生成准确的机器学习预测。
即用型模型
客户可以使用 SageMaker Canvas 访问即用型模型,这些模型可用于在几分钟内从成千上万的文档、图像和文本行中提取信息并生成预测。这些即用型模型包括情绪分析、语言检测、实体提取、个人信息检测、图像中的对象和文本检测、发票和收据的费用分析、身份证件分析以及更通用的文档和表单分析。
例如,您可以选择即用型情绪分析模型,并上传来自社交媒体和客户支持请求的产品评论,以快速了解客户对您产品的看法。使用即用型个人信息检测模型,您可以检测和编辑电子邮件、支持请求和文档中的个人身份信息(PII)。使用即用型费用分析模型,您可以轻松检测和提取所扫描发票和收据中的数据,并生成有关这些数据的见解。
这些即用型模型由包括 Amazon Rekognition、Amazon Comprehend 和 Amazon Textract 在内的 AWS 人工智能服务提供支持。
自定义文本和图像分类模型
需要针对其业务特定使用案例对自定义模型进行培训的客户可以使用 SageMaker Canvas 来创建文本和图像分类模型。
可以使用 SageMaker Canvas 创建自定义文本分类模型,根据需要对数据进行分类。例如,假设您在一家提供客户支持的公司担任业务分析师。当客户支持座席与客户互动时,他们会创建请求,并且需要记录请求类型,例如“事件”、“服务请求”或“问题”。很多时候,座席会忘记填入此字段,因此,报告完成后很难分析其中的数据。现在,您可以使用 SageMaker Canvas 创建自定义文本分类模型,利用现有的客户支持请求信息和请求类型对其进行训练,并在处理缺失数据的报告时使用它来预测请求的类型。
您还可以使用 SageMaker Canvas 通过自己的图像数据集创建自定义图像分类模型。例如,假设您在一家生产智能手机的公司担任业务分析师。作为工作职责的一部分,您需要准备报告并回答业务利益相关者提出的与质量评测及其趋势有关的问题。每次组装手机时,系统都会自动拍摄一张照片,而在周末,您会收到所有这些照片。现在,使用 SageMaker Canvas,您可以创建新的自定义图像分类模型,该模型经过训练,可以识别常见的制造缺陷。然后,每周都可以使用该模型来分析图像并预测所生产手机的质量。
SageMaker Canvas 实际应用
假设您是一家电子商务公司的业务分析师。您的任务是了解客户对本季所有新产品持有的看法。您的利益相关者需要一份按商品类别汇总结果的报告,以决定他们应该在接下来的几个月中购买哪些库存。例如,他们想知道新家具产品是否收到正面的情绪。您收到了一张包含新产品评论的电子表格,以及对电子商务平台上的所有产品进行分类的过时文件。但是,此文件尚未包含新产品。
要解决此问题,您可以使用 SageMaker Canvas。首先,您需要使用即用型情绪分析模型来了解每条评论中包含的情绪,将其分为正面、负面或中立。然后,您将需要创建自定义文本分类模型,该模型根据现有产品预测新产品的类别。
即用型模型 – 情绪分析
要快速了解每条评论包含的情绪,您可以批量更新产品评论并生成包含所有情绪预测的文件。
首先,在即用型模型页面上找到情绪分析,然后在批量预测下选择导入新数据集。
创建新数据集时,您可以从本地计算机上传数据集或使用 Amazon Simple Storage Service(Amazon S3)。在本演示中,您将在本地上传文件。您可以在 Amazon 客户评论数据集中找到本示例中使用的所有产品评论。
上传完文件并创建数据集后,您可以生成预测。
生成预测所需的时间少于一分钟,具体取决于数据集的大小,然后您可以查看或下载结果。
该预测的结果可以作为 .csv
文件下载,也可以从 SageMaker Canvas 界面查看。可以看到每条产品评论包含的情绪。
现在您已经准备好任务的第一部分 — 您拥有一个 .csv
文件,其中有每条评论包含的情绪。下一步是将这些产品分为多个类别。
自定义文本分类模型
要根据产品标题对新产品进行分类,您需要在 SageMaker Canvas 中训练新的文本分类模型。
在 SageMaker Canvas 中,创建类型为文本分析的新模型。
创建模型的第一步是选择用于训练模型的数据集。您将使用上一季度的数据集训练此模型,该数据集包含除新系列之外的所有产品。
数据集导入完成后,您需要选择包含所需预测数据的列(在本例中为 product_category 列),以及将用作模型输入以进行预测的列,即 product_title 列。
完成配置后,就可以开始构建模型。有两种构建模式:
- 快速构建,可在 15-30 分钟内返回模型。
- 标准构建,需要 2-5 小时才能完成。
要了解有关构建模式之间差异的更多信息,可以查看文档。在本演示中,请选择快速构建,因为我们的数据集少于 50,000 行。
构建模型时,您可以分析模型的性能。SageMaker Canvas 使用 80-20 方法;它使用来自数据集的 80% 的数据训练模型,并使用 20% 的数据来验证模型。
模型构建完成后,您可以查看模型评分。评分部分可让您直观地了解每个类别的预测有多准确。您可以在文档中了解有关如何评估模型性能的更多信息。
在确保模型具有较高的预测率之后,您可以继续生成预测。此步骤类似于用于情绪分析的即用型模型。您可以对单个产品或一组产品进行预测。对于批量预测,您需要选择一个数据集并让模型生成预测。在本示例中,您将选择在即用型模型中选定的数据集,即带有评论的数据集。这可能需要几分钟,具体取决于数据集中的产品数量。
预测准备就绪后,您可以将结果下载为 .csv
文件或查看每种产品的分类方式。在预测结果中,根据模型构建过程中提供的类别,仅为每个产品分配一个类别。
现在,您拥有所有必要的资源,可以根据客户评论对新系列进行分析和评估每个产品类别的销售业绩。使用 SageMaker Canvas,您无需编写任何代码即可访问即用型模型并创建自定义文本分类模型。
现已推出
所有推出 SageMaker Canvas 的 AWS 区域均提供即用型模型以及对 SageMaker Canvas 中自定义文本和图像分类模型的支持。您可以访问 SageMaker Canvas 产品详细信息页面,详细了解这些新功能及其定价方式。
– Marcia