亚马逊AWS官方博客

宣布推出 Amazon SageMaker Ground Truth Plus

我们很高兴地宣布 Amazon SageMaker 套件推出最新服务,这些服务将使标注数据集变得前所未有的容易。Ground Truth Plus 是一项交钥匙服务,它通过专家级员工快速交付高质量的训练数据集,并将成本降低多达 40%。

机器学习模型创建的挑战
构建和训练机器学习 (ML) 模型的最大挑战之一是大规模采集足够的高质量标注数据来输入和训练这些模型,以便它们能够做出准确的预测。

从表面上看,标注数据似乎是一项相当简单的任务……

  • 步骤 1:获取数据
  • 步骤 2:贴标签

……但这与现实相去甚远。

甚至在让标注人员开始添加注释之前,您就需要一个特定于项目的自定义标注工作流程和用户界面,以便获得高质量的数据集。这依赖于强大的工具和熟练的员工的组合,而且花费的精力可能是巨大的。

一旦构建了数据标注工作流程和用户界面,就必须组织和培训使用这些系统的员工 — 而这一切都需要在标注单个数据点之前完成!

最后,一旦建立了标注系统、设计了工作流程并培训和部署了员工,就必须监控和检查通过该系统传递数据的流程,以确保一致、高质量的输出。在系统传递并标注了足够多的数据之后,您就到达了您一直试图达到的目标:最终拥有足够的数据来训练 ML 模型。

其中每一步都需要投入巨大的时间、成本和精力。您可以将这些资源用于构建 ML 模型,而不是标注和管理数据,而使用 Ground Truth Plus 就可以帮助您腾出时间来做到这一点。

推出 Amazon SageMaker Ground Truth Plus
Amazon SageMaker Ground Truth Plus 使您能够轻松创建高质量的训练数据集,而无需自行构建标注应用程序并管理标注员工。这意味着您甚至不需要拥有深厚的 ML 专业知识或工作流设计和质量管理方面的广泛知识。您只需提供数据和标注要求,Ground Truth Plus 会根据您的要求设置数据标注工作流程并代表您管理它们。

例如,如果您需要医学专家来标注放射影像,则可以在提供给 Ground Truth Plus 的指南中指明该要求。这样,该服务就会自动选择受过放射学培训的标注人员来标注您的数据,然后,经过各种机器学习任务培训的专家级员工将开始标注数据。Ground Truth Plus 将 ML 驱动的自动化引入了数据标注,从而提高了输出数据集的质量并降低了数据标注成本。

Amazon SageMaker Ground Truth Plus 使用多步骤标注工作流程,包括用于主动学习、预标注和机器验证的 ML 技术。这减少了为各种使用案例(包括计算机视觉和自然语言处理)标注数据集所需的时间。最后,Ground Truth Plus 通过交互式控制面板和用户界面,让数据标注操作和质量管理变得透明。这使您可以监控跨多个项目的训练数据集的进度、跟踪项目指标(例如每日吞吐量)、检查标签的质量并提供对已标注数据的反馈。

它的工作原理是什么?
显示请求表的 SageMaker Ground Truth Plus 屏幕截图首先,让我们前往新的 Ground Truth Plus 控制台并填写一份表格,其中概述了数据标注项目的要求。之后,我们的 AWS 专家团队将安排一次电话会议,讨论您的数据标注项目。

电话会议结束后,您只需在 Amazon Simple Storage Service (Amazon S3) 存桶中上载数据以供标注。

上载数据后,我们的专家将根据您的要求设置数据标注工作流程,并组建一支具备有效标注数据所需专业知识的标注人员团队。这有助于确保通过最优秀的人员来处理您的项目。

这些专家级标注人员将使用我们构建的 Ground Truth Plus 工具来快速有效地标注这些数据集。

最初,标注人员会为您上载的数据添加注释,就像我们从 CBCL StreetScenes 数据集上载的以下示例图像一样。但是,随着标注人员开始提交标注数据的示例,一件很酷的事情发生了:我们的 ML 系统启动并开始代表专家级员工对图像进行预标注!

用于演示 Amazon SageMaker Ground Truth Plus 功能的原始数据集示例

随着专家级员工标注的数据越来越多,ML 模型在预先标注这些图像方面变得更加出色。这意味着人类不需要再花费大量的时间为数据集中的每个感兴趣的对象创建每个单独的标签。在标注上花费的时间更少意味着您的成本更低,也意味着创建可用于训练模型的数据集的周转速度更快 — 所有这些都不会影响质量。

显示其中一个 SageMaker Ground Truth Plus 标注界面的屏幕截图

随着该流程的继续,这些 ML 模型也将开始突出显示通过机器验证发现的标注人员可能遗漏或错误标注的潜在相关区域(如下紫色框所示)。突出显示相关区域后,标注人员可以查看并确认或删除模型提出的建议。这样可以迭代地改进预标注和机器验证阶段,进一步减少标注人员手动标注数据所需的时间,并确保在整个流程中保持高质量输出。

显示在我的 SageMaker Ground Truth Plus 机器学习模型中归档的其中一个标注界面的屏幕截图

在进行所有这些工作的过程中,您可以使用 Ground Truth Plus 项目门户监控项目的进度和输出。在此门户中,您可以每天跟踪标注的数据量,并确保项目以可接受的速度进行。

显示使用户能够在 SageMaker Ground Truth Plus 中跟踪其标注任务进度的指标控制面板的屏幕截图

上载并标注每批图像后,您可以决定在遗漏某些内容时是接受它们还是将它们发回以便重新标注。

最后,标注流程完成后,您可以从安全的 S3 存储桶中检索已标注的数据,然后开始训练模型的工作。

了解更多
Amazon SageMaker Ground Truth Plus 现已在弗吉尼亚北部 (us-east-1) 区域推出。

了解详情: