Amazon SageMaker Ground Truth

使用机器学习构建高准确度的培训数据集,最多可节省 70% 的数据标记成本

Amazon SageMaker Ground Truth 可帮助您快速构建用于机器学习的高准确度培训数据集。SageMaker Ground Truth 可轻松访问公有和私有人工标识器,并为它们提供常见标记任务的内置工作流和界面。此外,SageMaker Ground Truth 通过使用自动标记功能,最多可降低 70% 的标记成本。自动标记的工作原理如下:根据人工标记的数据培训 Ground Truth,从而使服务学会独立标记数据。

成功的机器学习模型建立在大量的高质量培训数据的基础之上。但是,创建构建这些模型所需的培训数据的过程通常十分昂贵、复杂和耗时。今天创建的大多数模型都需要人工以手动方式标记数据,从而使模型学习如何做出正确决策。例如,构建一个足够可靠的计算机视觉系统来识别物体(例如交通信号灯、停车标志和行人)需要数千小时的视频录像,其中包括数亿个视频帧。在您要开发的模型上开始任何工作之前,需要一一人工标记这些帧的所有重要元素,比如道路、其他汽车和标牌。

Amazon SageMaker Ground Truth 大大减少了为培训创建数据集所需的时间和精力,从而降低了成本。这些节省都是通过使用机器学习自动标记数据来实现的。通过不断学习人工标识器创建的标签,随着时间的推移,该模型将能够逐渐变得越来越好。

如果标记模型基于其迄今所学的内容认为其结果的置信度较高,则它将自动将标签应用于原始数据。如果标记模型认为其结果置信度较低,它会将数据传递给人工标识器进行标记。人工生成的标签将提供回标记模型,供其进行学习和改进。随着时间的推移,SageMaker Ground Truth 可以自动标记越来越多的数据,并大大加快创建培训数据集的速度。 

优势

最多可节省 70% 的数据标记成本

SageMaker Ground Truth 使用机器学习模型自动标记原始数据,以快速生成高质量的培训数据集,而成本只是手动标记的一小部分。只有在主动学习模型无法自信地标记数据时,数据才会被路由到人工标识器。然后再使用人工标记的数据来培训模型以改进其能力。然后,在下一轮标记中发送给人工标识器的数据将减少,从而降低您的成本。 

使用公有和私有人工标识器

您可以选择使用自己的标识器队伍,将标记请求直接发送给它们。或者,如果您需要扩展,则可以直接选择 Amazon SageMaker Ground Truth 控制台中提供的选项,使用组织外部的标识器。您可以通过与 Amazon Mechanical Turk 集成,获得超过 500000 台标识器的公共劳动力。或者,如果您的数据需要保密或特殊技能,您可以使用 Amazon 预先筛选的专业标记公司。

快速获得准确结果

Amazon SageMaker Ground Truth 可帮助快速构建高质量和高准确度的培训数据集。机器生成的标签可以为每个标签提供一致的结果和置信度评分,以便您能够轻松了解服务对于标签的正确定有多确定。人工标记的结果会根据您提供的标准获得自动评分,以帮助确保向高质量标识器发送更多数据,同时减少使用低质量标识器。

工作原理

Product-Page-Diagram_SamurAI_How-it-works-2
Product-Page_Standard-Icons_01_Product-Features_SqInk
查看 Amazon SageMaker Ground Truth 功能

请参阅文档,了解 Amazon SageMaker Ground Truth 如何帮助您构建具有最高准确度的高质量培训数据集,同时最多可节省 70% 的数据标记成本。

Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

开始使用 Amazon SageMaker Ground Truth 在 AWS 管理控制台中构建。

登录