自动化数据标记

Amazon SageMaker Ground Truth 提供使用机器学习进行自动化数据标记的功能。SageMaker Ground Truth 首先将选择随机数据样本,并发送数据样本进行人工贴标。然后,结果用于训练标记模型,该模型尝试自动对新的原始数据样本进行标记。当模型可以使用满足或超过设置阈值的置信度分数标记数据时,将提交标签。当置信度分数低于阈值时,数据会发送至人工贴标机。人工标记的一些数据用于为标记模型生成新的训练数据集,且模型会自动保留以提升其准确性。使用待标记的各个原始数据样本,重复此过程。标记模型变得更能够在每次迭代时自动标记原始数据,并且传输给人工的数据减少。 

与标记专业人员灵活协作

Amazon SageMaker Ground Truth 在 SageMaker Ground Truth 控制台中直接支持多种人工标记选择。您可以使用自有贴标机团队来完成内部标记工作,特别是处理需要保留在组织内部的数据时。

如果您想要扩展大量贴标机,且您的数据不包含机密或个人身份信息,您可以使用在 Amazon Mechanical Turk 支持下全球超过 500,000 名独立承包商所提供的按需 24x7 人工服务。Mechanical Turk 是一个众包工作市场,可将您的标记工作与实际上可执行这些任务的分散人力联系起来。

或者,您也可以使用专注于数据标记的第三方供应商。这些供应商经过 Amazon 筛选,可提供高质量标签并遵循安全流程。这些供应商的标记服务通过 AWS Marketplace 提供。将提供包含定价和客户评价在内的所有相关详细信息,帮助您选择最适合自己需求的供应商。

人工标记简单说明

通过 Amazon SageMaker Ground Truth,您可以向人工贴标机提供标记指南,以帮助确保一致性。可从贴标机的标记界面上获得这些详细说明。这些说明包含良好和不良标记的可视示例,可帮助贴标机生产高质量和准确的标签。您可以随时更新这些说明,当您看到一些贴标机出错时可以向任务轻松添加更多详细信息,或者根据需求变化调整说明。示例说明如下所示。 

SamurAI Instructions for Bounding Box

请使用工作流程来简化标记任务

Amazon SageMaker Ground Truth 提供内置标记工作流程,可指导人工贴标机按步骤完成任务,并提供工具来帮助其达到良好的结果。内置工作流程目前适用于对象检测、图像分类、文本分类和语义分割标记工作。 

除了内置工作流程,SageMaker Ground Truth 还允许您上传自定义工作流程。自定义工作流程包含 HTML 界面和准确性改进算法,两者均由您自行提供。HTML 界面将为人工贴标机提供完成标记任务所需的所有说明和工具。准确性改进算法可告知 SageMaker Ground Truth 应如何评估人工所提供标签的质量的函数。该算法用于在向多个人工贴标机提供同样的数据时找到正确的部分,并识别和削弱可能会提供低质量数据的贴标机。您应使用 SageMaker Ground Truth 控制台同时上传 HTML 界面和准确性改进算法。 

对象检测

您可以使用边界框工作流程来识别和标记图像对象。边界框是在一个或多个图像元素周围绘制的两维框。从标记边界框的图像训练而来的计算机视觉模型会了解框内的像素对应特定标签。这是快速且经济实惠的图像标记方法。但是,由于框经常包含与标签主题不相关的像素,可能需要在模型达到较高准确性之前而训练大量数据。

下图显示了边界框界面,其中包含可用于识别特定图像中所有狗的示例任务。该界面可使您明确指定良好和不良边界框示例,帮助保持较高准确性。该界面还提供了完整的标记说明链接,以及可用于创建边界框的简单而清晰的 UI。 

Bounding box

图像分类

图像分类指的是根据预定义标签集来分类图像。该任务与对象检测不同,因为将标记整个图像,而不是图像内的单个元素。图像分类对于需要考虑整个图像场景的场景检测模型非常有用。例如,在下图中,要求贴标机识别指定图像中在开展哪项运动。 

Image classification

文本分类

文本分类指的是根据预定义标签集来分类文本字符串。自然语言处理 (NLP) 模型经常通过将文本分为不同的标签来识别主题(例如产品说明、影评)、实体(例如名称、地点、日期)和情感等内容。 

Text classification

语义分割

对于高级图像标记,您可以使用语义分割来具体标记图像中模型需要了解的对应部分。与边界框相比,语义分割需要更多的时间和更高的技能。但是,它只会标记与主题相关的像素,从而提供非常清楚的训练数据。例如,通过语义分割可以准确捕获图像中的不规则车辆形状,而边界框必然会包含与车辆不相关的元素,因为框必须包含四个直边。

Semantic Segmentation

无缝集成 Amazon SageMaker

使用 SageMaker Ground Truth 创建的训练数据集可以轻松导入 Amazon SageMaker 用于模型开发和训练。 

Amazon SageMaker 提供了快速标记您的训练数据所需的所有内容,因此您可以轻松构建机器学习模型并为训练做好准备,以及为应用程序选择和优化最佳算法和框架。Amazon SageMaker 包含托管的 Jupyter 笔记本,您可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。您可以直接连接到 S3 中的数据,或者使用 AWS Glue 将数据从 Amazon RDS、Amazon DynamoDB 和 Amazon Redshift 移动到 S3 以在笔记本中进行分析。

为了帮助您选择算法,Amazon SageMaker 包含最常用的机器学习算法,这些算法已预装好并经过优化,与在任何其他地方运行些算法相比,最多可以将性能提高 10 倍。此外,Amazon SageMaker 还经过预配置,能在 Docker 容器中运行 TensorFlow、Apache MXNet、PyTorch 和 Chainer。您还可以将这些开源容器下载到本地环境中,然后在使用 Amazon SageMaker 在生产环境中训练或托管模型前,使用 Amazon SageMaker Python 开发工具包以本地模式测试脚本。您也可以选择使用自己的框架。

只需单击一下,您就可以在 Amazon SageMaker 控制台中开始训练您的模型。Amazon SageMaker 为您管理所有底层基础架构,并且可以轻松以 PB 级扩展以训练模型。为了使训练过程更快更轻松,Amazon SageMaker 可以自动调整您的模型以达到最高的精度。

当模型经过训练和调整后,Amazon SageMaker 可以轻松在生产环境中进行部署,以便您可以开始针对实时或批量数据生成预测(该过程称为推理)。Amazon SageMaker 在跨多个可用区的 Amazon SageMaker ML 实例的自动扩展集群上部署您的模型,以实现高性能和高可用性。Amazon SageMaker 还包含内置的 A/B 测试功能,以帮助您测试模型并试验不同的版本以获得最佳效果。

Amazon SageMaker 承担了机器学习的繁重工作,因此,您可以快速轻松地构建、训练和部署机器学习模型。

Product-Page_Standard-Icons_01_Product-Features_SqInk
了解有关 Amazon SageMaker Ground Truth 定价的更多信息

无需预付承诺或长期合同即可开始使用 Amazon SageMaker Ground Truth。有关更多详细信息,请查看 Amazon SageMaker Ground Truth 定价页面

Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

使用 Amazon SageMaker Ground Truth 开始在 AWS 管理控制台中构建。

登录