Amazon SageMaker 数据标注

创建用于训练机器学习模型的高质量数据集

Amazon SageMaker 提供两种数据标注产品,Amazon SageMaker Ground Truth Plus 和 Amazon SageMaker Ground Truth。这两个选项都允许您识别原始数据,例如图像、文本文件和视频,并添加信息标签来为您的机器学习模型创建高质量的训练数据集。

Amazon SageMaker Ground Truth Plus

使用 SageMaker Ground Truth Plus,您可以轻松创建高质量的训练数据集,无需构建标注的应用程序或自行管理标注人力资源。Amazon SageMaker Ground Truth Plus 可帮助将数据标注成本降低多达 40%。Amazon SageMaker Ground Truth Plus 拥有针对机器学习任务进行过培训的专家团队,可以帮助满足您的数据安全、隐私与合规要求。您只需上传您的数据,然后 Amazon SageMaker Ground Truth Plus 会以您的名义创建数据标注工作流并管理这些工作流。

Amazon SageMaker Ground Truth

如果想要灵活地构建与管理您的数据标注工作流并管理您自己的数据标注人力资源,您可以使用 Amazon SageMaker Ground Truth。SageMaker Ground Truth 是一项数据标注服务,可简化数据标注并通过 Amazon Mechanical Turk、第三方供应商或您自己的专门团队选择使用人工注释人员。

工作原理

  • 使用 SageMaker Ground Truth Plus 进行数据标注
  • 使用 SageMaker Ground Truth 进行数据标注
  • 功能比较
  • 使用 SageMaker Ground Truth Plus 进行数据标注
  • Amazon SageMaker Ground Truth Plus 可帮助您创建高质量的训练数据集,无需构建标注应用程序或管理标注人力资源。

    Amazon SageMaker Ground Truth Plus 工作原理
  • 使用 SageMaker Ground Truth 进行数据标注
  • Amazon SageMaker Ground Truth 可帮助您构建与管理您自己的数据标注工作流和数据标注人力资源。

    Amazon SageMaker Ground Truth 工作原理
  • 功能比较
  • 类别 Amazon SageMaker Ground Truth Amazon SageMaker Ground Truth Plus
    数据标注工作流 适用于文本、图像、视频和 3D 点云的自定义或超过 30 个内置工作流。您要管理您的数据标注工作流和数据标注质量 AWS 专家会设置工作流,并以您的名义按照您的质量和周转时间要求对工作流进行管理。
    用户 数据科学家和机器学习工程师 数据科学家、机器学习工程师、数据操作经理和项目经理
    人力 您的选项:第三方供应商、Amazon Mechanical Turk 或您自己的专门团队 可帮助您满足数据安全、隐私与合规要求的专家团队 
    机器学习标注技术  主动学习  主动学习、预标注和机器验证 

优点

改善训练数据集的质量

Amazon SageMaker 数据标注服务所提供的机器学习标注技术可减少人为错误,并帮助改善训练数据集的质量。Amazon SageMaker Ground Truth Plus 采用多步骤标注工作流,其中包括用于预标注的机器学习模型、可检测错误和低质量标签的人工标注机器验证,以及辅助标注功能(如 3D 立方体捕捉、视频标注中的 predict-next 和自动分段工具)。如果您要管理自己的数据标注工作流,SageMaker Ground Truth 提供自动标注功能,如自动分段、自动 3D 立方体捕捉,以及传感器和 2D 视频帧融合。  此外,SageMaker Ground Truth 还提供采用主动学习的自动数据标注,它只会在模型不确定如何标注时将标注的数据路由给注释人员。

选择您的数据标注人力资源

借助 Amazon SageMaker 数据标注服务,您可以选择您的数据标注人力资源。而选择 SageMaker Ground Truth Plus,一支针对机器学习任务进行过培训的专家团队将会根据您的质量和周转时间要求标注您的数据。借助 SageMaker Ground Truth,您可以选择与企业内外的标记员合作。您可以轻松地为自己的标记员发送标注任务,还可以接触到超过 500,000 名独立承包商的队伍,这些承包商已在通过 Amazon Mechanical Turk 执行机器学习相关任务。如果您的数据需要保密或特殊技能,您可以使用经过 AWS 预先筛选的供应商来执行质量和安全程序。

提高数据标注操作的可见性

Amazon SageMaker 数据标注服务让您可以获得关于数据标注操作和质量管理的透明度,因此您可以验证您的质量要求是否得到满足。SageMaker Ground Truth Plus 提供交互式控制面板和用户界面,所以您可以跨多个项目监控训练数据集的进度,跟踪项目指标,如每日吞吐量,检查标注的质量,并提供关于标注数据的反馈。

快速获取高质量标注数据

借助 Amazon SageMaker 数据标注服务,您可以快速获取高质量标注数据。而使用 SageMaker Ground Truth Plus,您只需在 Amazon S3 中上传您的数据以及安全、隐私与合规要求。然后,AWS 专家将设置数据标注工作流,而专家团队将完成您的标注任务。

开始使用 Amazon SageMaker Ground Truth Plus