Amazon SageMaker 数据标注
创建用于训练机器学习模型的高质量数据集
选择您的数据标注人力资源
提高数据标注操作的可见性
快速获取高质量标注数据
Amazon SageMaker 允许您识别原始数据,例如图像、文本文件和视频,并添加信息标记与生成标注合成数据来为您的机器学习(ML)模型创建高质量的训练数据集。SageMaker 提供两种选项,Amazon SageMaker Ground Truth Plus 和 Amazon SageMaker Ground Truth,它们让您可以灵活地运用专家团队以您的名义创建和管理数据标注工作流,或管理您自己的数据标注工作流。
Amazon SageMaker Ground Truth Plus
使用 SageMaker Ground Truth Plus,您可以创建高质量的训练数据集,无需构建标注的应用程序或自行管理标注人力资源。SageMaker Ground Truth Plus 可帮助将数据标注成本降低多达 40%。SageMaker Ground Truth Plus 拥有针对机器学习任务进行过培训的专家团队,可以帮助满足您的数据安全、隐私与合规要求。您要上传您的数据,然后 SageMaker Ground Truth Plus 会以您的名义创建和管理数据标注工作流以及人力资源。Amazon SageMaker Ground Truth
如果想要灵活地构建与管理您自己的数据标注工作流和人力资源,您可以使用 Amazon SageMaker Ground Truth。SageMaker Ground Truth 是一项数据标注服务,可简化数据标注并通过 Amazon Mechanical Turk、第三方供应商或您自己的专门团队选择使用人工标注人员。
您还可以生成标注合成数据,而无需手动收集或标注真实世界的数据。SageMaker Ground Truth 可以以您的名义生成数十万计自动标注的合成图像。
工作原理
-
使用 SageMaker Ground Truth Plus 进行数据标注
-
使用 SageMaker Ground Truth 进行数据标注
-
生成标注合成数据
-
功能比较
-
使用 SageMaker Ground Truth Plus 进行数据标注
-
Amazon SageMaker Ground Truth Plus 可帮助您创建高质量的训练数据集,无需构建标注应用程序或管理标注人力资源。
-
使用 SageMaker Ground Truth 进行数据标注
-
Amazon SageMaker Ground Truth 可帮助您构建与管理您自己的数据标注工作流和数据标注人力资源。
-
生成标注合成数据
-
Amazon SageMaker Ground Truth 帮助您生成标注合成数据。
-
功能比较
-
类别 Amazon SageMaker Ground Truth Amazon SageMaker Ground Truth Plus 数据标注工作流 适用于文本、图像、视频和 3D 点云的自定义或超过 30 个内置工作流。您要管理您的数据标注工作流和数据标注质量 适用于文本、图像、视频和 3D 点云的自定义或超过 30 个内置工作流。AWS 管理您的数据标注工作流和数据标注质量 用户 数据科学家和机器学习工程师 数据科学家、机器学习工程师、数据操作经理和项目经理 人力 您的选项:第三方供应商、Amazon Mechanical Turk 或您自己的专门团队 可帮助您满足数据安全、隐私与合规要求的专家团队 机器学习标注技术 主动学习 主动学习、预标注和机器验证 合成数据生成 支持 支持
优势
改善训练数据集的质量
Amazon SageMaker 数据标注服务所提供的机器学习标注技术可减少人为错误,包括合成数据生成,并帮助改善训练数据集的质量。Amazon SageMaker Ground Truth Plus 采用多步骤标注工作流,其中包括用于预标注的机器学习模型、可检测错误和低质量标签的人工标注机器验证,以及辅助标注功能(如 3D 立方体捕捉、视频标注中的 predict-next 和自动分段工具)。如果您要管理自己的数据标注工作流,SageMaker Ground Truth 提供自动标注功能,如自动分段、自动 3D 立方体捕捉,以及传感器和 2D 视频帧融合。此外,SageMaker Ground Truth 还提供采用主动学习的自动数据标注,它只会在模型不确定如何标注时将标注的数据路由给注释人员。
选择您的数据标注人力资源
Amazon SageMaker 数据标注服务为您提供两种数据标注选项。第一种是 SageMaker Ground Truth Plus,一支针对机器学习任务进行过培训的专家团队将会根据您的质量和周转时间要求标注您的数据。第二种是 SageMaker Ground Truth,您可以通过它构建与管理您的数据标注工作流。您可以选择与企业内外的标注人员合作。例如,您可以为自己的标注人员发送标注任务,还可以接触到超过 500,000 名独立承包商的队伍,这些承包商已在通过 Amazon Mechanical Turk 执行机器学习相关任务。如果您的数据需要保密或特殊技能,您可以使用经过 AWS 预先筛选的供应商来执行质量和安全程序。若您需要访问合成数据,以使您的 ML 模型训练数据集变得更完整,AWS 数字艺术家会使用客户提供的资产和图像,来生成以您的名义自动标注的合成数据。
提高数据标注操作的可见性
Amazon SageMaker 数据标注服务让您可以获得关于数据标注操作和质量管理的透明度,因此您可以验证您的质量要求是否得到满足。SageMaker Ground Truth Plus 提供交互式控制面板和用户界面,所以您可以跨多个项目监控训练数据集的进度,跟踪项目指标,如每日吞吐量,检查标注的质量,并提供关于标注数据的反馈。
快速获取高质量标注数据
借助 Amazon SageMaker 数据标注服务,您可以快速获取高质量标注数据。而使用 SageMaker Ground Truth Plus,您要在 Amazon S3 中上传您的数据以及安全、隐私与合规要求。然后,AWS 专家将设置数据标注工作流,而专家团队将完成您的标注任务。如果需要访问合成数据,您要指定您的图像要求或提供 3D 资产和基准图像,SageMaker Ground Truth 可以为您的 ML 模型训练生成高度准确的标注合成数据。