产品
类别 | Amazon SageMaker Ground Truth | Amazon SageMaker Ground Truth Plus |
数据标注工作流 | 适用于文本、图像、视频和 3D 点云的自定义或超过 30 个内置工作流。您要管理您的数据标注工作流和数据标注质量 | 适用于文本、图像、视频和 3D 点云的自定义或超过 30 个内置工作流。AWS 管理您的数据标注工作流和数据标注质量 |
用户 | 数据科学家和机器学习工程师 | 数据科学家、机器学习工程师、数据操作经理和项目经理 |
人力 | 您的选项:第三方供应商、Amazon Mechanical Turk 或您自己的专门团队 | 可帮助您满足数据安全、隐私与合规要求的专家团队 |
机器学习标注技术 | 主动学习 | 主动学习、预标注和机器验证 |
合成数据生成 | 支持 | 支持 |
生成式人工智能
生成高质量的数据集,以针对特定任务微调您自己的根基模型
Amazon SageMaker Ground Truth Plus 提供标注界面、标注工作流程和熟练的数据注释者,他们可以创建自定义根基模型所需的高质量数据集。数据注释者可以完成各种任务,例如编写问题和答案对、生成文本、汇总文本、修改文本以及为图像和视频提供字幕,以便模型可以从这些示例中学习。
- 问题和答案:通过问题和答案组合,您可以准备演示数据集,教导您的大型语言模型如何回答问题。

- 图像说明:使用图像说明,您可以准备数据集,详细描述图像中的场景和对象,以便训练文本到图像模型,使它们可以创建与您的意图相一致的、准确而富有创意的图像。它还可用于训练图像到文本模型,以准确描述图像场景。

- 视频说明:使用视频说明,您可以准备数据集,详细描述视频的动作和场景,以便训练文本到视频模型,从而创建与您的意图相一致的、准确而富有创意的视频。它还可以用于训练视频到文本的模型,以便对视频进行准确的描述。

使用高质量的人工反馈,使大型语言模型(LLM)与人类偏好保持一致
人工反馈对于确保 LLM 生成符合人类偏好的内容至关重要,也就是说,内容对用户完成任务有用、准确且无害。Amazon SageMaker Ground Truth Plus 使数据注释者能够对模型输出进行审查、排名和分类,并使用这些数据来训练模型以减少有害、充满错误或不相关的内容。例如,注释者可能会对聊天机器人生成的多个回复进行排名,并根据事实准确性、相关性和写作清晰度对其进行标注。

使用公司或行业特定数据自定义现有根基模型
Amazon SageMaker Ground Truth Plus 允许客户使用公司特定数据(例如文档和消息)或行业特定数据,根据其应用场景和质量要求自定义现有的根基模型。
快速设置生成式人工智能的数据注释任务
客户只需提供自定义根基模型的时间表和数据标注要求的简短描述,Amazon SageMaker Ground Truth Plus 会自动代表客户设置工作流程、标注界面和高技能员工。立即开始使用。
Amazon SageMaker Ground Truth Plus
专家团队
借助 Amazon SageMaker Ground Truth Plus,针对机器学习 (ML) 任务进行过培训的专家团队会完成标注工作,并且可以帮助满足您的数据安全、隐私与合规要求。例如,如果需要擅长标注音频文件的人员,您可以在提供给 SageMaker Ground Truth Plus 的指南中指定此项要求,该服务将自动选择具有这些技能的标注人员。
端到端数据标注管理
使用 Amazon SageMaker Ground Truth Plus,您可以轻松创建高质量的训练数据集,无需构建标注的应用程序或自行管理标注人力资源。您可以在 Amazon S3 中上传数据和标注要求。在上传数据以后,SageMaker Ground Truth Plus 会负责设置数据标注工作流,并以您的名义进行操作。
机器学习标注技术
Amazon SageMaker Ground Truth Plus 采用机器学习技术,包括主动学习、预标注,以及可提高输出数据集质量,降低数据标注成本的机器验证。多步骤标注工作流包括可进行主动学习的机器学习模型,它允许 Ground Truth Plus 通过选择需要标注的对象(可以是图像、音频录音、文本段,等等)来降低成本,而且使机器学习模型可以对选定的数据进行预标注,以减少人力投入。Ground Truth Plus 使用机器验证识别并发送可能的错误,以便进行额外一轮人工审核。此功能通过发现人为错误来大幅提高标签的质量。此外,Ground Truth Plus 还通过直观的用户界面使用辅助标注功能,如“自动 3D 立方体捕捉”、“视频标注中的 predict-next”和“自动分段”,以缩短数据标注任务所需的时间,同时提高质量。
交互式控制面板
SageMaker Ground Truth Plus 提高交互式控制面板和用户界面,所以您可以跨多个项目监控训练数据集的进度,跟踪项目指标,如每日吞吐量,检查标注的质量,并提供关于标注数据的反馈。
Amazon SageMaker Ground Truth
3D 点云
三维 (3D) 点云最常使用光探测和测距 (LIDAR) 设备进行捕获,以便在单一时间点生成对物理空间的 3D 解读。SageMaker Ground Truth 支持对 3D 点云数据使用内置的标记工作流,包括对象检测、对象跟踪和语义分割。
对象检测
使用对象检测工作流,您可以识别和标记 3D 点云中您感兴趣的对象。例如,在自动驾驶车辆使用案例中,您可以准确地标记车辆、车道和行人。

对象跟踪
使用对象跟踪工作流,您可以跟踪您感兴趣的对象的轨迹。例如,自动驾驶车辆需要跟踪其他车辆、车道和行人的运动。Ground Truth 允许您通过一系列 3D 点云数据跟踪这些对象的轨迹。

语义分割
使用语义分割工作流,您可以将 3D 点云的各个点分割为预先指定的类别。例如,对于自动驾驶车辆,Ground Truth 可以对存在的街道、植物和建筑进行分类。

视频
SageMaker Ground Truth 支持采用内置工作流的常见视频标记使用案例,包括视频对象检测、视频对象跟踪和视频片段分类等。
视频对象检测
借助于视频对象检测工作流,您可以在视频帧序列中识别感兴趣的对象。 例如,在为自动驾驶汽车构建感知系统时,您可以检测汽车周边场景中的其他车辆。

视频对象跟踪
借助于视频对象跟踪工作流,您可以在视频帧序列中对感兴趣的对象进行跟踪。例如,在体育赛事使用案例中,您可以在比赛期间准确地标记运动选手。

视频片段分类
借助于视频片段分类工作流,您可以将某个视频文件分类到预先指定的类别。例如,您可以选择与视频内容最相符的预先指定的类别,如体育比赛,或繁忙十字路口的交通堵塞等。

图像
SageMaker Ground Truth 为图像数据提供内置的标记工作流,包括图像分类、对象检测和语义分割。
图像分类
图像分类是根据图像的真实世界表征来识别图像的过程,涉及到根据一组预定义的标签对图像进行分类。图像分类对于需要考虑整个图像环境的场景检测模型非常有用。例如,我们可为自动驾驶车辆构建一个图像分类模型,用来检测各种真实世界的对象,如其他车辆、行人、交通灯和标志牌。

对象检测
您可以使用对象检测工作流来识别和标记图像中您感兴趣的对象(如车辆、行人、狗和猫)。标记任务涉及到在图像中您感兴趣的对象周围绘制一个边界框,即二维 (2D) 框。从带有标记边界框的图像训练而来的计算机视觉模型会了解框内的像素对应特定对象。

语义分割
您可以使用语义分割工作流来具体标记图像中模型需要了解的对应部分。该工作流将提供高度精确的训练数据,因为每个像素都会被标记。例如,您可以使用语义分割工作流准确地捕捉图像中汽车的不规则形状。

文本
SageMaker Ground Truth 为文本数据提供内置的标记工作流,包括文本分类和命名实体识别。
文本分类
文本分类涉及到根据一组预定义的标签对文本字符串进行分类。自然语言处理 (NLP) 模型经常通过将文本分为不同的标签来识别主题(例如产品说明、影评)或情感等内容。

命名实体识别
命名实体 (NER) 涉及到筛选文本数据以找到被称为命名实体的短语,并使用标签对每个短语进行分类,例如“人”、“组织”或“品牌”。 因此,在声明“我最近订阅了 Amazon Prime”中,“Amazon Prime”是命名实体,可以归类为“品牌”。

自定义工作流
您可以在 Ground Truth 中创建自己的标记工作流。自定义工作流由三个组件构成:(1) UI 模板,为标记员提供完成标记任务所需的所有指令和工具;(2) 封装在 AWS Lambda 函数中的任何预处理逻辑;(3) 封装在 AWS Lambda 函数中的任何后处理逻辑。有大量 UI 模板供您选择,您也可以上传自己的 Javascript/HTML 模板。预处理 Lambda 函数可以提供要标记的数据,并为标记员添加任何额外的背景信息,而后处理 Lambda 函数可以用于插入精度改进算法。该算法可以评估标记员所做注释的质量,也可以在相同数据被提供给多个标记员时确定“正确的”统一标准。您可以使用 SageMaker Ground Truth 控制台上传所有这三个组件。

队伍
SageMaker Ground Truth 支持您选择以下队伍来标记数据:(1) 您自己的员工;(2) AWS Marketplace 上提供的第三方数据标记服务提供商;(3) Amazon Mechanical Turk 中的众包劳工。



合成数据生成
