Amazon SageMaker Ground Truth Plus

一般性问题

问:什么是 Amazon SageMaker Ground Truth Plus?

答:使用 Amazon SageMaker Ground Truth Plus,您可以轻松创建高质量的训练数据集,无需构建标注的应用程序或自行管理标注人力资源。一旦您提供数据和标注要求,SageMaker Ground Truth Plus 会根据您的要求设置数据标注工作流并以您的名义对其进行管理。在那里,受过各种机器学习 (ML) 任务培训的专家团队会进行数据标注。Ground Truth Plus 使用机器学习技术,包括主动学习、预标注和机器验证。这样可以提高输出数据集的质量,并降低了数据标注成本。Ground Truth Plus 提供对数据标注运营和质量管理的透明度。您可以借此跨多个项目查看训练数据集的进度,跟踪项目指标,如每日吞吐量,检查标注的质量,并提供关于标签数据的反馈。Ground Truth Plus 可以用于多个使用案例,包括计算机视觉、自然语言处理和语音识别。

问:我为何应该使用 Amazon SageMaker Ground Truth Plus?

答:要训练机器学习 (ML) 模型,数据科学家需要大型、高质量且标注的数据库。随着机器学习采用的增长,标注需求也在增加。这迫使数据科学家花费数周时间来构建数据标注工作流和管理数据标注人力队伍。遗憾的是,这样会导致延迟革新的步伐,同时也增加了成本。为了确保数据科学家能够花时间构建、培训和部署机器学习(ML)模型,数据科学家通常会让其他由数据运营经理和项目经理组成的内部团队制作高质量的培训数据集。然而,这些团队通常无法获得交付高质量训练数据集所需的技能,这影响了机器学习结果。

Amazon SageMaker Ground Truth Plus 通过消除与构建数据标注应用程序和管理标注人力相关的无差别繁重工作,使数据科学家以及业务经理(如数据操作经理和项目经理)能够轻松创建高质量的培训数据集。您所做的只是共享数据以及标注要求,而 Ground Truth Plus 会根据这些要求设置和管理您的数据标注工作流。在那里,受过各种机器学习(ML)任务训练的专家团队执行数据标注。您无需具备高深的机器学习专家级能力或工作流设计和质量管理的知识就能使用 Ground Truth Plus。

问:我如何开始使用 Amazon SageMaker Ground Truth Plus?

答:要开始使用 Amazon SageMaker Ground Truth Plus,请先填写项目要求表。我们的团队将联系您讨论您的数据标注项目。

问:Amazon SageMaker Ground Truth Plus 如何帮助我管理我的训练数据集?

答:Amazon SageMaker Ground Truth Plus 提高了对数据标注操作和质量管理的透明度。例如,SageMaker Ground Truth Plus 提供项目视图,您可以用它来监控跨不同项目的数据集训练进度。此外,实时指标控制面板允许您追踪详细的项目指标,包括每日吞吐量等。SageMaker Ground Truth Plus 还提供用户界面以允许您检查标签的质量,并提供实时反馈。最后,通过串流模式,您可以针对特定工作负载类型实现同一天或同一小时周转。

问:Amazon SageMaker Ground Truth Plus 如何帮助提升我的培训数据集的准确性?

Ground Truth Plus 采用多种技术来提高训练数据集的准确性:

  • 机器学习技术:Ground Truth Plus 采用机器学习技术,包括主动学习、预标注,以及可提高输出数据集质量,降低数据标注成本的机器验证。多步骤标注工作流包括可进行主动学习的机器学习模型,它允许 Ground Truth Plus 通过选择需要标注的项目来降低成本,而且使机器学习模型可以对选定的数据进行预标注,以减少人力投入。Ground Truth Plus 使用机器验证识别并发送可能的错误,以便进行额外一轮人工审核。此功能通过发现人为错误来大幅提高标签的质量。
  • 直观的标注界面:Ground Truth Plus 采用辅助标注功能,如 (1) 捕捉,来捕捉有缺陷的 3D 立方体以紧密覆盖外围对象。(2) 自动分段,只需通过四次极值点点击即可完成对象蒙版。

数据隐私

问:Amazon SageMaker Ground Truth Plus 如何帮助保护我的数据的安全?

答:默认情况下,Amazon SageMaker Ground Truth Plus 会对存储于 Amazon S3 存储桶中的静态和传输中数据进行加密。另外,它会使用 AWS Identity and Access Management (IAM) 控制对您的数据的访问。您的数据被存储在独立的 AWS 账户当中,而且它还会为您的项目创建 Amazon S3 存储桶。Amazon SageMaker Ground Truth Plus 不会在为您创建的 AWS 环境外存储或复制您的数据。AWS 会使用 Amazon S3 访问日志记录和 AWS CloudTrail 记录并审计对您的数据的全部访问。

问:谁有权访问 Amazon SageMaker Ground Truth Plus 处理和存储的内容?

答:经过授权的 AWS 员工和负责标注您的数据的专家团队可以访问由 Amazon SageMaker Ground Truth Plus 处理的内容。标注您的数据的专家团队将通过安全的 SageMaker Ground Truth 工作人员门户查看并标注您的数据。通过工作人员门户进行访问使他们仅可以查看与标注数据,而不能修改或删除您的数据。您的信任、隐私和安全是我们的头等大事。我们实施适当的技术和物理控制措施,包括静态和在传输中加密,旨在防止发生对您的内容的未授权访问或披露。

问:经 Amazon SageMaker Ground Truth Plus 处理的数据(图像、文本文件、视频等)输入是否会被保存,AWS 会如何使用它们?

答:Amazon SageMaker Ground Truth Plus 只会在您的项目持续时间内存储原始和处理过的内容,并且会根据要求删除与您的数据标注项目相关的内容。 Amazon SageMaker Ground Truth Plus 仅将您的内容用于提供与维护服务。 Amazon SageMaker Ground Truth Plus 永远不会使用您的内容或以此类内容进行训练的任何模型来为其他客户谋取利益。

问:经 Amazon SageMaker Ground Truth Plus 处理的内容会被移动到我在使用 Amazon SageMaker Ground Truth Plus 时所在 AWS 区域以外的地方吗?

答:经 Amazon SageMaker Ground Truth Plus 处理的任何内容都会被加密并被静态存储于您在使用 Amazon SageMaker Ground Truth Plus 时所在的 AWS 区域。除非在工作陈述中,您通过双方商定的任何数据本地化要求中有另外说明,否则从您的内容存储的 AWS 区域外部可以访问您的内容,以便提供标注服务。

问:我可以请求删除 Amazon SageMaker Ground Truth Plus 存储的数据(图像、文本文件、视频等)吗?

答:可以。您可以通过联系 AWS Support 请求删除与您的数据标注项目相关的原始以及处理过的数据输入。

问:由 Amazon SageMaker Ground Truth Plus 处理和存储的内容是否仍归我所有?

答:是。您始终保留对您的内容的所有权,我们只会在您同意的情况下使用您的内容。

问:我可以通过 Amazon SageMaker Ground Truth Plus 处理个人健康信息 (PHI) 数据吗?

答:不可以。Amazon SageMaker Ground Truth Plus 服务目前不符合 HIPAA 要求。

人力

问:什么是 Amazon SageMaker Ground Truth Plus 专家团队?

使用 Ground Truth Plus,标注工作将由针对机器学习任务进行过培训的人力资源完成,他们熟练掌握相关技能、多样化而且具有弹性,可以帮助满足您的各种需求,包括数据安全、隐私与合规要求。这些人力资源分为两种,1/Amazon 团队:由 Amazon 聘用并管理的工作人员组成,Amazon 以您的名义签订操作、质量和周转时间 SLA。2/供应商团队:由精选列表的第三方供应商提供的工作人员组成,这些供应商专门提供数据标注服务,而 Amazon 将以您的名义与之签订质量和周转时间 SLA。

问:由谁决定我的 Amazon SageMaker Ground Truth Plus 项目将使用哪种人力资源?

您可以为自己的项目选择要使用的人力资源类型。除非您要求我们使用特定人力资源,否则我们可能使用 Amazon 团队、供应商团队或混合使用两者,以帮助满足您的项目的质量、周转时间和安全要求。

问:供应商团队推出了哪些应变措施来应对新冠肺炎 (COVID-19) 疫情带来的影响?

答:为因应新冠肺炎疫情,一些服务提供商决定暂时实施远程工作政策,以保护其员工的健康和安全。

问:供应商团队必须符合哪些安全标准?

答:服务提供商每年都要通过独立第三方审计机构的 SOC 2 合规性或 ISO 27001 认证。

SOC 2 报告基于美国注册会计师协会 (AICPA) 的信托服务标准 – 安全性、可用性、处理完整性、机密性和隐私性对服务提供商的控制环境进行说明。

ISO 27001 认证则基于国际标准化组织 (ISO) 和国际电工委员会 (IEC) 详述构建、实施、维护与持续改进信息安全管理系统 (ISMS) 的要求。

除独立取得 SOC 2 或 ISO 27001 以外,服务提供商还被要求实施额外的安全控制措施(如下所述),以帮助保护您的数据的安全。

技术控制
服务提供商需要利用适当的软件来阻止从系统中下载或复制文件/数据的任何尝试及防止对其系统的未授权访问。服务提供商还需要禁止其员工存储或复制与客户任务相关的数据。

网络安全控制
我们需要将服务提供商网络设计为防止远程访问与客户任务相关的数据。此外,对等文件共享软件在提供商的网络上被阻止,且防火墙的设计应能提供高可用性。

员工控制
服务提供商需要确保与其员工签订保密协议 (NDA)。服务提供商需要采用最严格的策略来防止任何信息泄露、防止员工以任何方式传输信息:纸质、USB、移动电话或任何其他媒介。

物理访问控制
服务提供商需要维护物理访问控制措施,以防其生产站点受到未授权访问。这些措施可能包括具有生物特征身份认证的闸机、员工身份识别卡等。

问:AWS 如何帮助供应商团队符合这些安全标准?

答:AWS 要求服务提供商在加入 Amazon SageMaker Ground Truth Plus 的供应商团队前准备好他们的 SOC 2 或 ISO 27001 认证报告。AWS SOC 报告和 ISO 认证不涵盖供应商团队。

Amazon SageMaker Ground Truth

一般性问题

问:什么是 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 使您可以轻松高效并准确地标记培训机器学习系统所需的数据集。SageMaker Ground Truth 能够根据人工贴标机手动完成的标签来自动标记数据集的一部分。您可以选择使用拥有超过 500000 台贴标机的众包 Amazon Mechanical Turk 人力、您自己的员工或是 AWS Marketplace 上列出的经过 Amazon 预先筛选的第三方数据标记服务提供商之一。SageMaker Ground Truth 使用创新算法和用户体验 (UX) 技术来提高人工贴标的准确性。随着时间的推移,通过不断学习人类创建的标签,模型逐渐完善,以便提升自动标记效果。

问:什么是自动化数据标记?

答:自动化数据标记是使用机器学习进行数据标记。Amazon SageMaker Ground Truth 首先将选择随机数据样本,并发送数据样本进行人工贴标。然后,结果用于培训标记模型,该模型尝试自动对新的原始数据样本进行标记。当模型可以使用满足或超过高阈值的置信度分数标记数据时,将提交标签。当置信度分数低于该阈值时,数据会发送至人工贴标机。人工标记的一些数据用于为标记模型生成新的培训数据集,且模型会自动保留以提升其准确性。使用待标记的各个原始数据样本,重复此过程。标记模型变得更能够在每次迭代时自动标记原始数据,并且传输给人工的数据减少。

使用 Amazon SageMaker Ground Truth

问:我为何应该使用 Amazon SageMaker Ground Truth?

答:在构建、培训和部署机器学习模型之前,您需要数据。成功的模型构建在高质量的培训数据之上,而收集和标记培训数据集需要花费大量时间和精力。要构建培训数据集,人工贴标机需要评估大量映像或其他数据类型,然后识别并标记每个数据类型中的特定对象。这些标记任务分配给多台人工贴标机,增加了高额开销和成本。如果出现不正确的标签,系统将向不良信息学习,并做出不准确的预测。

Amazon SageMaker Ground Truth 通过使用自动数据标记和人工执行贴标的组合,利用存储在 Amazon S3 中的数据轻松高效地执行高度准确的数据标记,从而解决了这一问题。

问:我如何开始使用 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 为用户提供托管体验,您只需几个步骤即可设置整个数据标记作业。要开始使用 Amazon SageMaker Ground Truth,您要登录 AWS 管理控制台,并导航到 SageMaker 控制台。从此处选择 Ground Truth 下的标记作业。您可以在此创建一项标记作业。首先,作为标记作业创建流程的一部分,您要提供指向包含待标记数据集的 S3 存储桶的指针。Ground Truth 提供了常见标记任务的模板,您只需点击几个选项并提供有关如何标记您数据的最低限度的指示。或者,您可以创建您自己的自定义模板。作为创建标记作业的最后一步,您可以选择以下三种劳动力选项之一:(1) 公共众包人力;(2) 精选的数据标记服务提供商组合,或 (3) 引入您自己的员工。您还可以选择启用自动化数据标记。

问:如何使用 Amazon SageMaker Ground Truth 管理我的培训数据集?

答:Amazon SageMaker Ground Truth 管理元数据、关联标签以及标签和数据集的分类。您可以通过 SageMaker 控制台或 SageMaker 控制台中的 Ground Truth 控制台,轻松使用 AWS SDK 来查询和管理数据集和标签。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档

问:Amazon SageMaker Ground Truth 如何帮助提升我的培训数据集的准确性?

答:Amazon SageMaker Ground Truth 具有以下功能,有助于您提升由人执行的数据标记的准确性。

(a) 注释整合:此功能通过将每个数据对象发送给多个工作者然后将他们的响应(称为“注释”)整合到单个标签中来抵消单个工作者的错误/偏差。然后,该功能获取他们的注释,并使用注释整合算法对这些注释进行比较。该算法首先检测被忽视的异常值注释。然后,其对注释进行加权整合,向更可靠性的注释分配更高的权重。输出是每个对象的单个标签。

(b) 注释界面最佳实践:这些注释界面功能使工作者能更为准确地执行任务。工作者容易出现错误和偏差,而精心设计的界面能提升工作者准确性。一种最佳实践是,在固定侧面板中显示简要指示以及良好和不良标签示例。另一种最佳实践是,当工作者在映像上绘制边界框时,使框边界以外的区域变暗。

问:Amazon SageMaker Ground Truth 如何确保我的数据受到保护且安全?

答:默认情况下,Amazon SageMaker Ground Truth 会对您的数据进行静态和传输中加密。另外,可以使用 AWS Identity and Access Management (IAM) 控制对您的数据的访问。Ground Truth 不会在您的 AWS 环境之外存储或复制您的数据,您的数据仍处于您的控制之中。此外,Ground Truth 支持通用数据保护条例 (GDPR) 等合规性标准,并使用 Amazon CloudWatch 和 Amazon CloudTrail 提供全面的日志记录和审核功能。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档

问:我如何使用 Amazon SageMaker Ground Truth 访问人力?

答:在 SageMaker Ground Truth 中,您可以选择三种人力选项中的任一种:(1) 来自 Amazon Mechanical Turk 的公共众包人力;(2) 来自 AWS Marketplace 的可用第三方数据标记服务提供商;以及 (3) 您自己的员工。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档。 

使用第三方数据标记服务提供商

问:Amazon SageMaker Ground Truth 数据标记服务提供商能否处理机密数据?

答:是,Amazon SageMaker Ground Truth 数据标记服务提供商可以处理机密数据。AWS 客户与第三方数据标记服务提供商签订的标准服务协议包括对您的机密信息的一些基本保护。在与服务提供商共享任何机密信息之前,请仔细阅读这些条款。这些条款位于 AWS Marketplace 服务提供商的列表页。

问:我正在通过 AWS Marketplace 与第三方服务提供商合作。服务提供商推出了哪些应变措施来应对新冠肺炎 (COVID-19) 疫情带来的影响?

答:由于新冠肺炎 (COVID-19) 的影响愈演愈烈,一些服务提供商决定暂时实施远程工作政策,以保护其员工的健康和安全。在此期间,以下 FAQ 中提到的包括 SOC 2 合规性和其他安全控制措施在内的安全标准可能不适用于受影响的服务提供商。受影响的服务提供商已更新其 AWS Marketplace 列表以反映此变化,并且不会在未得到客户明确同意的情况下从远程工作环境处理客户数据。

问:Amazon SageMaker Ground Truth 数据标记服务提供商需要满足哪些安全性标准?

答:数据标记服务提供商每年都需要通过 SOC 2 合规性和认证。SOC 2 报告基于美国注册会计师协会 (AICPA) 的信托服务标准——安全性、可用性、处理完整性、机密性和隐私性对服务提供商的控制环境进行说明。

除了 SOC 2 之外,服务提供商还需要维护额外的安全控制,以帮助保持客户数据的安全性。

技术控制:
服务提供商需要利用适当的软件来阻止从系统中下载或复制文件/数据的任何尝试及防止对其系统的未授权访问。服务提供商还需要禁止其员工存储或复制与客户任务相关的数据。

网络安全控制:
我们需要将服务提供商网络设计为防止远程访问与客户任务相关的数据。此外,对等文件共享软件在提供商的网络上被阻止,且防火墙的设计应能提供高可用性。

员工控制:
服务提供商需要确保与其员工签订保密协议 (NDA)。服务提供商需要采用最严格的策略来防止任何信息泄露、防止员工以任何方式传输信息:纸质、USB、移动电话或任何其他媒介。

物理访问控制:
服务提供商需要维护物理访问控制措施,以防其生产站点受到未授权访问。这些措施可能包括具有生物特征身份认证的闸机、员工身份识别卡等。

问:AWS 如何帮助确保服务提供商符合这些安全标准?

答:AWS 要求服务提供商在上市前提供 SOC 2 认证报告并确认:

真实性(服务提供商的审计师是否获得 AICPA 认证);

报告期间(SOC 2 认证有效期);以及

生产站点(服务提供商员工处理 Amazon SageMaker Ground Truth 标记任务所在的物理站点)。

问:服务提供商安全标准的审查频率如何?

答:每位服务提供商的安全性标准每年审核一次,以确保他们满足强制性要求。

问:AWS 审查是否有任何例外?

答:没有。如果服务提供商未满足安全标准,则他们的列示内容将从 AWS Marketplace 中移除。从列表删除将在 24 小时内完成,且所有活跃客户都将收到电子邮件通知。

问:如果服务提供商通过多个生产站点提供数据标记服务,是否所有站点都需要经过审查过程?

答:是,所有站点都需要符合所需的安全标准。

问:如果服务提供商生产站点发生数据泄露,会发生什么?

答:服务提供商将在实际检测到或者怀疑发生任何未经授权的客户信息访问、收集、获取、使用、传输、披露、损坏或丢失情况的 24 小时内通知 AWS 和受影响的客户。服务提供商将立即处理每一个安全事件并向 AWS 和受影响的客户提供有关内部调查的书面详细信息。

定价和可用性

问:Amazon SageMaker Ground Truth 的价格是多少?

答:有关目前的定价信息,请参阅 SageMaker Ground Truth 定价页面

问:Amazon SageMaker Ground Truth 在哪些 AWS 区域可用?

答:AWS 区域表列出了当前已推出 Amazon SageMaker Ground Truth 的所有 AWS 区域。

Amazon SageMaker Ground Truth 定价
了解有关 Amazon SageMaker 数据标注定价的更多信息

无需预付承诺或长期合同即可开始使用 Amazon SageMaker 数据标注。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在控制台中构建

开始使用 Amazon SageMaker 数据标注在 AWS 管理控制台中构建。

登录