一般问题

问:什么是 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 使您可以轻松高效并准确地标记培训机器学习系统所需的数据集。SageMaker Ground Truth 能够根据人工贴标机手动完成的标签来自动标记数据集的一部分。您可以选择使用拥有超过 500000 台贴标机的众包 Amazon Mechanical Turk 人力、您自己的员工或是 AWS Marketplace 上列出的经过 Amazon 预先筛选的第三方数据标记服务提供商之一。SageMaker Ground Truth 使用创新算法和用户体验 (UX) 技术来提高人工贴标的准确性。随着时间的推移,通过不断学习人类创建的标签,模型逐渐完善,以便提升自动标记效果。

问:什么是自动化数据标记?

答:自动化数据标记是使用机器学习进行数据标记。Amazon SageMaker Ground Truth 首先将选择随机数据样本,并发送数据样本进行人工贴标。然后,结果用于培训标记模型,该模型尝试自动对新的原始数据样本进行标记。当模型可以使用满足或超过高阈值的置信度分数标记数据时,将提交标签。当置信度分数低于该阈值时,数据会发送至人工贴标机。人工标记的一些数据用于为标记模型生成新的培训数据集,且模型会自动保留以提升其准确性。使用待标记的各个原始数据样本,重复此过程。标记模型变得更能够在每次迭代时自动标记原始数据,并且传输给人工的数据减少。

使用 Amazon SageMaker Ground Truth

问:我为何应该使用 Amazon SageMaker Ground Truth?

答:在构建、培训和部署机器学习模型之前,您需要数据。成功的模型构建在高质量的培训数据之上,而收集和标记培训数据集需要花费大量时间和精力。要构建培训数据集,人工贴标机需要评估大量映像或其他数据类型,然后识别并标记每个数据类型中的特定对象。这些标记任务分配给多台人工贴标机,增加了高额开销和成本。如果出现不正确的标签,系统将向不良信息学习,并做出不准确的预测。

Amazon SageMaker Ground Truth 通过使用自动数据标记和人工执行贴标的组合,利用存储在 Amazon S3 中的数据轻松高效地执行高度准确的数据标记,从而解决了这一问题。

问:我如何开始使用 Amazon SageMaker Ground Truth?

答:Amazon SageMaker Ground Truth 为用户提供托管体验,您只需几个步骤即可设置整个数据标记作业。要开始使用 Amazon SageMaker Ground Truth,您要登录 AWS 管理控制台,并导航到 SageMaker 控制台。从此处选择 Ground Truth 下的标记作业。您可以在此创建一项标记作业。首先,作为标记作业创建流程的一部分,您要提供指向包含待标记数据集的 S3 存储桶的指针。Ground Truth 提供了常见标记任务的模板,您只需点击几个选项并提供有关如何标记您数据的最低限度的指示。或者,您可以创建您自己的自定义模板。作为创建标记作业的最后一步,您可以选择以下三种劳动力选项之一:(1) 公共众包人力;(2) 精选的数据标记服务提供商组合,或 (3) 引入您自己的员工。您还可以选择启用自动化数据标记。

问:如何使用 Amazon SageMaker Ground Truth 管理我的培训数据集?

答:Amazon SageMaker Ground Truth 管理元数据、关联标签以及标签和数据集的分类。您可以通过 SageMaker 控制台或 SageMaker 控制台中的 Ground Truth 控制台,轻松使用 AWS SDK 来查询和管理数据集和标签。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档

问:Amazon SageMaker Ground Truth 如何帮助提升我的培训数据集的准确性?

答:Amazon SageMaker Ground Truth 具有以下功能,有助于您提升由人执行的数据标记的准确性。

(a) 注释整合:此功能通过将每个数据对象发送给多个工作者然后将他们的响应(称为“注释”)整合到单个标签中来抵消单个工作者的错误/偏差。然后,该功能获取他们的注释,并使用注释整合算法对这些注释进行比较。该算法首先检测被忽视的异常值注释。然后,其对注释进行加权整合,向更可靠性的注释分配更高的权重。输出是每个对象的单个标签。

(b) 注释界面最佳实践:这些注释界面功能使工作者能更为准确地执行任务。工作者容易出现错误和偏差,而精心设计的界面能提升工作者准确性。一种最佳实践是,在固定侧面板中显示简要指示以及良好和不良标签示例。另一种最佳实践是,当工作者在映像上绘制边界框时,使框边界以外的区域变暗。

问:Amazon SageMaker Ground Truth 如何确保我的数据受到保护且安全?

答:默认情况下,Amazon SageMaker Ground Truth 会对您的数据进行静态和传输中加密。另外,可以使用 AWS Identity and Access Management (IAM) 控制对您的数据的访问。Ground Truth 不会在您的 AWS 环境之外存储或复制您的数据,您的数据仍处于您的控制之中。此外,Ground Truth 支持通用数据保护条例 (GDPR) 等合规性标准,并使用 Amazon CloudWatch 和 Amazon CloudTrail 提供全面的日志记录和审核功能。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档

问:我如何使用 Amazon SageMaker Ground Truth 访问人力?

答:在 SageMaker Ground Truth 中,您可以选择三种人力选项中的任一种:(1) 来自 Amazon Mechanical Turk 的公共众包人力;(2) 来自 AWS Marketplace 的可用第三方数据标记服务提供商;以及 (3) 您自己的员工。有关更多信息,请访问 Amazon SageMaker Ground Truth 文档。 

使用第三方数据标记服务提供商

问:Amazon SageMaker Ground Truth 数据标记服务提供商能否处理机密数据?

答:是,Amazon SageMaker Ground Truth 数据标记服务提供商可以处理机密数据。AWS 客户与第三方数据标记服务提供商签订的标准服务协议包括对您的机密信息的一些基本保护。在与服务提供商共享任何机密信息之前,请仔细阅读这些条款。这些条款位于 AWS Marketplace 服务提供商的列表页。

问:我正在通过 AWS Marketplace 与第三方服务提供商合作。服务提供商推出了哪些应变措施来应对新冠肺炎 (COVID-19) 疫情带来的影响?

答:由于新冠肺炎 (COVID-19) 的影响愈演愈烈,一些服务提供商决定暂时实施远程工作政策,以保护其员工的健康和安全。在此期间,以下 FAQ 中提到的包括 SOC 2 合规性和其他安全控制措施在内的安全标准可能不适用于受影响的服务提供商。受影响的服务提供商已更新其 AWS Marketplace 列表以反映此变化,并且不会在未得到客户明确同意的情况下从远程工作环境处理客户数据。

问:Amazon SageMaker Ground Truth 数据标记服务提供商需要满足哪些安全性标准?

答:数据标记服务提供商每年都需要通过 SOC 2 合规性和认证。SOC 2 报告基于美国注册会计师协会 (AICPA) 的信托服务标准——安全性、可用性、处理完整性、机密性和隐私性对服务提供商的控制环境进行说明。

除了 SOC 2 之外,服务提供商还需要维护额外的安全控制,以帮助保持客户数据的安全性。

技术控制:
服务提供商需要利用适当的软件来阻止从系统中下载或复制文件/数据的任何尝试及防止对其系统的未授权访问。服务提供商还需要禁止其员工存储或复制与客户任务相关的数据。

网络安全控制:
我们需要将服务提供商网络设计为防止远程访问与客户任务相关的数据。此外,对等文件共享软件在提供商的网络上被阻止,且防火墙的设计应能提供高可用性。

员工控制:
服务提供商需要确保与其员工签订保密协议 (NDA)。服务提供商需要采用最严格的策略来防止任何信息泄露、防止员工以任何方式传输信息:纸质、USB、移动电话或任何其他媒介。

物理访问控制:
服务提供商需要维护物理访问控制措施,以防其生产站点受到未授权访问。这些措施可能包括具有生物特征身份认证的闸机、员工身份识别卡等。

问:AWS 如何帮助确保服务提供商符合这些安全标准?

答:AWS 要求服务提供商在上市前提供 SOC 2 认证报告并确认:

真实性(服务提供商的审计师是否获得 AICPA 认证);

报告期间(SOC 2 认证有效期);以及

生产站点(服务提供商员工处理 Amazon SageMaker Ground Truth 标记任务所在的物理站点)。

问:服务提供商安全标准的审查频率如何?

答:每位服务提供商的安全性标准每年审核一次,以确保他们满足强制性要求。

问:AWS 审查是否有任何例外?

答:没有。如果服务提供商未满足安全标准,则他们的列示内容将从 AWS Marketplace 中移除。从列表删除将在 24 小时内完成,且所有活跃客户都将收到电子邮件通知。

问:如果服务提供商通过多个生产站点提供数据标记服务,是否所有站点都需要经过审查过程?

答:是,所有站点都需要符合所需的安全标准。

问:如果服务提供商生产站点发生数据泄露,会发生什么?

答:服务提供商将在实际检测到或者怀疑发生任何未经授权的客户信息访问、收集、获取、使用、传输、披露、损坏或丢失情况的 24 小时内通知 AWS 和受影响的客户。服务提供商将立即处理每一个安全事件并向 AWS 和受影响的客户提供有关内部调查的书面详细信息。

定价和可用性

问:Amazon SageMaker Ground Truth 的价格是多少?

答:有关目前的定价信息,请参阅 SageMaker Ground Truth 定价页面

问:Amazon SageMaker Ground Truth 在哪些 AWS 区域可用?

答:AWS 区域表列出了当前已推出 Amazon SageMaker Ground Truth 的所有 AWS 区域。

Standard Product Icons (Features) Squid Ink
了解有关 Amazon SageMaker Ground Truth 定价的更多信息

无需预付承诺或长期合同即可开始使用 Amazon SageMaker Ground Truth。有关更多详细信息,请查看 Amazon SageMaker Ground Truth 定价页面。

Sign up for a free account
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Standard Product Icons (Start Building) Squid Ink
开始在控制台中构建

开始使用 Amazon SageMaker Ground Truth 在 AWS 管理控制台中构建。

登录