概览

Amazon Textract 服务从证件图像中提取打印文本、手写数据和结构化数据。在该服务中,AnalyzeID 功能从身份证件图像中读取和提取结构化文本数据,此类身份证件目前包括美国驾照和美国护照。此功能可让客户更轻松地自动化和加快证件处理。

AnalyzeID 处理身份证件中显示的文本,以预测显式和隐含的键值对。AnalyzeID 可以提取显式键值对,其中键(“签发日期”)出现在证件上并带有相应的值(“2018 年 3 月 18 日”);还可提取可能没有显式键的隐含键值对(“María”出现在执照中间,但未标记为“名字”)。该服务使用包含 21 个已知键的通用分类法标准化键值对,因此客户可以比较不同 ID 类型的信息。例如,该服务提取驾照的 LIC# 和美国护照的护照号,将两者都标记为“证件 ID 号”。 为了评估 AnalyzeID 的准确性,我们将这些预测结果与真值进行比较。真值键和值已由人工注释者妥善更正。如果预测值与真值相符,则每个预测的键值对为一次命中,否则就是未命中。精度、召回率和 F1 等质量指标取决于命中次数和未命中次数。

不同司法管辖区的身份证件会有所不同(弗吉尼亚州的驾照不同于加利福尼亚州的驾照),同一司法管辖区内的身份证件也会有所区别,因为每个司法管辖区的证件都会随着时间的推移而演变。身份证件的每个版本可能包含不同的键,并且每个键可能允许不同的值。还有一些因素(称为“混杂差异”)会阻碍顺利识别文本。证件设计会用复杂的图形设计来凸显文本,以及在文本上覆盖光滑的塑料或其他层压板。证件可能会磨损,例如将其放在钱包或口袋里,这会掩盖关键信息。最后,在拍照时,证件可能光照不足、被遮挡(例如在拍照过程中握住证件一部分的手部)或对焦不佳。AnalyzeID 旨在识别这些证件图像中的文本,并且忽略混杂差异。

预期使用案例和限制

AnalyzeID 适用于美国各州颁发的驾照和美国政府签发的护照。该服务没有接受过使用如下数据的训练:领土政府(例如波多黎各)签发的证件或全球入境卡或出生证等其他形式的身份证件。AnalyzeID 支持识别在过去十五年(从 2007 年开始)中签发的证件。这涵盖了大约三次州范围的设计更新,大约每五年进行一次更新。AnalyzeID 支持此时段内所有未过期的证件;美国驾照最多在十二年后到期,美国护照最多在十年后到期。

AnalyzeID 支持在各种客户开发的应用程序中执行文本提取步骤。这些应用程序通常支持最终用户完成在线任务。例如,金融服务应用程序允许新用户扫描驾照的内容,从而在减少打字和错误的情况下注册此新用户。同样,医疗保健应用程序可以让用户更快地确认其地址或其他账户信息,并且减少错误的预约安排。这些应用程序区分图像的主要依据是:1/ 相关的键值对、2/ 所采用的图像获取过程以及 3/ 提交图像的分辨率。在将 AnalyzeID 构建到任何应用程序工作流程中时,客户应评估是否需要人为监督,并根据需要支持人工审核者对 AnalyzeID 输出进行审核。

Textract AnalyzeID 的设计

机器学习:使用机器学习和光学字符识别(OCR)技术构建 AnalyzeID。它的工作原理如下:AnalyzeID 采用身份证件的图像作为输入。OCR 模型可识别证件中的文本。第二个机器学习模型处理完整的证件图像和 OCR 输出,以键值对的形式返回字段名称和内容。有关 API 调用的详细信息,请参阅开发人员文档

性能预期:客户应用程序之间的混杂差异会有所不同。这意味着不同应用程序的性能也会有所不同。考虑两个不同的姓名和地址验证应用程序 A 和 B。应用程序 A 可让建筑物保安员将访客驾照上的姓名和地址与预期访问该现场的人员姓名和地址进行比较。应用程序 B 可让招聘人员在视频面试期间收集申请者的个人信息。对于应用程序 A,建筑物保安员使用企业 ID 证件扫描仪来获取光线充足、聚焦清晰且无遮挡的许可证图像。对于应用程序 B,面试者使用自己的网络摄像头在手持许可证的情况下拍摄许可证图像,从而会增加图像模糊、眩光和受遮挡的风险。由于图像获取设备和过程不同,A 和 B 具有不同的输入图像质量,因此即使假设每个应用程序都使用 Textract 完美部署,它们也可能会有不同的错误率。

测试驱动的方法:我们使用多个数据集来评估性能。我们无法采用单一评估数据集衡量整体性能。这是因为评估数据集因其人口构成(已定义群体的数量和类型)、混杂差异数量(内容质量、适合用途)、可用标签的类型和质量以及其他因素而有所不同。我们采用包含身份证件图像的评估数据集测试 Textract,以此衡量其性能。数据集的整体性能由 F1 分数(F1)表示,该分数平衡预测正确字段的百分比(精度)与预测中包含正确字段的百分比(召回率)。F1 分数以 [0,1] 为界限。更改键值对的置信度阈值会相应更改 F1 分数。数据集中的群体可以由关键属性(例如司法管辖区、姓氏长度)、混杂差异(例如图形设计布局、图像质量)或两者的混合来定义。不同的评估数据集因这些因素和其他因素而异。因此,每个数据集的 F1 分数(包括总体和群体分数)都有所不同。考虑到这种差异,我们的开发过程使用多个评估数据集来检查 AnalyzeID 的性能,采取措施提高 AnalyzeID 性能最差的群体的 F1 分数,努力改进评估数据集套件,然后进行迭代。

公平性与偏见:我们的目标是让 AnalyzeID 从身份证件中提取文本字段,无论许可证的司法管辖区或证件所代表的人口统计属性如何。为此,我们使用上面描述的迭代开发过程。在此过程中,我们构建数据集以在一系列图像质量条件下获取 AnalyzeID 处理的一系列司法管辖区(美国各州)和模板。我们会在拥有可靠键值对的证件图像数据集上定期进行测试。我们发现,AnalyzeID 在司法管辖区和人口统计属性中表现出色。例如,在由来自 50 个州的美国驾照正面图像组成的内部数据集中,各州之间 F1 的最低准确度为 95%,按年龄、退伍军人身份和姓氏长度定义的人口群体的最低 F1 准确度为 99%。由于结果不仅取决于 AnalyzeID,还取决于客户工作流程和评估数据集,因此我们建议客户在自己的内容上测试 AnalyzeID。

可解释性:客户可以访问每个文本字段的置信度分数,他们可以利用这些分数来设定置信度阈值并更好地理解 AnalyzeID 输出。预测的键可用于深入了解相应值的预测。

稳定性:我们通过多种技术最大限度地提高稳定性,包括使用涵盖许多证件中多种差异的大型训练数据集。AnalyzeID 的理想输入包含相对没有阴影、眩光或其他遮挡的图像,并且证件在图像框架内垂直放置。但是,AnalyzeID 模型经过训练,即使输入与理想条件不同也可灵活应对。

隐私和安全性:AnalyzeID 可获取和处理文本。客户之间绝不会共享输入和输出。  客户可以通过 AWS Organizations 或我们可能提供的其他选择退出机制选择退出有关客户内容的培训。有关更多信息,请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。 有关特定于服务的隐私和安全信息,请参阅 Textract 常见问题的“数据隐私”部分和 Amazon Textract 安全文档。

透明度:在适合其使用案例的情况下,将 AnalyzeID 纳入工作流程的客户应考虑向最终用户和其他受应用程序影响的个人披露其使用机器学习的情况,并允许其最终用户提供反馈以改进工作流程。在其文档中,客户还可以引用此 AI Service Card。

治理:我们采用严格的方法,以负责任的方式构建我们的 AWS AI 服务,包括在设计阶段融入负责任人工智能的逆向工作产品开发流程,由专职的负责任人工智能科学和数据专家设计咨询和实施评估,执行例行测试,与客户共同审查,以及进行最佳实践开发、分发和培训。

部署和性能优化最佳实践

我们鼓励客户按照 《AWS 负责任使用机器学习》指南中所述,负责任地构建和运行应用程序。这包括实施负责任的人工智能实践以处理关键维度,涵盖公平性和偏见、稳定性、可解释性、隐私和安全性、透明度和治理。
 
工作流程设计:我们将性能定义为与客户开发的应用程序(包括用于文本提取的 AnalyzeID)进行交互的最终用户体验。使用 AnalyzeID 的任何应用程序的性能都取决于客户工作流程的设计,包括:(1)图像差异,(2)置信度阈值,(3)人为监督,(4)工作流程一致性,以及(5)定期测试性能偏差。
 
  1. 图像差异:理想的图像相对没有阴影、眩光或其他遮挡,以直角拍摄证件,并且证件在图像框架内垂直放置。客户可以通过适当的指导来支持其最终用户拍摄优质图像。

  2. 置信度阈值:客户可以根据分配给该键值对的置信度分数,通过对 AnalyzeID 生成的键值对设置筛选条件或阈值来调整性能。为了获得更高的精度,请选择较高的阈值。为了获得更好的召回率,请选择较低的阈值。要设置适当的阈值,客户可以收集一组代表性的输入,标记每个输入的文本字段,然后尝试提高或降低阈值,直到对用户体验感到满意为止。

  3. 人为监督:如果客户的应用程序工作流程涉及高风险或敏感使用案例,例如影响个人权利或基本服务访问权限的决定,应该将人工审核纳入应用程序工作流程。使用 AnalyzeID 自动提取键值可以用作工具,减少全手动解决方案所产生的工作量,并允许用户快速审查和评测身份证件。

  4. 一致性:客户应针对如下方面制定并实施策略:允许的输入图像种类,以及人类如何将置信度阈值的使用与自己的判断相结合来确定最终结果。这些策略应在不同人口群体中保持一致。不一致地修改输入图像或置信度阈值可能会给不同的人口群体带来不公平的结果。

  5. 性能偏差:客户提交给 AnalyzeID 的图像种类的变化或服务的变更可能会导致不同的输出。为了应对这些更改,客户应考虑定期重新测试 Textract 的性能,并在必要时调整工作流程。

更多信息

词汇表

公平性和偏见是指人工智能系统如何影响不同的用户亚群(例如,按性别、种族)。

可解释性是指拥有理解和评估人工智能系统输出的机制。

稳定性是指拥有确保人工智能系统可靠运行的机制。

隐私与安全性是指保护数据免遭盗窃和泄露。

治理是指采用流程在组织内定义、实施和执行负责任的人工智能实践。

透明度是指交流有关人工智能系统的信息,以便利益相关者能够就其是否使用该系统做出明智的选择。