亚马逊AWS官方博客

机器学习准确性浅谈

本博文将简单谈谈与机器学习准确性和偏见相关的问题。

首先,我们看一下最近一篇 ACLU(美国公民自由协会)博客中对 ACLU 开展面部识别实验的一些评论。ACLU 利用 Rekognition 技术,在 25000 张公开的逮捕照片基础上构建了一个面部数据库,然后用所有现任国会议员的公开照片在该数据库中执行面部相似性搜索。结果发现,在 80% 置信度下,535 次搜索中 28 次错误匹配;错误判断率(有时也称为“误报率”)为 5%,准确率为 95%。ACLU 尚未详细公布他们使用的数据集、方法或结果,因此我们只能分析他们已公开的信息。通过他们的声明,我们得到了以下见解:

  1. Rekognition 中面部识别 API 的默认置信度阈值为 80%,对于宽泛的常规使用案例(例如,在社交媒体中识别名人,或在照片应用程序中识别相像的家庭成员),这样的置信度表现不错,但是在公共安全使用案例中,这样的置信度不太合适。ACLU 使用的 80% 置信度阈值过低,无法保证准确的个体识别;在这样的置信度下,我们很有可能看到误报。 如果使用案例对面部相似度匹配的精确要求非常高(如我们的公开文档中所述),我们建议使用 99% 的置信度。为了说明置信度阈值对误报率的影响,我们基于包含学术界 850000 多张常用面孔的数据集创建了一个面孔集合,并执行了一项测试。然后,我们用与 ACLU 博客中所讲的类似方法,在这个集合中搜索了所有美国国会成员(包括参议院和众议院成员)的公开照片。将置信度设置为 99%(根据我们文档中的建议)后,错误判断率降低到了 0%,注意,我们比较的面孔语料库比 ACLU 大得多(面孔数是 ACLU 测试中的 30 倍)。这说明了对于运用技术来解决公共安全问题的人士来说,选择合适的置信度有多么重要,这样可以把误报率(如果有)降到最低。
  2. 在现实的公共安全和执法情景中,Amazon Rekognition 几乎专门用于缩小审查范围,来帮助加快人工审查速度并让相关人员能够结合自身判断力来考虑各种方案(而不是完全独立地做决策),这对寻找走失的儿童、打击人口拐卖,以及预防犯罪大有助益。 Rekognition 一般只是个体识别过程中的第一环。在其他使用案例中(例如,社交媒体),没必要进行像上面那样仔细的检查,因此置信度阈值可以低一些。
  3. 导致 Rekognition 结果存在极大偏差的原因,除了设置的置信度阈值过低之外,还包括使用的面部数据库未能准确代表对应人员,也就是数据库本身就存在偏差。 在 ACLU 的案例中,他们使用的是由嫌疑犯“大头照”组成的面部数据库,这极大影响了 Rekognition 比对结果的准确性。
  4. 基于云的机器学习应用程序(例如 Rekognition)的优势在于,随着我们基于更多数据改善算法,它们也会不断改进。  这些改进能为客户带来立竿见影的收益。 我们将继续专注于自身使命:把 Rekognition 打造成超准确识别人物、对象和场景的强大工具。当然,这一定要确保识别的结果中不存在任何影响准确性的偏见。  通过运用 Rekognition 来打击人口拐通过运用 Rekognition 来打击人口拐卖、寻回走失的儿童、减少移动支付欺诈,以及提升安全性,我们已经为客户和全世界创造了巨大价值,我们也热切期盼着未来能够继续利用 Rekognition 为客户和社会大众创造更大价值。
  5. 对于面部识别,人们有一种普遍误解,认为人工识别面部的能力强于机器。 实际上,美国国家标准技术研究所 (NIST) 近期分享的一份面部识别技术研究结果显示,即便是比 Rekognition 一流技术落后至少两年的面部识别技术,其效果也优于人工识别。

下面对 ACLU 结果误判的情况做一下总结。 面临新的技术进步,所有人都必须清楚了解它实用的一面和不实用的一面。就使用机器学习来识别食物,以及使用机器学习来根据面部匹配结果考虑是否有必要采取执法行动而言,两者存在差异。后者相当严肃,所需的置信度要比前者高得多。在将匹配结果用于执法用途的情景中,我们仍然建议客户采用不低于 99% 的置信度,并且除了这些匹配结果,各机构还应考虑其他有意义的参考信息。不过,机器学习的确是很有价值的工具,能够为执法结构带来很大助益。虽然我们担心它的结果可能有误,但就拿烤箱来说,我们总不能因为掌握不好火候而烤糊披萨,就把烤箱扔掉吧。合理的做法应该是,政府权衡并为执法机构指定适当的“火候”(或置信度),来协助他们开展公共安全工作。

–  Dr. Matt Wood