概觀

Amazon Textract 服務從證件影像中擷取列印文字、手寫資料和結構化資料。在此服務中,AnalyzeID 功能從身分證件影像中讀取和擷取結構化文本資料,這些身分證件目前包括美國駕照和美國護照。此功能可讓客戶更輕鬆地自動化和加快證件處理。

AnalyzeID 對身分證件中顯示的文字進行操作,以預測顯式和隱含的索引鍵值對。Analyze ID 可以擷取明確的索引值對,其中金鑰 (「發行日期」) 會出現在文件上並與其值一致 (「03/18/2018」);還可擷取旁邊可能沒有顯式索引鍵的隱含索引鍵值對 (「María」出現在授權中央,但未標記為「名字」)。該服務使用包含 21 個已知索引鍵的通用分類法標準化索引鍵值對,因此客戶可以比較不同 ID 類型的資訊。例如,該服務提取駕照的 LIC# 和美國護照的護照號,將兩者都標記為「證件 ID 號」。 為了評估 AnalyzeID 的準確性,我們將這些預測與真值進行比較。真值索引鍵和值已由人工注釋者更正。如果預測與真值相符,則每個預測的索引鍵值對為一次命中,否則就是未命中。精確率、召回率和 F1 等品質指標取決於命中次數和未命中次數。

不同司法管轄區的身分證件會有所不同 (維吉尼亞州的駕照不同於加利福尼亞州的駕照),同一司法管轄區內的身分證件也會有所不同,因為每個司法管轄區的證件都會隨著時間的推移而演變。身分證件的每個版本可能因所包含的索引鍵和每個索引鍵允許的值而有所不同。也有一些因素 (稱為「混亂差異」) 使識別更加困難。證件設計會用複雜的圖形設計來凸顯文字,並且在文本上覆蓋光滑的塑膠或其他層壓板。證件可能會磨損,例如將其放在錢包或口袋裡,這會掩蓋關鍵資訊。最後,在拍照時,證件可能光照不足、被遮擋 (例如在拍照過程中握住證件一部分的手部) 或對焦不佳。AnalyzeID 旨在識別這些證件影像中的文字,並且忽略混雜差異。

預期使用案例和限制

AnalyzeID 適用於美國各州頒發的駕照和美國政府簽發的護照。該服務沒有接受過使用如下資料的訓練:領土政府 (例如波多黎各) 簽發的證件或全球入境卡或出生證等其他形式的身分證件。AnalyzeID 支援在過去十五年 (從 2007 年開始) 中簽發的證件。這涵蓋了大約三次州層級設計更新的反覆運算,大約每五年進行一次反覆運算。該時間段支援所有未過期的證件;美國駕照最多在十二年後到期,美國護照最多在十年後到期。

AnalyzeID 支援在各種客戶開發的應用程式中執行文字擷取步驟。這些應用程式通常支援最終使用者完成線上任務。例如,金融服務應用程式允許新使用者掃描駕照的內容,從而在減少打字和錯誤的情況下註冊此新使用者。同樣,醫療保健應用程式可以讓使用者更快地確認其地址或其他帳戶資訊,並在排程預約時減少錯誤。這些應用程式區分影像的主要依據是:1/ 相關的索引鍵值對、2/ 所採用的影像擷取過程以及 3/ 提交影像的解析度。在將 AnalyzeID 建置到任何應用程式工作流程中時,客戶應評估人為監督的需求,並依據需要支援人工檢閱者對 AnalyzeID 輸出進行檢閱。

Textract AnalyzeID 的設計

機器學習:使用機器學習和光學字元辨識 (OCR) 技術建置 AnalyzeID。它的運作方式如下:AnalyzeID 採用身分證件的影像作為輸入。OCR 模型可識別證件中的文字。第二個機器學習模型處理完整的證件影像和 OCR 輸出,以索引鍵值對的形式傳回欄位名稱和內容。如需 API 呼叫的詳細資訊,請參閱開發人員文件

效能期望:客戶應用程式之間的混雜差異會有所不同。這意味著效能在應用程式之間也會有所不同。考慮兩個不同的姓名和地址驗證應用程式 A 和 B。應用程式 A 可讓建築物保安員將訪客駕照上的姓名和地址與預期造訪該現場的人員姓名和地址進行比較。應用程式 B 可讓招聘人員在視訊面試期間收集申請者的個人資訊。對於應用程式 A,建築物保安員使用企業 ID 證件掃描器來擷取光線充足、聚焦清晰且無遮擋的許可證影像。對於應用程式 B,面試者使用自己的網路攝像頭在手持授權的情況下拍攝授權影像,從而會增加影像模糊、眩光和受遮擋的風險。由於影像擷取設備和過程不同,A 和 B 具有不同的輸入影像品質,因此即使假設每個應用程式都使用 Textract 完美部署,它們也可能會有不同的錯誤率。

測試驅動的方法:我們使用多個資料集來評估效能。沒有任何單一的評估資料集能提供絕對的效能全景。這是因為評估資料集因其人口構成 (已定義群體的數量和類型)、混雜差異數量 (內容品質、適合用途)、可用標籤的類型和品質以及其他因素而有所不同。我們透過在包含身分證件影像的評估資料集上測試 Textract 來衡量其效能。資料集的整體效能由 F1 分數 (F1) 表示,該分數平衡預測正確欄位的百分比 (精確率) 與預測中包含正確欄位的百分比 (召回率)。F1 分數以 [0,1] 範圍為邊界。變更索引鍵值對的置信度閾值會相應變更 F1 分數。資料集中的群體可以由關鍵屬性 (例如司法管轄區、姓氏長度)、混雜差異 (例如圖形設計版面、影像品質) 或兩者的混合來定義。不同的評估資料集因這些因素和其他因素而異。因此,F1 分數 (包括整體和群體) 因資料集而異。考慮到這種差異,我們的開發過程使用多個評估資料集來檢查 AnalyzeID 的效能,採取措施提高 AnalyzeID 效能最差的群體的 F1 分數,努力改進評估資料集套件,然後進行反覆運算。

公平性與偏見:我們的目標是讓 AnalyzeID 從身分證件中擷取文字欄位,無論授權的司法管轄區或證件所代表的人口統計屬性如何。為此,我們使用上面描述的反覆運算開發過程。作為該過程的一部分,我們建置資料集以在一系列影像品質條件下擷取 AnalyzeID 處理的一系列司法管轄區 (美國各州) 和範本。我們會在擁有可靠索引鍵值對的證件影像資料集上定期進行測試。我們發現,AnalyzeID 在司法管轄區和人口屬性方面效能出眾。例如,在由來自 50 個州的美國駕照正面影像組成的內部資料集中,各州之間 F1 的最低準確度為 95%,按年齡、退伍軍人身分和姓氏長度定義的人口群體的最低 F1 準確度為 99%。由於結果不僅取決於 AnalyzeID,還取決於客戶工作流程和評估資料集,因此我們建議客戶在自己的內容上測試 AnalyzeID。

可解釋性:客戶可以存取每個文字欄位的置信度分數,他們可以利用這些分數來設定置信度閾值並更好地理解 AnalyzeID 輸出。預測的索引鍵可用於深入瞭解相應值的預測。

穩健性:我們透過多種技術盡量提高穩健性,包括使用擷取許多證件中多種差異的大型訓練資料集。AnalyzeID 的理想輸入包含相對沒有陰影、眩光或其他遮擋的影像,並且證件在影像框架內垂直放置。但是,AnalyzeID 模型經過訓練,即使輸入與理想條件不同也可靈活應對。

隱私權與安全性:AnalyzeID 擷取並處理文字。客戶之間絕不會共用輸入和輸出。  客戶可透過 AWS Organizations 或我們提供的其他退出機制,選擇退出客戶內容培訓。如需詳細資訊,請參閱 AWS 服務條款第 50.3 節和 AWS 資料隱私常見問題集。 如需特定服務的隱私權和安全性資訊,請參閱 Textract 常見問題集中的「資料隱私權」部分以及 Amazon Textract 安全性文件。

透明度:在適合其使用案例的情況下,將 AnalyzeID 納入工作流程的客戶,應考慮向最終使用者和其他受應用程式影響的個人,披露使用機器學習的情況,並允許其最終使用者提供意見回饋以改進工作流程。在其文件中,客戶還可以引用此 AI Service Card。

管控:我們採用嚴格的方法來,以負責任的方式建置我們的 AWS AI 服務,包括在設計階段融入負責任 AI 的逆向工作產品開發程序,由專職的負責任 AI 科學和資料專家設計諮詢和實作評估,執行例行測試,與客戶一起檢閱,以及進行最佳實務開發、分發和培訓。

部署和效能最佳化最佳實務

我們鼓勵客戶按照 《AWS 負責任使用機器學習》指南中所述,負責任地建置和執行應用程式。這包括實作負責任 AI 實務以處理關鍵維度,涵蓋公平性和偏見、文件性、可解釋性、隱私和安全性、透明度和管控。
 
工作流程設計:我們將效能定義為與客戶開發的應用程式 (包括用於文字擷取的 AnalyzeID) 進行互動的最終使用者體驗。使用 AnalyzeID 的任何應用程式的效能取決於客戶工作流程的設計,包括:(1) 影像變化、(2) 置信度閾值、(3) 人為監督、(4) 工作流程一致性,以及 (5) 定期性效能偏差測試。
 
  1. 影像差異:理想的影像相對沒有陰影、眩光或其他遮擋,以直角拍攝證件,並且證件在影像框架內垂直放置。客戶可以透過適當的指導來支援其最終使用者拍攝優質影像。

  2. 置信度閾值:客戶可以依據指派給該索引鍵值對的置信度分數,透過對 AnalyzeID 產生的索引鍵值對設定篩選條件或閾值來調整效能。為了獲得更高的精確率,請選擇較高的閾值。為了獲得更好的召回率,請選擇較低的閾值。要設定適當的閾值,客戶可以收集一組代表性的輸入,標記每個輸入的文字欄位,然後嘗試提高或降低閾值,直到對使用者體驗感到滿意為止。

  3. 人為監督:如果客戶的應用程式工作流程涉及高風險或敏感使用案例,例如影響個人權利或基本服務存取權限的決定,則應將人工檢閱納入應用程式工作流程。使用 AnalyzeID 自動擷取索引鍵值可以用作工具,減少全手動解決方案所產生的工作量,並允許使用者快速檢閱和評估身分證件。

  4. 一致性:客戶應針對如下方面制定並實施政策:允許的輸入影像種類,以及人類如何將置信度閾值的使用與自己的判斷相結合來確定最終結果。這些政策應在各個人口群體中保持一致。不一致地修改輸入影像或置信度閾值可能會給不同的人口群體帶來不公平的結果。

  5. 效能偏差:客戶提交給 AnalyzeID 的影像種類的變化或服務的變更可能會導致不同的輸出。為應對這些變更,客戶應考慮定期重新測試 AnalyzeID 的效能,並在必要時調整工作流程。

更多資訊

詞彙表

公平性和偏見是指 AI 系統如何影響不同的使用者亞群 (例如,按性別、種族)。

可解釋性是指擁有理解和評估 AI 系統輸出的機制。

穩健性是指擁有確保 AI 系統可靠執行的機制。

隱私權與安全性是指保護資料免遭盜竊和洩露。

管控是指採用程序在組織內定義、實作和執行負責任 AI 實務。

透明度是指傳達有關 AI 系統的資訊,以便利害關係人對其系統的使用做出明智的選擇。