什麼是 OCR (光學字元辨識)?
光學字元辨識 (OCR) 是將文字影像轉換為機器可讀文字格式的程序。例如,如果您掃描表單或收據,電腦會將掃描結果儲存為影像檔案。您不能使用文字編輯器來編輯、搜尋或計算影像檔案中的文字。不過,您可以使用 OCR 將影像轉換為文字文件,並將其內容儲存為文字資料。
為什麼 OCR 很重要?
大多數業務工作流程涉及從印刷媒體接收資訊。紙質表單、發票、掃描的法律文件和列印的合約都是業務程序的一部分。由於涉及大量的文書工作,因此存放和管理也需要大量時間和空間。雖然無紙化文件管理是可行的方法,但將文件掃描成影像會帶來各種挑戰。該程序需要手動干預,並且可能繁瑣且緩慢。
此外,數位化此文件內容會對隱藏在其中的文字建立影像檔案。文字處理軟體無法以處理文字文件的相同方式,來處理影像中的文字。運用 OCR 技術,可將文字影像轉換為其他業務軟體可分析的文字資料,進而解決此問題。然後,您可以使用該資料進行分析、精簡操作、自動化程序,以及改善生產力。
OCR 具有哪些優勢?
以下是 OCR 技術的主要優勢:
可搜尋文字
企業可將其現有文件和新文件轉換為完全可搜尋的知識檔案。他們還可以使用資料分析軟體來自動處理文字資料庫,以作進一步的知識處理。
營運效率
您可以使用 OCR 軟體,在您的企業中自動整合文件工作流程和數位工作流程來改善效率。以下是 OCR 軟體可執行的一些範例:
- 掃描手動填寫的表單,以進行自動驗證、審查、編輯和分析。這節省了手動文件處理和資料輸入所需的時間。
- 在資料庫中快速搜尋術語來尋找所需的文件,這樣您就不必手動對方塊中的檔案進行排序。
- 將手寫筆記轉換為可編輯的文字和文件。
人工智慧解決方案
OCR 通常是企業可能實作的其他人工智慧解決方案的一部分。例如,它可以掃描並讀取自動駕駛汽車的車牌和路標,偵測社交媒體文章中的品牌標誌,或者識別廣告影像中的產品包裝。這種人工智慧技術可協助企業做出更好的行銷和營運決策,從而減少開支並改善客戶體驗。
OCR 的發展歷程與演進是怎麼樣的?
OCR 最早的一項技術發展運用於 20 世紀 20 年代 Emanuel Goldberg 發明的機器,能夠讀取字元並將其轉換成電報代碼。這為機器讀取運用的想法奠定了基礎。
早期採用
在 20 世紀 50 年代,OCR 開始做為一項商業技術逐步成形。RCA 這類公司開發了能夠讀取特定字型的系統,使用銀行與郵政業務。這些系統用於自動化支票處理與郵件排序,雖然應用範圍有限,但影響顯著。
在 20 世紀 60 年代,OCR-A 和 OCR-B 字型的設計,讓人類與機器都能輕鬆閱讀。這些字型的引進讓 OCR 在金融與政府部門的運用更加統一。
擴展
得益於掃描器與軟體演算法的改善,讓 OCR 得以運用於日常商業工作。早期程式能夠掃描紙本文件,並將其轉換成可編輯文字,但準確率較低。
21 世紀初,隨著神經網路與早期機器學習技術的發展,OCR 擺脫了對固定字型與版式的依賴。如今,現代系統能夠以更高的準確度,解譯手寫文字、低品質掃描件,以及複雜的版面配置。
現在
如今,OCR 已從一個小眾工具,發展成為數位轉型中的核心技術。該技術被嵌入到各種運用中,從行動應用程式到企業自動化平台無所不在。其支援多種語言,並能以內容感知方式進行即時影像擷取。現在它已成為智慧自動化系統的重要組成部分。
在文件處理中,OCR 有哪些不同的使用案例?
在企業文件處理工作流程中,OCR 是至關重要的組成部分。試想下列使用案例。
智慧搜尋文件封存
OCR 技術能夠從影像文件及 PDF 文件中擷取文字,藉此建立可搜尋的數位封存。辨識文字後,即可對其索引並用於採用 AI 技術的搜尋系統。使用者無須進行額外的文件分類,即可快速、準確地在大型檔案磁碟區中搜尋相關檔案。舉例來說,若搜尋特定客戶名稱,系統會傳回所有相關的付款單據、發票與表單,這些文件最初都以紙本形式提交。
企業可將其現有文件和新列印文件轉換為完全可搜尋的知識檔案。他們還可以使用資料分析軟體來自動處理文字資料庫,以作進一步的知識處理。
自然語言處理
OCR 能夠識別並擷取文字、行或資料表儲存格中的文字,從而更好地控制內容處理方式,進而為後續的自然語言處理 (NLP) 任務做好準備,例如文件分類、摘要生成、情緒分析、主題建模、實體辨識等。舉例來說,摘要生成需要在段落中擷取文字,實體辨識則可能更傾向於以鍵值對的形式 (例如 JSON 檔案) 來擷取文本。
資料標準化
文件工作流程往往涉及不同格式與產業的非結構化資料。OCR 可從各種類型的文件中擷取文字與資料表,例如,財務對帳單、臨床註釋及技術報告等,有助於標準化這些資料。您可在不同系統間加速資料的處理,並讓資料處理更一致。
自動化表單處理
在自動化表單處理方面,OCR 技術發揮著重要作用。該功能能夠識別各類表單中的欄位,以及從中擷取結構化資訊,讓企業無需人工輸入,就能將此資料直接整合至資料庫。
應用程式功能
OCR 功能可直接嵌入商業應用程式,以便使用者自己執行即時文字擷取。這樣可減少資料分析工作負載,因為資料在源頭就能被正確收集。
OCR 在不同產業的運用方式?
以下是各產業中一些常見的 OCR 使用案例:
銀行
銀行業使用 OCR 來處理和驗證貸款文件、存款支票和其他金融交易的文書工作。此驗證改善詐騙防護並增強了交易安全性。例如,BlueVine 是一間為中小型企業提供融資的金融科技公司。該公司利用以雲端為基礎的 OCR 服務 Amazon Textract 開發了一種產品,幫助美國的小型企業快速獲得薪資保護計畫 (PPP) 貸款,以作為新冠肺炎疫情救濟刺激計劃的一部分。Amazon Textract 每天可自動處理和分析數以萬計的 PPP 表單,因此 BlueVine 可協助數千間企業獲得資金,在此程序中節省了超過 400,000 個工作崗位。
醫療保健
醫療保健產業利用 OCR 處理患者記錄,包括治療、檢測、醫院記錄和保險支付。OCR 有助於精簡工作流程並減少醫院的手動工作,同時使記錄保持最新狀態。例如,nib Group 為超過 100 萬澳洲人提供健康和醫療保險,並且每天受理數千份醫療索賠。客戶可以為其醫療發票拍照,並透過 nib 行動應用程式提交。Amazon Textract 會自動處理這些影像,以便公司可以更快地核准索賠。
物流
物流公司利用 OCR 更有效地追蹤包裹標籤、發票、收據和其他文件。例如,Foresight Group 使用 Amazon Textract 在 SAP 中自動處理發票。手動輸入這些業務文件既費時又容易出錯,因為 Foresight 員工必須在多個會計系統中輸入資料。藉助 Amazon Textract,Foresight 軟體可以跨多種不同配置更準確地讀取字元,從而提高業務效率。
OCR 如何運作?
OCR 引擎或 OCR 軟體運作步驟如下:
影像採集
掃描儀讀取文件並將其轉換為二進位資料。OCR 軟體分析掃描影像並將淺色全域分類為背景,將深色區域分類為文字。
預先處理
OCR 軟體首先會清除影像並移除錯誤以準備讀取。下面是採用的一些清除技術:
- 偏移校正或傾斜掃描文件,以解決掃描期間的對齊問題。
- 去除斑點或移除任何數位影像斑點,或平滑文字影像的邊緣。
- 清除影像中的邊框和線條。
- 多語言 OCR 技術的指令碼辨識
文字辨識
OCR 軟體用於文字辨識的兩大類 OCR 演算法或軟體程序,稱為模式比對和特徵擷取。
模式比對
模式比對的運作方式為,隔離稱為字符的字元影像,並將其與類似儲存的字符作比較。僅當存放的字符具有與輸入字符相似的字型和比例時,模式辨識才有效。此方法適用於以已知字型鍵入文件的掃描影像。
特徵擷取
特徵擷取將字符進行細分或分解為特徵,如線條、閉環、線條方向和線條交叉點。然後,使用這些特徵在其存放的各種字符中找到最相符或最近的芳鄰。
後期處理
經過分析之後,系統會將擷取的文字資料轉換為機器可讀的文字文件。某些 OCR 系統可以建立帶註釋的 PDF 檔案,其中包括掃描文件的前後版本。
OCR 的類型有哪些?
資料科學家根據其用途和應用,對不同類型的 OCR 技術進行分類。以下是一些範例:
簡單的光學字元辨識軟體
簡單的 OCR 引擎透過將多種不同的字型和文字影像模式儲存為範本來運作。OCR 軟體使用模式比對演算法,將文字影像逐字元與其內部資料庫作比較。如果系統逐字詞比對文字,則稱為光學文字辨識。該解決方案存在局限性,因為字型和手寫樣式幾乎不受限制,而且無法擷取每種類型並將其存放在資料庫中。
智慧字元辨識軟體
現代 OCR 系統使用智慧字元辨識 (ICR) 技術,從而以與人類相同的方式來閱讀文字。這些系統藉助機器學習軟體,運用進階方法,訓練機器表現得像人類一樣。稱為神經網路的機器學習系統在多個層級上分析文字,重複處理影像。它尋找不同的影像屬性,如曲線、直線、交叉點和循環,並結合所有這些不同層級的分析以獲得最終結果。雖然 ICR 通常一次處理一個字元的影像,但處理速度很快,可在幾秒內獲得結果。
智慧文字辨識
智慧文字辨識系統的運作方式與 ICR 相同,但處理的是整個文字影像,而不是將影像預先處理為字元。
光學標記辨識
光學標記辨識可識別文件中的標誌、水印和其他文字符號。
AWS 如何在 OCR 方面提供協助?
AWS 提供兩種可協助您在業務中實作 OCR 的服務:
Amazon Textract 是一種機器學習 (ML) 服務,該服務可使用 OCR 自動從掃描的文件 (如 PDF) 中擷取文本、手寫文字和資料。它可以高速讀取多種配置和格式的數千種不同文件。當從文件中擷取資訊時,Amazon Textract 會為其識別的所有物件傳回可信度分數,您可據此決定是否要使用辨識結果。
Amazon Rekognition 可在幾分鐘內分析數百萬個影像和影片,並使用人工智慧增強人類視覺審查任務。您可以使用 Amazon Rekognition API,從影像和影片中擷取文字。您還可以從街道標誌、社交媒體張貼和產品包裝的影像和影片中擷取傾斜和扭曲的文字。
立即建立 AWS 帳戶,開始使用 OCR on AWS。