Amazon Textract 是一種機器學習 (ML) 服務,可自動從掃描的文件中擷取文字、手寫內容和資料。這項服務不僅可實現簡單的光學字元辨識 (OCR),還可以識別、理解和擷取表單和表格中的資料。使用 Amazon Textract,您只需按實際用量付費。沒有最低費用,也沒有前期承諾。Amazon Textract 僅對處理的頁面收費,無論您擷取文字、帶表格的文字、表單資料、查詢還是處理發票和身分證件。 請參閱常見問答集以取得有關 Amazon Textract 頁面和可接受用途的其他詳細資訊。

Amazon Textract 具有以下四種不同的 API:Detect Document Text API、Analyze Document API、Analyze Expense API 和 Analyze ID API。

Detect Document Text API 使用 OCR 技術,從文件擷取文字和手寫文字。

Analyze Document API 具有以下三種功能:表單、表格和查詢。您可以靈活地呼叫表單、表格和查詢的任何組合。

  • Analyze Document API for Forms 會擷取鍵值對等資料 (「名字」和關聯的值,如 "Jane Smith")。它還使用 OCR 技術,從文件擷取所有文字和手寫文字。
  • Analyze Document API for Tables 會擷取以欄和列組織的表格式或表格資料。它還使用 OCR 技術,從文件擷取所有文字和手寫文字。
  • Analyze Document API for Queries 為您提供了從文件中指定所需資訊 (例如,「客戶名稱是什麼?」) 以及接收該資料 (例如,"Jane Doe") 作為回應的一部分的靈活性。您不需要擔心文件中資料的結構,也不需要擔心資料在不同格式和文件版本之間的佈局如何變化。它還使用 OCR 技術,從文件擷取所有文字和手寫文字。
 
Analyze Expense API 從發票和收據中擷取資料,例如發票 ID、發票號、發票編號和關聯值 12345。Amazon Textract 將這些不同的術語識別為發票 ID,並將相應的值識別為 12345,以及啟用常見欄位的標準分類法。 
 
Analyze ID API 使用機器學習來了解身分文件的相關內容,例如美國護照、駕照和其他 ID。您可以自動擷取到期日期、出生日期等特定資訊,也可以智慧地識別並擷取姓名、地址等隱含資訊。每個 ID 影像視為一個頁面。
 

免費方案

Amazon Textract 是 AWS 免費方案的一部分,您可以免費開始使用。免費方案將持續三個月,新的 AWS 客戶最多可以分析:

Detect Document Text API:每月 1,000 個頁面
Analyze Document API

  • 使用表單或表格功能時,每月 100 個頁面
  • 使用新增查詢功能時每月額外 100 個頁面

Analyze Expense API:每月 100 個頁面
Analyze ID API:每月 100 個頁面

Amazon Textract API 定價

*Analyze Document API 輸出包含有 OCR,無論所選的功能類型如何
*Analyze Expense 和 Analyze ID API 在輸出中未包含 OCR

超出免費方案額度的定價範例

定價範例 1 - Detect Document Text API

假設您想要使用 Detect Document Text API,從 10 萬頁研究報告中擷取文字。在美國西部 (奧勒岡) 區域的每頁定價為前 100 萬頁 0.0015 USD,成本為 150 USD。

處理的總頁數 = 10 萬

每頁價格 = 0.0015 USD

每月總費用 = 0.0015 USD * 100,000 = 150 USD

定價範例 2 – Detect Document Text API

假設您想要使用 Detect Document Text API,從 200 萬頁研究報告中擷取文字。美國西部 (奧勒岡) 區域前 100 萬頁的每頁定價為 0.0015 USD,100 萬頁後的定價為 0.0006 USD,因此處理 200 萬頁的總成本為 2,100 USD。

處理的總頁數 = 200 萬

每頁價格 = 前 100 萬頁 0.0015 USD 而 100 萬頁後為 0.0006 USD

每月總費用 = 0.0015 USD * 1,000,000 + 0.0006 USD * 1,000,000 = 1,500 USD + 600 USD = 2,100 USD

定價範例 3 – Analyze Document API – 表單和表格

假設您想要使用 Analyze Document API,從 5,000 頁稅務表單中擷取文字和結構化資料。美國西部 (奧勒岡) 區域含表格的 100 萬頁每頁定價為 0.015 USD,含表單定價為 0.05 USD,共計 325 USD。

處理的總頁數 = 5,000 頁

含表格的頁面價格 = 0.015 USD

含表單 (鍵值對) 的頁面價格 = 0.05 USD

總費用 = 0.015 USD * 5,000 + 0.05 USD * 5,000 = 75 USD + 250 USD = 325 USD

定價範例 4 – Analyze Document API – 表單和表格

假設您想要使用 Analyze Document API,從 200 萬頁稅務表單中擷取文字、表單和表格。美國西部 (奧勒岡) 區域含表格的 100 萬頁每頁定價為 0.015 USD,100 萬頁後每頁定價為 0.01 USD。含表單的 100 百萬頁每頁定價 0.05 USD,100 百萬頁後每頁定價 0.04 USD。總成本為 11.5 萬 USD。

處理的總頁數 = 2,000,000 頁

含表單 (鍵值對) 頁面價格 = 前 100 萬頁 0.05 USD,後 100 萬頁為 0.04 USD

總費用 = 0.015 USD * 1,000,000 + 0.01 USD * 1,000,000 + 0.05 USD * 1,000,000 + 0.04 USD * 1,000,000 = 15,000 USD + 10,000 USD + 50,000 + 40,000 = 115,000 USD

定價範例 5 – Analyze Document API – 查詢

假設您想要使用 Analyze Document API,從 5,000 頁抵押表單中擷取文字。您還希望透過查詢從每頁中擷取 10 個特定的資料點。美國西部 (奧勒岡) 區域 100 萬頁每頁定價為 0.015 USD,共計 75 USD。

處理的總頁數 = 5,000 頁

含查詢的每頁價格 = 0.015 USD

總費用 = 0.015 USD * 5,000 = 75 USD

定價範例 6 – Analyze Document API – 表單和查詢

假設您想要使用 Analyze Document API,從 5,000 頁稅務表單中擷取文字和表格資料。您還希望透過查詢從每頁中擷取 10 個特定的資料點。美國西部 (奧勒岡) 區域含表格和查詢的 100 萬頁每頁定價為 0.020 USD,100 萬頁後每頁定價為 0.015 USD。總成本為 100 USD。

處理的總頁數 = 5,000 頁

含表格和查詢的頁面價格 = 0.020 USD

總費用 = 0.020 USD * 5,000 = 100 USD

定價範例 7 – Analyze Document API – 表單和表格

假設您想要使用 Analyze Document API,從 5,000 頁保險表單中擷取文字和表單資料 (鍵值對)。您還希望透過查詢從每頁中擷取 10 個特定的資料點。美國西部 (奧勒岡) 區域含表單和查詢的 100 萬頁每頁定價為 0.055 USD,100 萬頁後每頁定價為 0.045 USD。總成本為 275 USD。

處理的總頁數 = 5,000 頁

含表單 (鍵值對) 和查詢的頁面價格= 0.055 USD

總費用 = 0.055 USD * 5,000 = 275 USD

定價範例 8 – Analyze Document API – 表單、表格和查詢

假設您想要使用 Analyze Document API,從 200 萬頁工資單中擷取文字、表單和表格。您還希望透過查詢從每頁中擷取 10 個特定的資料點。美國西部 (奧勒岡) 區域含表格、表單和查詢的 100 萬頁每頁定價為 0.070 USD,100 萬頁後每頁定價為 0.055 USD。總成本為 12.5 萬 USD。

處理的總頁數 = 200 萬頁 

含表格、表單和查詢的頁面價格 = 前 100 萬頁 0.070 USD,後 100 萬頁為 0.055 USD 

總費用 = 0.070 USD * 1,000,000 + 0.055 USD * 1,000,000 = 70,000 USD + 55,000 USD = 125,000 USD

定價範例 9 – Analyze Expense API

假設您想要使用 Analyze Expense API 從 10 萬張發票中擷取資料。美國西部 (奧勒岡) 區域 100 百萬頁每頁定價為 0.01 USD,且您處理了 100,000 張發票。總費用為 1,000 USD。請參閱以下計算: 

處理的總頁數 = 10 萬 

每頁價格 = 0.01 USD 

每月總費用 = 0.01 USD * 100,000 = 1,000 USD

定價範例 10 – Analyze Expense API

假設您想要使用 Analyze Expense API 從 150 萬張發票中擷取資料。美國西部 (奧勒岡) 區域 100 百萬頁每頁定價為 0.01 USD,100 百萬頁後每頁定價為 0.008 USD。總費用為 14,000 USD。請參閱以下計算: 

處理的總頁數 = 150 萬 

每頁價格 = 前 100 萬頁 0.01 USD,後 50 萬頁 0.008 USD 

每月總費用 = 0.01 USD * 1,000,000 + 0.008 USD * 500,000 = 14,000 USD

定價範例 11 – Analyze ID API

假設您想要使用 Analyze ID API 從 10 萬個身分文件中擷取資訊。美國西部 (奧勒岡) 區域 100,000 頁每頁定價為 0.025 USD (100,000 頁以內)。總費用為 2,500 USD。 

處理的總頁數 = 100,000 

每頁價格 = 0.025 USD 

每月總費用 = 0.025 USD * 100,000 = 2,500 USD

定價範例 12 – Analyze ID API

假設您想要使用 Analyze ID API 從 60 萬個身分文件中擷取資訊。美國西部 (奧勒岡) 區域 10 萬頁每頁定價為 0.025 USD,10 萬頁後每頁定價為 0.01 USD。總成本為 7,500 USD。

處理的總頁數 = 60 萬 

每頁價格 = 前 10 萬頁 0.025 USD,後 50 萬頁 0.01 USD 

每月總費用 = 0.025 USD * 100,000 + 0.01 USD * 500,000 = 7,500 USD

Standard Product Icons (Features) Squid Ink
查看 Amazon Textract 常見問答集

進一步了解 Amazon Textract 如何從幾乎任何文件中,擷取文字和結構化資料。

進一步了解 
Sign up for a free account
註冊免費帳戶

立即存取 AWS 免費方案。 

註冊 
Standard Product Icons (Start Building) Squid Ink
開始在主控台進行建置

開始在 AWS 管理主控台使用 Amazon Textract 進行建置。

註冊