Amazon Textract là một dịch vụ máy học (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét. Dịch vụ này có thể xác định, hiểu rõ và trích xuất dữ liệu từ các biểu mẫu và bảng biểu chứ không đơn thuần chỉ nhận diện ký tự quang học (OCR). Với Amazon Textract, bạn chỉ phải trả tiền cho những gì bạn sử dụng. Không yêu cầu mức phí tối thiểu và không cần cam kết trả trước. Bất kể là bạn trích xuất văn bản, văn bản dạng bảng, dữ liệu biểu mẫu, truy vấn hay xử lý hóa đơn và giấy tờ tùy thân, Amazon Textract cũng chỉ tính phí cho các trang đã qua xử lý. Xem Câu hỏi thường gặp để biết thêm chi tiết về các trang và hoạt động được chấp nhận khi sử dụng Amazon Textract.

Amazon Textract có bốn API khác nhau: API Detect Document Text, API Analyze Document, API Analyze Expense và API Analyze ID.

API Detect Document Text sử dụng công nghệ OCR để trích xuất văn bản và chữ viết tay từ tài liệu.

API Analyze Document có ba tính năng: Biểu mẫu, Bảng và Truy vấn. Bạn có thể linh hoạt trong việc gọi kết hợp giữa Biểu mẫu, Bảng và Truy vấn với nhau.

  • API Analyze Document cho Biểu mẫu trích xuất dữ liệu như các cặp khóa-giá trị (“First Name” (Tên) và giá trị liên quan, chẳng hạn như “Jane Smith”). API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
  • API Analyze Document cho Bảng trích xuất dữ liệu được trình bày ở dạng lưới hoặc bảng được sắp xếp theo cột và hàng. API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
  • API Analyze Document cho Truy vấn cung cấp cho bạn sự linh hoạt để chỉ định thông tin bạn cần từ tài liệu (ví dụ: “Tên khách hàng là gì?”) và nhận dữ liệu đó (ví dụ: “Jane Doe”) trong phần phản hồi. Bạn không cần phải lo nghĩ về cấu trúc của dữ liệu trong tài liệu hoặc những khác biệt trong cách trình bày dữ liệu trên các định dạng và phiên bản khác nhau của tài liệu. API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
 
API Analyze Expense trích xuất dữ liệu từ các hóa đơn và biên nhận, chẳng hạn như invoice ID (ID hóa đơn), invoice No. (số hóa đơn), invoice # (mã hóa đơn) và giá trị liên quan là 12345. Amazon Textract ghi nhận những thuật ngữ đa dạng này là invoice ID (ID hóa đơn) và giá trị tương ứng là 12345, đồng thời cho phép phân loại các trường phổ biến theo tiêu chuẩn. 
 
API Analyze ID sử dụng máy học để thấu hiểu ngữ cảnh của những giấy tờ tùy thân như hộ chiếu Hoa Kỳ, bằng lái xe và các loại giấy tờ khác. Bạn có thể tự động trích xuất các thông tin cụ thể như ngày hết hạn và ngày sinh, cũng như nhận dạng thông minh và trích xuất thông tin ngụ ý như tên và địa chỉ. Mỗi hình ảnh giấy tờ tùy thân được coi là một trang.
 

Bậc miễn phí

Theo quy định Bậc miễn phí của AWS, bạn có thể bắt đầu sử dụng miễn phí Amazon Textract. Bậc miễn phí kéo dài trong ba tháng và khách hàng AWS mới có thể phân tích tối đa:

API Detect Document Text: 1.000 trang mỗi tháng
API Analyze Document:

  • 100 trang mỗi tháng khi sử dụng tính năng Biểu mẫu hoặc Bảng
  • Thêm 100 trang mỗi tháng khi sử dụng tính năng Truy vấn MỚI

API Analyze Expense: 100 trang mỗi tháng
API Analyze ID: 100 trang mỗi tháng

Giá API Amazon Textract

*Đầu ra của API Analyze Document có bao gồm OCR dù chọn loại tính năng nào
*API Analyze Expense và Analyze ID không bao gồm OCR trong đầu ra

Ví dụ về giá ngoài bậc miễn phí

Ví dụ về giá 1 - API Detect Document Text

Giả sử bạn muốn trích xuất văn bản từ 100.000 trang báo cáo nghiên cứu bằng API Detect Document Text. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,0015 USD, với chi phí là 150 USD.

Tổng số trang đã xử lý = 100.000

Giá mỗi trang = 0,0015 USD

Tổng mức phí mỗi tháng = 0,0015 USD * 100.000 = 150 USD

Ví dụ về giá 2 - API Detect Document Text

Giả sử bạn muốn trích xuất văn bản từ hai triệu trang báo cáo nghiên cứu bằng API Detect Document Text. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,0015 USD, đồng thời những trang vượt mức một triệu trang có giá 0,0006 USD, vì vậy, để xử lý hai triệu trang, tổng chi phí phải trả là 2.100 USD.

Tổng số trang đã xử lý = 2.000.000

Giá mỗi trang = 0,0015 USD cho 1 triệu trang đầu tiên và 0,0006 USD cho các trang sau 1 triệu

Tổng mức phí mỗi tháng = 0,0015 USD * 1.000.000 + 0,0006 USD * 1.000.000 = 1.500 USD + 600 USD = 2.100 USD

Ví dụ về giá 3 - API Analyze Document – Biểu mẫu và Bảng

Giả sử bạn muốn trích xuất văn bản và dữ liệu có cấu trúc từ 5.000 trang biểu mẫu thuế bằng API Analyze Document. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có bảng là 0,015 USD còn có biểu mẫu là 0,05 USD, vậy tổng phí là 325 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá cho trang có bảng = 0,015 USD

Giá cho trang có biểu mẫu (cặp key-value) = 0,05 USD

Tổng mức phí = 0,015 USD * 5.000 + 0,05 USD * 5.000 = 75 USD + 250 USD = 325 USD

Ví dụ về giá 4 - API Analyze Document – Biểu mẫu và Bảng

Giả sử bạn muốn trích xuất văn bản, biểu mẫu và bảng từ hai triệu trang biểu mẫu thuế bằng API Analyze Document. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có bảng là 0,015 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,01 USD mỗi trang. Các trang có biểu mẫu là 0,05 USD cho một triệu trang, đồng thời những trang vượt mức một triệu có giá là 0,04 USD mỗi trang. Tổng chi phí phải trả là 115.000 USD.

Tổng số trang đã xử lý = 2.000.000 trang

Giá cho trang có biểu mẫu (cặp khóa-giá trị) = 0,05 USD cho 1 triệu trang đầu tiên và 0,04 USD cho 1 triệu trang tiếp theo

Tổng mức phí = 0,015 USD * 1.000.000 + 0,01 USD * 1.000.000 + 0,05 USD * 1.000.000 + 0,04 USD * 1.000.000 = 15.000 USD + 10.000 USD + 50.000 + 40.000 = 115.000 USD

Ví dụ về giá 5 - API Analyze Document – Truy vấn

Giả sử bạn muốn trích xuất văn bản từ 5.000 trang biểu mẫu thế chấp bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang là 0,015 USD, tổng phí là 75 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá mỗi trang có Truy vấn = 0,015 USD

Tổng mức phí = 0,015 USD * 5.000 = 75 USD

Ví dụ về giá 6 - API Analyze Document – Biểu mẫu và Truy vấn

Giả sử bạn muốn trích xuất văn bản và dữ liệu bảng từ 5.000 trang biểu mẫu thuế bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có Bảng và Truy vấn là 0,020 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,015 USD mỗi trang. Tổng chi phí phải trả là 100 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá cho trang có bảng và Truy vấn = 0,020 USD

Tổng mức phí = 0,020 USD * 5.000 = 100 USD

Ví dụ về giá 7 - API Analyze Document – Biểu mẫu và Truy vấn

Giả sử bạn muốn trích xuất văn bản và dữ liệu biểu mẫu (các cặp khóa-giá trị) từ 5.000 trang biểu mẫu bảo hiểm bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có Biểu mẫu và Truy vấn là 0,055 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,045 USD mỗi trang. Tổng chi phí phải trả là 275 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá cho trang có Biểu mẫu (cặp khóa-giá trị) và Truy vấn = 0,055 USD

Tổng mức phí = 0,055 USD * 5.000 = 275 USD

Ví dụ về giá 8 - API Analyze Document – Biểu mẫu và Bảng và Truy vấn

Giả sử bạn muốn trích xuất văn bản, biểu mẫu và bảng từ hai triệu trang phiếu lương bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có Bảng, Biểu mẫu và Truy vấn là 0,070 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,055 USD mỗi trang. Tổng chi phí phải trả là 125.000 USD.

Tổng số trang đã xử lý = 2.000.000 trang 

Giá cho trang có Bảng, Biểu mẫu và Truy vấn = 0,070 USD cho một triệu trang đầu tiên và 0,055 USD cho một triệu trang tiếp theo 

Tổng mức phí = 0,070 USD * 1.000.000 + 0,055 USD * 1.000.000 = 70.000 USD + 55.000 USD = 125.000 USD

Ví dụ về giá 9 - API Analyze Expense

Giả sử bạn muốn trích xuất dữ liệu từ 100.000 hóa đơn bằng API Analyze Expense. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 1 triệu trang là 0,01 USD và bạn xử lý 100.000 hóa đơn. Tổng chi phí phải trả là 1.000 USD. Xem cách tính dưới đây: 

Tổng số trang đã xử lý = 100.000 

Giá mỗi trang = 0,01 USD 

Tổng mức phí mỗi tháng = 0,01 USD * 100.000 = 1.000 USD

Ví dụ về giá 10 - API Analyze Expense

Giả sử bạn muốn trích xuất dữ liệu từ 1.500.000 hóa đơn bằng API Analyze Expense. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang là 0,01 USD mỗi trang, đồng thời những trang vượt mức một triệu có giá là 0,008 USD mỗi trang. Tổng chi phí phải trả là 14.000 USD. Xem cách tính dưới đây: 

Tổng số trang đã xử lý = 1.500.000 

Giá mỗi trang = 0,01 USD cho 1 triệu trang đầu tiên và 0,008 USD cho 500.000 trang tiếp theo 

Tổng mức phí mỗi tháng = 0,01 USD * 1.000.000 + 0,008 USD * 500.000 = 14.000 USD

Ví dụ về giá 11 - API Analyze ID

Giả sử rằng bạn muốn trích xuất thông tin từ 100.000 tài liệu nhận dạng bằng API Analyze ID. Mức định giá cho mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 100.000 trang là 0,025 USD/trang cho tối đa 100.000 trang. Tổng chi phí phải trả là 2.500 USD. 

Tổng số trang đã xử lý = 100.000 

Giá mỗi trang = 0,025 USD 

Tổng mức phí mỗi tháng = 0,025 USD * 100.000 = 2.500 USD

Ví dụ về giá 12 - API Analyze ID

Giả sử bạn muốn trích xuất thông tin từ 600.000 tài liệu nhận dạng bằng API Analyze ID. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 100.000 trang là 0,025 USD/trang và 0,01 USD/trang sau 100.000 trang. Tổng chi phí phải trả là 7.500 USD.

Tổng số trang đã xử lý = 600.000 

Giá mỗi trang = 0,025 USD cho 100.000 trang đầu tiên và 0,01 USD cho 500.000 trang tiếp theo 

Tổng mức phí mỗi tháng = 0,025 USD * 100.000 + 0,01 USD * 500.000 = 7.500 USD

Standard Product Icons (Features) Squid Ink
Xem câu hỏi thường gặp về Amazon Textract

Hãy tìm hiểu thêm về cách Amazon Textract trích xuất tài liệu và dữ liệu có cấu trúc từ hầu như mọi văn bản.

Tìm hiểu thêm 
Sign up for a free account
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS. 

Đăng ký 
Standard Product Icons (Start Building) Squid Ink
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng với Amazon Textract trong Bảng điều khiển Quản lý AWS.

Đăng ký