Amazon Textract là một dịch vụ máy học (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét. Dịch vụ này có thể xác định, hiểu rõ và trích xuất dữ liệu từ các biểu mẫu và bảng biểu chứ không đơn thuần chỉ nhận diện ký tự quang học (OCR). Với Amazon Textract, bạn chỉ phải trả tiền cho những gì bạn sử dụng. Không yêu cầu mức phí tối thiểu và không cần cam kết trả trước. Bất kể là bạn trích xuất văn bản, văn bản dạng bảng, dữ liệu biểu mẫu, truy vấn hay xử lý hóa đơn và giấy tờ tùy thân, Amazon Textract cũng chỉ tính phí cho các trang đã qua xử lý. Xem Câu hỏi thường gặp để biết thêm chi tiết về các trang và hoạt động được chấp nhận khi sử dụng Amazon Textract.

Amazon Textract có năm API khác nhau: API Detect Document Text, API Analyze Document, API Analyze Expense, API Analyze ID và API Analyze Lending.

API Detect Document Text sử dụng công nghệ OCR để trích xuất văn bản và chữ viết tay từ tài liệu.

API Analyze Document có bốn tính năng bao gồm Biểu mẫu, Bảng, Truy vấn và Chữ ký. Bạn có thể linh hoạt gọi tổ hợp Biểu mẫu, Bảng, Truy vấn và Chữ ký bất kỳ cùng nhau.

  • API Analyze Document cho Biểu mẫu trích xuất dữ liệu như các cặp khóa-giá trị (“First Name” (Tên) và giá trị liên quan, chẳng hạn như “Jane Smith”). API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
  • API Analyze Document cho Bảng trích xuất dữ liệu được trình bày ở dạng lưới hoặc bảng được sắp xếp theo cột và hàng. API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
  • API Analyze Document cho Truy vấn cung cấp cho bạn sự linh hoạt để chỉ định thông tin bạn cần từ tài liệu (ví dụ: “Tên khách hàng là gì?”) và nhận dữ liệu đó (ví dụ: “Jane Doe”) trong phần phản hồi. Bạn không cần phải lo nghĩ về cấu trúc của dữ liệu trong tài liệu hoặc những khác biệt trong cách trình bày dữ liệu trên các định dạng và phiên bản khác nhau của tài liệu. API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.
  • API Analyze Document cho Truy vấn tùy chỉnh cung cấp cho bạn khả năng gọi tính năng Truy vấn tùy chỉnh cho các tài liệu cụ thể theo công việc kinh doanh của bạn. Bạn đào tạo bộ điều hợp bằng Bảng điều khiển AWS và sử dụng mã định danh bộ điều hợp trong yêu cầu API Analyze Document để sử dụng tính năng Truy vấn tùy chỉnh.
  • API Analyze Document cho Chữ ký cung cấp khả năng phát hiện chữ ký viết tay, chữ ký điện tử và chữ ký tắt trên bất kỳ tài liệu hoặc hình ảnh nào. API này cũng sử dụng công nghệ OCR để trích xuất toàn bộ văn bản và chữ viết tay từ tài liệu.

 

API Analyze ID sử dụng máy học để hiểu ngữ cảnh của những giấy tờ tùy thân như hộ chiếu Hoa Kỳ, giấy phép lái xe và các loại giấy tờ tùy thân khác. Bạn có thể tự động trích xuất các thông tin cụ thể như ngày hết hạn và ngày sinh, cũng như nhận dạng thông minh và trích xuất thông tin ngụ ý như tên và địa chỉ. Mỗi hình ảnh giấy tờ tùy thân được coi là một trang.
 
API Analyze Lending là một API xử lý tài liệu thế chấp chuyên biệt cho phép tự động hóa quá trình phân loại và trích xuất thông tin từ một loạt các tài liệu ứng dụng liên quan đến thế chấp. Các mô hình máy học của Analyze Lending đã được đào tạo trước về độ đa dạng của các loại tài liệu xuất hiện trong một gói ứng dụng thế chấp điển hình. Analyze Lending sẽ phân loại, chia nhỏ và trích xuất kết quả có độ chính xác cao, đồng thời cung cấp bản tóm tắt kết quả bao gồm cả việc phát hiện được chữ ký trên trang hay không.
 

Yêu cầu báo giá tùy chỉnh

Đối với các trường hợp sử dụng có số lượng lớn, hãy kết nối với nhóm bán hàng của chúng tôi để yêu cầu bản đề xuất định giá tùy chỉnh.

Bậc miễn phí

Theo quy định Bậc miễn phí của AWS, bạn có thể bắt đầu sử dụng miễn phí Amazon Textract. Bậc miễn phí kéo dài trong ba tháng và khách hàng AWS mới có thể phân tích tối đa:

API Detect Document Text: 1.000 trang mỗi tháng
API Analyze Document:

  • 1000 trang mỗi tháng khi chỉ sử dụng tính năng Chữ ký
  • 100 trang mỗi tháng khi sử dụng các tính năng Biểu mẫu, Bảng và Bố cục
  • 100 trang mỗi tháng cho từng tính năng Truy vấn, Biểu mẫu + Truy vấn, Bảng + Truy vấn, Biểu mẫu + Bảng + Truy vấn
  • Không có bậc miễn phí cho tính năng Truy vấn tùy chỉnh

API Analyze Expense: 100 trang mỗi tháng

API Analyze ID: 100 trang mỗi tháng

API Analyze Lending: 2.000 trang mỗi tháng

Định giá API Amazon Textract

Các tính năng được đào tạo trước

*Đầu ra của API Analyze Document có bao gồm OCR dù chọn loại tính năng nào
*Các API Analyze Expense và Analyze ID có cả OCR trong đầu ra

Các tính năng Được đào tạo trước + Tùy chỉnh

Ví dụ về giá ngoài bậc miễn phí

Ví dụ về giá 1 - API Detect Document Text

Giả sử bạn muốn trích xuất văn bản từ 100.000 trang báo cáo nghiên cứu bằng API Detect Document Text. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,0015 USD, với chi phí là 150 USD.

Tổng số trang đã xử lý = 100.000

Giá mỗi trang = 0,0015 USD

Tổng mức phí mỗi tháng = 0,0015 USD * 100.000 = 150 USD

Ví dụ về giá 2 - API Detect Document Text

Giả sử bạn muốn trích xuất văn bản từ hai triệu trang báo cáo nghiên cứu bằng API Detect Document Text. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,0015 USD, đồng thời những trang vượt mức một triệu trang có giá 0,0006 USD, vì vậy, để xử lý hai triệu trang, tổng chi phí phải trả là 2.100 USD.

Tổng số trang đã xử lý = 2.000.000

Giá mỗi trang = 0,0015 USD cho 1 triệu trang đầu tiên và 0,0006 USD cho các trang sau 1 triệu

Tổng mức phí mỗi tháng = 0,0015 USD * 1.000.000 + 0,0006 USD * 1.000.000 = 1.500 USD + 600 USD = 2.100 USD

Ví dụ về giá 3 - API Analyze Document – Biểu mẫu và Bảng

Giả sử bạn muốn trích xuất văn bản và dữ liệu có cấu trúc từ 5.000 trang biểu mẫu thuế bằng API Analyze Document. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có bảng là 0,015 USD còn có biểu mẫu là 0,05 USD, vậy tổng phí là 325 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá cho trang có bảng = 0,015 USD

Giá cho trang có biểu mẫu (cặp key-value) = 0,05 USD

Tổng mức phí = 0,015 USD * 5.000 + 0,05 USD * 5.000 = 75 USD + 250 USD = 325 USD

Ví dụ về giá 4 - API Analyze Document – Biểu mẫu và Bảng

Giả sử bạn muốn trích xuất văn bản, biểu mẫu và bảng từ hai triệu trang biểu mẫu thuế bằng API Analyze Document. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có bảng là 0,015 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,01 USD mỗi trang. Các trang có biểu mẫu là 0,05 USD cho một triệu trang, đồng thời những trang vượt mức một triệu có giá là 0,04 USD mỗi trang. Tổng chi phí phải trả là 115.000 USD.

Tổng số trang đã xử lý = 2.000.000 trang

Giá cho trang có biểu mẫu (cặp khóa-giá trị) = 0,05 USD cho 1 triệu trang đầu tiên và 0,04 USD cho 1 triệu trang tiếp theo

Tổng mức phí = 0,015 USD * 1.000.000 + 0,01 USD * 1.000.000 + 0,05 USD * 1.000.000 + 0,04 USD * 1.000.000 = 15.000 USD + 10.000 USD + 50.000 + 40.000 = 115.000 USD

Ví dụ về giá 5 - API Analyze Document – Truy vấn

Giả sử bạn muốn trích xuất văn bản từ 5.000 trang biểu mẫu thế chấp bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang là 0,015 USD, tổng phí là 75 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá mỗi trang có Truy vấn = 0,015 USD

Tổng mức phí = 0,015 USD * 5.000 = 75 USD

Ví dụ định giá 6 - API Analyze Document - Biểu mẫu, Bảng và Truy vấn

Giả sử bạn muốn trích xuất văn bản, biểu mẫu và bảng từ hai triệu trang phiếu lương bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có Bảng, Biểu mẫu và Truy vấn là 0,070 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,055 USD mỗi trang. Tổng chi phí phải trả là 125.000 USD.

Tổng số trang đã xử lý = 2.000.000 trang 

Giá cho trang có Bảng, Biểu mẫu và Truy vấn = 0,070 USD cho một triệu trang đầu tiên và 0,055 USD cho một triệu trang tiếp theo 

Tổng mức phí = 0,070 USD * 1.000.000 + 0,055 USD * 1.000.000 = 70.000 USD + 55.000 USD = 125.000 USD

Ví dụ định giá 7 - API Analyze Document - Biểu mẫu và Truy vấn

Giả sử bạn muốn trích xuất văn bản và dữ liệu bảng từ 5.000 trang biểu mẫu thuế bằng API Analyze Document. Bạn cũng muốn trích xuất 10 điểm dữ liệu cụ thể từ mỗi trang thông qua Truy vấn. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang có Bảng và Truy vấn là 0,020 USD, đồng thời những trang vượt mức một triệu trang có giá là 0,015 USD mỗi trang. Tổng chi phí phải trả là 100 USD.

Tổng số trang đã xử lý = 5.000 trang

Giá cho trang có bảng và Truy vấn = 0,020 USD

Tổng mức phí = 0,020 USD * 5.000 = 100 USD

Ví dụ định giá 8 - API Analyze Document - Chữ ký

Giả sử bạn muốn phát hiện chữ ký và trích xuất văn bản thô từ 100.000 trang tài liệu thế chấp bằng API Analyze Document
- loại tính năng dành cho chữ ký. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,0035 USD, vậy chi phí là
350 USD.
Tổng số trang đã xử lý = 100.000
Giá mỗi trang = 0,0035 USD
Tổng mức phí mỗi tháng = 0,00035 USD * 100.000 = 350 USD

Ví dụ định giá 9 - API Analyze Document - Chữ ký

Giả sử bạn muốn phát hiện chữ ký và trích xuất văn bản thô từ 5 triệu trang tài liệu thế chấp bằng API Analyze Document
- loại tính năng dành cho chữ ký. Mức giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang đầu tiên là 0,00035 USD, vậy chi phí là 20 USD.
Tổng số trang đã xử lý = 5.000.000
Giá mỗi trang cho 1 triệu trang đầu tiên = 0,0035 * 1.000.000 = 3.500 USD
Giá mỗi trang cho 4 triệu trang tiếp theo = 0,0014 * 4.000.000 = 5.600 USD
Tổng = 3.500 USD + 5.600 USD = 9.100 USD

Ví dụ định giá 10 - API Analyze Expense

Giả sử bạn muốn trích xuất dữ liệu từ 100.000 hóa đơn bằng API Analyze Expense. Mức định giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 1 triệu trang là 0,01 USD và bạn xử lý 100.000 hóa đơn. Tổng chi phí phải trả là 1.000 USD. Xem cách tính dưới đây: 

Tổng số trang đã xử lý = 100.000 

Giá mỗi trang = 0,01 USD 

Tổng mức phí mỗi tháng = 0,01 USD * 100.000 = 1.000 USD

Ví dụ định giá 11 – API Analyze Expense

Giả sử bạn muốn trích xuất dữ liệu từ 1.500.000 hóa đơn bằng API Analyze Expense. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho một triệu trang là 0,01 USD mỗi trang, đồng thời những trang vượt mức một triệu có giá là 0,008 USD mỗi trang. Tổng chi phí phải trả là 14.000 USD. Xem cách tính dưới đây: 

Tổng số trang đã xử lý = 1.500.000 

Giá mỗi trang = 0,01 USD cho 1 triệu trang đầu tiên và 0,008 USD cho 500.000 trang tiếp theo 

Tổng mức phí mỗi tháng = 0,01 USD * 1.000.000 + 0,008 USD * 500.000 = 14.000 USD

Ví dụ định giá 12 - API Analyze ID

Giả sử rằng bạn muốn trích xuất thông tin từ 100.000 tài liệu nhận dạng bằng API Analyze ID. Mức định giá cho mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 100.000 trang là 0,025 USD/trang cho tối đa 100.000 trang. Tổng chi phí phải trả là 2.500 USD. 

Tổng số trang đã xử lý = 100.000 

Giá mỗi trang = 0,025 USD 

Tổng mức phí mỗi tháng = 0,025 USD * 100.000 = 2.500 USD

Ví dụ định giá 13 – API Analyze ID

Giả sử bạn muốn trích xuất thông tin từ 600.000 tài liệu nhận dạng bằng API Analyze ID. Giá mỗi trang ở khu vực Miền Tây Hoa Kỳ (Oregon) cho 100.000 trang là 0,025 USD/trang và 0,01 USD/trang sau 100.000 trang. Tổng chi phí phải trả là 7.500 USD.

Tổng số trang đã xử lý = 600.000

Giá mỗi trang = 0,025 USD cho 100.000 trang đầu tiên và 0,01 USD cho 500.000 trang tiếp theo

Tổng mức phí mỗi tháng = 0,025 USD * 100.000 + 0,01 USD * 500.000 = 7.500 USD

Ví dụ định giá 14 - API Analyze Lending

Giả sử bạn muốn trích xuất thông tin từ 200.000 trang tài liệu cho vay thế chấp bằng API Analyze Lending. Mức giá mỗi trang ở Khu vực Miền Tây Hoa Kỳ (Oregon) là 0,07 USD/trang cho tối đa một triệu trang. Trong số 200.000 trang đã xử lý, Analyze Lending cung cấp hoạt động phân loại và trích xuất các loại tài liệu được hỗ trợ, cho ra kết quả phân loại và trích xuất dữ liệu từ 100.000 trang. Vậy tổng chi phí cho 100.000 trang là 7.000 USD.

Tổng số trang đã xử lý = 200.000

Tổng số trang được hỗ trợ phân loại và trích xuất = 100.000

Giá mỗi trang = 0,07 USD

Tổng mức phí mỗi tháng = 0,07 USD * 100.000 = 7.000 USD

Ví dụ định giá 15 - API Analyze Lending

Giả sử bạn muốn trích xuất thông tin từ 2.000.000 trang tài liệu cho vay thế chấp bằng API Analyze Lending. Mức giá mỗi trang ở Khu vực Miền Tây Hoa Kỳ (Oregon) là 0,07 USD/trang cho tối đa một triệu trang và 0,055 USD/trang sau khi đủ 1.000.000 trang. Trong số 2.000.000 trang đã xử lý, Analyze Lending cung cấp hoạt động phân loại và trích xuất các loại tài liệu được hỗ trợ, cho ra kết quả phân loại và trích xuất dữ liệu từ 1.200.000 trang. Vậy tổng chi phí cho 1.200.000 trang là 81.000 USD.

Tổng số trang đã xử lý = 2.000.000

Tổng số trang được hỗ trợ phân loại và trích xuất = 1.200.000

Giá mỗi trang = 0,07 USD cho 1.000.000 trang đầu tiên và 0,055 USD cho 200.000 trang tiếp theo

Tổng mức phí mỗi tháng = 0,07 USD * 1.000.000 + 0,055 USD * 200.000 = 81.000 USD

Ví dụ về giá 16 – API Analyze Document – Bố cục và Bảng

Bạn có yêu cầu trích xuất bố cục và bảng từ hai triệu trang báo cáo tài chính bằng API Analyze Document. Bố cục được cung cấp miễn phí khi được sử dụng với tính năng Bảng. Giá cho Bảng ở khu vực Miền Tây Hoa Kỳ (Oregon) là 0,015 USD mỗi trang cho 1 triệu trang đầu tiên trong một tháng và 0,010 USD mỗi trang cho các trang vượt quá 1 triệu trang trong một tháng.

Tổng số trang đã xử lý = 2.000.000 trang

Giá cho 1 triệu trang đầu tiên = 0,015 USD * 1.000.000 = 15.000 USD

Giá cho 1 triệu trang tiếp theo = 0,010 USD * 1.000.000 = 10.000 USD

Tổng mức phí = 25.000 USD

Ví dụ về giá 17 – API Analyze Document – Truy vấn tùy chỉnh

Bạn có yêu cầu trích xuất dữ liệu từ 5 triệu trang bằng tính năng Truy vấn tùy chỉnh. Giá ở khu vực Miền Tây Hoa Kỳ (Oregon) là 0,025 USD mỗi trang cho 1 triệu trang đầu tiên trong một tháng và 0,015 USD mỗi trang cho các trang vượt quá 1 triệu trang trong một tháng.

Tổng số trang đã xử lý = 5.000.000 trang

Giá cho 1 triệu trang đầu tiên = 0,025 USD * 1.000.000 = 25.000 USD

Giá cho 4 triệu trang tiếp theo = 0,015 USD * 4.000.000 = 60.000 USD

Tổng mức phí = 85.000 USD

Ví dụ về giá 18 – API Analyze Document – Biểu mẫu được đào tạo trước và Truy vấn tùy chỉnh

Bạn có yêu cầu trích xuất các điểm dữ liệu từ 2 triệu trang bằng cách sử dụng Biểu mẫu được đào tạo trước và Truy vấn tùy chỉnh. Giá ở khu vực Miền Tây Hoa Kỳ (Oregon) là 0,065 USD mỗi trang cho 1 triệu trang đầu tiên trong một tháng và 0,050 USD mỗi trang cho các trang vượt quá 1 triệu trang trong một tháng.

Tổng số trang đã xử lý = 2.000.000 trang

Giá cho 1 triệu trang đầu tiên = 0,065 USD * 1.000.000 = 65.000 USD

Giá cho 1 triệu trang tiếp theo = 0.050 USD * 1.000.000 = 50.000 USD

Tổng mức phí = 115.000 USD

Xem câu hỏi thường gặp về Amazon Textract

Hãy tìm hiểu thêm về cách Amazon Textract trích xuất tài liệu và dữ liệu có cấu trúc từ hầu như mọi văn bản.

Tìm hiểu thêm 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS. 

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng với Amazon Textract trong Bảng điều khiển Quản lý AWS.

Đăng ký