Amazon Textract – сервис машинного обучения (ML), который автоматически извлекает печатный и рукописный текст и данные из сканированных документов. Этот процесс выходит за рамки простого оптического распознавания символов (OCR) и позволяет идентифицировать, понимать и извлекать данные из форм и таблиц. Используя сервис Amazon Textract, вы платите только за то, что действительно используете. Минимальные платежи и авансовые обязательства отсутствуют. При работе с Amazon Textract плата взимается только за обработанные страницы вне зависимости от того, какие данные извлекаются: текст, текст с таблицами, данные формы, запросы или обрабатываете счета-фактуры и идентифицируете документы. В разделе вопросов и ответов представлены дополнительные сведения о страницах и допустимых вариантах использования Amazon Textract.

У Amazon Textract есть четыре различных API: Detect Document Text API, Analyze Document API, Analyze Expense API и Analyze ID API.

Detect Document Text API использует технологию OCR (оптическое распознавание символов) для извлечения печатного и рукописного текста из документа.

Analyze Document API содержит три решения: формы, таблицы и запросы. Вам предоставлены гибкие возможности сканирования любых комбинаций форм, таблиц и запросов.

  • Analyze Document API для форм извлекает данные в виде пар «ключ-значение» (например, «Имя» и соответствующее значение «Джейн Смит»). Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
  • Analyze Document API для таблиц извлекает табличные данные в виде столбцов и строк. Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
  • Analyze Document API для запросов предоставляет гибкие возможности для указания информации, которую необходимо извлечь из документа (например, «Каково имя клиента?») и получения этих данных (например, «Джейн Доу») в составе ответа. Вам не нужно беспокоиться о структуре данных в документе или изменениях в расположении данных в различных форматах и версиях документа. Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
 
Analyze Expense API извлекает данные из счетов и чеков, например «invoice ID» (идентификатор счета), «invoice No.» (номер счета), «invoice #» (номер счета) и соответствующее значение 12345. Amazon Textract распознает эти различные термины как идентификаторы счета и соответствующие им значения 12345 и позволяет стандартизировать таксономию общих полей. 
 
Analyze ID API использует машинное обучение для понимания контекста идентификационных документов, например паспортов США, водительских удостоверений и других удостоверений личности. Можно автоматически извлекать определенную информацию, например дату истечения срока действия и дату рождения, а также интеллектуальным образом выявлять и извлекать сопряженную информацию, например имя и адрес. Каждое изображение удостоверения личности считается страницей.
 

Уровень бесплатного пользования

В рамках уровня бесплатного пользования AWS работу с Amazon Textract можно начать бесплатно. Уровень бесплатного пользования предоставляется на три месяца, и новые клиенты AWS могут проанализировать до:

Detect Document Text API: 1000 страниц в месяц
Analyze Document API:

  • 100 страниц в месяц при использовании форм и таблиц
  • Дополнительные 100 страниц в месяц при использовании запросов НОВИНКА

Analyze Expense API: 100 страниц в месяц
Analyze ID API: 100 страниц в месяц

Цены на API Amazon Textract

* В данные по Analyze Document API включено OCR, независимо от выбранного типа возможности
* В данные по Analyze Expense и Analyze ID API не включено OCR

Примеры расчета цен за пределами уровня бесплатного пользования

Пример расчета стоимости 1 для Analyze Document API

Допустим, вам требуется извлечь текст со 100 000 страниц отчетов об исследованиях при помощи Detect Document Text API. Цена страницы из первого миллиона страниц в регионе Запад США (Орегон) составляет 0,0015 USD, общая сумма – 150 USD.

Общее количество обработанных страниц: 100 000

Цена за страницу: 0,0015 USD

Итоговая стоимость в месяц: 0,0015 USD * 100 000 = 150 USD

Пример расчета стоимости 2 для Detect Document Text API

Допустим, вам требуется извлечь текст из двух миллионов страниц отчетов об исследованиях при помощи Detect Document Text API. Цена за страницу в регионе Запад США (Орегон) составляет 0,0015 USD для первого миллиона страниц и 0,0006 USD для последующих, поэтому стоимость обработки двух миллионов страниц составит 2100 USD.

Общее количество обработанных страниц: 2 000 000

Цена за страницу: 0,0015 USD для первого миллиона страниц и 0,0006 USD для второго

Итоговая стоимость в месяц: 0,0015 USD * 1 000 000 + 0,0006 USD * 1 000 000 = 1500 USD + 600 USD = 2100 USD

Пример расчета стоимости 3. Analyze Document API (формы и таблицы)

Допустим, вам нужно извлечь текст и структурированные данные из 5000 страниц налоговых форм при помощи Analyze Document API. Цена за страницу в регионе Запад США (штат Орегон) составляет 0,015 USD для одного миллиона страниц с таблицами, с формами – 0,05 USD, а общая сумма – 325 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с таблицей: 0,015 USD

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD

Общая стоимость: 0,015 USD * 5000 + 0,05 USD * 5000 = 75 USD + 250 USD = 325 USD

Пример расчета стоимости 4 для Analyze Document API (формы и таблицы)

Допустим, вам нужно извлечь текст, формы и таблицы из двух миллионов страниц налоговых форм при помощи Analyze Document API. Цена за страницу в регионе Запад США (Орегон) составляет 0,015 USD для первого миллиона страниц с таблицами и 0,01 USD для последующих. Цена страницы с формой – 0,05 USD для первого миллиона страниц и 0,04 USD для последующих. Общая стоимость составит 115 000 USD.

Общее количество обработанных страниц: 2 000 000

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD за первый миллион страниц, 0,04 USD за следующий миллион

Общая стоимость: 0,015 USD * 1 000 000 + 0,01 USD * 1 000 000 + 0,05 USD * 1 000 000 + 0,04 USD * 1 000 000 = 15 000 USD + 10 000 USD + 50 000 USD + 40 000 USD = 115 000 USD

Пример расчета стоимости 5 для Analyze Document API (запросы)

Допустим, вам нужно извлечь текст из 5000 страниц заявок на ипотеку при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (штат Орегон) составляет 0,015 USD, а общая сумма – 75 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с запросами = 0,015 USD

Общая стоимость = 0,015 USD * 5000 = 75 USD

Пример расчета стоимости 6 для Analyze Document API (формы и запросы)

Допустим, вам нужно извлечь текст и таблицы из 5000 страниц налоговых форм при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (Орегон) составляет 0,020 USD для первого миллиона страниц с таблицами и запросами и 0,015 USD для последующих. Общая стоимость составит 100 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с таблицей и запросами: 0,020 USD

Общая стоимость: 0,020 USD * 5000 = 100 USD

Пример расчета стоимости 7 для Analyze Document API (формы и запросы)

Допустим, вам нужно извлечь текст и данные форм (пары «ключ-значение») из 5000 страниц страховых бланков при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (Орегон) составляет 0,055 USD для первого миллиона страниц с формами и запросами и 0,045 USD для последующих. Общая стоимость составит 275 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с формами (пара «ключ-значение») и запросами: 0,055 USD

Общая стоимость = 0,055 USD * 5000 = 275 USD

Пример расчета стоимости 8 для Analyze Document API (формы, таблицы и запросы)

Допустим, вам нужно извлечь текст, формы и таблицы из двух миллионов страниц платежных квитанций при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (Орегон) составляет 0,070 USD для первого миллиона страниц с таблицами, формами и запросами и 0,055 USD для последующих. Общая стоимость составит 125 000 USD.

Общее количество обработанных страниц: 2 000 000 

Цена за страницу с таблицами, формами и запросами: 0,070 USD за первый миллион страниц, 0,055 USD за следующий миллион 

Общая стоимость = 0,070 USD * 1 000 000 + 0,055 USD * 1 000 000 = 70 000 USD + 55 000 USD = 125 000 USD

Пример расчета стоимости 9 для Analyze Expense API

Допустим, вам необходимо извлечь данные из 100 000 счетов с помощью Analyze Expense API. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц, а вы обрабатываете 100 000 счетов. Общая стоимость составит 1000 USD. Посмотрите расчет ниже. 

Общее количество обработанных страниц: 100 000 

Цена за страницу: 0,01 USD 

Итоговая стоимость в месяц: 0,01 USD * 100 000 = 1,000 USD

Пример расчета стоимости 10 для Analyze Expense API

Допустим, вам необходимо извлечь данные из 1 500 000 счетов с помощью Analyze Expense API. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц с таблицами и 0,008 USD для последующих. Общая стоимость составит 14 000 USD. Посмотрите расчет ниже. 

Общее количество обработанных страниц: 1 500 000 

Цена за страницу: 0,01 USD за 1 миллион страниц и 0,008 USD за следующие 500 000 страниц 

Итоговая стоимость в месяц: 0,01 USD * 1 000 000 + 0,008 USD * 500 000 = 14 000 USD

Пример расчета стоимости 11 для Analyze ID API

Допустим, вам нужно извлечь информацию из 100 000 идентификационных документов с помощью Analyze ID API. Цена за страницу в регионе «Запад США (Орегон)» составляет 0,025 USD для первых 100 000 страниц. Общая стоимость составит 2500 USD. 

Общее количество обработанных страниц: 100 000 

Цена за страницу: 0,025 USD 

Итоговая стоимость в месяц: 0,025 USD * 100 000 = 2500 USD

Пример расчета стоимости 12 для Analyze ID API

Допустим, вам нужно извлечь информацию из 600 000 идентификационных документов с помощью Analyze ID API. Цена за страницу в регионе Запад США (Орегон) составляет 0,025 USD для первых 100 000 страниц и 0,01 USD для последующих. Общая стоимость составит 7 500 USD.

Общее количество обработанных страниц: 600 000 

Цена за страницу: 0,025 USD для первых 100 000 страниц и 0,01 USD для следующих 500 000 страниц 

Итоговая стоимость в месяц: 0,025 USD * 100 000 + 0,01 USD * 500 000 = 7500 USD

Standard Product Icons (Features) Squid Ink
Вопросы и ответы по Amazon Textract

Узнайте больше о том, как Amazon Textract извлекает текст и структурированные данные практически из любого документа.

Подробнее 
Sign up for a free account
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Standard Product Icons (Start Building) Squid Ink
Начать разработку в консоли

Начните разработку с помощью Amazon Textract в Консоли управления AWS.

Регистрация