Amazon Textract – сервис машинного обучения (ML), который автоматически извлекает печатный и рукописный текст и данные из сканированных документов. Этот процесс выходит за рамки простого оптического распознавания символов (OCR) и позволяет идентифицировать, понимать и извлекать данные из форм и таблиц. Используя сервис Amazon Textract, вы платите только за то, что действительно используете. Минимальные платежи и авансовые обязательства отсутствуют. При работе с Amazon Textract плата взимается только за обработанные страницы вне зависимости от того, какие данные извлекаются: текст, текст с таблицами, данные формы, запросы или обрабатываете счета-фактуры и идентифицируете документы. В разделе вопросов и ответов представлены дополнительные сведения о страницах и допустимых вариантах использования Amazon Textract.

У Amazon Textract есть пять разных API: Detect Document Text API, Analyze Document API, Analyze Expense API, Analyze ID API и Analyze Lending API.

Detect Document Text API использует технологию OCR (оптическое распознавание символов) для извлечения печатного и рукописного текста из документа.

У Analyze Document API четыре функции: «Формы», «Таблицы», «Запросы» и «Подписи». Вы можете вызывать любую комбинацию форм, таблиц, запросов и подписей.

  • Analyze Document API для форм извлекает данные в виде пар «ключ-значение» (например, «Имя» и соответствующее значение «Джейн Смит»). Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
  • Analyze Document API для таблиц извлекает табличные данные в виде столбцов и строк. Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
  • Analyze Document API для запросов предоставляет гибкие возможности для указания информации, которую необходимо извлечь из документа (например, «Каково имя клиента?») и получения этих данных (например, «Джейн Доу») в составе ответа. Вам не нужно беспокоиться о структуре данных в документе или изменениях в расположении данных в различных форматах и версиях документа. Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.
  • Анализ документов API для пользовательских запросов дает возможность вызывать настраиваемую функцию запросов для специфичных документов вашей компании. Вы обучаете адаптер с помощью консоли AWS и используете его идентификатор в запросе анализа документов API для применения пользовательских запросов.
  • Analyze Document API для подписей предоставляет возможность обнаруживать рукописные и электронные подписи, а также инициалы в любом документе или изображении. Также он использует технологию OCR для извлечения печатного и рукописного текста из документа.

 

Analyze ID API использует машинное обучение для понимания контекста идентификационных документов, например паспортов США, водительских удостоверений и других удостоверений личности. Можно автоматически извлекать определенную информацию, например дату истечения срока действия и дату рождения, а также интеллектуальным образом выявлять и извлекать сопряженную информацию, например имя и адрес. Каждое изображение удостоверения личности считается страницей.
 
Analyze Lending API – это специализированный API для обработки ипотечных документов, который автоматизирует классификацию и извлечение информации из ряда документов, связанных с ипотечными заявками. Модели машинного обучения Analyze Lending были предварительно обучены для работы с различными типами документов, которые входят в стандартный пакет ипотечной заявки. Analyze Lending точно классифицирует, разделит и извлечет результаты, а также предоставит соответствующую сводку, включая информацию о том, была ли обнаружена подпись на странице.
 

Запросить индивидуальное предложение

Для масштабных примеров использования свяжитесь с нашим отделом продаж, чтобы запросить индивидуальный расчет стоимости.

Уровень бесплатного пользования

В рамках уровня бесплатного пользования AWS работу с Amazon Textract можно начать бесплатно. Уровень бесплатного пользования предоставляется на три месяца, и новые клиенты AWS могут проанализировать до:

Detect Document Text API: 1000 страниц в месяц
Analyze Document API:

  • 1000 страниц в месяц при использовании только подписей
  • 100 страниц в месяц при использовании форм, таблиц и функций макета
  • 100 страниц в месяц для запросов, форм и запросов, таблиц и запросов, форм и таблиц с запросами
  • Уровень бесплатного пользования для пользовательских запросов не предусмотрен

Analyze Expense API: 100 страниц в месяц

Analyze ID API: 100 страниц в месяц

Analyze Lending API: 2000 страниц в месяц

Цены на API Amazon Textract

Предварительно обученные функции

* В данные по Analyze Document API включено OCR, независимо от выбранного типа возможности
* В данные по Analyze Expense и Analyze ID API включено OCR

Предварительно обученные и настраиваемые функции

Примеры расчета цен за пределами уровня бесплатного пользования

Пример расчета стоимости 1 для Analyze Document API

Допустим, вам требуется извлечь текст со 100 000 страниц отчетов об исследованиях при помощи Detect Document Text API. Цена страницы из первого миллиона страниц в регионе Запад США (Орегон) составляет 0,0015 USD, общая сумма – 150 USD.

Общее количество обработанных страниц: 100 000

Цена за страницу: 0,0015 USD

Итоговая стоимость в месяц: 0,0015 USD * 100 000 = 150 USD

Пример расчета стоимости 2 для Detect Document Text API

Допустим, вам требуется извлечь текст из двух миллионов страниц отчетов об исследованиях при помощи Detect Document Text API. Цена за страницу в регионе Запад США (Орегон) составляет 0,0015 USD для первого миллиона страниц и 0,0006 USD для последующих, поэтому стоимость обработки двух миллионов страниц составит 2100 USD.

Общее количество обработанных страниц: 2 000 000

Цена за страницу: 0,0015 USD для первого миллиона страниц и 0,0006 USD для второго

Итоговая стоимость в месяц: 0,0015 USD * 1 000 000 + 0,0006 USD * 1 000 000 = 1500 USD + 600 USD = 2100 USD

Пример расчета стоимости 3. Analyze Document API (формы и таблицы)

Допустим, вам нужно извлечь текст и структурированные данные из 5000 страниц налоговых форм при помощи Analyze Document API. Цена за страницу в регионе Запад США (штат Орегон) составляет 0,015 USD для одного миллиона страниц с таблицами, с формами – 0,05 USD, а общая сумма – 325 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с таблицей: 0,015 USD

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD

Общая стоимость: 0,015 USD * 5000 + 0,05 USD * 5000 = 75 USD + 250 USD = 325 USD

Пример расчета стоимости 4 для Analyze Document API (формы и таблицы)

Допустим, вам нужно извлечь текст, формы и таблицы из двух миллионов страниц налоговых форм при помощи Analyze Document API. Цена за страницу в регионе Запад США (Орегон) составляет 0,015 USD для первого миллиона страниц с таблицами и 0,01 USD для последующих. Цена страницы с формой – 0,05 USD для первого миллиона страниц и 0,04 USD для последующих. Общая стоимость составит 115 000 USD.

Общее количество обработанных страниц: 2 000 000

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD за первый миллион страниц, 0,04 USD за следующий миллион

Общая стоимость: 0,015 USD * 1 000 000 + 0,01 USD * 1 000 000 + 0,05 USD * 1 000 000 + 0,04 USD * 1 000 000 = 15 000 USD + 10 000 USD + 50 000 USD + 40 000 USD = 115 000 USD

Пример расчета стоимости 5 для Analyze Document API (запросы)

Допустим, вам нужно извлечь текст из 5000 страниц заявок на ипотеку при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (штат Орегон) составляет 0,015 USD, а общая сумма – 75 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с запросами = 0,015 USD

Общая стоимость: 0,015 USD * 5000 = 75 USD

Пример расчета стоимости 6 для Analyze Document API (формы, таблицы и запросы)

Допустим, вам нужно извлечь текст, формы и таблицы из двух миллионов страниц платежных квитанций при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (Орегон) составляет 0,070 USD для первого миллиона страниц с таблицами, формами и запросами и 0,055 USD для последующих. Общая стоимость составит 125 000 USD.

Общее количество обработанных страниц: 2 000 000 

Цена за страницу с таблицами, формами и запросами: 0,070 USD за первый миллион страниц, 0,055 USD за следующий миллион 

Общая стоимость: 0,070 USD * 1 000 000 + 0,055 USD * 1 000 000 = 70 000 USD + 55 000 USD = 125 000 USD

Пример расчета стоимости 7 для Analyze Document API (формы и запросы)

Допустим, вам нужно извлечь текст и таблицы из 5000 страниц налоговых форм при помощи Analyze Document API. Если вам также требуется извлечь 10 определенных точек данных с каждой страницы с использованием запросов. Цена за страницу в регионе Запад США (Орегон) составляет 0,020 USD для первого миллиона страниц с таблицами и запросами и 0,015 USD для последующих. Общая стоимость составит 100 USD.

Общее количество обработанных страниц: 5000

Цена за страницу с таблицей и запросами: 0,020 USD

Общая стоимость: 0,020 USD * 5000 = 100 USD

Пример расчета стоимости 8 для Analyze Document API (подписи)

Допустим, вам нужно обнаружить подписи и извлечь текст из 100 000 страниц заявок на ипотеку при помощи Analyze Document
API – тип функции подписи. Цена за страницу в регионе Запад США (Орегон) для первого миллиона страниц составляет 0,0035 USD при стоимости
350 USD.
Общее количество обработанных страниц: 100 000
Цена за страницу: 0,0035 USD
Итоговая стоимость в месяц: 0,00035 USD * 100 000 = 350 USD

Пример расчета стоимости 9 для Analyze Document API (подписи)

Допустим, вам нужно обнаружить подписи и извлечь текст из 5 миллионов страниц заявок на ипотеку при помощи Analyze Document API
– тип функции подписи. Цена за страницу в регионе Запад США (Орегон) для первого миллиона страниц составляет 0,00035 USD при стоимости 20 USD.
Общее количество обработанных страниц: 5 000 000
Цена за страницу для первого миллиона страниц: 0,0035 USD * 1 000 000 = 3500 USD
Цена за страницу для следующих 4 миллионов страниц: 0,0014 USD * 4 000 000 = 5600 USD
Всего: 3500 USD + 5600 USD = 9100 USD

Пример расчета стоимости 10 для Analyze Expense API

Допустим, вам необходимо извлечь данные из 100 000 счетов с помощью Analyze Expense API. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц, а вы обрабатываете 100 000 счетов. Общая стоимость составит 1000 USD. Посмотрите расчет ниже. 

Общее количество обработанных страниц: 100 000 

Цена за страницу: 0,01 USD 

Итоговая стоимость в месяц: 0,01 USD * 100 000 = 1000 USD

Пример расчета стоимости 11 для Analyze Expense API

Допустим, вам необходимо извлечь данные из 1 500 000 счетов с помощью Analyze Expense API. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц с таблицами и 0,008 USD для последующих. Общая стоимость составит 14 000 USD. Посмотрите расчет ниже. 

Общее количество обработанных страниц: 1 500 000 

Цена за страницу: 0,01 USD за 1 миллион страниц и 0,008 USD за следующие 500 000 страниц 

Итоговая стоимость в месяц: 0,01 USD * 1 000 000 + 0,008 USD * 500 000 = 14 000 USD

Пример расчета стоимости 12 для Analyze ID API

Допустим, вам нужно извлечь информацию из 100 000 идентификационных документов с помощью Analyze ID API. Цена за страницу в регионе «Запад США (Орегон)» составляет 0,025 USD для первых 100 000 страниц. Общая стоимость составит 2500 USD. 

Общее количество обработанных страниц: 100 000 

Цена за страницу: 0,025 USD 

Итоговая стоимость в месяц: 0,025 USD * 100 000 = 2500 USD

Пример расчета стоимости 13 для Analyze ID API

Допустим, вам нужно извлечь информацию из 600 000 идентификационных документов с помощью Analyze ID API. Цена за страницу в регионе Запад США (Орегон) составляет 0,025 USD для первых 100 000 страниц и 0,01 USD для последующих. Общая стоимость составит 7 500 USD.

Общее количество обработанных страниц: 600 000

Цена за страницу: 0,025 USD для первых 100 000 страниц и 0,01 USD для следующих 500 000 страниц

Итоговая стоимость в месяц: 0,025 USD * 100 000 + 0,01 USD * 500 000 = 7500 USD

Пример расчета стоимости 14 для Analyze Lending API

Допустим, вам нужно извлечь информацию из 200 000 страниц документов по ипотечному кредиту с помощью Analyze Lending API. Цена за страницу в регионе Запад США (Орегон) составляет 0,07 USD за страницу при объеме до одного миллиона страниц. Обработав 200 000 страниц, Analyze Lending обеспечил классификацию и извлечение данных из поддерживаемых типов документов, в результате чего было получено 100 000 страниц классификации и извлеченных данных. Общая стоимость составит 7000 USD для 100 000 страниц.

Общее количество обработанных страниц: 200 000

Общее количество страниц, к которым применимы классификация и извлечение: 100 000 

Цена за страницу: 0,07 USD

Итоговая стоимость в месяц: 0,07 USD * 100 000 = 7000 USD

Пример расчета стоимости 15 для Analyze Lending API

Допустим, вам нужно извлечь информацию из 2 000 000 страниц документов по ипотечному кредиту с помощью Analyze Lending API. Цена за страницу в регионе Запад США (Орегон) составляет 0,07 USD, если общее количество страниц не превышает 1 000 000, и 0,055 USD за страницу при большем количестве. Обработав 2 000 000 страниц, Analyze Lending обеспечил классификацию и извлечение данных из поддерживаемых типов документов, в результате чего было получено 1 200 000 страниц классификации и извлеченных данных. Общая стоимость составит 81 000 USD для 1 200 000 страниц.

Общее количество обработанных страниц: 2 000 000

Общее количество страниц, к которым применимы классификация и извлечение: 1 200 000

Цена за страницу: 0,07 USD для первого миллиона страниц и 0,055 USD для следующих 200 000 страниц

Итоговая стоимость в месяц: 0,07 USD * 1 000 000 + 0,055 USD * 200 000 = 81 000 USD

Пример расчета стоимости 16 для Analyze Document API (макеты и таблицы)

Макет и таблицы необходимо извлечь из 2 млн страниц финансовых отчетов с помощью API Analyze Document. Макет доступен бесплатно при использовании функции «Таблицы». Стоимость таблиц в регионе Запад США (Орегон) составляет 0,015 USD за страницу для первого 1 млн страниц в месяц и 0,010 USD за страницу для превышающих 1 млн страниц в месяц.

Общее количество обработанных страниц: 2 000 000

Цена за первый 1 млн страниц = 0,015 USD * 1 000 000 USD = 15 000 USD

Цена за следующий 1 млн страниц = 0,010 USD * 1 000 000 USD = 10 000 USD

Общая стоимость: 25 000 USD

Пример расчета стоимости 17 для Analyze Document API (пользовательские запросы)

Данные из 5 млн страниц необходимо извлекать с помощью настраиваемых запросов. Стоимость в регионе Запад США (Орегон) составляет 0,025 USD за страницу для 1 млн страниц в месяц и 0,015 USD для превышающих 1 млн страниц.

Общее количество обработанных страниц: 5 000 000

Цена за первый 1 млн страниц = 0,025 USD * 1 000 000 = 25 000 USD

Цена за следующие 4 млн страниц = 0,015 USD * 4 000 000 USD = 60 000 USD

Общая стоимость: 85 000 USD

Пример расчета стоимости 18 для Analyze Document API (предварительно обученные формы и пользовательские запросы)

Точки данных из 2 млн страниц необходимо извлекать с помощью предварительно обученных форм и пользовательских запросов. Стоимость в регионе Запад США (Орегон) составляет 0,065 USD за страницу для 1 млн страниц в месяц и 0,050 USD для превышающих 1 млн страниц.

Общее количество обработанных страниц: 2 000 000

Цена за первый 1 млн страниц = 0,065 USD * 1 000 000 USD = 65 000 USD

Цена за следующий 1 млн страниц = 0,050 USD * 1 000 000 = 50 000 USD

Общая стоимость: 115 000 USD

Вопросы и ответы по Amazon Textract

Узнайте больше о том, как Amazon Textract извлекает текст и структурированные данные практически из любого документа.

Подробнее 
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Начать разработку в консоли

Начните разработку с помощью Amazon Textract в Консоли управления AWS.

Регистрация