Amazon Textract – это сервис машинного обучения (ML), который с помощью оптического распознавания символов (OCR) автоматически извлекает печатный и рукописный текст и данные из отсканированных документов, таких как PDF. Используя сервис Amazon Textract, вы платите только за то, что действительно используете. Минимальные платежи и авансовые обязательства отсутствуют. При работе с Amazon Textract плата взимается только за обработанные страницы вне зависимости от того, какие данные извлекаются: текст, текст с таблицами и (или) формы. В разделе Вопросы и ответы представлены дополнительные сведения о страницах и допустимых применениях Textract.

У Amazon Textract есть три различных API: API обнаружения текста документов, API анализа документов и API анализа расходов.

API обнаружения текста документов использует технологию OCR (оптическое распознавание символов) для извлечения печатного и рукописного текста из предоставленного документа. В регионе Запад США (Орегон) цена страницы составляет 0,0015 USD за первый миллион страниц и 0,0006 USD за последующие.

API анализа документов имеет две функции – для форм и таблиц – с разными уровнями цен.

  • API анализа документов для форм использует технологию оптического распознавания символов (OCR) для извлечения печатного и рукописного текста из предоставленного документа. Он также извлекает данные в виде пар «ключ-значение» (например, «Фамилия» и соответствующее значение «Джейн Смит»). В регионе Запад США (Орегон) цена страницы составляет 0,05 USD за первый миллион страниц и 0,04 USD за последующие.
  • API анализа документов для таблиц использует технологию оптического распознавания символов (OCR) для извлечения печатного и рукописного текста из предоставленного документа. Он также извлекает табличные данные в виде колонок и строк. В регионе Запад США (Орегон) цена страницы составляет 0,015 USD за первый миллион страниц и 0,01 USD за последующие.
 
API анализа расходов извлекает данные из счетов и чеков. Например, счет или чек может содержать такие данные, как ID счета, номер счета и чека, а также соответствующее значение 12345. Amazon Textract распознает различные обозначения как идентификаторы счета и соответствующие им значения 12345 и позволяет стандартизировать систему общих полей. В регионе Запад США (Орегон) цена страницы составляет 0,01 USD за первый миллион страниц и 0,008 USD за последующие.

Уровень бесплатного пользования

В рамках уровня бесплатного пользования AWS работу с Amazon Textract можно начать бесплатно. Уровень бесплатного использования действует в течение трех месяцев, а новые пользователи AWS могут анализировать до 1000 страниц в месяц с помощью API обнаружения текста документов и до 100 страниц в месяц с помощью API анализа документов или расходов.

Цены на API Amazon Textract

API обнаружения текста документов (OCR)


API анализа документов для страниц с таблицами

* Таблицы – это коллекции связанных данных, визуально упорядоченные по столбцам и строкам. Например, это может быть журнал эксплуатации для отслеживания ежедневного объема производства.


API анализа документов для страниц с формами

* Формы – это коллекция независимых ключей и значений, находящихся на одной странице (например, W2).


API анализа документов для страниц с таблицами и формами


API анализа расходов для счетов и чеков

Примеры расчета стоимости за пределами уровня бесплатного пользования

Пример расчета стоимости 1. API обнаружения текста документов

Допустим, вам требуется извлечь текст со 100 000 страниц отчетов об исследованиях при помощи API обнаружения текста документов. Цена за страницу в регионе Запад США (Орегон) составляет 0,0015 USD для первого миллиона страниц, поэтому стоимость обработки 100 000 страниц в месяц составит 150 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 100 000

Цена за страницу: 0,0015 USD

Итоговая стоимость в месяц: 0,0015 USD * 100 000 = 150 USD

Пример расчета стоимости 2. API обнаружения текста документов

Допустим, вам требуется извлечь текст из двух миллионов страниц отчетов об исследованиях при помощи API обнаружения текста документов. Цена за страницу в регионе Запад США (Орегон) составляет 0,0015 USD для первого миллиона страниц и 0,0006 USD для последующих, поэтому стоимость обработки двух миллионов страниц составит 2100 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 2 000 000

Цена за страницу: 0,0015 USD для первого миллиона страниц и 0,0006 USD для второго

Итоговая стоимость в месяц: 0,0015 USD * 1 000 000 + 0,0006 USD * 1 000 000 = 1500 USD + 600 USD = 2100 USD

Пример расчета стоимости 3. API анализ документа (формы и таблицы)

Допустим, вам нужно извлечь текст и структурированные данные из 5000 страниц налоговых форм при помощи API анализа документов. Цена за страницу в регионе Запад США (штат Орегон) составляет 0,015 USD для одного миллиона страниц с таблицами, с формами – 0,05 USD, а общая сумма 325 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 5000

Цена за страницу с таблицей: 0,015 USD

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD

Общая стоимость: 0,015 USD * 5000 + 0,05 USD * 5000 = 75 USD + 250 USD = 325 USD

Пример расчета стоимости 4. API анализ документа (формы и таблицы)

Допустим, вам нужно извлечь текст, формы и таблицы из двух миллионов страниц налоговых форм при помощи API анализа документов. Цена за страницу в регионе Запад США (Орегон) составляет 0,015 USD для первого миллиона страниц с таблицами и 0,01 USD для последующих. Цена страницы с формой – 0,05 USD для первого миллиона страниц и 0,04 USD для последующих. Общая стоимость составит 115 000 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 2 000 000

Цена за страницу с таблицей: 0,015 USD за первый миллион страниц, 0,01 USD за следующий миллион

Цена за страницу с формой (пара «ключ-значение»): 0,05 USD за первый миллион страниц, 0,04 USD за следующий миллион

Общая стоимость: 0,015 USD * 1 000 000 + 0,01 USD * 1 000 000 + 0,05 USD * 1 000 000 + 0,04 USD * 1 000 000 = 15 000 USD + 10 000 USD + 50 000 USD + 40 000 USD = 115 000 USD

Пример расчета стоимости 5. API анализ расходов

Допустим, вам необходимо извлечь данные из 100 000 счетов с помощью API анализа расходов. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц, а вы обрабатываете 100 000 счетов. Общая стоимость составит 1000 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 100 000

Цена за страницу: 0,01 USD

Итоговая стоимость в месяц: 0,01 USD * 100 000 = 1000 USD

Пример расчета стоимости 6. API анализ расходов

Допустим, вам необходимо извлечь данные из 1 500 000 счетов с помощью API анализа расходов. Цена за страницу в регионе Запад США (Орегон) составляет 0,01 USD для первого миллиона страниц с таблицами и 0,008 USD для последующих. Общая стоимость составит 14 000 USD. Посмотрите расчет ниже.

Общее количество обработанных страниц: 1 500 000

Цена за страницу: 0,01 USD за 1 миллион страниц и 0,008 USD за следующие 500 000 страниц

Итоговая стоимость в месяц: 0,01 USD * 1 000 000 + 0,008 USD * 500 000 = 14 000 USD

Standard Product Icons (Features) Squid Ink
Вопросы и ответы по Amazon Textract

Узнайте больше о том, как Amazon Textract извлекает текст и структурированные данные практически из любого документа.

Подробнее 
Sign up for a free account
Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS. 

Регистрация 
Standard Product Icons (Start Building) Squid Ink
Начать разработку в консоли

Начните разработку с помощью Amazon Textract в Консоли управления AWS.

Регистрация