Что такое оптическое распознавание символов?

Оптическое распознавание символов (OCR) – это процесс преобразования изображения текста в машино-читаемый текстовый формат. Например, при сканировании бланка или квитанции, компьютер сохраняет скан в виде файла изображения. Текстовый редактор невозможно использовать для редактирования, поиска или подсчета слов в файле изображения. OCR помогает преобразовать изображение в текстовый документ, содержимое которого хранится в виде текстовых данных.

В чем заключается важность OCR?

Большинство рабочих процессов связано с получением информации из печатных изданий. Любой бизнес-процесс предусматривает бланки, счета, отсканированные юридические документы и контракты, напечатанные на бумажном носителе. Такие большие объемы бумажной работы требуют много времени и места для хранения и обработки. Хотя безбумажный документооборот — это путь вперед, сканирование документа в изображение создает определенные трудности. Этот процесс требует ручного вмешательства и может быть утомительным и медленным.

При оцифровке содержимого документа создаются файлы изображений с содержащимся в них текстом. Программы обработки текста не могут обработать текст в изображениях. Технология OCR решает эту проблему путем преобразования изображения в текстовые данные, которые могут быть проанализированы офисным ПО. Затем такие данные можно использовать для аналитики, оптимизации операций, автоматизации процессов и повышения производительности.

В чем заключаются основные преимущества OCR?

Ниже приведены основные преимущества технологии OCR:

Текст с возможностью поиска

Предприятия могут преобразовывать имеющиеся и новые документы в базу знаний с возможностью полноценного поиска. ПО для автоматической обработки текстовой базы позволяет совершенствовать базу знаний предприятия.

Эффективность работы

Применение ПО OCR позволяет повысить эффективность работы путем автоматической интеграции документооборота и цифровых рабочих процессов. Вот несколько примеров того, что может сделать ПО OCR:

Сканирование заполненных вручную форм для автоматизированной проверки, рассмотрения, редактирования и анализа. Такой подход сокращает время ручной обработки документов и ввода данных.
Поиск необходимых документов с помощью быстрого поиска термина в базе данных, вместо ручного перебора файлов в ящике.
Преобразование рукописных заметок в редактируемые тексты и документы.

Решения искусственного интеллекта

OCR часто является составляющей других решений в области искусственного интеллекта, которые могут внедрять предприятия. К примеру, OCR может применяться для сканирования и распознавания номерных знаков и дорожных указателей в самоуправляемых автомобилях, выявления логотипов брендов в сообщениях в социальных сетях или идентификации упаковки продукта в рекламных изображениях. Такие технологии искусственного интеллекта помогают предприятиям принимать более эффективные маркетинговые и операционные решения, которые позволяют сократить расходы и улучшить качество обслуживания клиентов.

Что следует знать об истории и развитии OCR?

Одной из первых известных разработок в области OCR стала созданная в 1920-х годах машина Эмануэля Голдберга, которая могла считывать символы и преобразовывать их в телеграфный код. Это открытие заложило основу для идеи машинного чтения.

Первые шаги

В 1950-х годах OCR начала обретать форму коммерческой технологии. Такие компании, как RCA, разработали системы, позволяющие считывать определенные шрифты для банковских и почтовых приложений. Эти системы использовались для автоматизации обработки чеков и сортировки почты: узких, но весьма важных отраслей применения.

В 1960-х годах были разработаны шрифты OCR-A и OCR-B, особенности которых позволяли с легкостью считывать текст как людям, так и машинам. Внедрение этих шрифтов позволило повысить согласованность OCR в финансовой и государственной сферах.

Распространение технологии

Совершенствование сканеров и программных алгоритмов помогли сделать OCR практичным инструментом для повседневного использования в бизнесе. Ранние программы могли сканировать печатные бумажные документы и преобразовывать их в редактируемый текст, хотя точность распознавания была ограничена.

В 2000-х годах нейронные сети и ранние технологии машинного обучения позволили OCR выйти за рамки фиксированных шрифтов и макетов текста. Современные системы с гораздо большей точностью могут интерпретировать рукописный текст, некачественно отсканированные документы и сложные макеты.

Настоящие дни

Сегодня OCR превратилась из нишевого инструмента в основополагающую технологию цифровой трансформации. Ее встраивают во все устройства: от мобильных приложений до платформ корпоративной автоматизации. Технология поддерживает несколько языков и обрабатывает захват изображений в реальном времени с учетом контекста. Теперь она является неотъемлемой частью интеллектуальной автоматизации.

Каковы различные примеры использования OCR при обработке документов?

Технология OCR является неотъемлемой частью рабочих процессов обработки корпоративных документов. Рассмотрим следующие примеры использования.

Интеллектуальный поиск архивов документов

Технология OCR позволяет создавать цифровые архивы с возможностью поиска путем извлечения текста из документов на основе изображений и документов в формате PDF. Распознанный текст можно проиндексировать и использовать в поисковых системах на базе искусственного интеллекта. Пользователи могут быстро и точно искать нужные файлы в больших объемах без дополнительной классификации документов. Например, при поиске определенного имени клиента могут быть возвращены все платежные поручения, счета-фактуры и формы, которые первоначально были представлены в виде документов.

Предприятия могут преобразовывать имеющиеся и вновь напечатанные документы в базу знаний с возможностью полноценного поиска. ПО для аналитики данных в целях совершенствования методов обработки знаний позволяет предприятиям автоматически обрабатывать текстовые базы данных.

Обработка естественного языка

OCR распознает и извлекает текст на уровне слов, строк или ячеек таблицы, что позволяет лучше контролировать подготовку контента для последующих задач обработки естественного языка (NLP), таких как классификация документов, рецензирование, анализ настроений, тематическое моделирование, распознавание сущностей и т. д. Например, для рецензирования потребуется извлечение текста отдельными абзацами, в то время как для распознавания сущностей предпочтительным может быть извлечение текста в парах ключ-значение (как это бывает, например, в файлах JSON).

Стандартизация данных

В документообороте часто используются неструктурированные данные в разных форматах и из разных отраслей. OCR помогает нормализовать эти данные, извлекая текст и таблицы из различных типов документов, таких как финансовая отчетность, клинические заметки и технические отчеты. Это позволяет ускорить и дополнительно согласовать обработку данных в разных системах.

Автоматизация обработки форм

Технология OCR играет ключевую роль в автоматизации обработки форм. Она может идентифицировать поля и извлекать структурированную информацию из различных типов форм, что позволяет компаниям интегрировать эти данные непосредственно в базы данных без ручного ввода.

Функция приложения

Возможности OCR можно встроить непосредственно в бизнес-приложения, чтобы пользователи могли самостоятельно извлекать текст в режиме реального времени. Благодаря правильно выполненному сбору данных в источнике можно снизить рабочую нагрузку на специалистов по аналитике.

Как OCR используется в разных отраслях?

Ниже перечислены некоторые распространенные примеры использования OCR в различных отраслях:

Банковская сфера

Банковская сфера использует OCR для обработки и проверки документов по кредитам, депозитных чеков и других финансовых операций. Такая проверка позволила повысить эффективность борьбы с мошенничеством и укрепить безопасность транзакций. Например, BlueVine, финансовая технологическая компания, предоставляющая финансирование малому и среднему бизнесу, использовала Amazon Textract, облачный сервис OCR, для разработки продукта, с помощью которого малые бизнесы в США могут быстро получить доступ к кредитам по Программе защиты заработной платы (PPP) в рамках пакета мер по стимулированию экономики в условиях COVID-19. Amazon Textract автоматически обрабатывал и анализировал десятки тысяч форм PPP в день, благодаря чему BlueVine смогла помочь нескольким тысячам предприятий получить средства и сохранить более 400 000 рабочих мест.

Здравоохранение

В системе здравоохранения OCR используется для обработки историй болезни пациентов, включая лечебные процедуры, анализы, больничные карты и страховые выплаты. OCR помогает оптимизировать рабочий процесс и сократить объем ручной работы в больницах, а также поддерживать актуальность записей. Например, компания nib Group обеспечивает медицинское страхование более 1 миллиона австралийцев и ежедневно получает тысячи заявок на выплату страхового возмещения за получение медицинских услуг. Клиенты компании могут сфотографировать свой медицинский счет и отправить его через мобильное приложение nib. Amazon Textract автоматически обрабатывает эти изображения, что позволяет компании гораздо быстрее рассматривать заявки.

Логистика

Логистические компании используют OCR для более эффективного отслеживания этикеток на упаковках, счетов, квитанций и других документов. Например, компания Foresight Group использует Amazon Textract для автоматизации обработки счетов в SAP. Ввод таких документов вручную отнимал много времени и приводил к ошибкам, поскольку сотрудникам Foresight приходилось вводить данные в несколько систем бухгалтерского учета. Благодаря Amazon Textract программное обеспечение компании Foresight стало более точно считывать символы на различных носителях и повысило эффективность ведения бизнеса компании.

Как работает OCR?

Технология OCR включает следующие этапы:

Получение изображения

Сканер считывает документы и преобразует их в двоичные данные. ПО OCR анализирует отсканированное изображение и классифицирует светлые области как фон, а темные — как текст.

Предварительная обработка

Чтобы подготовить текст к распознаванию, ПО OCR очищает изображение и удаляет ошибочные области. Применяются следующие методы очистки:

Выравнивание и устранение уклона отсканированного документа для облегчения распознавания.
Сглаживание контраста или удаление пятен цифрового изображения и сглаживание краевых эффектов текстовых изображений.
Стирание рамок и линий на сканированном изображении.
Распознавание шрифтов для многоязычной технологии OCR

Распознавание текста

Существует два основных типа алгоритмов OCR или программных процессов, которые использует ПО OCR для распознавания текста: сопоставление шаблонов и выделение признаков.

Сопоставление шаблонов

Сопоставление шаблонов работает путем выделения изображения символа, называемого глифом, и сравнения его с аналогичным глифом, хранящимся в памяти. Распознавание образа произойдет только в том случае, если шрифт и масштаб хранящегося глифа совпадают со шрифтом и масштабом отсканированного глифа. Данный метод эффективен при работе со сканами документов, набранных известным шрифтом.

Выделение признаков

Выделение признаков разбивает или раскладывает глифы на такие признаки, как линии, замкнутые контуры, направление линий и пересечения линий. Затем признаки используются для поиска наилучшего или ближайшего подходящего соответствия среди различных хранящихся глифов.

Окончательная обработка

После анализа система преобразует извлеченные текстовые данные в документы с машинно-читаемым текстом. Некоторые системы OCR могут создавать аннотированные PDF-файлы, включающие как предыдущую, так и последующую версии отсканированного документа.

Какие виды OCR существуют?

Специалисты по анализу данных классифицируют различные виды технологий OCR на основе их использования и применения. Ниже представлены лишь некоторые примеры:

Программы простого оптического распознавания символов

Простой механизм OCR применяет множество различных хранимых шаблонов шрифтов и изображений текста в качестве шаблонов. Программное обеспечение OCR использует алгоритмы сопоставления шаблонов для посимвольного сравнения изображений текста с внутренней базой данных. Подход, при котором система сопоставляет текст слово за словом, называется оптическим распознаванием слов. Он имеет свои ограничения, поскольку существует практически неограниченное количество шрифтов и стилей почерка, и каждый отдельный тип не может быть учтен и сохранен в базе данных.

Программы интеллектуального распознавания символов

Современные системы OCR используют технологию интеллектуального распознавания символов (ICR) для считывания текста так же, как это делает человек. Они используют передовые методы машинного обучения человеческим навыкам чтения. Система машинного обучения, называемая нейронной сетью, анализирует текст на многих уровнях, многократно обрабатывая изображение. Она ищет различные атрибуты изображения (кривые, линии, пересечения и петли) и объединяет результаты различных уровней анализа для получения окончательного результата. Несмотря на то, что ICR обрабатывает изображения по символам, процесс не занимает много времени, а результаты получаются за считанные секунды.

Интеллектуальное распознавание слов

Интеллектуальные системы распознавания слов работают по тому же принципу, что и ICR, но обрабатывают изображения целых слов без предварительного выделения символов в изображении.

Оптическое распознавание знаков

Оптическое распознавание знаков позволяет идентифицировать логотипы, водяные знаки и другие обозначения в документе.

Как AWS может помочь с OCR?

AWS предлагает две услуги, которые могут помочь внедрить OCR в бизнесе:

Amazon Textract – это сервис машинного обучения, который с помощью OCR автоматически извлекает печатный и рукописный текст и данные из отсканированных документов (например, PDF-файлов). Сервис позволяет быстро считывать тысячи различных документов различных носителей и форматов. После извлечения информации из документов Amazon Textract присваивает уровень уверенности, позволяя принимать обоснованные решения о том, как использовать полученные результаты.

Amazon Rekognition может анализировать миллионы изображений и видеозаписей за считанные минуты и дополнять задачи визуальной проверки, выполняемые человеком, с помощью искусственного интеллекта. Для извлечения текста из изображений и видео можно использовать API Amazon Rekognition. В нем имеется возможность распознавать искаженный и деформированный текст из изображений и видеозаписей дорожных знаков, публикаций в социальных сетях и упаковок продуктов.

Создайте аккаунт AWS и начните работу с технологией OCR на базе AWS уже сегодня.

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Подробнее

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку с AWS в Консоли управления AWS.

Вход

Что такое оптическое распознавание символов?