Amazon Comprehend – это сервис обработки естественного языка (NLP), в котором для обнаружения в тексте аналитических данных применяются технологии машинного обучения. Amazon Comprehend предоставляет API для распознавания сущностей, в том числе пользовательских, пользовательской классификации, извлечения ключевых фраз, анализа эмоциональной окраски и многого другого. Это позволяет без труда встраивать механизмы обработки естественного языка в приложения. Для интеграции достаточно вызвать API сервиса Amazon Comprehend в приложении и передать информацию о местоположении исходного документа или текста. API выдаст сущности, ключевые фразы, эмоции и язык в формате JSON, и эту информацию можно использовать в приложении.
Распознавание пользовательских сущностей
Распознавание пользовательских сущностей позволяет настроить Amazon Comprehend для выявления терминов, относящихся к вашему домену. Comprehend, используя AutoML, будет обучаться на небольших наборах примеров (таких как список номеров политик, номера заявок или SSN), а после тренировать частную пользовательскую модель распознавания терминов наподобие номеров заявок в любом другом блоке текста в PDF, простых текстовых файлах или документах Microsoft Word без необходимости машинного обучения. Подробнее см. на странице документации.
-
Пример. В этом примере страховой компании нужно проанализировать текстовые документы на наличие актуальных для их деятельности сущностей и номеров политик.
Пример текста. Здравствуйте! Меня зовут Сэм Форд, и мне нужно подать заявление на страховое возмещение после ДТП. Номер моего полиса – 456-YQT.
Сущность Категория Количество Уверенность 456-YQT Policy_ID 1 0.95
Пользовательская классификация
API пользовательской классификации позволяет без труда создавать пользовательские модели классификации текста с помощью специфических для компании меток. При этом изучать технологии машинного обучения не требуется. Например, компания по поддержке клиентов может использовать для автоматического распределения входящих запросов по типу проблемы пользовательскую классификацию, которая основывается на описании проблемы клиентами. С помощью пользовательской модели можно без труда модерировать комментарии на веб‑сайте, анализировать отзывы клиентов и систематизировать документы рабочей группы. Подробнее см. на странице документации.
-
Пример. Допустим, вы хотите упорядочить в авиакомпании обратную связь от клиентов службы поддержки. Все отзывы нужно распределить по разделам: вопросы по оплате, возврат стоимости билетов и претензии по авиарейсам. Чтобы обучить сервис, создайте файл в формате CSV, содержащий примеры текста по каждому разделу, и пометьте каждый пример одной из трех применимых меток. Сервис автоматически обучит пользовательскую модель от вашего имени. Чтобы использовать полученную модель для анализа всех обращений за следующий день, нужно отправить каждый текстовый файл в сервис и получить помеченные результаты с присвоенными им показателями степени уверенности.
Текст Метка Степень уверенности Строка 0 Вопрос по оплате 0,92 Строка 1 Возврат стоимости билетов 1 Строка 2 Претензии по рейсам 1 Строка 3 Претензии по рейсам 0,91 Doc5.csv Возврат стоимости билетов 1
Распознавание сущностей
API распознавания сущностей возвращает именованные сущности («Люди», «Места», «Местоположения» и т. д.), которые автоматически группируются по категориям на основании предоставленного текста. Подробнее см. на странице документации.
-
Пример. В этом примере мы видим описание компании. API выделяет такие сущности, как организация, дата, местоположение, и возвращает уровень уверенности.
Пример текста. Компания Amazon.com, Inc., основанная 5 июля 1994 г. Джеффом Безосом, расположена в г. Сиэтл, штат Вашингтон. Она обеспечивает клиентам возможность покупать любые товары, от книг до блендеров. Сиэтл расположен к северу от Портленда и к югу от Ванкувера, Британская Колумбия. В Сиэтле также расположены такие известные компании, как Starbucks и Boeing.
Сущность Категория Уверенность Amazon.com, Inc.
Организация 0,96 Сиэтл, Вашингтон География 0,96 5 июля 1994 г. Дата 0,99 Джефф Безос Человек 0,99 Сиэтл
География 0,98 Портленд
География 0,99 Ванкувер, Британская Колумбия География 0,97 Starbucks
Организация 0,91 Boeing
Организация 0,99
Анализ эмоций
API анализа эмоций возвращает общий эмоциональный тон текста (положительный, отрицательный, нейтральный или смешанный). Подробнее см. на странице документации.
-
Пример. В этом примере клиент оставляет отзыв о паре ботинок. API определяет эмоции, выражаемые клиентом, и предоставляет уровень уверенности.
Пример текста. Я заказал размер S и ожидал, что обувь идеально подойдет к ноге. Но размер оказался скорее между M и L. Качество превосходное. Оттенок коричневого чуть светлее, чем на картинке, но довольно похожий. Модель была бы гораздо лучше, если бы внутри сделали хлопчатобумажную или шерстяную отделку.
Эмоции Оценка Смешанные 0,89 Положительные 0,09 Отрицательные 0,01 Нейтральные 0,00
Targeted Sentiment
Targeted Sentiment позволяет получить более подробную информацию об эмоциональном состоянии, определяя настроение (положительное, отрицательное, нейтральное или смешанное) по отношению к объектам в тексте. Подробнее см. на странице документации.
-
Пример. В этом примере сотрудники ресторана изучают отзыв клиента, чтобы понять, как можно улучшить свой бизнес.
Образец текста. Мне понравился бургер, но обслуживание было медленным.
Текст Тип объекта Оценка уверенности объекта Настроение Оценка I Человек 0,99 Нейтральные 0,99 Бургер Прочее 0,99 Положительное 0,99 Обслуживание Атрибут 0,99 Отрицательные 0,99
Идентификация и редактирование персональной информации
С помощью возможностей машинного обучения Amazon Comprehend находите и редактируйте персональную информацию (PII) в электронных письмах клиентов, обращениях в службу поддержки, отзывах на продукты, социальных сетях и других источниках. Опыт машинного обучения не требуется. Например, можно проанализировать обращения в службу поддержки и информационные статьи, обнаружить сущности персональной информации и отредактировать текст перед индексацией документов в поисковом решении. После этого документы, с которыми работают поисковые решения, свободны от персональной информации. Благодаря редактированию сущностей персональной информации можно обеспечить конфиденциальность и соблюдать требования местных законов и нормативных актов. Подробнее см. на странице документации.
-
Пример. В этом примере клиент хочет отредактировать личные и финансовые данные из банковской выписки. API редактирования PII находит и редактирует персональную информацию, обеспечивая соответствующий уровень уверенности.
Образец текста. Добрый день, Джон Смит. Минимальный платеж в размере 24,53 USD по кредитной карте AnyCompany Financial Services, LLC (номер карты 1111-0000-1111-0008) должен быть выплачен не позднее 31 июля. В соответствии с вашими настройками автоматической оплаты платеж спишется с банковского счета номер XXXXXX1111 с кодом банка XXXXX0000 в установленный срок.
Сущность
Тип
Оценка
Джон Смит
Имя
Более 0,99
1111-0000-111-0008
Номер кредитной или дебетовой карты
Более 0,99
31 июля
Дата и время
Более 0,99
XXXXXX111
Номер банковского счета
Более 0,99
XXXXX0000
Код банка
Более 0,99
Обнаружение токсичности
Обнаружение токсичности в Comprehend представляет собой простое решение на основе обработки естественного языка (NLP) для обнаружения злобного содержимого в текстовых документах. Это встроенная возможность для модерации однорангового общения на онлайн-платформах, а также для генерирования входных и выходных данных искусственного интеллекта. Подробнее см. на странице документации.
Классификация запросов по уровню безопасности
Comprehend предоставляет предварительно обученный двоичный классификатор, который может классифицировать входной запрос как вредный или нет. Его интеграция позволит LLM реагировать только на безвредный контент. Подробнее см. на странице документации.
Извлечение ключевых фраз
API для извлечения ключевых фраз возвращает ключевые фразы или основные тезисы, а также уровень уверенности для каждой ключевой фразы. Подробнее см. на странице документации.
-
Пример. В этом примере клиент сравнивает цифровой зеркальный фотоаппарат с фотоаппаратом моментальной печати. API извлекает ключевые фразы и возвращает уровень уверенности в результатах.
Пример текста. Я заядлый фотограф и обычно фотографирую зеркальным цифровым фотоаппаратом или фотоаппаратом моментальной печати, который ношу с собой и регулярно использую. Хотя качество и удобство цифрового фотоаппарата не вызывают сомнений, в фотоаппарате моментальной печати есть что-то волшебное. Возможно, дело в том, что вы снимаете на настоящую пленку. Или в том, что каждый снимок – это уникальный осязаемый предмет (особенное ощущение в современном мире Instagram и Facebook, где цифровые фотографии плодятся как грибы после дождя). Я уверен в одном: эта камера всегда вызывает неподдельную радость. Стоит достать ее на вечеринке – и у людей глаза загораются.
Ключевая фраза Уверенность заядлый фотограф 0,99
цифровой фотоаппарат 0,97 фотоаппарат моментальной печати 0,99
регулярно использую 0,99
качество и удобство 0,94 настоящая пленка 0,99 каждый снимок 0,92 уникальный осязаемый предмет 0,99
современный 0,91 мир 0,99
Instagram и Facebook 0,99
Обнаружение событий
Comprehend Events позволяет извлекать структуру событий из документа. Страницы текста делятся на легко обрабатываемые данные, которые могут использовать ваши приложения искусственного интеллекта или инструменты графовой визуализации. Этот API помогает ответить на вопросы «кто,что, когда, где» для больших наборов документов, в любом масштабе и без предварительного опыта работы с NLP. Используйте Comprehend Events, чтобы извлекать подробные сведения о реальных событиях и связанных с ними сущностях, изложенных в неструктурированном тексте. Подробнее см. на странице документации.
Определение языка
API обнаружения языка автоматически обнаруживает текст, написанный более чем на 100 языках, и возвращает основной язык и уровень уверенности в том, что этот язык является основным. Подробнее см. на странице документации.
-
Пример. В этом примере API анализирует текст и определяет, что основной язык текста – итальянский, а также возвращает уровень уверенности.
Пример текста. Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
Код языка по ISO-639-1 Язык программирования Уверенность it Итальянский 1,0
Синтаксический анализ
Syntax API в Amazon Comprehend позволяет клиентам анализировать текст с использованием токенизации и частей речи (PoS), чтобы определять границы слов и метки, например имена существительные и прилагательные в тексте. Подробнее см. на странице документации.
-
Пример. В этом примере мы будем анализировать короткий документ, используя Syntax API сервиса Comprehend. Syntax API токенизирует текст (определяет границы слов) и помечает каждое слово в соответствии с частью речи, к которой оно относится, например как существительное или глагол. Кроме пометки начала и конца смещения (для понимания местоположения слова в тексте) мы также предоставляем оценку уверенности.
Пример текста. I love my fast, new Kindle Fire!
Текст Тег I Местоимение Love Глагол
My Местоимение Fast Прилагательное , Пунктуация New Прилагательное Kindle Имя собственное Fire
Имя собственное ! Пунктуация
Моделирование тем
API моделирования тем обнаруживает актуальные термины или темы в массиве документов, хранящихся в Amazon S3. Этот API определяет наиболее распространенные темы в массиве и организовывает их по группам, после чего связывает каждый документ с соответствующей темой. Подробнее см. на странице документации.
-
Пример. Если документы (Doc1.txt, Doc2.txt, Doc3.txt и Doc4.txt) хранятся в Amazon S3 и вы передаете их местоположение в Amazon Comprehend, сервис Comprehend проанализирует документы и вернет два результата.
1. Группы ключевых слов, которые являются темами.
Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.Группа тем Ключевые слова Вес 1 Amazon 0,87 1 Сиэтл 0,65 2 Праздники 0,78 2 Покупки 0,67 Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.2. Распределение документов по темам.
Название документа Группа тем Пропорция Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Каждый документ связывается с группой тем на основании пропорции взвешенных ключевых слов из группы тем, присутствующих в документе.
Поддержка различных языков
Amazon Comprehend может анализировать текст на немецком, английском, испанском, итальянском,
португальском, французском, японском, корейском, арабском и китайском (упрощенном и традиционном) языках, а также хинди. Для создания приложений на других языках можно с помощью Amazon Translate перевести текст на язык, поддерживаемый Comprehend, и после выполнить его анализ. Более подробную информацию о поддерживаемых языках можно найти на странице документации.
Подробнее о ценах на Amazon Comprehend