Amazon Comprehend – это сервис обработки естественного языка (NLP), в котором для обнаружения в тексте аналитических данных применяются технологии машинного обучения. Amazon Comprehend предоставляет API для распознавания сущностей, в том числе пользовательских, пользовательской классификации, извлечения ключевых фраз, анализа эмоциональной окраски и многого другого. Это позволяет без труда встраивать механизмы обработки естественного языка в приложения. Для интеграции достаточно вызвать API сервиса Amazon Comprehend в приложении и передать информацию о местоположении исходного документа или текста. API выдаст сущности, ключевые фразы, эмоции и язык в формате JSON, и эту информацию можно использовать в приложении.

Распознавание пользовательских сущностей

Распознавание пользовательских сущностей позволяет настроить Amazon Comprehend для выявления терминов, относящихся к вашему домену. Comprehend, используя AutoML, будет обучаться на небольших наборах примеров (таких как список номеров политик, номера заявок или SSN), а после тренировать частную пользовательскую модель распознавания терминов наподобие номеров заявок в любом другом блоке текста в PDF, простых текстовых файлах или документах Microsoft Word без необходимости машинного обучения. Подробнее см. на странице документации

Пользовательская классификация

API пользовательской классификации позволяет без труда создавать пользовательские модели классификации текста с помощью специфических для компании меток. При этом изучать технологии машинного обучения не требуется. Например, компания по поддержке клиентов может использовать для автоматического распределения входящих запросов по типу проблемы пользовательскую классификацию, которая основывается на описании проблемы клиентами.  С помощью пользовательской модели можно без труда модерировать комментарии на веб‑сайте, анализировать отзывы клиентов и систематизировать документы рабочей группы. Подробнее см. на странице документации.

Распознавание сущностей

API распознавания сущностей возвращает именованные сущности («Люди», «Места», «Местоположения» и т. д.), которые автоматически группируются по категориям на основании предоставленного текста. Подробнее см. на странице документации.

Анализ эмоций

API анализа эмоций возвращает общий эмоциональный тон текста (положительный, отрицательный, нейтральный или смешанный). Подробнее см. на странице документации

Targeted Sentiment

Targeted Sentiment позволяет получить более подробную информацию об эмоциональном состоянии, определяя настроение (положительное, отрицательное, нейтральное или смешанное) по отношению к объектам в тексте. Подробнее см. на странице документации.

Идентификация и редактирование персональной информации

С помощью возможностей машинного обучения Amazon Comprehend находите и редактируйте персональную информацию (PII) в электронных письмах клиентов, обращениях в службу поддержки, отзывах на продукты, социальных сетях и других источниках. Опыт машинного обучения не требуется. Например, можно проанализировать обращения в службу поддержки и информационные статьи, обнаружить сущности персональной информации и отредактировать текст перед индексацией документов в поисковом решении. После этого документы, с которыми работают поисковые решения, свободны от персональной информации. Благодаря редактированию сущностей персональной информации можно обеспечить конфиденциальность и соблюдать требования местных законов и нормативных актов. Подробнее см. на странице документации.

Извлечение ключевых фраз

API для извлечения ключевых фраз возвращает ключевые фразы или основные тезисы, а также уровень уверенности для каждой ключевой фразы. Подробнее см. на странице документации.

  • Пример. В этом примере клиент сравнивает цифровой зеркальный фотоаппарат с фотоаппаратом моментальной печати. API извлекает ключевые фразы и возвращает уровень уверенности в результатах.

    Пример текста. Я заядлый фотограф и обычно фотографирую зеркальным цифровым фотоаппаратом или фотоаппаратом моментальной печати, который ношу с собой и регулярно использую. Хотя качество и удобство цифрового фотоаппарата не вызывают сомнений, в фотоаппарате моментальной печати есть что-то волшебное. Возможно, дело в том, что вы снимаете на настоящую пленку. Или в том, что каждый снимок – это уникальный осязаемый предмет (особенное ощущение в современном мире Instagram и Facebook, где цифровые фотографии плодятся как грибы после дождя). Я уверен в одном: эта камера всегда вызывает неподдельную радость. Стоит достать ее на вечеринке – и у людей глаза загораются.

    Ключевая фраза Уверенность
    заядлый фотограф 0,99
    цифровой фотоаппарат 0,97
    фотоаппарат моментальной печати 0,99
    регулярно использую 0,99
    качество и удобство 0,94
    настоящая пленка 0,99
    каждый снимок 0,92
    уникальный осязаемый предмет 0,99
    современный 0,91
    мир 0,99
    Instagram и Facebook 0,99

Обнаружение событий

Comprehend Events позволяет извлекать структуру событий из документа. Страницы текста делятся на легко обрабатываемые данные, которые могут использовать ваши приложения искусственного интеллекта или инструменты графовой визуализации. Этот API помогает ответить на вопросы «кто,что, когда, где» для больших наборов документов, в любом масштабе и без предварительного опыта работы с NLP. Используйте Comprehend Events, чтобы извлекать подробные сведения о реальных событиях и связанных с ними сущностях, изложенных в неструктурированном тексте. Подробнее см. на странице документации

Определение языка

API обнаружения языка автоматически обнаруживает текст, написанный более чем на 100 языках, и возвращает основной язык и уровень уверенности в том, что этот язык является основным. Подробнее см. на странице документации.

Синтаксический анализ

Syntax API в Amazon Comprehend позволяет клиентам анализировать текст с использованием токенизации и частей речи (PoS), чтобы определять границы слов и метки, например имена существительные и прилагательные в тексте. Подробнее см. на странице документации.

Моделирование тем

API моделирования тем обнаруживает актуальные термины или темы в массиве документов, хранящихся в Amazon S3. Этот API определяет наиболее распространенные темы в массиве и организовывает их по группам, после чего связывает каждый документ с соответствующей темой. Подробнее см. на странице документации.

  • Пример. Если документы (Doc1.txt, Doc2.txt, Doc3.txt и Doc4.txt) хранятся в Amazon S3 и вы передаете их местоположение в Amazon Comprehend, сервис Comprehend проанализирует документы и вернет два результата.

    1. Группы ключевых слов, которые являются темами.

    Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.
    Группа тем Ключевые слова Вес
    1 Amazon 0,87
    1 Сиэтл 0,65
    2 Праздники 0,78
    2 Покупки 0,67
    Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.

    2. Распределение документов по темам.

    Название документа Группа тем Пропорция
    Doc1.txt 1 0,87
    Doc2.txt 1 0,65
    Doc3.txt 2 0,78
    Doc4.txt 2 0,67
    Каждый документ связывается с группой тем на основании пропорции взвешенных ключевых слов из группы тем, присутствующих в документе.

Поддержка различных языков

Amazon Comprehend может анализировать текст на немецком, английском, испанском, итальянском,
португальском, французском, японском, корейском, арабском и китайском (упрощенном и традиционном) языках, а также хинди. Для создания приложений на других языках можно с помощью Amazon Translate перевести текст на язык, поддерживаемый Comprehend, и после выполнить его анализ. Более подробную информацию о поддерживаемых языках можно найти на странице документации.

Подробнее о ценах на Amazon Comprehend

Перейти на страницу цен
Готовы начать?
Регистрация
Возникли дополнительные вопросы?
Связаться с нами