Amazon Comprehend – это сервис обработки естественного языка (NLP), в котором для обнаружения в тексте аналитических данных применяются технологии машинного обучения. Amazon Comprehend предоставляет отдельные API для извлечения ключевых фраз, анализа эмоций, распознавания сущностей, моделирования тем и определения языка. Это позволяет просто встраивать механизмы обработки естественного языка в приложения. Для интеграции достаточно вызвать API сервиса Amazon Comprehend в приложении и передать информацию о местоположении исходного документа или текста. API выдаст сущности, ключевые фразы, эмоции и язык в формате JSON, и эту информацию можно использовать в приложении.

Извлечение ключевых фраз

API для извлечения ключевых фраз возвращает ключевые фразы или основные тезисы, а также уровень уверенности для каждой ключевой фразы.

Анализ эмоций

API анализа эмоций возвращает общий эмоциональный тон текста (положительный, отрицательный, нейтральный или смешанный).

Синтаксический анализ

Syntax API в Amazon Comprehend позволяет клиентам анализировать текст с использованием токенизации и частей речи (PoS), чтобы определять границы слов и метки, например имена существительные и прилагательные в тексте.

Распознавание сущностей

API распознавания сущностей возвращает именованные сущности («Люди», «Места», «Местоположения» и т. д.), которые автоматически группируются по категориям на основании предоставленного текста.

Пользовательские сущности

Пользовательские сущности позволяют настроить Amazon Comprehend для выявления терминов, относящихся к вашему домену. Используя AutoML, сервис Comprehend пройдет «обучение» на основе небольшого закрытого набора примеров (например, списка номеров политик и текста, в котором они используются), а затем «научит» закрытую пользовательскую модель распознавать эти термины в любом другом текстовом блоке. Вам не нужно управлять никакими серверами и осваивать никакие алгоритмы.

Определение языка

API обнаружения языка автоматически обнаруживает текст, написанный более чем на 100 языках, и возвращает основной язык и уровень уверенности в том, что этот язык является основным.

Пользовательская классификация

API пользовательской классификации позволяет без труда создавать пользовательские модели классификации текста с помощью специфических для компании меток. При этом изучать технологии машинного обучения не требуется. Например, компания по поддержке клиентов может использовать для автоматического распределения входящих запросов по типу проблемы пользовательскую классификацию, которая основывается на описании проблемы клиентами. Создать пользовательскую модель просто. Предоставьте примеры текста для каждой из меток, которые требуется использовать, и сервис Comprehend выполнит машинное обучение с помощью этих данных для создания пользовательской модели. Опыт в машинном обучении не требуется. Создавать пользовательские модели можно без использования программного кода. Для интеграции пользовательского классификатора в существующие приложения доступен пакет SDK. С помощью пользовательской модели можно без труда модерировать комментарии на веб‑сайте, анализировать отзывы клиентов и систематизировать документы рабочей группы. Подробнее см. на странице документации.

Моделирование тем

API моделирования тем обнаруживает актуальные термины или темы в массиве документов, хранящихся в Amazon S3. Этот API определяет наиболее распространенные темы в массиве и организовывает их по группам, после чего связывает каждый документ с соответствующей темой.

  • Пример. Если документы (Doc1.txt, Doc2.txt, Doc3.txt и Doc4.txt) хранятся в Amazon S3, и вы передаете их местоположение в Amazon Comprehend, сервис Comprehend проанализирует документы и вернет два результата.

    1. Группы ключевых слов, которые являются темами.

    Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.
    Группа тем Ключевые слова Вес
    1 Amazon 0,87
    1 Сиэтл 0,65
    2 Праздники 0,78
    2 Покупки 0,67
    Каждая группа ключевых слов связана с группой тем. Вес обозначает преобладание ключевого слова в группе. Ключевые слова с весом, близким к 1, лучше всего характеризуют контекст группы тем.

    2. Распределение документов по темам.

    Название документа Группа тем Пропорция
    Doc1.txt 1 0,87
    Doc2.txt 1 0,65
    Doc3.txt 2 0,78
    Doc4.txt 2 0,67
    Каждый документ связывается с группой тем на основании пропорции взвешенных ключевых слов из группы тем, присутствующих в документе.

Поддержка различных языков

Amazon Comprehend может анализировать тексты на английском, французском, немецком, итальянском, португальском и испанском языках. Это позволяет создавать приложения, обнаруживающие текст на множестве языков, переводить его на английский, французский, немецкий, итальянский, португальский и испанский с помощью Amazon Translate, а затем использовать Amazon Comprehend для анализа текста.

Подробнее о ценах на Amazon Comprehend

Перейти на страницу цен
Готовы начать?
Регистрация
Есть вопросы?
Свяжитесь с нами