Amazon Transcribe

Автоматическое распознавание речи

Amazon Transcribe – это сервис автоматического распознавания речи (ASR), благодаря которому разработчики могут с легкостью добавлять в свои приложения возможности преобразования речи в текст. API Amazon Transcribe позволяет анализировать аудиофайлы, хранящиеся в Amazon S3, и получать текстовые файлы с расшифровкой речи.

Amazon Transcribe может применяться для решения широкого круга стандартных задач, включая расшифровку телефонных обращений в службу поддержки и создание субтитров для аудио- и видеоконтента. Сервис распознает файлы в стандартных аудиоформатах (WAV, MP3 и др.) и указывает в тексте временную метку для каждого слова, что позволяет с легкостью найти нужный фрагмент в исходной аудиозаписи. При этом Amazon Transcribe постоянно обучается и развивается вместе с языком.

Представление Amazon Transcribe на AWS re:Invent 2017

Основные возможности

Удобочитаемые расшифровки

Большинство систем распознавания речи выдает текст одной строкой без знаков препинания. Amazon Transcribe применяет технологии глубокого обучения для автоматического форматирования и расстановки знаков препинания. Итоговый текст гораздо проще читается и готов к использованию без редактирования.

Распознавание телефонного аудиосигнала

Качество аудиозаписи телефонных разговоров, как правило, оставляет желать лучшего. Сервис Amazon Transcribe специально создан для работы с аудиозаписями телефонного качества и обеспечивает высокую точность распознавания, что позволяет применять его для решения таких задач, как расшифровка телефонных обращений в службу поддержки.  

Поддержка различных языков

Amazon Transcribe автоматически распознает речь на английском (США) и испанском языках. Вскоре появится поддержка и других языков.    

 

Простой в использовании API

API Amazon Transcribe упрощает преобразование речи в текст. Для этого не нужно создавать сложные программы. Всего несколько строк кода для вызова API – и Amazon Transcribe выдаст текстовую расшифровку аудиофайлов, хранящихся в Amazon S3.

Поддержка пользовательских словарей (ожидается)

Amazon Transcribe позволяет дополнять и редактировать словарь для распознавания речи. В базовый словарь можно добавлять новые слова (и варианты их произношения) для получения максимально точных транскрипций при любых примерах использования сервиса, даже если в речи присутствует узкоспециальная терминология, профессиональный жаргон или уникальные названия продуктов. Эта возможность помогает сэкономить время на редактировании текста, избавляя от необходимости вносить правки после распознавания.

Временные метки

Amazon Transcribe указывает в тексте временную метку для каждого слова, что позволяет с легкостью найти нужный фрагмент в исходной аудиозаписи.

 

Распознавание говорящих (ожидается)

Amazon Transcribe может распознавать смену говорящего и вносить в текст соответствующие метки. Это существенно облегчает работу по расшифровке телефонных разговоров, интервью, телепередач и других аудиозаписей с несколькими участниками.

Примеры использования

Amazon Transcribe может использоваться для решения широкого круга задач по распознаванию речи в различных областях, включая деятельность служб поддержки клиентов, подготовку субтитров, поиск информации и обеспечение соответствия требованиям.

Повышение качества обслуживания клиентов

Возможность преобразования речи в текст позволяет создавать на основе Amazon Transcribe приложения для анализа текста с функцией поиска и анализа голосовой информации. В контактных центрах Amazon Transcribe может применяться для расшифровки телефонных разговоров с клиентами и последующего анализа этих данных с помощью других сервисов AWS, например Amazon Comprehend, для понимания смысла и цели разговора.

Рабочие процессы подготовки субтитров

Создатели и распространители мультимедийного контента могут использовать Amazon Transcribe для автоматического создания субтитров с временными метками. Показ видео с субтитрами делает материал доступнее и расширяет охват аудитории.

Каталогизация архивных аудиозаписей

Сервис позволяет создавать на основе аудио- и видеозаписей архивы с возможностью полнотекстового поиска для управления рисками и обеспечения соответствия требованиям. Клиенты могут использовать Amazon Transcribe для преобразования речи в текст, чтобы затем с помощью Amazon ElasticSearch выполнять индексирование и текстовый поиск по всей библиотеке аудио- и (или) видеоматериалов.

Рекомендации клиентов

RingDNA – это платформа для увеличения продаж и организации голосовых коммуникаций корпоративного уровня. В корпоративных отделах продаж RingDNA позволяет существенно повышать производительность, использовать при продажах интеллектуальные технологии ведения переговоров, применять инструменты прогностического анализа и обучать сотрудников методам быстрого достижения результатов. 

«RingDNA – это комплексная коммуникационная платформа для отделов продаж. RingDNA позволяет сотням предприятий существенно повышать производительность, использовать при продажах интеллектуальные технологии ведения переговоров, применять инструменты прогностического анализа и обучать сотрудников методам быстрого достижения результатов. Важнейший компонент искусственного интеллекта RingDNA, отвечающего за анализ разговоров, требует максимально точного преобразования каждого телефонного звонка в текст. Сервис Amazon Transcribe дарит компании RingDNA только лучшие впечатления: он обеспечивает высококачественное распознавание речи в больших объемах, благодаря чему мы получаем точную транскрипцию каждого телефонного звонка».

Говард Браун, основатель и генеральный директор, RingDNA

Компания Isentia со штаб-квартирой в Сиднее, Австралия, является ведущим поставщиком услуг по анализу мультимедийной информации на рынке Азиатско-Тихоокеанского региона. Компания имеет 18 отделений, расположенных на территории этого региона, и обслуживает более 5000 клиентов по всему миру, включая 84 из 100 ведущих мировых брендов. Продукты Isentia помогают клиентам принимать более своевременные и обоснованные решения в области бизнеса и коммуникаций.

«Компания Isentia помогает клиентам анализировать и отслеживать информацию об их брендах в средствах массовой информации. Ежедневно мы создаем более 13 тысяч обзоров по материалам радио- и телепрограмм. Amazon Transcribe позволяет нам преобразовывать аудио- и видеозаписи в текст для дальнейшего анализа с помощью Amazon Clair. Благодаря временным меткам и автоматической расстановке знаков препинания мы можем с легкостью находить в тексте нужные данные и предоставлять своим клиентам важные аналитические данные».

Андреа Уолш, генеральный директор, Isentia

Подробнее о ценах на Amazon Transcribe

Перейти на страницу цен