Общие вопросы

Вопрос: Что такое Amazon Transcribe?

Amazon Transcribe – это сервис AWS, позволяющий преобразовывать речь в текст. Благодаря технологии автоматического распознавания речи (ASR) клиенты могут использовать Amazon Transcribe для решения самых разных бизнес-задач, включая расшифровку телефонных обращений в службу поддержки, создание субтитров для аудио- и видеоконтента, а также текстового анализа аудио- и видеоконтента.  

Вопрос: Как Amazon Transcribe взаимодействует с другими продуктами AWS?

Amazon Transcribe преобразует речь в текст, после чего различные приложения для анализа текста могут выполнять расшифровку голосовой информации. Например, применив приложение Amazon Comprehend к преобразованным с помощью Amazon Transcribe текстовым данным, клиенты могут выполнить анализ эмоций или извлечь суть и ключевые фразы. При интеграции Amazon Translate с Amazon Polly можно принять речевой сигнал на одном языке, перевести его на другой язык и сгенерировать итоговый речевой сигнал, таким образом обеспечивая разговор на разных языках. Кроме того, можно использовать Amazon Transcribe вместе с Amazon Elasticsearch для выполнения индексирования и текстового поиска по всей библиотеке аудио- и (или) видеоматериалов. 

Использование Amazon Transcribe

Вопрос: Как разработчики получают доступ к Transcribe?

Самый простой способ начать работу с Amazon Transcribe – отправить через консоль задачу для расшифровки аудиофайла. К сервису можно обращаться непосредственно из интерфейса командной строки AWS. Кроме того, можно интегрировать сервис в приложение, используя подходящий пакет SDK. В любом случае для начала работы с Amazon Transcribe и формирования автоматизированных расшифровок аудиофайлов потребуется всего лишь несколько строк кода.

Вопрос: Какие типы ввода поддерживает Amazon Transcribe?

Amazon Transcribe поддерживает аудиопотоки с частотой дискретизации 16 кГц и 8 кГц в различных аудиоформатах – WAV, MP3, MP4 и FLAC.

Вопрос: Поддерживает ли Amazon Transcribe расшифровку речи в реальном времени?

Да. Amazon Transcribe позволяет создать двунаправленную трансляцию через HTTP2. Пользователи могут отправлять аудиопоток в сервис и получать обратно текстовый поток в реальном времени.  

Вопрос: Какой формат аудио поддерживает сервис для расшифровки речи в реальном времени?

В настоящий момент потоковая расшифровка речи возможна для 16-битного Linear PCM. 

Вопрос: Какие языки поддерживает Amazon Transcribe?

О поддерживаемых языках см. на странице документации

Вопрос: На каких устройствах работает Amazon Transcribe?

Amazon Transcribe практически не зависит от типов устройств. Amazon Transcribe может работать на любых устройствах со встроенными микрофонами, таких как телефоны, ПК, планшеты и устройства IoT (например, автомобильные аудиосистемы). Интерфейс API Amazon Transcribe определяет качество аудиопотока, поступающего на устройство (8 кГц или 16 кГц), и выбирает подходящие акустические модели для преобразования речи в текст. Разработчики также могут вызывать API Transcribe в своих приложениях для получения доступа к возможностям преобразования речи в текст. 

Вопрос: Существуют ли ограничения по размеру аудиоконтента, который может обработать Amazon Transcribe?

Один вызов API пакетного сервиса Amazon Transcribe может обрабатывать не более четырех часов (или 2 ГБ) контента. Сервис потоковой передачи предоставляет открытые подключения в течение 4 часов. 

Вопрос: Какие языки программирования поддерживает Amazon Transcribe?

Пакетный сервис Amazon Transcribe поддерживает .NET, Go, Java, Javascript, PHP, Python и Ruby.
Сервис Amazon Transcribe в реальном времени поддерживает Java SDK, Ruby SDK и C++ SDK. Готовится дополнительная поддержка SDK. Подробнее см. на странице ресурсов

Вопрос: Термины из настраиваемого словаря не распознаются. Что делать?

На распознавание речи влияет множество факторов, поэтому наличие термина в пользовательском словаре не гарантирует, что он будет правильно распознан.
Наиболее распространенной причиной ошибки является неправильное произношение слова. Если вариант произношения отсутствует, задайте его. Если вариант произношения указан, перепроверьте его правильность или добавьте другие возможные альтернативы. Вы можете сделать это посредством внесения нескольких словарных статей, отличающихся в графе произношения.

Вопрос: Почему исходный текст содержит слишком много слов?

Это происходит потому, что количество терминов в настраиваемых словарях обычно ограничено, однако в больших экземплярах содержатся слова с одинаковым произношением. Советуем вам сократить список до редких или часто используемых слов. Если словарь содержит омонимы, их следует разграничить, создав отдельные списки в зависимости от сферы употребления термина. Короткие слова, созвучные со многими другими, могут стать причиной появления лишних терминов в исходном тексте. Рекомендуем сгруппировать их с часто употребляемыми в таком контексте словами и включить в список фраз через дефис. Например, пользовательский термин «A.D.» может быть добавлен в составе фразы «A.D.-converter».

Вопрос: Произношение можно задать двумя способами: в поле IPA или SoundsLike настраиваемого словаря. Какой из них лучше?

IPA обеспечивает более точные варианты произношения. Если у вас есть возможность задать произношение с помощью IPA, воспользуйтесь ею (например, добавьте вариант произношения из лексикона IPA или примените онлайн-конвертер).

Вопрос: Мне бы хотелось воспользоваться IPA, но мои познания языка неглубоки. Существует ли онлайн-инструмент, который мне поможет?

В IPA встроено несколько словарей, среди которых Оксфордский и Кембриджский словари английского языка, включительно с их онлайн-версиями. Существуют и другие онлайн-конвертеры, напримерeasypronunciation.com или tophonetics.com для английского языка. Однако следует учесть, что в основе большинства таких инструментов лежат базовые словари, которые не могут сгенерировать правильное произношение IPA для некоторых слов, к примеру имен собственных. Amazon Transcribe не использует никаких сторонних инструментов.

Вопрос: Нужно ли применять разные стандарты IPA для отличающихся вариантов произношения одного и того же языка? (например, для американского и британского вариантов английского языка)?

Используйте тот стандарт IPA, который подходит для обработки конкретного аудиофайла. Например, если нужно конвертировать речь англичан, примените британский вариант произношения. Amazon Transcribe поддерживает ограниченный набор символов IPA для разных языков и диалектов. Убедитесь, что для предлагаемых вариантов произношения используются только допустимые символы. О наборах символов IPA см. на странице документации: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

Вопрос: Как добавить вариант произношения с помощью SoundsLike в настраиваемом словаре?

Вы можете разделить слово на части и задать произношение для каждой из них, используя стандартную орфографию, чтобы сымитировать его звучание. Например, чтобы добавить вариант произношения фразы Los-Angeles в английском языке, вы можете разбить ее на такие компоненты: loss-ann-gel-es. Слово Etienne можно поделить следующим образом: eh-tee-en. Разграничивайте части слова дефисами. Вы можете использовать любые допустимые символы для ввода.

Вопрос: Чем отличаются способы добавления аббревиатур в словарь (с точками и без точек, но с произношением)?

Если вы добавите аббревиатуру с точками, орфографическое произношение сгенерируется автоматически. Если вы не используете точки при вводе, добавьте вариант произношения в соответствующее поле. Иногда бывает трудно определить, как произносится аббревиатура: по буквам или как отдельное слово. Например, NATO чаще звучит как ‘n eɪ t oʊ’ (nay-toh), чем как ‘ɛn eɪ ti oʊ’ (N. A. T. O.).

Вопрос: Где искать примеры использования настраиваемых вариантов произношения?

Образцы форматов ввода и примеры см. на странице документации: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

Вопрос: Что случится в случае использования неправильного произношения IPA? Может, лучше не вводить этот вариант, если я сомневаюсь?

Система использует заданный вами вариант произношения. Таким образом, возрастет вероятность правильного распознавания слова. Если вы сомневаетесь в правильности сгенерированного произношения IPA, проведите небольшое сравнение. Проверьте исходный текст, полученный в результате обработки аудиофайла, по двум словарям, один из которых содержит произношения IPA, а другой – только слова (и, возможно, формы DisplayAs). Если вы не предоставите вариант произношения, система использует приблизительный, который может оказаться как лучше, так и хуже того, что вы не добавили.

Вопрос: Могут ли при использовании форм DisplayAs отображаться наборы символов, не относящиеся к исходному транскрибируемому языку? (например, слово «Street» быть показано как “街道“).

Да. Для транскрипции фразы существует ограниченный набор символов для конкретного языка, однако в столбце DisplayAs можно вводить все символы UTF-8, кроме \t (TAB).

Цены и доступность

Вопрос: Сколько стоит использование сервиса?

Для получения подробных сведений см. страницу цен на Amazon Transcribe.

Вопрос: В каких регионах AWS работает Amazon Transcribe?

См. таблицу регионов глобальной инфраструктуры AWS.

Конфиденциальность данных

Вопрос: Сохраняются ли входные речевые сообщения, обработанные Amazon Transcribe, и как их использует AWS?

Amazon Transcribe может сохранять и использовать обработанные сервисом входные речевые сообщения только в целях предоставления и поддержки сервиса, а также для повышения качества и дальнейшего развития Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Использование пользовательского контента очень важно для непрерывного улучшения качества сервиса Amazon Transcribe, включая разработку и обучение связанных технологий. Сервис не использует какие‑либо идентифицирующие личность данные, которые могут содержаться в контенте, в целях продвижения продуктов и сервисов либо рекламы в адрес клиента или конечных пользователей сервиса. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/. Вы можете отказаться от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, обратившись в службу AWS Support.

Вопрос: Можно ли удалить входные речевые сообщения, сохраненные в Amazon Transcribe?

Да. Удаление своих голосовых записей можно запросить, связавшись со службой поддержки AWS Support. Удаление голосовых записей может ухудшить качество работы Amazon Transcribe.

Вопрос: Кто имеет доступ к контенту, обработанному и хранимому Amazon Transcribe?

Доступ к клиентскому контенту, обработанному Amazon Transcribe, получает только авторизованный персонал. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/.

Вопрос: Принадлежит ли мне контент, обработанный и хранимый Amazon Transcribe?

Вы являетесь полноправным владельцем своего контента. Мы обязуемся использовать его только с вашего разрешения.

Вопрос: Перемещается ли контент, обработанный Amazon Transcribe, за пределы региона AWS, в котором используется Amazon Transcribe?

Весь контент, обработанный Amazon Transcribe, шифруется и надежно хранится в регионе AWS, в котором используется сервис Amazon Transcribe. Некоторые части контента, обработанного Amazon Transcribe, могут храниться в другом регионе AWS только в целях непрерывного улучшения качества и развития сервиса Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Если вы откажетесь от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, обратившись в службу AWS Support, такой контент не будет храниться в другом регионе AWS. Удаление своих голосовых записей можно запросить, связавшись со службой AWS Support. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/.

Вопрос. Можно ли использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые ориентированы на детей в возрасте до 13 лет и подпадают под действие Закона о защите конфиденциальности детей в Интернете (COPPA)?

Да. При соблюдении условий использования Amazon Transcribe, согласившись с которыми вы берете на себя обязательство предоставлять – в рамках COPPA – любые необходимые предупреждения и получать любое необходимое и поддающееся проверке согласие родителей, вы можете использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые полностью или частично ориентированы на детей в возрасте до 13 лет.

Вопрос: Как определить, распространяется ли действие COPPA на мой веб-сайт, программу или приложение?

Для получения информации о требованиях COPPA и инструкций по определению того, распространяются ли требования COPPA на конкретный веб-сайт, программу или другое приложение, обратитесь непосредственно к ресурсам, предоставляемым и поддерживаемым Федеральной торговой комиссией США. На указанном сайте также содержится информация о том, как определить, ориентирован ли сервис полностью или частично на детей в возрасте до 13 лет.

Подробнее о ценах на Amazon Transcribe

Перейти на страницу цен