Общие вопросы

Вопрос. Что такое Amazon Transcribe?

Amazon Transcribe – это сервис AWS, позволяющий преобразовывать речь в текст. Благодаря технологии автоматического распознавания речи (ASR) клиенты могут использовать Amazon Transcribe для решения самых разных бизнес-задач, включая расшифровку телефонных обращений в службу поддержки, создание субтитров для аудио- и видеоконтента, а также текстового анализа аудио- и видеоконтента.  

Вопрос. Как Amazon Transcribe взаимодействует с другими продуктами AWS?

Amazon Transcribe преобразует речь в текст, после чего различные приложения для анализа текста могут выполнять расшифровку голосовой информации. Например, применив приложение Amazon Comprehend к преобразованным с помощью Amazon Transcribe текстовым данным, клиенты могут выполнить анализ эмоций или извлечь суть и ключевые фразы. При интеграции Amazon Translate с Amazon Polly можно принять речевой сигнал на одном языке, перевести его на другой язык и сгенерировать итоговый речевой сигнал, таким образом обеспечивая разговор на разных языках. Кроме того, можно использовать Amazon Transcribe вместе с Amazon Elasticsearch для выполнения индексирования и текстового поиска по всей библиотеке аудио- и/или видеоматериалов. 

Вопрос. Что еще мне следует знать перед началом использования сервиса Amazon Transcribe?

Amazon Transcribe разработан для работы с широким спектром речевых и акустических характеристик, включая колебания громкости, высоту тона и скорость речи. Качество и содержание аудиосигнала (включая, помимо прочего, такие факторы, как фоновый шум, наложение звука, акцентная речь или переход от одного языка к другому в одном аудиофайле) могут повлиять на точность работы сервиса. Мы постоянно обновляем сервис, чтобы улучшить его способность адаптироваться к дополнительным акустическим перепадам и разным типам материалов. 

Использование Amazon Transcribe

Вопрос. Как разработчики получают доступ к Transcribe?

Самый простой способ начать работу с Amazon Transcribe – отправить через консоль задачу для расшифровки аудиофайла. К сервису можно обращаться непосредственно из интерфейса командной строки AWS. Кроме того, можно интегрировать сервис в приложение, используя подходящий пакет SDK. В любом случае для начала работы с Amazon Transcribe и формирования автоматизированных расшифровок аудиофайлов потребуется всего лишь несколько строк кода.

Вопрос. Поддерживает ли Amazon Transcribe расшифровку речи в режиме реального времени?

Да. Amazon Transcribe позволяет создать двунаправленную трансляцию через HTTP2. Пользователи могут отправлять аудиопоток в сервис и получать обратно текстовый поток в реальном времени.  

Вопрос. Какой формат аудио поддерживает сервис для расшифровки речи в реальном времени?

В настоящий момент потоковая расшифровка речи возможна для 16-битного Linear PCM. 

Вопрос. Какие языки поддерживает Amazon Transcribe?

О поддерживаемых языках см. на странице документации

Вопрос. На каких устройствах работает Amazon Transcribe?

Amazon Transcribe практически не зависит от типов устройств. Amazon Transcribe может работать на любых устройствах со встроенными микрофонами, таких как телефоны, ПК, планшеты и устройства IoT (например, автомобильные аудиосистемы). Интерфейс API Amazon Transcribe определяет качество аудиопотока, поступающего на устройство (8 кГц или 16 кГц), и выбирает подходящие акустические модели для преобразования речи в текст. Разработчики также могут вызывать API Transcribe в своих приложениях для получения доступа к возможностям преобразования речи в текст. 

Вопрос. Существуют ли ограничения по размеру аудиоконтента, который может обработать Amazon Transcribe?

Один вызов API пакетного сервиса Amazon Transcribe может обрабатывать не более четырех часов (или 2 ГБ) контента. Сервис потоковой передачи предоставляет открытые подключения в течение 4 часов. 

Вопрос. Какие языки программирования поддерживает Amazon Transcribe?

Пакетный сервис Amazon Transcribe поддерживает .NET, Go, Java, Javascript, PHP, Python и Ruby.
Сервис Amazon Transcribe в реальном времени поддерживает Java SDK, Ruby SDK и C++ SDK. Готовится дополнительная поддержка SDK. Подробнее см. на странице ресурсов

Вопрос. Термины из настраиваемого словаря не распознаются. Что делать?

На распознавание речи влияет множество факторов, поэтому наличие термина в пользовательском словаре не гарантирует, что он будет правильно распознан.
Наиболее распространенной причиной ошибки является неправильное произношение слова. Если вариант произношения отсутствует, задайте его. Если вариант произношения указан, перепроверьте его правильность или добавьте другие возможные альтернативы. Вы можете сделать это посредством внесения нескольких словарных статей, отличающихся в графе произношения.

Вопрос. Почему исходный текст содержит слишком много слов?

Это происходит потому, что количество терминов в настраиваемых словарях обычно ограничено, однако в больших экземплярах содержатся слова с одинаковым произношением. Советуем вам сократить список до редких или часто используемых слов. Если словарь содержит омонимы, их следует разграничить, создав отдельные списки в зависимости от сферы употребления термина. Короткие слова, созвучные со многими другими, могут стать причиной появления лишних терминов в исходном тексте. Рекомендуем сгруппировать их с часто употребляемыми в таком контексте словами и включить в список фраз через дефис. Например, пользовательский термин «A.D.» может быть добавлен в составе фразы «A.D.-converter».

Вопрос. Произношение можно задать двумя способами: в поле IPA или поле SoundsLike таблицы настраиваемого словаря. Какой из них лучше?

IPA обеспечивает более точные варианты произношения. Если у вас есть возможность задать произношение с помощью IPA, воспользуйтесь ею (например, добавьте вариант произношения из лексикона IPA или примените онлайн-конвертер).

Вопрос. Мне бы хотелось воспользоваться IPA, но мои познания языка неглубоки. Существует ли онлайн-инструмент, который мне поможет?

В IPA встроено несколько словарей, среди которых Оксфордский и Кембриджский словари английского языка, включительно с их онлайн-версиями. Существуют и другие онлайн-конвертеры, напримерeasypronunciation.com или tophonetics.com для английского языка. Однако следует учесть, что в основе большинства таких инструментов лежат базовые словари, которые не могут сгенерировать правильное произношение IPA для некоторых слов, к примеру имен собственных. Amazon Transcribe не использует никаких сторонних инструментов.

Вопрос. Нужно ли применять разные стандарты IPA для отличающихся вариантов произношения одного и того же языка? (например, для американского и британского вариантов английского языка)?

Используйте тот стандарт IPA, который подходит для обработки конкретного аудиофайла. Например, если нужно конвертировать речь англичан, примените британский вариант произношения. Amazon Transcribe поддерживает ограниченный набор символов IPA для разных языков и диалектов. Убедитесь, что для предлагаемых вариантов произношения используются только допустимые символы. О наборах символов IPA см. на странице документации: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

Вопрос. Как добавить вариант произношения с помощью SoundsLike в настраиваемом словаре?

Вы можете разделить слово на части и задать произношение для каждой из них, используя стандартную орфографию, чтобы сымитировать его звучание. Например, чтобы добавить вариант произношения фразы Los-Angeles в английском языке, вы можете разбить ее на такие компоненты: loss-ann-gel-es. Слово Etienne можно поделить следующим образом: eh-tee-en. Разграничивайте части слова дефисами. Вы можете использовать любые допустимые символы для ввода.

Вопрос. Чем отличаются способы добавления аббревиатур в словарь (с точками и без точек, но с произношением)?

Если вы добавите аббревиатуру с точками, орфографическое произношение сгенерируется автоматически. Если вы не используете точки при вводе, добавьте вариант произношения в соответствующее поле. Иногда бывает трудно определить, как произносится аббревиатура: по буквам или как отдельное слово. Например, NATO чаще звучит как ‘n eɪ t oʊ’ (nay-toh), чем как ‘ɛn eɪ ti oʊ’ (N. A. T. O.)).

Вопрос. Где искать примеры использования настраиваемых вариантов произношения?

Образцы форматов ввода и примеры см. на странице документации: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

Вопрос. Что случится в случае использования неправильного произношения IPA? Может, лучше не вводить этот вариант, если я сомневаюсь?

Система использует заданный вами вариант произношения. Таким образом, возрастет вероятность правильного распознавания слова. Если вы сомневаетесь в правильности сгенерированного произношения IPA, проведите небольшое сравнение. Проверьте исходный текст, полученный в результате обработки аудиофайла, по двум словарям, один из которых содержит произношения IPA, а другой – только слова (и, возможно, формы DisplayAs). Если вы не предоставите вариант произношения, система использует приблизительный, который может оказаться как лучше, так и хуже того, что вы не добавили.

Вопрос. Могут ли при использовании форм DisplayAs отображаться наборы символов, не относящиеся к исходному транскрибируемому языку? (например, слово «Street» быть показано как “街道“).

Да. Для транскрипции фразы существует ограниченный набор символов для конкретного языка, однако в столбце DisplayAs можно вводить все символы UTF-8, кроме \t (TAB).

Вопрос. Сервис Transcribe поддерживает функцию автоматического редактирования контента как для пакетных API, так и для API для потоковой передачи данных?

Нет. На данный момент эта функция доступна только для пакетных API.

Вопрос. Какие языки поддерживает функция автоматического редактирования контента?

На данный момент поддерживается американский вариант английского языка (en-US).

Вопрос. Может ли функция автоматического редактирования контента удалять конфиденциальные личные данные из аудиозаписи?

Нет. Эта функция не удаляет конфиденциальные личные данные из аудиозаписи. Однако вы можете сделать это самостоятельно, выделив нужную часть для удаления с помощью временных меток, которые содержаться в каждой записи, где была распознана информация конфиденциального характера.

Вопрос. Можно ли использовать функцию автоматического редактирования контента, чтобы удалить личные данные из записанного текста?

Нет. С помощью этой функции можно редактировать только аудиофайлы.

Вопрос. Что необходимо знать перед тем, как использовать функцию автоматического редактирования контента?

Функция автоматического редактирования контента создана для распознавания и удаления личных данных из записей. Однако из-за определенных механизмов прогнозирования, которые использует технология машинного обучения, функция может не распознать некоторые высказывания с персональной информацией, сгенерированные сервисом Transcribe. Поэтому рекомендуется проверять автоматически полученный результат, чтобы удостовериться, что он удовлетворяет вашим требованиям.

Вопрос. Какие API поддерживают автоматическое определение языка?

В настоящее время автоматическое определение языка поддерживается для пакетных API.

Вопрос. Какие языки сервис Amazon Transcribe может определять автоматически?

Amazon Transcribe может определять любые языки, поддерживаемые пакетным API.

Вопрос. Может ли Amazon Transcribe определять различные языки в одном аудиофайле?

Amazon Transcribe может определить только основной язык, используемый в аудиофайле.

Вопрос. Можно ли как‑то ограничить список языков для автоматического определения?

Да. Можно указать список языков, которые могут присутствовать в мультимедийной библиотеке. Если вы указываете список языков, наиболее вероятный будет выбран из этого перечня. Если языки не указаны, система сравнит аудиофайл со всеми языками, поддерживаемыми Amazon Transcribe, и выберет наиболее вероятный. Точность определения языка будет выше, если предоставить системе список языков на выбор.

Цены и доступность

Вопрос. Сколько стоит использование сервиса?

Для получения подробных сведений см. страницу цен на Amazon Transcribe.

Вопрос. В каких регионах AWS работает Amazon Transcribe?

См. таблицу регионов глобальной инфраструктуры AWS.

Конфиденциальность данных

Вопрос. Сохраняются ли входные речевые сообщения, обработанные Amazon Transcribe, и как их использует AWS?

Amazon Transcribe может сохранять и использовать обработанные сервисом входные речевые сообщения только в целях предоставления и поддержки сервиса, а также для повышения качества и дальнейшего развития Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Использование пользовательского контента очень важно для непрерывного улучшения качества сервиса Amazon Transcribe, включая разработку и обучение связанных технологий. Сервис не использует какие‑либо идентифицирующие личность данные, которые могут содержаться в контенте, в целях продвижения продуктов и сервисов либо рекламы в адрес клиента или конечных пользователей сервиса. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/. Вы можете отказаться от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, воспользовавшись политикой отказа в AWS Organizations. Подробнее о том, как оформить отказ, см. на странице политики по использованию сервисов с элементами искусственного интеллекта.

Вопрос. Можно ли удалить данные и артефакты, связанные с заданиями для расшифровки, которые хранятся в Amazon Transcribe?

Да. Для удаления данных и других артефактов, связанных с заданиями для расшифровки, можно использовать доступные API удаления. Если у вас возникли проблемы с выполнением этой операции, обратитесь в службу AWS Support.

Вопрос. Кто имеет доступ к контенту, обработанному и хранимому Amazon Transcribe?

Доступ к клиентскому контенту, обработанному Amazon Transcribe, получает только авторизованный персонал. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/.

Вопрос. Принадлежит ли мне контент, обработанный и хранимый Amazon Transcribe?

Вы являетесь полноправным владельцем своего контента. Мы обязуемся использовать его только с вашего разрешения.

Вопрос. Что происходит с моими данными, используемыми при обучении пользовательских языковых моделей? Они по-прежнему будут принадлежать мне?

Клиенту принадлежат как исходные текстовые данные, которые используются для обучения соответствующей модели, так и созданная пользовательская модель. Текстовые данные не сохраняются и не используются для усовершенствования общего механизма распознавания речи. Модели, созданные с использованием пользовательской языковой модели (CLM), являются автономными и доступны только клиенту.

Вопрос. Поскольку сервис не будет сохранять мои обучающие данные, возможны ли какие-либо недоработки в расшифровке или снижение эффективности использования сервиса?

Несмотря на то, что сервис не сохраняет ваши обучающие данные, качество расшифровки не снизится. После использования обучающих данных для фактического создания пользовательской языковой модели сама модель становится доступной для повторного использования по вашему усмотрению. Исходный набор обучающих данных, загруженный вами, удаляется из наших систем. Единственная проблема может возникнуть, если вам потребуется техническая поддержка. Поскольку мы не храним ваши исходные обучающие данные, у нас не будет удобного доступа к этим ресурсам или связанным с ними промежуточным артефактам, если вам потребуются услуги команды технической поддержки для изучения потенциальных проблем с использованием сервиса. Поддержка по-прежнему будет доступна, но нам может потребоваться от вас дополнительная информация.

Вопрос. Как можно в дальнейшем повторно использовать данные для обновления или улучшения модели?

Поскольку обучающие данные не сохраняются, для обучения новых моделей потребуется повторно загрузить тот же набор данных и любые дополнительные данные. Когда появится обновление базовой модели, предоставленное сервисом Amazon Transcribe, вы получите уведомление. Чтобы воспользоваться преимуществами новейшей базовой модели, вам необходимо отправить свои данные для обучения новой модели. После этого вы сможете использовать как исходную пользовательскую модель, которую создали ранее, так и новую версию.

Вопрос. Как удалить модель?

Пользователи могут удалять любые созданные ними языковые модели по своему усмотрению.

Вопрос. Перемещается ли контент, обработанный Amazon Transcribe, за пределы региона AWS, в котором используется сервис Amazon Transcribe?

Весь контент, обработанный Amazon Transcribe, шифруется и надежно хранится в регионе AWS, в котором используется сервис Amazon Transcribe. Некоторые части контента, обработанного Amazon Transcribe, могут храниться в другом регионе AWS только в целях непрерывного улучшения качества и развития сервиса Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта. Если вы откажетесь от использования вашего контента в целях развития и повышения качества Amazon Transcribe и других технологий Amazon на основе машинного обучения и искусственного интеллекта, обратившись в службу AWS Support, такой контент не будет храниться в другом регионе AWS. Удаление своих голосовых записей можно запросить, связавшись со службой поддержки AWS Support. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем соответствующие комплексные технические и физические средства контроля, включая шифрование хранимых и передаваемых данных, для предотвращения неавторизованного доступа к данным и контенту клиентов или их раскрытия и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Подробнее см. на странице https://aws.amazon.com/compliance/data-privacy-faq/.

Вопрос. Можно ли использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые ориентированы на детей в возрасте до 13 лет и подпадают под действие Закона о защите конфиденциальности детей в Интернете (COPPA)?

Да. При соблюдении условий использования Amazon Transcribe, согласившись с которыми вы берете на себя обязательство предоставлять – в рамках COPPA – любые необходимые предупреждения и получать любое необходимое и поддающееся проверке согласие родителей, вы можете использовать Amazon Transcribe вместе с веб-сайтами, программами или другими приложениями, которые полностью или частично ориентированы на детей в возрасте до 13 лет.

Вопрос. Как определить, распространяется ли действие COPPA на мой веб-сайт, программу или приложение?

Для получения информации о требованиях COPPA и инструкций по определению того, распространяются ли требования COPPA на конкретный веб-сайт, программу или другое приложение, обратитесь непосредственно к ресурсам, предоставляемым и поддерживаемым Федеральной торговой комиссией США. На указанном сайте также содержится информация о том, как определить, ориентирован ли сервис полностью или частично на детей в возрасте до 13 лет.

Amazon Transcribe Medical

Вопрос. Что такое Amazon Transcribe Medical?

Amazon Transcribe Medical – это сервис автоматического распознавания речи (ASR), позволяющий разработчикам без труда добавлять в свои приложения возможности преобразования речевой информации по медицинской тематике в текст. Amazon Transcribe Medical позволяет быстро и точно расшифровать надиктованную и разговорную речь по медицинской тематике для самых различных целей, например для записи примечаний врача или для обработки текста в дальнейшем анализе для извлечения ценной аналитической информации.

Вопрос. Для чего предназначен сервис Amazon Transcribe Medical?

Amazon Transcribe Medical использует продвинутые модели машинного обучения для точного преобразования речевой информации по медицинской тематике в текст. Сервис Transcribe Medical может создавать текстовые расшифровки для поддержки различных примеров использования, от работы с документацией в клиниках и мониторинга безопасности лекарственных средств (фармаконадзора) до создания субтитров при оказании телемедицинских услуг и даже аналитики переговоров в контактных центрах, работающих в сфере здравоохранения и медико‑биологических разработок.

Вопрос. Нужно ли быть экспертом в области автоматического распознавания речи (ASR), чтобы использовать Amazon Transcribe Medical?

Нет, для использования Amazon Transcribe Medical знания в области ASR или машинного обучения не требуются. Достаточно вызвать API Transcribe Medical, и сервис выполнит необходимое машинное обучение на стороне сервера для преобразования речевой информации по медицинской тематике в текст.

Вопрос. Как начать работу с Amazon Transcribe Medical?

Начать работу с Amazon Transcribe Medical можно с помощью Консоли управления AWS или SDK. Подробные сведения приведены на странице технической документации.

Для тестирования сервиса Amazon Transcribe Medical предоставляется уровень бесплатного пользования. Подробную информацию см. на странице цен.

Вопрос. Какие языки поддерживает Amazon Transcribe Medical?

В настоящее время Amazon Transcribe Medical поддерживает расшифровку информации по медицинской тематике на американском английском языке.

Вопрос. Какие разделы медицины поддерживает Amazon Transcribe Medical?

Amazon Transcribe Medical поддерживает транскрипцию информации по первичной медицинской помощи, включающей такие специальности, как семейная медицина, внутренние болезни, педиатрия, акушерство и гинекология.

Вопрос. В каких регионах AWS доступен сервис Amazon Transcribe Medical?

В настоящее время Amazon Transcribe Medical доступен в регионах Восток США (Сев. Вирджиния), Восток США (Огайо), Запад США (Орегон), Канада (Центр), ЕС (Ирландия) и Азия и Тихий океан (Сидней).

Вопрос. Сколько стоит использование Amazon Transcribe Medical?

Для получения подробных сведений о ценах см. страницу цен на Amazon Transcribe Medical.

Вопрос. Соответствует ли сервис Amazon Transcribe Medical требованиям HIPAA?

Да.

Вопрос. Используется ли контент, обрабатываемый Amazon Transcribe Medical, для каких‑либо целей, кроме предоставления сервиса?

Обрабатываемый контент не используется ни для каких других целей, кроме как для предоставления и поддержки сервиса Amazon Transcribe Medical. Этот контент не используется для разработки или улучшения качества Amazon Transcribe Medical или каких бы то ни было других технологий Amazon в сфере машинного обучения / искусственного интеллекта.

Вопрос. Продолжает ли сервис Amazon Transcribe Medical обучаться?

Да. В Amazon Transcribe Medical используется машинное обучение. Сервис непрерывно обучается для повышения качества работы в различных примерах использования. Amazon Transcribe Medical не хранит и не использует предоставленные данные клиентов для обучения моделей.

Вопрос. Что еще следует знать до начала использования сервиса Amazon Transcribe Medical?

Использование Amazon Transcribe Medical не заменяет профессиональные медицинские консультации, диагностику и лечение. Вы и ваши конечные пользователи, основываясь на собственном опыте и суждениях, несете ответственность за определение правильности, полноты, своевременности и пригодности любой информации, предоставленной Amazon Transcribe Medical. Только вы и ваши конечные пользователи ответственны за любые решения, советы, действия и (или) отказы от действий, которые основаны на использовании Amazon Transcribe Medical. Пользователь несет ответственность за оценку результатов, предоставленных сервисом Amazon Transcribe Medical, чтобы убедиться в их соответствии своим потребностям.

Пользовательские языковые модели

Вопрос. Какие функциональные возможности пользовательских языковых моделей доступны на сегодняшний день?

Пользовательские языковые модели (CLM) в настоящее время поддерживают расшифровку английского языка (США). Она доступна в сервисе Amazon Transcribe как часть интерфейса API для пакетной обработки звука. CLM не поддерживает одновременное использование настраиваемого словаря.

Вопрос. Какой объем и тип обучающих данных требуется? Как получить данные? Должны ли данные иметь определенный формат?

Текстовые данные должны соответствовать аудиозаписи, которая будет расшифрована с помощью пользовательской модели. В них должно содержаться как можно больше слов, фраз и словосочетаний, относящихся к предметной области. Мы рекомендуем использовать связный текст, содержащий от 100 тыс. до 10 млн слов. Текстовые данные можно взять из любых собственных или общедоступных источников (например, использовать текст с веб‑сайта клиентов). Мы рекомендуем, чтобы каждый файл обычного текста содержал не менее 200 000 слов, а общий размер файла не превышал 1 ГБ. Текст должен иметь кодировку UTF-8 и содержать по одному предложению в каждой строке. Каждое предложение должно содержать знаки препинания. Пользователи должны обеспечить проверку орфографии, удаление символов форматирования и проверку кодировки.

Вопрос. Как применяются пользовательские языковые модели (CLM)?

Для обучения пользовательской языковой модели клиенты просто отправляют текстовые данные в корзину Amazon S3. После этого пользователи могут работать с консолью сервиса Amazon Transcribe для загрузки и обработки данных для обучения пользовательской языковой модели. Обучение полностью автоматизировано и требует минимального вмешательства со стороны пользователя. Когда окончательная пользовательская модель готова, она становится доступной в аккаунте AWS клиента для расшифровки аудиофайлов конкретной тематики. Более того, клиенты могут обучить несколько пользовательских моделей для различных вариантов применения.

Вопрос. Вы обеспечиваете какие-либо улучшения? Стоит ли тратить усилия на сбор текстовых данных?

Улучшения не гарантируются. Результат зависит от степени соответствия текстовых данных аудиозаписи и от объема предоставленных данных. Чем больше данных, тем лучше, но наиболее важно, чтобы данные включали слова и их последовательности, которые предположительно встречаются в аудиофайлах, требующих расшифровки. Повышение точности расшифровки будет зависеть от качества обучающих данных, а также от варианта использования. В некоторых сценариях общий сравнительный эталонный анализ показывает относительное улучшение точности на 10–15 %.

Вопрос. Сколько времени занимает обучение модели? Когда ее можно будет использовать?

Обучение моделей обычно длится 6–10 часов. Время обучения зависит от объема набора данных. Пользовательская модель становится доступной сразу после завершения обучения.

Вопрос. Как я смогу использовать модель? Как узнать, работает ли она лучше, чем стандартная модель, предоставляемая сервисом Amazon Transcribe?

Модель будет доступна в аккаунте клиента с идентификатором, который клиент присвоил ей до начала обучения. Чтобы использовать модель, в запрос на расшифровку необходимо добавить флаг с идентификатором модели. Клиентам требуется протестировать модель на своих аудиофайлах и сравнить результат с результатами, полученными от стандартного движка.

Вопрос. Сколько пользовательских языковых моделей я могу обучить? Можно ли включить несколько моделей одновременно для моего аккаунта?

В одном аккаунте AWS всегда можно одновременно обучать до пяти различных моделей. По умолчанию для каждого аккаунта можно сохранить не более 10 моделей. Если требуется больше моделей, сервисный лимит можно увеличить здесь.

Вопрос. Поддерживаются ли пользовательские акустические модели?

Нет, пользовательские акустические модели не поддерживаются. Пользовательские языковые модели создаются на основе текстовых данных, которые соответствуют варианту использования или предметной области.

Подробнее о ценах на использование сервиса Amazon Transcribe

Перейти на страницу цен