Перейти к главному контенту

Что такое транскрипция аудиофайлов?

Что такое транскрипция аудиофайлов?

Организациям требуется широкомасштабная расшифровка аудиозаписей для различных сценариев использования: от заметок об организованных совещаниях до медицинских приложений. Современные технологии искусственного интеллекта позволяют преобразовывать аудио в текст, превращая различные акценты и разговоры между несколькими динамиками в точные отформатированные документы. В этом руководстве рассматриваются методы преобразования аудио в текст для нужд предприятий и малого бизнеса.

Коммуникация на основе речи крайне важна для полного понимания людьми друг друга. Голос – это быстрый способ передачи идей, информации, инструкций и эмоций в определенный момент времени. Запись и расшифровка голосовых сообщений с помощью преобразователей аудио в текст стали необходимыми для запоминания, точности и дальнейшей работы. При преобразовании аудио в текст важную информацию можно сохранять, искать, анализировать и смешивать для более быстрой аналитики и мгновенной интеграции в бизнес-процессы.

В прошлом человек слушал одну аудиозапись и одновременно печатал ее содержимое, преобразуя произнесенные слова, останавливаясь и приступая к созданию точной расшифровки. Юридические фирмы, врачи, исследователи и другие профессиональные офисы имели штат машинистов, которые выполняли эту ручную роль по преобразованию аудиозаписей в текст из голосовых заметок.

Теперь машины могут мгновенно транскрибировать аудио с помощью конвертера аудио в текст. Вместо человеческих усилий по транскрипции технология преобразования речи в текст (STT) преобразует аудиофайлы в письменные текстовые файлы. Этот письменный текстовый файл можно прочитать как есть, обобщить его с помощью расшифровщика искусственного интеллекта, автоматически использовать в других программных системах, анализировать отдельно или как часть более широкого корпуса и многое другое. Области применения конвертеров аудио в текст безграничны.

Что такое технологии транскрипции аудиофайлов?

Аудиофайлы могут содержать разных говорящих, акценты и специализированную лексику. Качество звука также может сильно различаться. Для преобразования речи в текст требуется понимание устной речи и знание грамматики, чтобы получить читаемый результат.

Ранее программы для конвертации аудио в текст часто ошибались, создавая неудобочитаемые и структурно неправильные стенограммы. Современные решения обеспечивают гораздо более точное распознавание, формируя тексты, близкие к оригинальной речи, с корректной структурой и грамматикой.

Amazon Transcribe – это полностью управляемый сервис, который преобразует речь в текст с помощью технологии автоматического распознавания речи (ASR). Он может обрабатывать различные характеристики речи, включая различия в скорости речи, высоте тона и громкости. Его можно транскрибировать на более чем 100 языках, подключаясь к рабочим процессам разработчиков и инфраструктуре AWS в соответствии с корпоративными требованиями к преобразованию аудио в текст.

Как начать транскрипцию аудиофайлов?

Существует два основных метода преобразования аудио в текст в зависимости от типа файла: аудио или видео. Пакетная транскрипция применяется для заранее записанных аудиофайлов, а потоковая – для трансляций и прямых эфиров.

Amazon Transcribe поддерживает одноканальное и двухканальное аудио для обоих типов транскрипции — пакетной и потоковой.

Результаты обеих форматов сохраняются в файлах JSON. Состав выходных данных зависит от параметров, указанных в запросе на транскрипцию. Минимально в расшифровке содержатся каждое слово, время начала и окончания, тип, совпадение с фильтром словаря и оценка достоверности. Дополнительно могут присутствовать метки говорящих, альтернативные слова, каналы и другие поля.

Потоковая расшифровка речи

Потоковая транскрипция используется для преобразования аудиопотоков в текст в режиме реального времени. Сервис Amazon Transcribe поддерживает форматы FLAC и PCM (16-бит, прямой порядок байтов, не WAV), а также Ogg Opus. Чтобы избежать ошибок, установите частоту дискретизации, соответствующую аудиофайлу.

Для потоковой транскрипции можно использовать Консоль управления AWS, HTTP/2, WebSockets и пакеты AWS SDK – в зависимости от ваших задач.

Ниже приведено пошаговое руководство по транскрипции потокового аудио с помощью Консоли управления AWS.

  1. Выберите «Транскрипция в реальном времени» в левой панели навигации.
  2. Перед началом выберите язык, идентификацию говорящих, фильтрацию контента и другие параметры.
  3. Нажмите кнопку «Начать потоковую передачу», чтобы начать запись в реальном времени и увидеть результаты в поле вывода транскрипции.

После завершения процесса нажмите «Загрузить полную расшифровку», чтобы скачать JSON-файл с результатом бесплатно.

Пакетная транскрипция

Пакетная транскрипция используется для расшифровки одного или нескольких аудиофайлов, хранящихся в корзине Amazon S3. Можно загружать до 10 000 заданий в очередь для обработки по принципу «первым пришел – первым обработан». Файлы могут обрабатываться параллельно, в зависимости от параметров подписки.

Поддерживаются форматы FLAC и WAV (PCM 16 бит), а также AMR, M4A, MP3, MP4, Ogg и WebM. Важно указать частоту дискретизации, совпадающую с аудиофайлом, чтобы избежать ошибок.

Для пакетной транскрипции можно использовать интерфейс командной строки AWS CLI,, Консоль управления AWS и пакеты AWS SDK.

Ниже приведено руководство по пакетной транскрипции с помощью Консоли управления AWS.

  1. Загрузите нужный файл в корзину Amazon S3. Выберите «Задания транскрипции» в левой панели навигации. Откроется список ваших заданий.
  2. Выберите «Задания транскрипции» на левой панели навигации. Это приведет вас к списку ваших заданий по транскрипции.
  3. Нажмите «Создать задание» и заполните поля на странице «Сведения о задании».
  4. После настройки нажмите «Создать задание», чтобы начать.
  5. Вернитесь на страницу «Задания транскрипции», где можно проверить статус выполнения.
  6. Выберите путь к файлу в разделе «Местоположение выходных данных», чтобы открыть расшифровку JSON.

Примечание. Если вы выбрали управляемую корзину, на странице задания появится панель предварительного просмотра и кнопка загрузки JSON-файла.

Во время настройки заполните указанные далее страницы.

Входные данные

На странице «Входные данные» выберите местоположение входного файла в корзине S3 и задайте место для выходных данных (управляемая или собственная корзина).

Настройка задания

На странице «Настройка задания» можно выбрать такие настройки, как идентификация канала, редактирование и фильтрация контента, а также пользовательский словарь.

Каковы дополнительные возможности транскрипции?

Amazon Transcribe предлагает ряд дополнительных функций для создания более полезных, безопасных и точных транскриптов при конвертации аудио- или видеофайлов.

Настраиваемые словари и языковые модели

Пользователи могут создавать собственные словари и языковые модели для точного захвата и расшифровки аудиозаписей с использованием фирменных наименований, акронимов, технических слов и жаргона, относящихся к конкретной области. Индивидуальные языковые модели приносят пользу крупным организациям с процветающими внутренними языковыми экосистемами или узкоспециализированными техническими отраслями.

Пользовательские словари – это созданные пользователем файлы, в которых показано, как произносить определенные слова. Например, проект под названием VX02Q можно добавить в собственный словарь с произношением V.X.-zero-two-Q.

Пользовательские языковые модели позволяют модели преобразования аудио в текст пройти дополнительное обучение на существующем наборе данных для понимания контекста предметного языка. Например, если вы обучите свою модель, загрузив текстовый текст исследовательских работ по климатологии, модель может понять, что «льдина» – это более вероятная пара слов, чем «ледяной поток». Аналогичным образом, если вы ссылаетесь на продукт под названием «Bzntry», набор данных аудиофайлов с несколькими упоминаниями слова «bee-zen-tree» автоматически сопоставит звук с выходным словом.

Пакетная и потоковая транскрипция аудио в текст поддерживает собственные словари и пользовательские языковые модели.

Автоматическая модерация

Настраиваемый словарный фильтр позволяет маскировать, заменять или отмечать ("vocabularyFilterMatch": true) определенное слово или словосочетание в выходных данных расшифровки JSON.

Примеры

  • Замаскируйте нецензурные слова тремя звездочками (***)
  • Замените секретное название продукта перед запуском на рынок словом «NewProduct»
  • Подсчитайте количество тегов с надписью «эм» или «лайк» в стенограмме, чтобы помочь оратору отточить свои навыки публичных выступлений

Пакетная и потоковая транскрипция аудио в текст поддерживают словарные фильтры.

Идентификация и редактирование информации, позволяющей установить личность (PII)

Персональные данные (PII) могут быть автоматически отредактированы и помечены в аудиотекстовых транскриптах. Это важно для хранения конфиденциальной информации на предприятиях, поскольку информация, позволяющая установить личность (PII), может подпадать под действие строгих законов о конфиденциальности.

Типы PII, включенные в Amazon Transcribe, – это имена, адреса, адреса электронной почты, номера телефонов, банковские реквизиты, PIN-коды и номера социального страхования. Конвертер аудио в текст заменяет слово в файле JSON на [PII] в основном тексте расшифровки. В поле JSON «Редакции» оно подсчитывается и классифицируется по типу.

Создание субтитров

Amazon Transcribe позволяет пользователям создавать файлы субтитров WebVTT (*.vtt) и SubRip (*.srt) для сопряжения с видео вместе с обычным выходным файлом JSON. Субтитры отображаются одновременно с произнесением текста в аудио- или видеофайле и остаются видимыми до тех пор, пока в звуке не наступит естественная пауза или пока динамик не закончит разговор.

Обнаружение токсичности

Amazon Transcribe можно использовать для идентификации и классификации токсичных выражений. Токсичный контент помечается тегами и классифицируется по семи категориям: сексуальные домогательства, разжигание ненависти, угрозы, оскорбления, ненормативная лексика, оскорбления и тяжелые для восприятия выражения. Amazon Transcribe использует передовые методы идентификации, включая тон и высоту тона, чтобы придать разговорам дополнительный контекст.

Аналитика вызовов

Amazon Transcribe предлагает специальный API для обслуживания клиентов и звонков по продажам. Вы можете использовать его для получения информации о настроениях клиентов и агентов, факторах звонков, упоминаниях фраз, времени без разговора, перерывах, скорости разговора, обнаружении проблем в реальном времени и обобщении разговоров. Amazon Transcribe также может редактировать аудиозаписи после разговора, заменяя сохраненные вызовы на PII тишиной.

Расшифровка медицинских терминов

Amazon Transcribe предлагает API-интерфейсы, совместимые с HIPAA, которые обеспечивают точную транскрипцию аудиофайлов в текст на медицинском языке, уделяя приоритетное внимание конфиденциальности и безопасности данных пациентов. Это полезно при взаимодействии врача с пациентом, когда ведение заметок отнимает много времени, отвлекает внимание и мешает.

Как AWS может удовлетворить ваши потребности в транскрипции аудио?

Транскрипция аудио в текст превращает голос из мгновенного способа общения в сохраняемый, доступный для поиска, анализируемый и ценный источник данных. Организации, использующие распознавание речи для расшифровки аудио, получают заметные преимущества в продуктивности, обучении, обслуживании клиентов, продажах и других областях.

Внедрение конвертера аудио в текст Amazon Transcribe позволяет сохранить ценность голосовых записей и значительно расширить их применение. Ознакомьтесь с решениями для искусственного интеллекта (ИИ) на AWS, которые помогут быстрее и эффективнее создавать и масштабировать приложения.