O que é transcrição de arquivos de áudio?

Crie uma conta da AWS

O que é transcrição de arquivos de áudio?

As organizações exigem transcrições de áudio em grande escala para vários casos de uso, desde observações de reuniões organizadas até aplicações de saúde. As tecnologias modernas de IA podem transcrever áudio em texto, transformando vários sotaques e conversas entre vários falantes em documentos precisos e formatados. Este guia explora métodos para transcrever áudio em texto para as necessidades de empresas e pequenas empresas.

A comunicação baseada na fala é fundamental para que os humanos se entendam completamente. A voz é um método rápido e pontual para comunicar ideias, informações, instruções e emoções. Gravar e transcrever comunicações de voz por meio de conversores de áudio em texto tornou-se essencial para a recuperação, precisão e trabalhos futuros. Quando você transcreve áudio em texto, informações importantes podem ser retidas, pesquisadas, analisadas e remixadas para obter insights mais rápidos e integração instantânea aos processos de negócios.

No passado, uma pessoa ouvia uma única gravação de áudio e, simultaneamente, digitava seu conteúdo, convertendo palavras faladas parando e começando a produzir uma transcrição precisa. Escritórios de advocacia, médicos, pesquisadores e outros escritórios profissionais tinham grupos de datilógrafos para realizar essa função manual na transcrição de áudio para texto de notas de voz.

Agora, as máquinas podem transcrever áudio instantaneamente por meio de um conversor de áudio em texto. Em vez do esforço humano no trabalho de transcrição, a tecnologia de fala para texto (STT) converte arquivos de áudio em arquivos de texto escritos. Esse arquivo de texto escrito pode ser lido como está, resumido com um transcritor de IA, acionado automaticamente em outros sistemas de software, analisado isoladamente ou como parte de um corpus mais amplo, e muito mais. As aplicações dos conversores de áudio para texto são ilimitadas.

O que são tecnologias de transcrição de arquivos de áudio?

Os arquivos de áudio podem conter vários falantes, sotaques e palavras específicas do domínio. As gravações de áudio também podem variar na qualidade do som. A conversão de palavras faladas em texto requer compreensão da linguagem vocal e conhecimento da sintaxe e gramática da linguagem para produzir saídas legíveis.

Um software conversor de áudio para texto mais antigo cometeu erros e produziu transcrições difíceis de ler, sem estrutura adequada, além de erros hierárquicos, de palavras e gramática. O software conversor de áudio em texto moderno tem uma performance muito melhor, convertendo áudio em texto de acordo com a palavra falada, com transcrições precisas com estrutura escrita e gramática adequadas.

O Amazon Transcribe é um serviço totalmente gerenciado que converte fala em texto usando a tecnologia de reconhecimento automático de fala (ASR). Ele pode lidar com várias características da fala, incluindo variações no tom, volume e velocidade da fala. Ele pode transcrever em mais de cem idiomas, conectando-se aos fluxos de trabalho dos desenvolvedores e à infraestrutura da AWS para requisitos corporativos de áudio para texto.

Como começar a usar a transcrição de áudio?

Existem dois métodos principais para transcrever áudio em texto, orientados pelo tipo de arquivo de áudio ou vídeo. A transcrição em lote é usada para transcrever arquivos de áudio pré-gravados, e a transcrição de streaming é usada para transcrever streaming de mídia ao vivo.

O Amazon Transcribe é compatível com áudio de canal único e duplo para os tipos de transcrição de áudio e vídeo em lote e streaming.

A transcrição em lote e streaming de áudio para texto é produzida no formato de arquivo JSON. Os campos fornecidos na saída dependem dos recursos que você inclui em sua solicitação de transcrição ao converter áudio. No mínimo, sua transcrição contém cada palavra fornecida, sua hora de início, hora de término, tipo, correspondência do filtro de vocabulário e pontuação de confiança para verificação. Outros campos incluem rótulos de falantes, palavras alternativas, canais e muito mais.

Transcrições de streaming

A transcrição de streaming é usada para transcrever streamings de áudio em tempo real. O serviço de transcrição de streaming Amazon Transcribe é compatível com áudio little-endian de 16 bits assinado por FLAC e PCM (não WAV) como formatos preferenciais, junto com o Ogg Opus. Defina uma taxa de amostragem que corresponda ao arquivo de áudio para evitar erros de áudio para texto.

Você pode usar o Console de Gerenciamento da AWS, HTTP/2, WebSockets e vários SDKs da AWS para transcrições de streaming, dependendo de como você gostaria de usar a ferramenta de transcrição.

Um passo a passo da transcrição de áudio de streaming com o Console de Gerenciamento da AWS é explicado abaixo.

Selecione Transcrição em tempo real no painel de navegação esquerdo.
Selecione opções como idioma, identificação do falante, remoção de conteúdo e personalizações antes de iniciar seu streaming.
Clique no botão Iniciar streaming para gravar diretamente em tempo real e visualizar a saída que começará a ser transcrita na caixa de saída Transcrição abaixo.

Quando a conversão da gravação de áudio estiver concluída, você poderá clicar no botão Baixar a transcrição completa para fazer o download gratuito da transcrição do arquivo JSON.

Transcrição de arquivos em lote

A transcrição em lote é usada para transcrever um ou mais arquivos de mídia existentes armazenados em um bucket de armazenamento em nuvem do Amazon S3. Com o serviço em lotes, você pode carregar até 10 mil tarefas de arquivos de áudio em uma fila para processamento em um sistema de primeiro a entrar, primeiro a sair. Os trabalhos de gravação de voz podem ser processados simultaneamente, convertendo arquivos de áudio de uma só vez, dependendo da sua assinatura.

A transcrição em lote é compatível com FLAC e WAV (com codificação PCM de 16 bits) como formatos preferenciais. No entanto, outros formatos como AMR, M4A, MP3, MP4, Ogg e WebM também são compatíveis. Certifique-se de definir uma taxa de amostragem que corresponda ao arquivo de áudio para evitar erros de áudio para texto.

Você pode usar a AWS CLI, o Console de Gerenciamento da AWS e vários SDKs da AWS para converter áudio em texto usando o processo de transcrição em lote.

Um passo a passo da transcrição de áudio em lote com o Console de Gerenciamento da AWS é explicado abaixo.

Faça upload do arquivo de mídia que você deseja transcrever em um bucket do Amazon S3.
Selecione Trabalhos de transcrição no painel de navegação esquerdo. Isso leva você a uma lista de seus trabalhos de transcrição.
Selecione Criar trabalho e preencha os campos na página Especificar detalhes do trabalho.
Depois de configurar o trabalho, clique no botão Criar trabalho para começar.
Retorne à página Trabalhos de transcrição, onde você poderá ver o status do seu trabalho.
Selecione o caminho do arquivo vinculado na coluna da direita em Local dos dados de saída para visualizar a transcrição do arquivo JSON.

Observação: se você escolher um bucket gerenciado por serviços para a saída, poderá ver um painel de visualização da transcrição na página de informações do seu trabalho de transcrição, junto com um botão Download para seu arquivo JSON de áudio para texto.

Conclua as páginas a seguir durante a configuração.

Dados de entrada

Na página Dados de entrada, o local do arquivo de entrada no S3 é seu arquivo de áudio no bucket do S3 existente, e os dados de saída são um bucket gerenciado pelo serviço do S3 ou seu próprio bucket do S3.

Configurar trabalho

A página Configurar trabalho permite que você selecione personalizações como identificação de canais, redação e filtragem de conteúdo e vocabulário personalizado.

Quais são alguns recursos adicionais de transcrição?

O Amazon Transcribe tem uma variedade de recursos adicionais para criar transcrições mais úteis, seguras e precisas quando você converte arquivos de áudio ou vídeo.

Modelos de linguagem e vocabulários personalizados

Os usuários podem criar modelos de linguagem e vocabulários personalizados para capturar e transcrever áudio com precisão com nomes de marcas, acrônimos, palavras técnicas e jargões específicos do domínio. Modelos linguísticos personalizados beneficiam grandes organizações com ecossistemas internos de linguagem prósperos ou setores técnicos altamente especializados.

Vocabulários personalizados são arquivos criados pelo usuário que demonstram como pronunciar palavras específicas. Por exemplo, um projeto chamado VX02Q pode ser adicionado a um vocabulário personalizado com a pronúncia V.X.-zero-dois-Q.

Modelos de linguagem personalizados permitem que o modelo de áudio para texto conclua um treinamento extra em um conjunto de dados existente para entender o contexto da linguagem específica do domínio. Por exemplo, se você treinar seu modelo com um upload de texto de artigos de pesquisa em ciências climáticas, seu modelo pode aprender que “bloco de gelo” é um par de palavras mais provável do que “fluxo de gelo”. Da mesma forma, se você estiver fazendo referência a um produto chamado “Bzntry”, um conjunto de dados de arquivo de áudio com várias menções a “bee-zen-tree” fará automaticamente a correspondência do áudio com a saída da palavra.

A transcrição em lote e streaming de áudio para texto oferece suporte a vocabulários e modelos de linguagem personalizados.

Moderação automática

Um filtro de vocabulário personalizado permite mascarar, substituir ou marcar (“vocabularyFilterMatch”: true) uma palavra ou combinação de palavras específica na saída da transcrição JSON.

Exemplos:

Mascare palavras profanas com três asteriscos (***)
Substitua o nome de um produto secreto em pré-lançamento pela palavra “NovoProduto”
Contabilize o número de tags rotuladas como “hum” ou “tipo” em uma transcrição para ajudar um palestrante a aprimorar suas habilidades de falar em público

A transcrição em lote e streaming de áudio para texto tem suporte para filtros de vocabulário.

Identificação e anonimização de PII

As informações de identificação pessoal (PII) podem ser automaticamente anonimizadas e marcadas nas transcrições de áudio para texto. Isso é importante para armazenar informações sensíveis nas empresas, pois as PII podem se enquadrar em leis estritas de confidencialidade.

Os tipos de PII incluídos no Amazon Transcribe são nomes, endereços, endereços de e-mail, números de telefone, dados bancários, PINs e números de previdência social. A palavra no arquivo JSON é substituída por [PII] no corpo do texto principal da sua transcrição pelo conversor de áudio em texto, e é contabilizada e categorizada por tipo no campo JSON “ranonimizações”.

Legendagem

O Amazon Transcribe permite que os usuários gerem arquivos de legendas WebVTT (*.vtt) e SubRip (*.srt) para emparelhar com vídeos, junto com o arquivo JSON de saída normal. As legendas são exibidas ao mesmo tempo em que o texto é falado no arquivo de áudio ou vídeo e permanecem visíveis até que haja uma pausa natural no áudio ou o falante termine de falar.

Detecção de toxicidade

O Amazon Transcribe pode ser usado para identificar e classificar linguagem tóxica. O conteúdo tóxico é sinalizado e classificado em sete categorias, incluindo assédio sexual, discurso de ódio, ameaça, abuso, palavrões, insultos e conteúdo gráfico. O Amazon Transcribe usa técnicas avançadas de identificação, incluindo timbre e tom, para oferecer contexto extra às conversas.

Analytics de chamadas

O Amazon Transcribe oferece uma API especial para atendimento ao cliente e chamadas de vendas. Você pode usá-lo para obter insights sobre o sentimento do cliente e do agente, os motivadores de chamadas, as menções de frases, o tempo sem conversa, as interrupções, a velocidade da fala, a detecção de problemas em tempo real e um resumo de conversas. O Amazon Transcribe também pode realizar a anonimização da gravação de áudio após a chamada, substituindo as PII pelo silêncio nas chamadas armazenadas.

Transcrição médica

O Amazon Transcribe oferece APIs compatíveis com a HIPAA que fornecem transcrições precisas de áudio para texto em linguagem médica de arquivos de áudio, ao mesmo tempo em que priorizam a privacidade e a segurança dos dados dos pacientes. É útil nas interações médico-paciente, em que fazer anotações consome tempo, distrai e causa interrupções.

Como a AWS pode apoiar suas necessidades de transcrição de áudio?

A transcrição de áudio para texto leva a voz de um método de comunicação pontual para uma fonte de dados armazenada, pesquisável, analisável e extremamente útil. As organizações que usam o reconhecimento de voz para transcrever áudio estão encontrando benefícios significativos em produtividade, treinamento, atendimento ao cliente, vendas e muito mais.

A incorporação do conversor de áudio em texto Amazon Transcribe em sua organização garante que as gravações de voz retenham valor e multipliquem suas aplicações úteis. Confira a variedade de soluções de IA na AWS para ajudar você a criar e escalar aplicações com mais rapidez e eficiência.

Próximas etapas na AWS

Confira recursos adicionais relacionados a produtos

Saiba mais

Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastre-se

Comece a criar no console

Comece a criar com a AWS no Console de Gerenciamento da AWS.

Faça login

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Carregando

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

O que é transcrição de arquivos de áudio?