O que é software de conversão de texto em voz?
O que é software de conversão de texto em voz?
Desde páginas da web lidas em voz alta até a solicitação de dados do usuário, a voz está rapidamente se tornando o padrão nas interfaces de usuário modernas. Os clientes esperam cada vez mais recursos de voz em cada aplicação com a qual interagem. Além disso, os casos de uso de conversão de texto em voz nos setores de saúde, vendas, criação de conteúdo, atendimento ao cliente e outras aplicações podem acelerar a automação e, ao mesmo tempo, aprimorar a experiência do cliente. Este guia analisa os recursos e as capacidades de conversão de texto em voz e como começar a usá-los.
O software de conversão de texto em voz ou de texto em fala (TTS) produz uma “voz” de áudio sintetizando a fala do texto. O software é alimentado por um mecanismo de conversão de texto em fala treinado em um grande volume de gravações de voz humana. Ele converte palavras escritas em sua forma falada analisando formas de onda sonora em dados de voz.
Vozes robóticas e sem naturalidade são o resultado de tecnologias de fala desatualizadas. Mecanismos modernos de conversão de texto em fala baseados em IA generativa produzem resultados quase indistinguíveis da fala humana. A voz sintetizada pode incluir pausas naturais, vários sotaques, velocidades diferentes e entonações que refletem as emoções humanas.
Tipos de software de conversão de texto em fala
O tipo de ferramenta TTS que você escolher depende do seu caso de uso. Para desenvolvedores, um pacote completo, personalizável e integrativo é a melhor escolha para o desenvolvimento de várias aplicações e vários ambientes.
Os desenvolvedores podem escolher entre um software TTS comercial e de código aberto com implantações autogerenciadas, ou um serviço de nuvem gerenciado totalmente integrado, como o Amazon Polly. Ele permite que as aplicações existentes integrem a fala como um recurso de alto nível, criando oportunidades para categorias totalmente novas de produtos com fala, desde aplicativos móveis e carros a dispositivos e eletrodomésticos.
O Amazon Polly vem com quatro mecanismos de voz baseados em diferentes arquiteturas de modelos de IA, adequados para vários casos de uso. Para usar uma voz do Amazon Polly, basta selecionar o mecanismo, a operação de síntese de voz e o formato do arquivo de saída via API em seu código. Em seguida, forneça o texto de entrada para o mecanismo sintetizar. O Amazon Polly vai gerar o arquivo de saída de voz no formato solicitado. Esses mecanismos também podem ser treinados ainda mais para requisitos específicos de voz ou da marca.
Quais são os recursos que você deve procurar em um software de conversão de texto em voz?
O Amazon Polly inclui os recursos de conversão de texto em voz a seguir, essenciais para o desenvolvimento de voz moderno.
Gama de vozes
Ter a opção de selecionar diferentes idiomas, regiões, gêneros e vozes em uma região fornece um conjunto de produtos mais abrangente para o desenvolvimento. O Amazon Polly oferece suporte a dezenas de idiomas, além de suas variações e sotaques nacionais nos formatos masculino e feminino.
Integração baseada em API
Verifique se seu software TTS tem uma API totalmente funcional e está disponível em várias linguagens de programação, para ter a mais ampla variedade de integrações entre projetos. O Amazon Polly fornece a API do Amazon Polly e vários SDKs de linguagens específicas. Ele também pode ser acessado no Console de Gerenciamento da AWS e na AWS Command Line Interface (CLI). Você tem controle total sobre todos os recursos do Amazon Polly, independentemente de como você o usa.
Controle de voz preciso
O Speech Synthesis Markup Language (SSML) é uma linguagem de marcação baseada em XML que permite que você forneça mais informações sobre como sua fala deve soar. Por exemplo, você pode incluir pausas, interpretação (por exemplo, datas, acrônimos), tom, velocidade de fala, volume, ênfase, aumento gradual de volume e outros elementos de áudio para personalizar a voz sintetizada. O SSML permite que você controle totalmente as saídas de voz e transfira a personalização para outros sistemas.
O Amazon Polly oferece suporte a tags SSML da Amazon comuns e personalizadas, como a capacidade de fazer uma voz soar como a de um apresentador. Essa flexibilidade ajuda você a criar um discurso realista que captura e prende a atenção do público.
Hooks de metadados para animação sincronizada
Algumas aplicações, como jogos e mídia, exigem animação com personagens que acompanham o áudio, incluindo movimentos da boca ou acompanhamento de palavras no estilo karaokê. Vídeos de treinamento multilíngues também podem se beneficiar do tempo sincronizado em vários idiomas, para que o áudio se alinhe com o vídeo ao mesmo tempo em todos os idiomas.
Para esses tipos de aplicações, os desenvolvedores precisam de metadados para marcar quais elementos de fala ocorrem em um determinado momento, em um formato com registro de data e hora. O Amazon Polly permite que você solicite esses metadados adicionais, ou marcas de fala, junto com seu arquivo de voz. As marcas de fala fornecem informações como a data e hora do arquivo de áudio, os visemas (as posições do rosto e da boca ao falar uma palavra) e outros detalhes que associam o texto escrito à saída de voz.
Personalização
Você quer que seu software de conversão de texto em fala seja totalmente personalizável para máxima flexibilidade. Por exemplo, a saída de áudio deve ser personalizável para diferentes formatos e configurações, incluindo tipo de arquivo, tamanho do arquivo e qualidade dos dados. O software deve ser capaz de lidar com vocabulário personalizado que não esteja em seus dados de treinamento.
O Amazon Polly oferece suporte à personalização da conversão de texto em voz em todas as etapas.
Vocabulário
Você pode criar um dicionário personalizado com pronúncias personalizadas para nomes de empresas, acrônimos, palavras estrangeiras e neologismos. Você pode solicitar saídas em vários formatos de voz, como MP3 e WAV.
Formato de saída
O Amazon Polly também oferece suporte a áudio de formato longo, como leitura de documentos, em uma voz com som natural. Você pode gerar fluxos de áudio contínuos para conexões de baixa largura de banda ou baixa latência em casos de uso em tempo real.
Voz
Também oferecemos o Brand Voice, um contrato personalizado em que você trabalha com a equipe do Amazon Polly para criar uma voz para uso exclusivo de sua organização. Em vez de soar como outras aplicações, você pode criar uma marca exclusiva baseada em voz que ajuda você a se destacar.
Como você pode começar a usar o software de conversão de texto em voz?
É fácil começar a usar o software de conversão de texto em voz da AWS. Neste guia, apresentamos uma demonstração rápida do Amazon Polly no console.
Primeiro, faça login no Console de Gerenciamento da AWS e abra o console do Amazon Polly. Clique em Experimente a Polly para começar. Isso abrirá uma caixa de diálogo Conversão de texto em fala.
Etapa 1: escolher um mecanismo
Na caixa de diálogo Conversão de texto em fala, você pode selecionar qual mecanismo de voz deseja usar. Atualmente, o Amazon Polly tem quatro mecanismos de voz diferentes para você escolher.
- O mecanismo Standard usa o método de síntese concatenativa como gerador de voz.
- O mecanismo Neural usa uma rede neural e um método de vocoder para produzir uma fala com um som mais natural.
- O mecanismo Generative usa um modelo de bilhões de parâmetros treinado em uma grande variedade de dados de voz para uma fala ainda mais natural.
- O mecanismo Long-form é outro mecanismo de conversão de texto em fala de IA generativa, desenvolvido para discursos longos em estilo narrativo.
Nem todos os mecanismos estão disponíveis em todas as regiões da AWS.
Etapa 2: escolher um idioma
Depois de selecionar um mecanismo de voz, escolha qual idioma você gostaria de gerar e uma voz masculina ou feminina nos menus suspensos.
Cada mecanismo de voz oferece suporte a uma variedade de diferentes idiomas e vozes de IA. Por exemplo, se você selecionar Neural para o mecanismo, somente os idiomas e vozes compatíveis com Neural Text-to-Speech (NTTS) estarão disponíveis, e todas as vozes em formato Standard e Long-form estarão desativadas.
Etapa 3: converter texto em fala
Na caixa de texto de entrada, altere o texto padrão para sua própria entrada de texto escrito. Você pode escolher o botão Ouvir para ouvir a saída lida em voz alta, o botão Download para baixar o arquivo MP3 ou o botão Salvar no S3 para salvar as palavras faladas no Amazon Simple Storage Service.
Acessar o Amazon Polly por meio da API
Você pode acessar o Amazon Polly por meio do console, conforme descrito acima, ou por meio de sua API no código da aplicação. A API do Amazon Polly permite que você faça muitas coisas, desde tradução em tempo real até gerar legendas e dar vida a personagens de videogames ou outros personagens de animação. Experimente alguns exemplos no GitHub para ver como usar a API do Amazon Polly em código.
Como a AWS pode apoiar suas necessidades de software de conversão de texto em voz?
A conversão de texto em voz permite criar áudio baseado em voz via texto em vez de fala humana. Ela foi inicialmente usada como uma tecnologia assistiva para pessoas com deficiência visual, mas agora está se tornando um requisito em muitas aplicações e interações com clientes, desde extensões de navegador até call centers e aplicações corporativas. Usando um serviço gerenciado como o Amazon Polly, os desenvolvedores podem integrar facilmente um mecanismo de voz moderno e realista às aplicações por meio de chamadas de API de conversão de texto em fala. Os preços do Amazon Polly são baseados no mecanismo e no número de caracteres processados, e incluem um nível gratuito para uso pessoal.
O áudio falado do Amazon Polly é apenas um dos serviços de IA generativa que você pode aproveitar no desenvolvimento de aplicações. Confira a variedade de soluções de IA na AWS para ajudar você a criar e escalar aplicações com mais rapidez e eficiência.