O Amazon Polly é um serviço que transforma texto em falas realistas. O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes. Com o ele, basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para reproduzi-lo diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.

Teste o Amazon Polly

Cadastre-se em uma conta gratuita
Ou faça login no Console

O nível gratuito do Amazon Polly inclui 5 milhões de caracteres por mês pelos 12 primeiros meses, começando pela primeira solicitação para fala.

Consulte os detalhes do nível gratuito da AWS »

O Amazon Polly disponibiliza uma API que permite integrar rapidamente síntese de fala à aplicação. Basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para que ela possa iniciar o streaming diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.

Taxa de amostragem Código de exemplo
"Olá! Meu nome é Joana." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes.

Idioma Mulher
Homem
Inglês australiano Nicole Russell
Português do Brasil Vitória Ricardo
Francês canadense Chantal  
Dinamarquês Naja Mads
Holandês Lotte Ruben
Francês Céline Mathieu
Alemão Vicki Hans
  Marlene  
Islandês Dóra Karl
Inglês indiano Raveena  
  Aditi  
Italiano Carla Giorgio
Japonês Mizuki Takumi
Coreano Seoyeon  
Norueguês Liv  
Polonês Ewa Jacek
  Maja Jan
Português – Ibérico Inês Cristiano
Romeno Carmen  
Russo Tatyana Maxim
Espanhol – Castelhano Conchita Enrique
Sueco Astrid  
Turco Filiz  
Inglês britânico Amy Brian
  Emma  
Inglês norte-americano Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
Espanhol dos EUA Penélope Miguel
Galês Gwyneth  
Inglês galês   Geraint

O Amazon Polly torna fácil solicitar streams adicionais de metadados que disponibilizam informações sobre quando frases, palavras e sons específicos estão sendo pronunciados. Agora, ao usar esses streams de metadados junto com streams de áudio de fala sintetizada, é possível criar aplicações com uma experiência visual otimizada, oferecendo recursos como animação facial sincronizada com a fala ou destaque de palavras em estilo de karaokê.

Acesse a documentação para saber mais sobre como usar o recurso de aspas.

Com o Amazon Polly, é possível usar a aplicação para fazer o streaming de todos os tipos de informações para usuários praticamente em tempo real. Também é possível escolher entre várias taxas de amostragem para otimizar a largura de banda e a qualidade do áudio da aplicação. O Amazon Polly é compatível com os formatos de streaming de áudio MP3, Vorbis e PCM bruto.

Taxa de amostragem Tamanho do MP3   Tamanho do OGG
Tamanho do PCM
22,05 kHz Ouvir
19,02 kB 19,14 kB N/D
16,05 kHz Ouvir 16,04 kB
16,35 kB
99,53 kB
8 kHz Ouvir 13,26 kB 10,40 kB 49,76 kB

O Amazon Polly é compatível com Speech Synthesis Markup Language (SSML), uma linguagem de marcação com base em XML de W3C padrão para aplicações de síntese de fala. Além disso, é compatível com tags SSML comuns para formação de frases, ênfase e entonação. Esta flexibilidade ajuda a criar uma fala realista que atrairá e prenderá a atenção do público.

Para saber mais, acesse a documentação do Amazon Polly sobre tags de SSML.

Amostra SSML
É assim que falo normalmente. (nenhum)
Posso falar com um tom de voz mais elevado ou posso falar com um tom de voz mais baixo. I can speak in a higher pitched voice , or I can speak in a lower pitched voice
Posso falar bem devagar ou muito depressa. I can speak really slowly , or  I can speak really fast
Também posso falar muito alto ou bem baixo. I can also speak very loudly , or I can speak very quietly .
Eu posso sussurrar. I have a secret to tell you, I will whisper it to you. ' I am not human. Can you believe it?

O Amazon Polly é compatível com todas as linguagens de programação inclusas no AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e no AWS Mobile SDK (iOS/Android). O Polly também é compatível com uma API HTTP para a implementação da camada de acesso.

O Amazon Polly pode ser acessado por meio da API do Polly (e por vários SDKs específicos a uma linguagem), o Console de Gerenciamento da AWS e a AWS Command Line Interface (CLI). O usuário do Amazon Polly tem controle total sobre todos os seus recursos, esteja ele usando o serviço por meio do console, da API ou da ILC.

Com os léxicos personalizados (ou vocabulários) do Amazon Polly, é possível modificar a pronúncia de palavras específicas, como nomes de empresas, acrônimos, palavras estrangeiras e neologismos (ex.: "ROTFL", "C’est la vie" quando pronunciado por uma voz que não seja francesa). Para personalizar essas pronúncias, basta fazer o upload de um arquivo XML com entradas léxicas. Por exemplo, é possível personalizar a pronúncia de Nguyen ao disponibilizar um fonema usando este XML:


            Nguyen
            nguyen
            NGUYEN
            "nu.jEn'