API simples de usar

O Amazon Polly disponibiliza uma API que permite integrar rapidamente síntese de fala aos aplicativos. Basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para que ela possa iniciar o streaming diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.

Taxa de amostragem Código de exemplo
"Olá! Meu nome é Joana." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Grande seleção de vozes e idiomas

O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes.

Idioma Feminino
Masculino
Inglês australiano Nicole Russell
Português do Brasil Vitória Ricardo
Francês canadense Chantal  
Dinamarquês Naja Mads
Holandês Lotte Ruben
Francês

Léa

Céline

Mathieu

 

Alemão Vicki Hans
  Marlene  
Hindu Aditi
 
Islandês Dóra Karl
Inglês indiano

Raveena

Aditi

 
Italiano Carla Giorgio
Japonês Mizuki Takumi
Coreano Seoyeon  
Mandarim Zhiyu  
Norueguês Liv  
Polonês Ewa Jacek
  Maja Jan
Português – Ibérico Inês Cristiano
Romeno Carmen  
Russo Tatyana Maxim
Espanhol – Castelhano Conchita Enrique
Sueco Astrid  
Turco Filiz  
Inglês britânico Amy Brian
  Emma  
Inglês norte-americano Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
Espanhol dos EUA Penélope Miguel
Galês Gwyneth  
Inglês galês   Geraint

Sincronize a fala para oferecer uma experiência visual otimizada

O Amazon Polly torna fácil solicitar streams adicionais de metadados que disponibilizam informações sobre quando frases, palavras e sons específicos estão sendo pronunciados. Agora, usando esses streams de metadados juntamente com streams de áudio de fala sintetizada, você pode criar aplicativos que oferecem uma experiência visual otimizada, com recursos como animação facial sincronizada com a fala ou destaque de palavras no estilo de karaokê.

Acesse a documentação para saber mais sobre como usar marcas de fala. 

Otimize o streaming de áudio

Com o Amazon Polly, é possível usar a aplicação para fazer o streaming de todos os tipos de informações para usuários praticamente em tempo real. Além disso, você pode escolher entre diversas taxas de amostragem para otimizar a largura de banda e a qualidade de áudio da aplicação. O Amazon Polly é compatível com os formatos de streaming de áudio MP3, Vorbis e PCM bruto.

Taxa de amostragem Tamanho do MP3   Tamanho do OGG
Tamanho do PCM
22,05 kHz Ouvir
19,02 kB 19,14 kB N/D
16,05 kHz Ouvir 16,04 kB
16,35 kB
99,53 kB
8,00 kHz Ouvir 13,26 kB 10,40 kB 49,76 kB

Ajuste a taxa, o tom e o loudness da fala

O Amazon Polly é compatível com Speech Synthesis Markup Language (SSML), uma linguagem de marcação com base em XML de W3C padrão para aplicações de síntese de fala. Além disso, é compatível com tags SSML comuns para formação de frases, ênfase e entonação. Esta flexibilidade ajuda a criar uma fala realista que atrairá e prenderá a atenção do público.

Para saber mais, acesse a documentação do Amazon Polly sobre tags SSML.

Amostra SSML
É assim que falo normalmente. (nenhum)
Posso falar com um tom de voz mais elevado ou posso falar com um tom de voz mais baixo. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
Posso falar bem devagar ou muito depressa. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
Também posso falar muito alto ou bem baixo. <speak>Também posso falar <prosody volume="x-loud">muito alto</prosody> pi <prosody volume="x-soft">bem baixo</prosody>. </speak>
Posso sussurrar. <speak>Tenho um segredo para te contar, vou sussurrá-lo.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Eu não sou humano.</prosody></prosody></amazon:effect>Dá pra acreditar?</speak>

Ajustar a duração máxima da fala

O Amazon Polly permite que você ajuste automaticamente a taxa da fala com base em uma quantidade máxima de tempo alocado definida com um recurso chamado prosódia orientada pelo tempo. Isso é útil para muitos casos de uso, especialmente no que se refere à localização.

Por exemplo, suponha que você tenha fala em inglês dos EUA incorporada no seu vídeo de treinamento e queira localizar esse vídeo em alemão. Digamos que você traduza o texto usando o Amazon Translate e aplique a voz com o Polly. É essencial que a fala em alemão localizada flua em quadros correspondentes do vídeo, assim, a fala em alemão não pode ser ais longa que a fala em inglês dos EUA. Você pode usar esse recurso para facilitar o processo de dublagem de maneira mais simples.

Suporte a plataformas e linguagens de programação

O Amazon Polly é compatível com todas as linguagens de programação incluídas no AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e no AWS Mobile SDK (iOS/Android). Além disso, o Polly também é compatível com a API do HTTP, permitindo que você implemente sua própria camada de acesso.

Síntese de fala por meio de API, console ou linha de comando

O Amazon Polly pode ser acessado por meio da API do Polly (e por vários SDKs específicos a uma linguagem), o Console de Gerenciamento da AWS e a AWS Command Line Interface (CLI). O usuário do Amazon Polly tem controle total sobre todos os seus recursos, esteja ele usando o serviço por meio do console, da API ou da ILC.

Léxicos personalizados

Com os léxicos personalizados (ou vocabulários) do Amazon Polly, é possível modificar a pronúncia de palavras específicas, como nomes de empresas, acrônimos, palavras estrangeiras e neologismos (ex.: "ROTFL", "C’est la vie" quando pronunciado por uma voz que não seja francesa). Para personalizar essas pronúncias, basta fazer o upload de um arquivo XML com entradas léxicas. Por exemplo, é possível personalizar a pronúncia de Nguyen ao disponibilizar um fonema usando este XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Saiba mais sobre a definição de preço do Amazon Polly

Acesse a página de definição de preço
Pronto para começar?
Cadastrar-se
Mais dúvidas?
Entre em contato conosco