API simples de usar

O Amazon Polly disponibiliza uma API que permite integrar rapidamente síntese de fala aos aplicativos. Basta enviar o texto que deve ser convertido em fala para a API do Amazon Polly e o serviço retornará imediatamente o stream de áudio para a aplicação para que ela possa iniciar o streaming diretamente ou armazená-lo em um formato de arquivo de áudio padrão, como MP3.

Taxa de amostragem Código de exemplo
"Olá! Meu nome é Joana." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Grande seleção de vozes e idiomas

O Amazon Polly inclui dezenas de vozes realistas e aceita vários idiomas, o que permite selecionar a voz ideal e distribuir aplicações com recursos de fala em vários países diferentes. Além das vozes TTS padrão e conversão neural de texto em fala (NTTS), o Amazon Polly oferece agora as vozes Long-Form, que melhoram a qualidade da voz para que seja mais natural e humana.

Danielle, Gregory e Ruth são vozes em inglês americano disponíveis nas variantes long-form e neural.

Todas as vozes de Polly
Idioma ou variante do idioma Feminino Masculino
     
Árabe-MSA Zeina  
Árabe (Golfo) Hala (Neural) Zayd (Neural)
Cantonês Hiujin (Neural)  
Catalão Arlet (Neural)  
Dinamarquês Sofie (Neural) Mads
  Naja  
Holandês Laura (Neural) Ruben
  Lotte  
Holandês (Flamengo) - Bélgica Lisa (Neural)  
Inglês (Índia) Kajal (Neural)  
  Raveena  
  Aditi  
Inglês (Irlanda) Niamh (Neural)  
Inglês - Nova Zelândia Aria (Neural)  
Inglês - África do Sul Ayanda  
Inglês Amy (Neural)

Brian (Neural)

  Amy (Padrão) Brian (Padrão)
  Emma (Neural) Arthur (Neural)
  Emma (Padrão)  
Inglês – EUA Ruth (Long-Form) Gregory (Long-Form)
  Ruth (Neural) Gregory (Neural)
  Danielle (Long-Form) Stephen (Neural)
  Joanna (Neural) Matthew (Neural)
  Joanna (Padrão) Matthew (Padrão)
  Danielle (Neural) Justin (Neural)
  Salli (Neural) Justin (Padrão)
  Salli (Padrão) Joey (Neural)
  Kendra (Neural) Joey (Padrão)
  Kendra (Padrão)  
  Kimberly (Neural)  
  Kimberly (Padrão)  
  Ivy (Neural)  
  Ivy (Padrão)  
Inglês - País de Gales   Geraint

Inglês - Austrália

Olivia (Neural) Russell
  Nicole  
Finlandês Suvi (Neural)  
Francês - Bélgica Isabelle (Neural)  
Francês - Canadá Gabrielle (Neural) Liam (Neural)
  Chantal  
Francês - França Léa (Neural) Mathieu
  Léa (Padrão) Rémi
  Céline  
Alemão - Áustria Hannah (Neural)  
Alemão - Alemanha Vicki (Neural) Daniel (Neural)
  Vicki (Padrão) Hans
  Marlene  
Hindu - Índia Kajal (Neural)  
  Aditi  
Islandês Dóra Karl
Italiano Bianca (Neural) Adriano
  Bianca (Padrão) Giorgio
  Carla  
Japonês Kazuha (Neural) Takumi (Neural)
  Tomoko (Neural)
Takumi (Padrão)
  Mizuki  
Coreano Seoyeon (Neural)  
  Seoyeon (Padrão)  
Mandarim Zhiyu (Neural)  
  Zhiyu (Padrão)  
Norueguês Ida (Neural)  
  Liv  
Polonês Ola (Neural) Jacek
  Ewa Jan
  Maja  
Português - Brasil Vitória (Neural) Ricardo
  Vitória (Padrão) Thiago
  Camila (Neural)  
  Camila (Padrão)  
Português - Portugal Inês (Neural) Cristiano
  Inês (Padrão)  
Romeno Carmen  
Russo Tatyana Maxim
Espanhol - México Mia (Neural) Andrés
  Mia (Padrão)  
Espanhol - Espanha Lucia (Neural) Sergio
  Lucia (Padrão) Enrique
  Conchita  
Espanhol - EUA Lupe (Neural) Pedro (Neural)
  Lupe (Padrão) Miguel
  Penélope  
Sueco Astrid  
  Elin (Neural)
 
Turco Filiz  
  Burcu (Neural)  
Galês Gwyneth  

Sincronize a fala para oferecer uma experiência visual otimizada

O Amazon Polly torna fácil solicitar streams adicionais de metadados que disponibilizam informações sobre quando frases, palavras e sons específicos estão sendo pronunciados. Agora, usando esses streams de metadados juntamente com streams de áudio de fala sintetizada, você pode criar aplicativos que oferecem uma experiência visual otimizada, com recursos como animação facial sincronizada com a fala ou destaque de palavras no estilo de karaokê.

Acesse a documentação para saber mais sobre como usar marcas de fala. 

Otimize o streaming de áudio

Com o Amazon Polly, é possível usar a aplicação para fazer o streaming de todos os tipos de informações para usuários praticamente em tempo real. Além disso, você pode escolher entre diversas taxas de amostragem para otimizar a largura de banda e a qualidade de áudio da aplicação. O Amazon Polly é compatível com os formatos de streaming de áudio MP3, Vorbis e PCM bruto.

Taxa de amostragem Tamanho do MP3   Tamanho do OGG
Tamanho do PCM
24,00 kHz Ouvir 19,31 kB 18,11 kB N/D
22,05 kHz Ouvir
19,33 kB 17,62 kB N/D
16,05 kHz Ouvir 16,22 kB 15,48 kB

100,68 kB

8,00 kHz Ouvir 13,26 kB 9,72 kB 50,34 kB

Ajuste o estilo de fala, a taxa de fala, o tom e a intensidade

O Amazon Polly é compatível com Speech Synthesis Markup Language (SSML), uma linguagem de marcação com base em XML de W3C padrão para aplicativos de síntese de fala. Além disso, é compatível com tags SSML comuns para formação de frases, ênfase e entonação. As tags personalizadas da Amazon SSML fornecem opções exclusivas, como a capacidade de fazer certas vozes falarem em um estilo de fala de Apresentador. Essa flexibilidade ajuda a criar uma fala realista que atrairá e prenderá a atenção do público.

Para saber mais, acesse a documentação do Amazon Polly sobre etiquetas SSML.

Amostra SSML
É assim que falo normalmente. (nenhum)
Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou entregando um briefing rápido. <speak><amazon:domain name="news">Eu também posso falar em um estilo de Apresentador, como se estivesse lendo um artigo de notícias ou fornecer informações rápidas.</amazon:domain></speak>
Posso falar com um tom de voz mais elevado ou posso falar com um tom de voz mais baixo. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
Posso falar bem devagar ou muito depressa. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
Também posso falar muito alto ou bem baixo. <speak>Também posso falar <prosody volume="x-loud">muito alto</prosody> pi <prosody volume="x-soft">bem baixo</prosody>. </speak>
Posso sussurrar. <speak>Tenho um segredo para te contar, vou sussurrá-lo.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Eu não sou humano.</prosody></prosody></amazon:effect>Dá para acreditar?</speak>

Estilo de fala de apresentador

O Amazon Polly pode ser usado para sintetizar a voz como se fosse falada por um apresentador de TV ou rádio. Esta pode ser uma ótima maneira de ler notícias ou fornecer informações rápidas sobre atualizações. O estilo de apresentador está atualmente disponível para as vozes Matthew e Joanna em inglês americano (en-US), para a voz Amy em inglês britânico (en-GB) e para a voz Lupe em espanhol americano (es-US) usando a conversão neural de texto em fala. Ouça uma amostra de áudio em inglês norte-americano, inglês britânico ou espanhol americano.

Ajustar a duração máxima da fala

O Amazon Polly permite que você ajuste automaticamente a taxa da fala com base em uma quantidade máxima de tempo alocado definida com um recurso chamado prosódia orientada pelo tempo. Isso é útil para muitos casos de uso, especialmente no que se refere à localização.

Por exemplo, suponha que você tenha fala em inglês dos EUA incorporada no seu vídeo de treinamento e queira localizar esse vídeo em alemão. Digamos que você traduza o texto usando o Amazon Translate e aplique a voz com o Polly. É essencial que a fala em alemão localizada flua em quadros correspondentes do vídeo, assim, a fala em alemão não pode ser ais longa que a fala em inglês dos EUA. Você pode usar esse recurso para facilitar o processo de dublagem de maneira mais simples.

Suporte a plataformas e linguagens de programação

O Amazon Polly é compatível com todas as linguagens de programação incluídas no AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go e C++) e no AWS Mobile SDK (iOS/Android). Além disso, o Polly também é compatível com a API do HTTP, permitindo que você implemente sua própria camada de acesso.

Síntese de fala por meio de API, console ou linha de comando

O Amazon Polly pode ser acessado por meio da API do Polly (e por vários SDKs específicos a uma linguagem), o Console de Gerenciamento da AWS e a AWS Command Line Interface (CLI). O usuário do Amazon Polly tem controle total sobre todos os seus recursos, esteja ele usando o serviço por meio do console, da API ou da ILC.

Léxicos personalizados

Com os léxicos personalizados (ou vocabulários) do Amazon Polly, é possível modificar a pronúncia de palavras específicas, como nomes de empresas, acrônimos, palavras estrangeiras e neologismos (ex.: "ROTFL", "C’est la vie" quando pronunciado por uma voz que não seja francesa). Para personalizar essas pronúncias, basta fazer o upload de um arquivo XML com entradas léxicas. Por exemplo, é possível personalizar a pronúncia de Nguyen ao disponibilizar um fonema usando este XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice é um contrato personalizado em que você trabalha com a equipe do Amazon Polly para criar uma voz de conversão de texto para fala neural (NTTS) para o uso exclusivo de sua organização. A Brand Voice permite diferenciar seus produtos e aplicativos com uma identidade vocal exclusiva em uma ampla variedade de casos de uso, incluindo integrações com o Amazon Connect e o Alexa Skills. Trabalhamos com você durante todo o processo para identificar a persona, identificar um ator ou atriz e gravar a fala dele(a) e, por fim, criar e treinar um modelo para produzir a voz. Em seguida, a voz é disponibilizada para o(s) ID(s) de sua Conta da AWS.

Ouça a Voz da Marca do Banco Nacional da Austrália »

Ouça a Voz da Marca do Banco da Nova Zelândia »

Se você tiver interesse em criar um Brand Voice usando o Polly, entre em contato conosco ou com o gerente da sua conta da AWS para obter mais informações.

Integrações da central de atendimento

Amazon Connect

O Amazon Polly é integrado de forma nativa ao Amazon Connect, a solução de central de atendimento baseada na nuvem da AWS que você pode usar para estabelecer e gerenciar uma central de atendimento de clientes e fornecer engajamento de confiança com os clientes em qualquer escala. Para saber mais sobre como adicionar solicitações de texto em fala ao seu sistema de conversação com resposta de voz interativa, veja como usar vozes do Polly no Amazon Connect.

Genesys Cloud CX

O Genesys Cloud CX é uma solução de central de atendimento na nuvem que unifica as experiências de clientes e atendentes em vários canais, como telefone, texto e chat. Você pode implantar seus bots de voz usando qualquer uma das vozes existentes do Polly. Consulte a documentação do Genesys Cloud para obter mais informações.

Amazon Chime SDK

O Amazon Chime SDK é um conjunto de componentes de comunicação em tempo real que os desenvolvedores podem usar para adicionar rapidamente recursos de chamadas de áudio, chamadas de vídeo e compartilhamento de tela às suas próprias aplicações da Web, móveis ou de telefonia. O Amazon Chime SDK oferece suporte à integração nativa com o Amazon Polly, facilitando para os desenvolvedores a criação de aplicações que transformam texto e dados numéricos em falas realistas e reproduzem automaticamente a saída para um autor da chamada telefônica.

AWS Contact Center Intelligence (CCI)

O Amazon Polly é integrado a vários parceiros do AWS CCI, assim você pode criar imediatamente agentes virtuais de atendimento ao cliente para autoatendimento, bots informativos ou bots de aplicações. Entre os parceiros do Amazon Polly estão a Genesys, a Vonage e a Accenture. Para saber mais sobre os parceiros, acesse o AWS CCI e a AWS CCI Partners page (página de parceiros do AWS CCI).

Saiba mais sobre a definição de preço do Amazon Polly

Acesse a página de definição de preço
Pronto para começar?
Cadastrar-se
Tem outras dúvidas?
Entre em contato conosco