Une API facile à utiliser

Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.

Taux d'échantillonnage Exemple de code
« Bonjour. Je m'appelle Joanna. » depuis le client d'importation boto3
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Texte="Bonjour. Je m'appelle Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Une large gamme de voix et de langues

Amazon Polly inclut des dizaines de voix réalistes et prend en charge une grande variété de langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays. En plus des voix standard et de la synthèse vocale neuronale (NTTS), Amazon Polly propose désormais des voix en version long format et génératives qui améliorent la qualité vocale pour des voix plus naturelles et plus humaines.

Danielle, Gregory, Ruth, Patryk, Alva et Raúl sont des voix disponibles dans une variante longue.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía et Vicki sont disponibles dans une variante générative

Langue ou variante de langue

Femme

Homme

     

Arabe-MSA

Zeina

 

Arabe - Golfe

Hala (Neuronal)

Zayd (voix neuronale)

Cantonais

Hiujin (voix neuronale)

 

Catalan

Arlet (voix neuronale)

 

Danois

Sofie (voix neuronale)

Mads

 

Naja

 

Néerlandais

Laura (voix neuronale)

Ruben

 

Lotte

 

Néerlandais (flamand) - Belgique

Lisa (voix neuronale)

 

Anglais - Inde

Kajal (voix neuronale)

 
 

Raveena

 
 

Aditi

 

Anglais - Irlande

Niamh (voix neuronale)

 

Anglais - Nouvelle-Zélande

Aria (voix neuronale)

 

Anglais – Afrique du Sud

Ayanda (voix générative)

 
 

Ayanda

 

Anglais — Royaume-Uni

Amy (voix générative)

Brian (voix neuronale)

 

Amy (voix neuronale)

Brian (voix standard)

 

Amy (voix standard)

Arthur (voix neuronale)

 

Emma (voix neuronale)

 
 

Emma (voix standard)

 

Anglais — États-Unis

Ruth (voix générative)

Patrick (long format)

 

Ruth (long format)

Gregory (version longue)

 

Ruth (voix neuronale)

Gregory (voix neuronale)

 

Danielle (voix générative)

Stephen (voix générative)

 

Danielle (long format)

Stephen (voix neuronale)

 

Joanna (voix générative)

Matthew (voix générative)

 

Joanna (voix neuronale)

Matthew (voix neuronale)

 

Joanna (voix standard)

Matthew (voix standard)

 

Salli (voix neuronale)

Justin (voix neuronale)

 

Salli (voix standard)

Justin (standard)

 

Kendra (voix neuronale)

Joey (voix neuronale)

 

Kendra (voix standard)

Joey (voix standard)

 

Kimberly (voix neuronale)

 
 

Kimberly (voix standard)

 
 

Ivy (voix neuronale)

 
 

Lierre (voix standard)

 

Anglais – Pays de Galles

   

Anglais – Australie

Olivia (voix générative)

Geraint

 
 

Olivia (voix neuronale)

Russell

 

Nicole

 

Finnois

Suvi (voix neuronale)

 

Français - Belgique

Isabelle (voix neuronale)

 

Français - Canada

Gabrielle (voix neuronale)

 
 

Chantal

Liam (voix neuronale)

Français – France

Léa (voix générative)

 
 

Léa (voix neuronale)

Mathieu

 

Léa (voix standard)

Rémi

 

Céline

 

Allemand - Autriche

Hannah (voix neuronale)

 

Allemand – Allemagne

Vicki (voix générative)

 
 

Vicky (voix neuronale)

 
 

Vicki (voix standard)

Daniel (voix neuronale)

 

Marlene

Hans

Hindi – Inde

Kajal (voix neuronale)

 
 

Aditi

 

Islandais

Dóra

 

Italien

Bianca (voix neuronale)

Karl

 

Bianca (voix standard)

Adriano

 

Carla

Giorgio

Japonais

Kazuha (voix neuronale)

 
 

Tomoko (voix neuronale)

Takumi (voix neuronale)

 

Mizuki

Takumi (voix standard)

Coréen

Seoyeon (voix neuronale)

 
 

Seoyeon (voix standard)

 

Mandarin

Zhiyu (voix neuronale)

 
 

Zhiyu (voix standard)

 

Norvégien

Ida (voix neuronale)

 
 

Liv

 

Polonais

Ola (voix neuronale)

 
 

Ewa

Jacek

 

Maja

Jan

Portugais – Brésil

Vitória (voix neuronale)

 
 

Vitória (voix standard)

Ricardo

 

Camila (voix neuronale)

Thiago

 

Camila (voix standard)

 

Portugais - Portugal

Inês (voix neuronale)

 
 

Inês (voix standard)

Cristiano

Roumain

Carmen

 

Russe

Tatyana

 

Espagnol – Mexique

Mia (voix générative)

Maxim

 

Mia (voix neuronale)

Andrés

 

Mia (voix standard)

 

Espagnol – Espagne

Alva (long format)

Raúl (long format)

 

Lucia (voix générative)

Sergio

 

Lucia (voix neuronale)

Enrique

 

Lucia (voix standard)

 

Espagnol – États-Unis

Conchita

 
 

Lupe (voix générative)

Pedro (voix neuronale)

 

Lupe (voix neuronale)

Miguel

 

Lupe (voix standard)

 

Suédois

Penélope

 
 

Astrid

 

Turc

Elin (voix neuronale)

 
 

Filiz

 

Gallois

Burcu (voix neuronale)

 
 

Gwyneth

 
     

 

 

 

 

Un discours synchronisé pour une expérience visuelle améliorée

Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.

Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks. 

Optimisez votre diffusion audio en streaming

Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.

Taux d'échantillonnage Taille MP3   Taille au format OGG
Taille au format PCM
24,00 kHz Écouter 19,31 Ko 18,11 Ko N/A
22,05 kHz Écouter
19,33 Ko 17,62 Ko N/A
16,05 kHz Écouter 16,22 Ko 15,48 Ko

100,68 Ko

8,00 kHz Écouter 13,26 Ko 9,72 Ko 50,34 Ko

Réglage du style vocal, du débit de parole, de la hauteur de la voix et de l’intensité sonore

Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage basé sur XML conforme à la norme W3C dédié aux applications de synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Les balises Amazon SSML personnalisées offrent des options uniques, telles que la possibilité de faire parler certaines voix dans un style de rédaction. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.

Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML.

Exemple SSML
En temps normal, je parle de cette façon. (aucun)
Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. <speak><amazon:domain name="news">Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. </amazon:domain> </speak>
Je peux parler avec une voix plus haute ou plus basse. <speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak>
Je peux parler très lentement ou très rapidement. <speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak>
Je peux également parler très fort ou très doucement. <speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak>
Je sais chuchoter. <speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas un humain.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak>

Style oratoire de rédaction

Amazon Polly peut être utilisé pour synthétiser la voix de sorte qu’elle soit similaire à celle d’un∙e présentateur∙trice radio ou TV. Cela peut être un excellent moyen de lire des articles de presse ou de présenter l'actualité. Le style présentateur est actuellement disponible pour les voix de Matthew et Joanna en anglais américain, pour la voix d'Amy en anglais britannique et pour la voix de Lupe en espagnol américain utilisant la technologie de synthèse vocale neuronale. Écoutez un extrait audio en anglais américain, anglais britannique ou espagnol américain.

Ajuster la durée maximale du discours

Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.

Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.

Plates-formes et langages de programmation pris en charge

Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.

Synthèse vocale par API, console ou ligne de commande

Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.

Glossaires personnalisés

Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice est un engagement personnalisé dans lequel vous travaillez avec l'équipe d'Amazon Polly pour créer une voix Neural Text-to-Speech (NTTS) à l'usage exclusif de votre organisation. Brand Voice vous permet de différencier vos produits et applications grâce à une identité vocale unique dans une grande variété de cas d'utilisation, y compris les intégrations Amazon Connect et Alexa Skills. Nous travaillons avec vous tout au long du processus pour identifier le personnage, identifier un acteur ou une actrice et enregistrer son discours, et finalement créer et former un modèle pour produire la voix. La voix est ensuite mise à disposition de vos ID de compte AWS.

Écoutez la voix de marque de la Banque nationale d’Australie »

Écoutez la voix de marque de la Banque de Nouvelle-Zélande »

Si vous souhaitez créer une voix de marque à l'aide de Polly, contactez votre responsable de compte AWS ou nous-mêmes pour plus d'informations.

Intégrations au centre de contacts

Amazon Connect

Amazon Polly est intégré nativement à Amazon Connect, la solution de centre de contact basée sur le cloud d’AWS que vous utilisez pour configurer et gérer un centre de contact client et fournir un engagement client fiable à n’importe quelle échelle. Pour en savoir plus sur l’ajout de texte aux invites à votre système de réponse vocale interactive conversationnelle, voyez ici comment utiliser les fonctions vocales de Polly dans Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX est une solution de centre de contact cloud qui unifie les expériences des clients et des agents sur plusieurs canaux comme le téléphone, les SMS et le chat. Vous pouvez déployer vos bots vocaux en utilisant l’une des fonctions vocales Polly existantes. Veuillez consulter la documentation de Genesys Cloud pour plus d'informations.

SDK Amazon Chime

Le kit SDK Amazon Chime est un ensemble de composants de communication en temps réel utilisables par les développeurs pour ajouter rapidement des fonctionnalités d'appel audio/vidéo et de partage d'écran à leurs propres applications Web, mobiles ou téléphoniques. Le kit SDK Amazon Chime prend en charge l'intégration native avec Amazon Polly, ce qui aide les développeurs à créer des applications qui convertissent le texte et les données numériques en enregistrement audio réaliste et lit automatiquement la sortie à un appelant.

Intelligence du Centre de contacts (CCI) AWS

Amazon Polly est utilisé par plusieurs partenaires AWS CCI, ce qui vous permet de créer facilement des agents virtuels de service clients en libre-service, des robots d'information ou des robots d'application. Les partenaires d’Amazon Polly incluent Genesys, Vonage et Accenture. Pour en savoir plus sur les partenaires, consultez les pages AWS CCI et Partenaires AWS CCI.