Une API facile à utiliser

Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.

Taux d'échantillonnage Exemple de code
« Bonjour. Je m'appelle Joanna. » depuis le client d'importation boto3
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Texte="Bonjour. Je m'appelle Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Une large gamme de voix et de langues

Amazon Polly inclut des dizaines de voix réalistes et prend en charge une grande variété de langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays. Outre les voix TTS standard, Amazon Polly propose des voix de synthèse vocale neuronale (NTTS) qui améliorent la qualité de la parole pour des voix plus naturelles et plus humaines.

Langue Femme
Homme
Arabe Zeina
 
Anglais australien Nicole Russell
Portugais brésilien

Vitória

Camila (Standard)

Camila (Neural)

Ricardo
Français canadien Chantal  
Danois Naja Mads
Néerlandais Lotte Ruben
Français

Léa

Céline

Mathieu

 

Allemand Vicki Hans
  Marlene  
Hindi Aditi
 
Islandais Dóra Karl
Anglais indien

Raveena

Aditi

 
Italien Carla Giorgio
  Bianca  
Japonais Mizuki Takumi
Coréen Seoyeon  
Chinois, mandarin Zhiyu  
Norvégien Liv  
Polonais Ewa Jacek
  Maja Jan
Portugais – ibérique Inês Cristiano
Roumain Carmen  
Russe Tatyana Maxim
Espagnol – castillan Conchita Enrique
  Lucia  
Espagnol, Mexique Mia  
Suédois Astrid  
Turc Filiz  
Anglais britannique

Amy (standard)

Amy (voix neuronale)

Brian (standard)

Brian (voix neuronale)

 

Emma (standard)

Emma (voix neuronale)

 
Anglais américain

Joanna (standard)

Joanna (voix neuronale)

Matthieu (standard)

Matthieu (voix neuronale)

 

Salli (standard)

Salli (voix neuronale)

Justin (standard)

Justin (voix neuronale)

 

Kendra (standard)

Kendra (voix neuronale)

Joey (standard)

Joey (voix neuronale)

 

Kimberly (standard)

Kimberly (voix neuronale)

 
 

Lierre (standard)

Lierre (voix neuronale)

 
Espagnol américain

Penélope

Lupe (Standard)

Lupe (Neural)

Miguel
Gallois Gwyneth  
Anglais gallois   Geraint

Un discours synchronisé pour une expérience visuelle améliorée

Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.

Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks. 

Optimisez votre diffusion audio en streaming

Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.

Taux d'échantillonnage Taille MP3   Taille au format OGG
Taille au format PCM
24,00 kHz Écouter 19,31 Ko 18,11 Ko N/A
22,05 kHz Écouter
19,33 Ko 17,62 Ko N/A
16,05 kHz Écouter 16,22 Ko 15,48 Ko

100,68 Ko

8,00 kHz Écouter 13,26 Ko 9,72 Ko 50,34 Ko

Réglage du style vocal, du débit de parole, de la hauteur de la voix et de l’intensité sonore

Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage basé sur XML conforme à la norme W3C dédié aux applications de synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Les balises Amazon SSML personnalisées offrent des options uniques, telles que la possibilité de faire parler certaines voix dans un style de rédaction. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.

Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML

Exemple SSML
En temps normal, je parle de cette façon. (aucun)
Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. <speak><amazon:domain name="news">Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. </amazon:domain> </speak>
Je peux parler avec une voix plus haute ou plus basse. <speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak>
Je peux parler très lentement ou très rapidement. <speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak>
Je peux également parler très fort ou très doucement. <speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak>
Je sais chuchoter. <speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas un humain.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak>
Je peux aussi parler dans un style conversationnel, qui simule le ton d’une conversation amicale. <speak><amazon:domain name="conversational">Je peux aussi parler dans un style conversationnel, qui simule le ton d’une conversation amicale.</amazon:domain></speak>

Style oratoire de rédaction

Amazon Polly peut être utilisé pour synthétiser la voix de sorte qu’elle soit similaire à celle d’un∙e présentateur∙trice radio ou TV. Cela peut être un excellent moyen de lire des articles de presse ou de présenter l’actualité. Le style de rédaction est actuellement disponible pour les voix de Matthew et Joanna en anglais américain utilisant la technologie de synthèse vocale neuronale. Écouter un échantillon »

Style oratoire de conversation

Amazon Polly peut être utilisé pour synthétiser un discours dans le but de simuler le ton d’une conversation amicale. Le style conversationnel paraît plus naturel et plus aimable, et peut être utilisé dans de nombreux cas d’utilisation, dont la téléphonie. Les voix de style conversationnel sont disponibles en anglais US pour Matthew et Joanna. Écoutez les voix de style oracle de conversation ici.

Ajuster la durée maximale de la parole

Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.

Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.

Plates-formes et langages de programmation pris en charge

Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.

Synthèse vocale par API, console ou ligne de commande

Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.

Glossaires personnalisés

Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

En savoir plus sur la tarification d'Amazon Polly

Visiter la page de tarification
Prêt à vous lancer ?
S'inscrire
D'autres questions ?
Contactez-nous