Une API facile à utiliser

Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.

Taux d'échantillonnage Exemple de code
« Bonjour. Je m'appelle Joanna. » depuis le client d'importation boto3
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Texte="Bonjour. Je m'appelle Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Une large gamme de voix et de langues

Amazon Polly inclut  voix réalistes et prend en charge  langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays.

Langue Femme
Homme
Anglais australien Nicole Russell
Portugais brésilien Vitória Ricardo
Français canadien Chantal  
Danois Naja Mads
Néerlandais Lotte Ruben
Français

Léa

Céline

Mathieu

 

Allemand Vicki Hans
  Marlene  
Hindi Aditi
 
Islandais Dóra Karl
Anglais indien

Raveena

Aditi

 
Italien Carla Giorgio
Japonais Mizuki Takumi
Coréen Seoyeon  
Chinois, mandarin Zhiyu  
Norvégien Liv  
Polonais Ewa Jacek
  Maja Jan
Portugais – ibérique Inês Cristiano
Roumain Carmen  
Russe Tatyana Maxim
Espagnol – castillan Conchita Enrique
Suédois Astrid  
Turc Filiz  
Anglais britannique Amy Brian
  Emma  
Anglais américain Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
Espagnol américain Penélope Miguel
Gallois Gwyneth  
Anglais gallois   Geraint

Un discours synchronisé pour une expérience visuelle améliorée

Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.

Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks. 

Optimisez votre diffusion audio en streaming

Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.

Taux d'échantillonnage Taille MP3   Taille au format OGG
Taille au format PCM
22,05 kHz Écouter
19,02 Ko 19,14 Ko s.o.
16,05 kHz Écouter 16,04 Ko
16,35 Ko
99,53 Ko
8,00 kHz Écouter 13,26 Ko 10,40 Ko 49,76 Ko

Ajustez le débit de parole, l'intensité de la voix et le volume

Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage de standard W3C basé sur du XML pour les applications à synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.

Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML

Exemple SSML
En temps normal, je parle de cette façon. (aucun)
Je peux parler avec une voix plus haute ou avec une voix plus basse. <speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak>
Je peux parler très lentement ou très rapidement. <speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak>
Je peux également parler très fort ou très doucement. <speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak>
Je sais chuchoter. <speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas humains.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak>

Ajuster la durée maximale de la parole

Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.

Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.

Plates-formes et langages de programmation pris en charge

Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.

Synthèse vocale par API, console ou ligne de commande

Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.

Glossaires personnalisés

Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

En savoir plus sur la tarification d'Amazon Polly

Visiter la page de tarification
Prêt à vous lancer ?
S'inscrire
D'autres questions ?
Contactez-nous