Fonctions d'Amazon Polly
Une API facile à utiliser
Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.
Taux d'échantillonnage | Exemple de code |
« Bonjour. Je m'appelle Joanna. » | depuis le client d'importation boto3 polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Texte="Bonjour. Je m'appelle Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
Une large gamme de voix et de langues
Amazon Polly inclut des dizaines de voix réalistes et prend en charge une grande variété de langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays. En plus des voix standard et de la synthèse vocale neuronale (NTTS), Amazon Polly propose désormais des voix en version long format et génératives qui améliorent la qualité vocale pour des voix plus naturelles et plus humaines.
Danielle, Gregory, Ruth, Patryk, Alba et Raúl sont des voix disponibles dans une variante longue.
Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía et Vicki, Bianca, Kajal, Pedro, Andrés, Sergio, Daniel et Rémi sont disponibles dans une variante générative.
Langue ou variante de langue |
Femme |
Homme |
|
Arabe-MSA |
|||
Arabe - Golfe |
|||
Cantonais |
|||
Catalan |
|||
Danois |
|||
Néerlandais |
|||
Néerlandais (flamand) - Belgique |
|||
Anglais - Inde |
|||
Anglais - Irlande |
|||
Anglais - Nouvelle-Zélande |
|||
Anglais – Afrique du Sud |
|||
Anglais — Royaume-Uni |
|||
Anglais — États-Unis |
|||
Anglais - Pays de Galles |
|||
Anglais - Australie |
|||
Finnois |
|||
Français - Belgique |
|||
Français - Canada |
|||
|
|||
Français – France |
|||
|
|||
Allemand - Autriche |
|
||
Allemand – Allemagne |
|||
|
|||
Hindi - Inde |
|||
Islandais |
|||
Italien |
|||
Japonais |
|||
|
|||
Coréen |
|||
Mandarin |
|||
Norvégien |
|||
Polonais |
|||
Portugais - Brésil |
|||
|
|||
Portugais - Portugal |
|||
|
|||
Roumain |
|||
Russe |
|||
Espagnol – Mexique |
|||
Espagnol – Espagne |
|||
Espagnol – États-Unis |
|||
Suédois |
|||
Turc |
|||
Gallois |
|||
[MOU1]Nécessité de le lier à un extrait vocal
Synchroniser la parole pour une meilleure expérience visuelle
Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.
Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks.
Optimisez votre diffusion audio en streaming
Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.
Taux d'échantillonnage | Taille MP3 | Taille au format OGG |
Taille au format PCM |
24,00 kHz Écouter | 19,31 Ko | 18,11 Ko | N/A |
22,05 kHz Écouter |
19,33 Ko | 17,62 Ko | N/A |
16,05 kHz Écouter | 16,22 Ko | 15,48 Ko | 100,68 Ko |
8,00 kHz Écouter | 13,26 Ko | 9,72 Ko | 50,34 Ko |
Réglage du style vocal, du débit de parole, de la hauteur de la voix et de l’intensité sonore
Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage basé sur XML conforme à la norme W3C dédié aux applications de synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Les balises Amazon SSML personnalisées offrent des options uniques, telles que la possibilité de faire parler certaines voix dans un style de rédaction. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.
Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML.
Exemple | SSML |
En temps normal, je parle de cette façon. | (aucun) |
Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. | <speak><amazon:domain name="news">Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. </amazon:domain> </speak> |
Je peux parler avec une voix plus haute ou plus basse. | <speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak> |
Je peux parler très lentement ou très rapidement. | <speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak> |
Je peux également parler très fort ou très doucement. | <speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak> |
Je sais chuchoter. | <speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas un humain.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak> |
Style oratoire de rédaction
Amazon Polly peut être utilisé pour synthétiser la voix de sorte qu’elle soit similaire à celle d’un∙e présentateur∙trice radio ou TV. Cela peut être un excellent moyen de lire des articles de presse ou de présenter l'actualité. Le style présentateur est actuellement disponible pour les voix de Matthew et Joanna en anglais américain, pour la voix d'Amy en anglais britannique et pour la voix de Lupe en espagnol américain utilisant la technologie de synthèse vocale neuronale. Écoutez un extrait audio en anglais américain, anglais britannique ou espagnol américain.
Ajuster la durée maximale du discours
Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.
Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.
Plates-formes et langages de programmation pris en charge
Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.
Synthèse vocale par API, console ou ligne de commande
Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.
Glossaires personnalisés
Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice est un engagement personnalisé dans lequel vous travaillez avec l'équipe d'Amazon Polly pour créer une voix Neural Text-to-Speech (NTTS) à l'usage exclusif de votre organisation. Brand Voice vous permet de différencier vos produits et applications grâce à une identité vocale unique dans une grande variété de cas d'utilisation, y compris les intégrations Amazon Connect et Alexa Skills. Nous travaillons avec vous tout au long du processus pour identifier le personnage, identifier un acteur ou une actrice et enregistrer son discours, et finalement créer et former un modèle pour produire la voix. La voix est ensuite mise à disposition de vos ID de compte AWS.
Écoutez la voix de marque de la Banque nationale d’Australie »
Écoutez la voix de marque de la Banque de Nouvelle-Zélande »
Si vous souhaitez créer une voix de marque à l'aide de Polly, contactez votre responsable de compte AWS ou nous-mêmes pour plus d'informations.
Intégrations au centre de contacts
Amazon Polly est intégré nativement à Amazon Connect, la solution de centre de contact basée sur le cloud d’AWS que vous utilisez pour configurer et gérer un centre de contact client et fournir un engagement client fiable à n’importe quelle échelle. Pour en savoir plus sur l’ajout de texte aux invites à votre système de réponse vocale interactive conversationnelle, voyez ici comment utiliser les fonctions vocales de Polly dans Amazon Connect.
Genesys Cloud CX est une solution de centre de contact cloud qui unifie les expériences des clients et des agents sur plusieurs canaux comme le téléphone, les SMS et le chat. Vous pouvez déployer vos bots vocaux en utilisant l’une des fonctions vocales Polly existantes. Veuillez consulter la documentation de Genesys Cloud pour plus d'informations.
Le kit SDK Amazon Chime est un ensemble de composants de communication en temps réel utilisables par les développeurs pour ajouter rapidement des fonctionnalités d'appel audio/vidéo et de partage d'écran à leurs propres applications Web, mobiles ou téléphoniques. Le kit SDK Amazon Chime prend en charge l'intégration native avec Amazon Polly, ce qui aide les développeurs à créer des applications qui convertissent le texte et les données numériques en enregistrement audio réaliste et lit automatiquement la sortie à un appelant.
Amazon Polly est utilisé par plusieurs partenaires AWS CCI, ce qui vous permet de créer facilement des agents virtuels de service clients en libre-service, des robots d'information ou des robots d'application. Les partenaires d’Amazon Polly incluent Genesys, Vonage et Accenture. Pour en savoir plus sur les partenaires, consultez les pages AWS CCI et Partenaires AWS CCI.