Passer au contenu principal

Qu’est-ce qu’un logiciel de synthèse vocale ?

De la lecture à voix haute des pages Web à la demande de données utilisateur, la voix est en passe de devenir la norme en matière d’interface utilisateur moderne. Les clients s’attendent de plus en plus à ce que toutes les applications avec lesquelles ils interagissent offrent des fonctionnalités vocales. En outre, les cas d’utilisation de la synthèse vocale dans les domaines de la santé, des ventes, de la création de contenu, du service client et d’autres applications peuvent accélérer l’automatisation tout en améliorant l’expérience client. Ce guide explore les fonctionnalités et capacités de la synthèse vocale et explique comment commencer à les utiliser.

Le logiciel de synthèse vocale (TTS) produit une « voix » audio en synthétisant la parole à partir du texte. Le logiciel est alimenté par un moteur de synthèse vocale entraîné à partir d’un vaste volume d’enregistrements de voix humaines. Il convertit les mots écrits en leur forme parlée en analysant les formes d’ondes sonores dans les données vocales.

Les voix qui paraissent rigides et artificielles proviennent généralement de technologies vocales obsolètes. Les moteurs de synthèse vocale modernes basés sur l’IA générative produisent des résultats presque impossibles à distinguer de la parole humaine. La voix générée peut inclure des pauses naturelles, des accents variés, des vitesses différentes et des intonations qui reflètent les émotions humaines.

Types de logiciels de synthèse vocale

Le type d’outil TTS que vous choisissez dépend de votre cas d’utilisation. Pour les développeurs de logiciels, un ensemble intégrateur, personnalisable et tout-en-un constitue le meilleur choix pour le développement multiapplication et multienvironnement.

Les développeurs de logiciels peuvent choisir entre des logiciels TTS open source et commerciaux avec des déploiements autogérés, ou un service cloud géré entièrement intégré tel qu’Amazon Polly. Il permet aux applications existantes d’intégrer la reconnaissance vocale comme fonctionnalité principale, créant ainsi des opportunités pour des catégories entièrement nouvelles de produits à commande vocale, des applications mobiles aux voitures en passant par les appareils et les équipements.

Amazon Polly est livré avec quatre moteurs vocaux basés sur différentes architectures de modèles d’IA, adaptés à différents cas d’utilisation. Pour utiliser une voix Amazon Polly, sélectionnez simplement le moteur, l’opération de synthèse vocale et le format du fichier de sortie par l’API dans votre code. Fournissez ensuite le texte d’entrée à synthétiser par le moteur. Amazon Polly générera le fichier de sortie vocale au format que vous avez demandé. Ces moteurs peuvent également être entraînés davantage pour répondre à des exigences spécifiques en matière de voix ou de marque.

Quelles fonctionnalités faut-il rechercher dans les logiciels de synthèse vocale ?

Amazon Polly comprend les fonctionnalités de synthèse vocale suivantes, essentielles au développement vocal moderne.

Gamme de voix

La possibilité de sélectionner différentes langues, régions, genres et voix au sein d’une région offre une suite de produits plus complète pour le développement. Amazon Polly prend en charge des dizaines de langues, ainsi que leurs variations et accents nationaux dans les formats masculins et féminins.

Intégration basée sur les API

Vérifiez que votre logiciel TTS dispose d’une API entièrement fonctionnelle et qu’il est disponible dans plusieurs langages de programmation, pour le plus large éventail d’intégrations entre les projets. Amazon Polly fournit l’API Amazon Polly et différents kits SDK spécifiques à chaque langue. Il est également accessible depuis la Console de gestion AWS et l’interface de ligne de commande (CLI) AWS. Vous avez le contrôle total de toutes les fonctionnalités d’Amazon Polly, quelle que soit la manière dont vous l’utilisez.

Commande vocale précise

Le langage de balisage de synthèse vocale (SSML) est un langage de balisage basé sur XML qui vous permet de fournir plus d’informations sur la façon dont votre discours doit être émis. Par exemple, vous pouvez inclure des pauses, une interprétation (p. ex. des dates, des acronymes), une hauteur, une fréquence, un volume, une accentuation, un fondu et d’autres éléments audio pour personnaliser la voix générée. SSML vous permet de contrôler entièrement les sorties vocales et de transférer la personnalisation vers d’autres systèmes.  

Amazon Polly prend en charge les balises Amazon SSML courantes et personnalisées, telles que la possibilité de donner à une voix le ton d’un présentateur de journal télévisé. Cette flexibilité vous permet de créer des discours réalistes qui attirent et retiennent l’attention du public.

Hooks de métadonnées pour une animation synchronisée

Certaines applications, telles que les jeux vidéo et les médias, nécessitent une animation avec des personnages qui suivent le son, notamment des mouvements de la bouche ou un suivi de mots de style karaoké. Les vidéos de formation multilingues bénéficieraient également d’une synchronisation dans plusieurs langues, afin que l’audio soit harmonisé avec la vidéo dans toutes les langues.

Pour ce type d’applications, les développeurs ont besoin de métadonnées pour marquer les éléments vocaux qui apparaissent à un moment donné dans un format horodaté. Amazon Polly vous permet de demander ces métadonnées supplémentaires, ou marques vocales, en plus de votre fichier vocal. Les marques vocales fournissent des informations telles que l’horodatage du fichier audio, les visèmes (positions du visage et de la bouche lorsque vous prononcez un mot) et d’autres détails qui relient le texte écrit à la sortie vocale.

Personnalisation

Vous souhaitez que votre logiciel de synthèse vocale soit entièrement personnalisable pour une flexibilité maximale. Par exemple, la sortie audio doit être personnalisable pour différents formats et configurations, notamment en fonction du type de fichier (p. ex.), de la taille du fichier et de la qualité des données. Le logiciel doit être capable de gérer un vocabulaire personnalisé qui ne fait pas partie de ses données d’entraînement.

Amazon Polly prend en charge la personnalisation de la synthèse vocale à chaque étape.

Vocabulaire

Vous pouvez créer un dictionnaire personnalisé avec des prononciations personnalisées pour les noms de sociétés, les acronymes, les mots étrangers et les néologismes. Vous pouvez demander des sorties dans plusieurs formats vocaux, tels que MP3 et WAV.

Format de sortie

Amazon Polly prend également en charge les longs formats audio, tels que la lecture de documents, avec une voix naturelle. Vous pouvez générer des flux audio continus pour des connexions à faible bande passante ou à faible latence dans des cas d’utilisation en temps réel.

Voix

Nous proposons également Brand Voice, un service personnalisé qui vous permet de collaborer avec l’équipe Amazon Polly afin de créer une voix réservée à l’usage exclusif de votre organisation. Plutôt que d’utiliser des sons similaires à ceux d’autres applications, vous pouvez créer une marque vocale unique qui vous aidera à vous démarquer.

Comment démarrer avec un logiciel de synthèse vocale ?

Il est facile de commencer à utiliser le logiciel de synthèse vocale d’AWS. Dans ce guide, nous vous présentons une démonstration rapide d’Amazon Polly sur console.

Commencez par vous connecter à la Console de gestion AWS et ouvrez la Console de gestion Amazone Polly. Cliquez sur Essayer Polly pour commencer. Une boîte de dialogue de synthèse vocale apparaîtra.

Étape 1 : choisir un moteur

Dans la boîte de dialogue Synthèse vocale, vous pouvez sélectionner le moteur vocal que vous souhaitez utiliser. Amazon Polly propose actuellement quatre moteurs vocaux différents.

  • Le moteur Standard utilise la méthode de synthèse concaténative comme générateur de voix.
  • Le moteur Neuronal utilise un réseau neuronal et une méthode de vocodeur pour produire une parole plus naturelle.
  • Le moteur Génératif utilise un modèle d’un milliard de paramètres basé sur une grande variété de données vocales pour un son encore plus naturel.
  • Le moteur Version longue est un autre moteur de synthèse vocale basé sur l’IA générative, développé pour les discours longs de style narratif.

Ces moteurs ne sont pas tous disponibles dans toutes les régions AWS.

Étape 2 : choisir une langue

Une fois que vous avez sélectionné un moteur vocal, choisissez la langue que vous souhaitez générer et une voix masculine ou féminine dans les menus déroulants.

Chaque moteur vocal prend en charge une gamme différente de langues et de voix IA. Par exemple, si vous sélectionnez Neural for Engine, seules les langues et les voix prenant en charge la synthèse vocale neuronale (NTTS) sont disponibles et toutes les voix standard et longues sont désactivées.

Étape 3 : convertir le texte en parole

Dans la zone Texte de saisie, remplacez le texte par défaut par votre propre saisie de texte écrit. Vous pouvez sélectionner le bouton Écouter pour entendre le résultat lu à haute voix, le bouton Télécharger pour télécharger le fichier MP3 ou le bouton Enregistrer dans S3 pour enregistrer les mots prononcés sur Amazon Simple Storage Service.

Accès à Amazon Polly par l’API

Vous pouvez accéder à Amazon Polly par la console, comme ci-dessus, ou par son API dans le code de l’application. L’API Amazon Polly vous permet d’effectuer de nombreuses tâches, qu’il s’agisse de traduire en temps réel, de générer des sous-titres ou de donner vie à des personnages de jeux vidéo ou d’autres animations. Essayez certains exemples sur GitHub pour découvrir comment utiliser l’API Amazon Polly dans le code.

Comment AWS peut-elle répondre à vos besoins en matière de logiciels de synthèse vocale ?

La synthèse vocale vous permet de créer des fichiers audio à partir de texte plutôt que de la voix humaine. Initialement utilisée comme technologie d’assistance pour les personnes malvoyantes, elle est désormais devenue indispensable dans de nombreuses applications et interactions avec les clients, qu’il s’agisse d’extensions de navigateur, de centres d’appels ou d’applications d’entreprise. À l’aide d’un service géré tel qu’Amazon Polly, les développeurs peuvent facilement intégrer un moteur vocal moderne et réaliste dans leurs applications via des appels d’API de synthèse vocale. La tarification d’Amazon Polly est basée sur le moteur et le nombre de caractères traités, et inclut un niveau gratuit pour un usage personnel.

L’audio vocal d’Amazon Polly n’est que l’un des services d’IA générative que vous pouvez exploiter pour le développement d’applications. Découvrez la gamme de solutions d’IA proposées par AWS pour vous aider à créer et à mettre à l’échelle des applications plus rapidement et plus efficacement.