Présentation

Amazon Transcribe permet aux clients AWS d'ajouter des fonctionnalités de synthèse vocale dans leurs applications vocales. Grâce à la technologie de reconnaissance vocale automatique (ASR, Automatic Speech Recognition), les clients peuvent utiliser Amazon Transcribe pour diverses applications professionnelles. Les fonctionnalités fournies par le service incluent la reconnaissance vocale automatique, la segmentation en fonction du locuteur, le masquage des données d'identification personnelle (PII, Personally Identifiable Information) et l'identification de la langue. Consultez la documentation pour plus d'informations. Cette carte de service d'IA décrit l'une de ces fonctionnalités, Transcribe – Batch (anglais – États-Unis), mise en œuvre par l'API Transcribe::StartTranscriptionJob. Cette fonctionnalité effectue l'ASR dans les paramètres régionaux en-US avec une bande passante faible (8 kHz) ou élevée (16 kHz). Elle fonctionne sur la parole enregistrée disponible à partir d'un fichier audio statique (mode batch). Pour l'ASR en temps quasi réel sur la diffusion multimédia, consultez l'API Transcribe::StartStreamTranscription.

Nous évaluons la qualité du discours de Transcribe en mesurant à quel point les mots d'une transcription d'ASR correspondent aux mots prononcés dans l'échantillon de discours, tels qu'ils ont été transcrits par un écouteur humain. Lorsqu'un locuteur déclare « Ce système peut vraiment reconnaître la parole », nous nous attendons à ce que la transcription contienne les mots prononcés, et non « Ce système peut recoller le gros bol ». Trois types d'erreurs peuvent apparaître dans une transcription : les substitutions (comme « reconnaître » qui devient « recoller »), les insertions (mots supplémentaires, comme « gros ») et les suppressions (mots manquants, comme « vraiment »). Les mots correctement transcrits sont appelés « hits ». Les métriques de qualité, comme la précision, le rappel, le score F1 et le taux d'erreurs sur les mots (WER, Word Error Rate) dépendent du nombre de « hits » et d'erreurs.

De nombreux facteurs influent sur la précision de tout système d'ASR. Le signal audio d'entrée est constitué de la parole elle-même, modifiée par divers facteurs de confusion. Les mots et les énoncés individuels diffèrent d'un locuteur à l'autre quant à la fréquence à laquelle ils sont utilisés, à la façon dont ils sont prononcés et à la manière dont ils sont combinés avec d'autres mots. Les mots dont l'orthographe et le sens diffèrent peuvent être prononcés de la même manière. Les voix des locuteurs peuvent se chevaucher ou ils peuvent s'interrompre les uns les autres. Les appareils d'enregistrement diffèrent en matière de qualité et de position par rapport au locuteur (p. ex., champ lointain ou champ proche). Les environnements d'enregistrement diffèrent en matière de niveau de bruit de fond, de sensibilité à l'écho et de présence d'autres locuteurs. Le niveau de bruit des lignes de transmission varie. Transcribe est conçu pour faire la distinction entre l'audio de différents mots et ignorer les variations confondantes.

Cas d'utilisation prévus et limites

Transcribe – Batch (anglais – États-Unis) est destiné à être utilisé sur des échantillons audio contenant de la parole humaine naturelle. Il n'est pas conçu pour la parole transformée mécaniquement ou numériquement, ni pour la parole synthétique. Il est destiné à transcrire des mots en anglais américain. Consultez Supported Languages pour connaître les autres paramètres régionaux linguistiques. Transcribe prend en charge un large vocabulaire à usage général ; les clients peuvent ajouter des vocabulaires personnalisés et des modèles linguistiques personnalisés pour couvrir des expressions et des mots issus de domaines spécialisés. Transcribe prend en charge le partitionnement des locuteurs, également connu sous le nom de diarisation. Il est possible d'identifier jusqu'à 10 haut-parleurs uniques en activant le partitionnement des haut-parleurs dans l'appel d'API.

Les applications possibles de Transcribe Batch (anglais – États-Unis) sont nombreuses : analytique des centres d'appels (sentiment/catégorisation/vitesse de conversation), transcription de messages vocaux, sous-titrage de réunions, sous-titrage de contenu multimédia (audio ou vidéo) et recherche/analytique/analyse de mots clés pour le contenu multimédia, y compris le catalogage ou l'indexation des archives multimédias. La conception de ces applications varie en fonction : 1) du nombre de locuteurs ; 2) du nombre de locuteurs par canal (c.-à-d., par appareil d'enregistrement, comme un ordinateur portable ou un téléphone portable) ; 3) du style de discours utilisé par les locuteurs ; 4) des conditions d'enregistrement (comme l'emplacement et l'équipement) et d'autres facteurs. Par exemple, dans le cas d'une application de transcription pour un centre d'appels, on peut s'attendre à deux locuteurs (un locuteur par canal), à un enregistrement en champ proche (avec la bouche du locuteur près du microphone) et à un bruit de fond élevé provenant à la fois de l'environnement domestique de l'appelant et de l'environnement de travail de l'opérateur du centre d'appels. Un deuxième exemple est une application permettant de sous-titrer des vidéos de formation, ce qui constitue un point d'entrée pour l'analytique, l'indexation et la recherche du contenu multimédia. Dans le cas de cette application, on peut s'attendre à plusieurs locuteurs, à un canal audio partagé entre tous les locuteurs, à un discours défini selon un script avec moins de mots de remplissage, de pauses et de disfluences, mais avec plus de jargon spécifique au domaine, et à des niveaux inférieurs de bruit de fond et à d'autres occlusions audio.

Conception de Transcribe – Batch (anglais – États-Unis)

Machine learning : Transcribe est conçu à l'aide des technologies de ML et d'ASR. Il fonctionne comme suit : (1) identifiez les fonctionnalités acoustiques pertinentes de l'entrée audio. (2) Générez un ensemble de chaînes candidates au niveau des mots, en fonction de ces fonctionnalités. (3) Appliquez la modélisation linguistique pour classer les candidats et renvoyer la transcription la mieux classée. Consultez la documentation destinée aux développeurs pour en savoir plus sur les appels d'API.

Attentes en matière de performances : les variations individuelles et confondantes diffèrent selon les applications du client. Cela signifie que les performances sont également différentes d'une application à l'autre, même si elles prennent en charge le même cas d'utilisation. Prenons l'exemple de deux applications de transcription A et B. L'application A permet le sous-titrage vidéo d'un talk-show télévisé et possède plusieurs voix par canal d'enregistrement, des microphones à perche de grande qualité et un bruit de fond minime. L'application B permet aux centres d'appels d'enregistrer les appels des clients ; ces derniers parlent à proximité de leur micro, il y a une voix par canal d'enregistrement et les dialogues avec les clients ne sont pas définis selon un script. Comme A et B possèdent des types d'entrées différents, ils auront probablement des taux d'erreurs différents, même en supposant que chaque application soit parfaitement déployée à l'aide de Transcribe.

Méthodologie pilotée par les tests : un jeu de données d'évaluation unique ne suffit pas pour évaluer les performances, c'est pourquoi nous en utilisons plusieurs. En effet, les jeux de données d'évaluation varient en fonction de leur composition démographique (le nombre et le type de groupes définis), de l'ampleur des variations confondantes (qualité du contenu, adapté à l’objectif), des types et de la qualité des étiquettes disponibles et d'autres facteurs. Nous mesurons les performances de Transcribe en les testant sur des jeux de données d'évaluation contenant des enregistrements audio provenant de divers locuteurs représentatifs de la population des utilisateurs finaux, où chaque enregistrement est étiqueté avec des transcriptions fiables et les attributs démographiques du locuteur. Nous représentons les performances globales d'un jeu de données à l'aide de plusieurs métriques, notamment le taux d'erreurs sur les mots et le score F1, un pourcentage qui équilibre uniformément le pourcentage de mots prédits corrects (précision) par rapport au pourcentage de mots corrects inclus dans la prédiction (rappel). Les groupes d'un jeu de données peuvent être définis par des attributs démographiques (tels que le sexe, l'âge et l'ascendance), des variables confusionnelles (telles que les variétés d'équipement d'enregistrement, la distance entre chaque locuteur et l'équipement d'enregistrement, le post-traitement et les bruits de fond), ou un mélange de ces deux types de variables. Les différents jeux de données d'évaluation varient en fonction de ces facteurs et d'autres. De ce fait, toutes les métriques, à la fois globales et pour les groupes, varient d'un jeu de données à l'autre. En tenant compte de cette variation, notre processus de développement examine les performances de Transcribe à l'aide de plusieurs jeux de données d'évaluation, prend des mesures pour augmenter la précision pour les groupes pour lesquels Transcribe a obtenu les moins bons résultats, s'efforce d'améliorer la suite de jeux de données d'évaluation, puis itère.

Équité et biais : notre objectif est que Transcribe – Batch (anglais – États-Unis) fonctionne bien pour les locuteurs de l'anglais américain, quelle que soit la diversité de prononciations, d'intonations, de vocabulaires et de fonctionnalités grammaticales que ces locuteurs peuvent utiliser. Nous considérons les communautés de locuteurs définies par des régions, telles que le Midwest ou la ville de New York, et les communautés définies par de multiples dimensions de l'identité, y compris l'ascendance, l'âge et le sexe. Pour ce faire, nous utilisons le processus de développement itératif décrit ci-dessus. Dans le cadre de ce processus, nous créons des jeux de données pour capturer un large éventail de locuteurs humains dans un grand nombre de facteurs de confusion. Nous effectuons régulièrement des tests sur des jeux de données pour lesquels nous disposons d'étiquettes démographiques fiables. Nous constatons que Transcribe fonctionne bien quels que soient les attributs démographiques. À titre d'exemple, sur un jeu de données sur le langage naturel comprenant 65 groupes démographiques, définis par l'âge, l'ascendance, le sexe et le dialecte régional (tel que femme+européen, homme+moins de 45 ans), nous constatons que la précision de la reconnaissance des mots F1 est de 92 % ou plus pour chaque groupe de locuteurs. Pour les transcriptions où le partitionnement des locuteurs (diarisation) est activé, sur le même jeu de données, nous constatons que la précision de la diarisation est de 98 % ou plus pour chaque groupe de locuteurs. Étant donné que les résultats dépendent de Transcribe, du flux de travail du client et du jeu de données d'évaluation, nous recommandons aux clients de tester également Transcribe sur leur propre contenu.

Explicabilité : lorsqu'Amazon Transcribe transcrit des données audio, il crée différentes versions de la même transcription et attribue un score de confiance à chaque version. Si les clients activent d'autres transcriptions, Amazon Transcribe renvoie des versions alternatives de la transcription présentant des niveaux de confiance inférieurs. Les clients peuvent explorer d'autres transcriptions pour mieux comprendre les mots et expressions candidats qui ont été générés pour chaque entrée audio.

Robustesse : nous optimisons la robustesse grâce à diverses techniques, notamment l'utilisation de grands jeux de données d'entraînement qui capturent de nombreux types de variations entre un grand nombre de personnes. Les entrées audio idéales pour l'ASR de Transcribe contiennent du son avec une qualité d'enregistrement élevée, un faible bruit de fond et une faible réverbération de la pièce. Cependant, Transcribe est conçu pour être résilient même lorsque les entrées ne sont pas dans des conditions idéales et peut fonctionner correctement dans des environnements bruyants dans lesquels se trouvent plusieurs locuteurs.

Confidentialité et sécurité : Amazon Transcribe traite uniquement les données d'entrée audio. Les entrées audio ne sont jamais incluses dans la sortie renvoyée par le service. Les entrées et les sorties ne sont jamais partagées entre les clients. Les clients peuvent se désinscrire de la formation sur le contenu client via AWS Organizations ou d'autres mécanismes de désinscription que nous pouvons proposer. Consultez la section 50.3 des conditions de service AWS et la FAQ sur la confidentialité des données d'AWS pour plus d'informations. Pour obtenir des informations de confidentialité et de sécurité spécifiques à un service, consultez la section Confidentialité des données des FAQ sur Transcribe et la documentation Amazon Transcribe Security.

Transparence : selon leur cas d'utilisation, les clients qui intègrent Amazon Transcribe dans leur flux de travail sont encouragés à divulguer leur utilisation de la technologie de ML et d'ASR aux utilisateurs finaux et aux autres personnes touchées par cette utilisation, et à donner à leurs utilisateurs finaux la possibilité de fournir des commentaires concernant l'amélioration des flux de travail. Dans leur documentation, les clients peuvent également faire référence à cette carte de service d'IA.

Gouvernance : nous suivons des méthodologies rigoureuses pour développer nos services d'IA AWS de manière responsable, notamment un processus de développement de produits rétroactif qui intègre l'IA responsable dès la phase de conception, des consultations relatives à la conception et des évaluations de la mise en œuvre par des experts dédiés à la science et aux données de l'IA responsable, des tests de routine, des évaluations avec les clients, ainsi que le développement et la diffusion de meilleures pratiques et la formation à ces dernières.

Meilleures pratiques en matière de déploiement et d'optimisation des performances

Nous encourageons les clients à créer et à exploiter leurs applications de manière responsable, comme décrit dans le guide AWS Responsible Use of Machine Learning. Cela comprend la mise en œuvre de pratiques d'IA responsable pour répondre à des dimensions clés telles que l'équité et les biais, la robustesse, l'explicabilité, la confidentialité et la sécurité, la transparence et la gouvernance.
 
Conception du flux de travail : les performances de toute application utilisant Transcribe dépendent de la conception du flux de travail du client. Les conditions, comme le bruit de fond, l'équipement d'enregistrement et autres, sont abordées dans la section « Cas d'utilisation prévus ». Selon l'application, ces conditions peuvent être optimisées par les clients de Transcribe, qui définissent le flux de travail dans lequel l'audio est capturé par les utilisateurs finaux. Transcribe fournit des fonctionnalités permettant aux clients d'optimiser leurs performances de reconnaissance au sein de l'API. Ces fonctionnalités incluent les conditions d'enregistrement, les fréquences d'échantillonnage, les vocabulaires personnalisés, les modèles linguistiques personnalisés et le filtrage du vocabulaire ou des données d'identification personnelle (PII). La supervision humaine, la cohérence du flux de travail et les tests périodiques pour détecter les écarts de performance sont également des considérations essentielles qui sont sous le contrôle des clients et qui contribuent à des résultats précis et équitables.
 
  1. Conditions d'enregistrement : les flux de travail doivent inclure des étapes pour faire face aux variations des conditions d'enregistrement, comme parler loin du microphone ou des conditions bruyantes. Si la variation est importante, envisagez de fournir de l'aide et des instructions accessibles à tous les utilisateurs finaux, et surveillez la qualité de l'enregistrement en échantillonnant de manière périodique et aléatoire les entrées.

  2. Fréquences d'échantillonnage : les clients disposent d'un paramètre facultatif pour spécifier la fréquence d'échantillonnage de leur entrée audio, qu'il s'agisse d'entrées à faible bande passante (8 kHz) ou à large bande (16 kHz).

  3. Vocabulaires personnalisés : Transcribe reconnaît le vocabulaire utilisé dans diverses communautés de locuteurs (régions dialectales, groupes démographiques). Dans les cas où les clients souhaitent fournir une assistance supplémentaire pour des mots spécifiques à leur domaine ou à leur situation, comme des noms de marque ou des noms propres et des acronymes, les clients peuvent déployer des vocabulaires personnalisés pour améliorer la précision de la transcription de ces mots. Pour plus d'informations, consultez la documentation relative aux vocabulaires personnalisés.

  4. Modèles linguistiques personnalisés : lorsqu'une application client doit gérer des discours spécifiques à un domaine qui sont plus complexes que de simples mots, les clients peuvent utiliser des modèles linguistiques personnalisés pour améliorer la précision de la transcription. Par exemple, lors de la transcription d'enregistrements de conférences sur la science du climat, il peut être possible d'améliorer la précision de la transcription en apprenant le contexte dans lequel les mots apparaissent (p. ex. « ice flow » [écoulement glaciaire] par rapport à « ice floe » [banquise]). Dans ce cas, les clients peuvent entraîner un modèle linguistique personnalisé pour reconnaître des termes spécialisés. Pour plus d'informations, consultez la documentation relative aux modèles linguistiques personnalisés.

  5. Filtrage du vocabulaire et masquage des PII : ces optimisations peuvent améliorer la sécurité et la confidentialité de la langue produite dans les transcriptions. Le filtrage du vocabulaire permet aux clients de masquer ou de supprimer des mots sensibles ou inadaptés à leur public des résultats de la transcription, selon une liste définie par le client. Le masquage des PII permet aux clients de générer une transcription dans laquelle les PII ont été supprimées, en fonction des types de PII identifiés par Transcribe – Batch (anglais – États-Unis). Il s'agit notamment du nom, de l'adresse, du numéro de carte de crédit, du numéro de sécurité de sociale, etc. Pour plus d'informations, y compris une liste complète des types de PII et des considérations sur l'utilisation du masquage des PII pour les charges de travail réglementées, consultez la documentation relative au filtrage du vocabulaire et au masquage des informations personnelles.

  6. Supervision humaine : si le flux de travail d'une application d'un client comporte un risque élevé ou un cas d'utilisation sensible, tel qu'une décision ayant une incidence sur les droits d'une personne ou sur l'accès à des services essentiels, un contrôle humain doit être incorporé dans le flux de travail de l'application, le cas échéant. Les systèmes d'ASR peuvent servir d'outils pour réduire les efforts liés à des solutions entièrement manuelles et pour permettre aux humains d'examiner et d'évaluer rapidement le contenu audio.

  7. Cohérence : les clients doivent définir et appliquer des politiques concernant les types de personnalisation du flux de travail et d'entrées audio autorisés, ainsi que la manière dont les humains utilisent leur propre jugement pour évaluer les sorties de Transcribe. Ces politiques doivent être cohérentes pour tous les groupes démographiques. La modification incohérente des entrées audio pourrait entraîner des résultats injustes pour différents groupes démographiques.

  8. Dérive des performances : les résultats peuvent varier lorsque le client modifie le type de contenu audio envoyé à Transcribe ou le service lui-même. Pour faire face à ces changements, les clients doivent envisager de retester périodiquement les performances de Transcribe et d'ajuster leur flux de travail si nécessaire.

Plus d'informations

Glossaire

Les termes équité et biais désignent l'impact d'un système d'IA sur différentes sous-populations d'utilisateurs (par exemple, selon le sexe ou l'origine ethnique).

Le terme explicabilité désigne la mise en place de mécanismes permettant de comprendre et d'évaluer les résultats d'un système d'IA.

Le terme robustesse désigne la mise en place de mécanismes garantissant le fonctionnement fiable d'un système d'IA.

Les termes confidentialité et sécurité désignent la protection des données contre le vol et la divulgation.

Le terme gouvernance désigne la mise en place de processus pour définir, mettre en œuvre et appliquer des pratiques d'IA responsable au sein d'une organisation.

Le terme transparence désigne la communication d'informations sur un système d'IA afin que les parties prenantes puissent prendre des décisions éclairées quant à leur utilisation du système.