Qu’est-ce que la transcription de fichiers audio ?
Qu’est-ce que la transcription de fichiers audio ?
Les organisations ont besoin de transcriptions audio à grande échelle pour divers cas d’utilisation, allant des comptes rendus organisés de réunion aux applications dans le domaine de la santé. Les technologies d’IA modernes peuvent transcrire l’audio en texte, transformant ainsi divers accents et conversations entre plusieurs locuteurs en documents précis et mis en forme. Ce guide explore les méthodes de transcription audio en texte pour répondre aux besoins des grandes et petites entreprises.
La communication vocale est essentielle pour que les humains se comprennent parfaitement. La voix est une méthode rapide et ponctuelle pour communiquer des idées, des informations, des instructions et des émotions. L’enregistrement et la transcription des communications vocales via des convertisseurs audio en texte sont devenus essentiels pour la mémorisation, la précision et la poursuite des travaux. Lorsque vous transcrivez de l’audio en texte, les informations importantes peuvent être conservées, recherchées, analysées et remixées pour des informations plus rapides et une intégration instantanée dans les processus métier.
Dans le passé, une personne écoutait un seul enregistrement audio et saisissait simultanément son contenu, convertissant les mots prononcés en s’arrêtant et en reprenant pour produire une transcription fidèle. Les cabinets d’avocats, les médecins, les chercheurs et d’autres cabinets professionnels disposaient de groupes de dactylographes chargés de jouer ce rôle manuel en transcrivant l’audio en texte à partir de notes vocales.
Désormais, les machines peuvent transcrire l’audio instantanément via un convertisseur audio en texte. Au lieu de recourir à des efforts humains pour le travail de transcription, la technologie de synthèse vocale (STT) convertit les fichiers audio en fichiers texte écrits. Ce fichier texte écrit peut être lu tel quel, résumé à l’aide d’un transcripteur IA, activé automatiquement dans d’autres systèmes logiciels, analysé isolément ou dans le cadre d’un corpus plus large, et bien plus encore. Les applications des convertisseurs audio en texte sont illimitées.
En quoi consistent les technologies de transcription de fichiers audio ?
Les fichiers audio peuvent contenir différents types de locuteurs, d’accents et de mots spécifiques à un domaine. La qualité sonore des enregistrements audio peut également varier. La conversion de mots parlés en texte nécessite la compréhension du langage vocal, ainsi que des connaissances en syntaxe et en grammaire pour produire un résultat lisible.
Les anciens logiciels de conversion audio en texte comportaient des erreurs et produisaient des transcriptions difficiles à lire, sans structure appropriée et contenant des erreurs hiérarchiques, verbales et grammaticales. Les logiciels modernes de conversion audio en texte fonctionnent bien mieux, convertissant l’audio en texte correspondant étroitement au mot prononcé, avec des transcriptions précises présentant une structure écrite et une grammaire appropriées.
Amazon Transcribe est un service entièrement géré de reconnaissance vocale automatique (ASR) qui convertit la parole en texte rapidement et avec précision. Il peut gérer diverses caractéristiques vocales, notamment les variations de débit, de hauteur et de volume. Il peut transcrire dans plus de 100 langues et s’intègre aux flux de travail des développeurs et à l’infrastructure AWS pour répondre aux besoins des entreprises en matière de conversion audio en texte.
Comment démarrer avec la transcription audio ?
Il existe deux méthodes principales pour transcrire l’audio en texte, en fonction du type de fichier audio ou vidéo. La transcription par lots est utilisée pour transcrire des fichiers audio préenregistrés, et la transcription en streaming est utilisée pour transcrire des flux multimédias en direct.
Amazon Transcribe prend en charge l’audio monocanal et bicanal pour les types de transcriptions audio et vidéo par lots et en streaming.
La transcription audio en texte par lots et en streaming est générée au format de fichier JSON. Les champs fournis dans le résultat dépendent des fonctionnalités que vous incluez dans votre demande de transcription lors de la conversion audio. Au minimum, votre transcription contient chaque mot donné, son heure de début, son heure de fin, son type, sa correspondance avec le filtre lexical et sa note de confiance pour la vérifiabilité. Les autres champs incluent les étiquettes des haut-parleurs, les mots alternatifs, les chaînes, etc.
Transcriptions en streaming
La transcription en streaming est utilisée pour transcrire des flux audio en temps réel. Le service de transcription en streaming Amazon Transcribe prend en charge les formats audio little-endian 16 bits signés FLAC et PCM (pas WAV) en tant que formats préférés, ainsi qu’Ogg Opus. Définissez une fréquence d’échantillonnage qui correspond au fichier audio pour éviter les erreurs entre le son et le texte.
Vous pouvez utiliser la Console de gestion AWS, HTTP/2, WebSockets et divers kits AWS SDK pour diffuser des transcriptions, selon la manière dont vous souhaitez utiliser l’outil de transcription.
Une procédure pas-à-pas de transcription audio en streaming avec laConsole de gestion AWS est expliquée ci-dessous.
- Sélectionnez Transcription en temps réel dans le volet de navigation de gauche.
- Sélectionnez des options telles que la langue, l’identification de l’intervenant, la suppression du contenu et les personnalisations avant de démarrer votre diffusion.
- Cliquez sur le bouton Commencer le streaming pour enregistrer directement en temps réel et afficher le résultat qui va commencer la transcription dans la zone de résultat Transcription ci-dessous.
Une fois la conversion de l’enregistrement audio terminée, vous pouvez cliquer sur le bouton Télécharger la transcription complète pour télécharger gratuitement la transcription du fichier JSON.
Transcription de fichiers par lots
La transcription par lots est utilisée pour transcrire un ou plusieurs fichiers multimédias existants stockés dans un compartiment de stockage Amazon S3 cloud. Grâce au service par lots, vous pouvez télécharger jusqu’à 10 000 fichiers audio en file d’attente pour les traiter dans un système premier entré, premier sorti. Les tâches d’enregistrement vocal peuvent être traitées simultanément, convertissant les fichiers audio en une seule fois, en fonction de votre abonnement.
La transcription par lots prend en charge les formats FLAC et WAV (avec codage PCM 16 bits) comme formats préférés. Cependant, d’autres formats comme AMR, M4A, MP3, MP4, Ogg et WebM sont également pris en charge. Assurez-vous de définir une fréquence d’échantillonnage qui correspond au fichier audio pour éviter les erreurs entre le son et le texte.
Vous pouvez utiliser AWS CLI, la Console de gestion AWS et divers kits AWS SDK pour convertir l’audio en texte à l’aide du processus de transcription par lots.
Une procédure pas-à-pas de transcription audio par lots avec la Console de gestion AWS est expliquée ci-dessous.
- Téléchargez le fichier multimédia que vous souhaitez transcrire dans un compartiment Amazon S3.
- Sélectionnez Tâches de transcription dans le volet de navigation de gauche. Vous serez dirigé vers la liste de vos tâches de transcription.
- Sélectionnez Créer une tâche et remplissez les champs de la page Préciser les détails de la tâche.
- Une fois la tâche configurée, cliquez sur le bouton Créer une tâche pour commencer.
- Retournez à la page Tâches de transcription, où vous pouvez voir le statut de votre tâche.
- Sélectionnez le chemin de fichier lié dans la colonne de droite sous Emplacement des données de sortie pour afficher la transcription de votre fichier JSON.
Remarque : si vous avez choisi un compartiment géré par des services pour le résultat, vous pouvez voir un volet d’aperçu de la transcription sur la page d’informations de votre tâche de transcription, ainsi qu’un bouton de téléchargement pour votre fichier audio en texte JSON.
Complétez les pages suivantes lors de la configuration.
Données d’entrée
Sur la page Données d’entrée, l’emplacement du fichier d’entrée sur S3 est votre fichier audio dans le compartiment S3 existant et les Données de sortie sont un compartiment géré par le service S3 ou votre propre compartiment S3.
Configuration de la tâche
La page Configuration de la tâche vous permet de sélectionner des personnalisations telles que l’identification des chaînes, la rédaction et le filtrage du contenu, ainsi que le vocabulaire personnalisé.
Quelles sont les fonctionnalités supplémentaires de transcription ?
Amazon Transcribe propose une gamme de fonctionnalités supplémentaires permettant de créer des transcriptions plus utiles, sécurisées et précises lorsque vous convertissez des fichiers audio ou vidéo.
Vocabulaires et modèles linguistiques personnalisés
Les utilisateurs peuvent créer des vocabulaires et des modèles linguistiques personnalisés afin de saisir et de transcrire avec précision l’audio avec des noms de marque, des acronymes, des mots techniques et du jargon spécifiques au domaine. Les modèles linguistiques personnalisés profitent aux grandes organisations dotées d’écosystèmes linguistiques internes florissants ou à des secteurs techniques hautement spécialisés.
Les vocabulaires personnalisés sont des fichiers créés par les utilisateurs qui indiquent comment prononcer des mots spécifiques. Par exemple, un projet nommé VX02Q peut être ajouté à un vocabulaire personnalisé avec la prononciation V.X.-zero-two-Q.
Les modèles de langage personnalisés permettent au modèle audio en texte d’effectuer un entraînement supplémentaire sur un jeu de données existant afin de comprendre le contexte d’un langage spécifique au domaine. Par exemple, si vous entraînez votre modèle en téléchargeant du texte contenant des articles de recherche sur les sciences du climat, votre modèle peut apprendre que « banquise » est une paire de mots plus probable que « flux de glace ». De même, si vous faites référence à un produit nommé « Bzntry », un jeu de données audio comportant plusieurs mentions de « bee-zen-tree » associe automatiquement l’audio au texte de sortie.
La transcription audio en texte par lots et en streaming prend en charge les vocabulaires personnalisés et les modèles linguistiques personnalisés.
Modération automatique
Un filtre de vocabulaire personnalisé vous permet de masquer, de remplacer ou de baliser (« vocabularyFilterMatch » : true) un mot ou une combinaison de mots spécifique dans la sortie de transcription JSON.
Exemples :
- Masquer les mots profanes avec trois astérisques (***)
- Remplacer le nom secret d’un produit avant le lancement par le mot « NewProduct »
- Compter le nombre de balises étiquetées « euh » ou « j’aime » dans une transcription pour aider un orateur à perfectionner ses compétences en matière de prise de parole en public
La transcription audio en texte par lots et celle en streaming prennent toutes deux en charge les filtres de vocabulaire.
Rédaction et identification des PII
Les informations sur l’identification personnelle (PII) peuvent être automatiquement rédigées et étiquetées dans les transcriptions audio en texte. Cette fonction est importante pour le stockage d’informations sensibles dans les entreprises, car les PII peuvent être soumises à des lois de confidentialité strictes.
Les types de PII inclus dans Amazon Transcribe sont les noms, les adresses, les adresses e-mail, les numéros de téléphone, les coordonnées bancaires, les codes PIN et les numéros de sécurité sociale. Le mot du fichier JSON est remplacé par [PII] dans le corps du texte principal de votre transcription par le convertisseur audio en texte, et est compté et classé par type dans le champ JSON « rédactions ».
Sous-titrage
Amazon Transcribe permet aux utilisateurs de générer des fichiers de sous-titres WebVTT (*.vtt) et SubRip (*.srt) à associer à des vidéos, en plus du fichier JSON de sortie normal. Les sous-titres sont affichés en même temps que le texte est prononcé dans le fichier audio ou vidéo et restent visibles jusqu’à ce qu’il y ait une pause naturelle dans le son ou que l’orateur ait fini de parler.
Détection de toxicité
Amazon Transcribe peut être utilisé pour identifier et classer un langage toxique. Les contenus toxiques sont signalés et classés dans sept catégories, notamment le harcèlement sexuel, les discours de haine, les menaces, les abus, les blasphèmes, les insultes et le contenu explicite. Amazon Transcribe utilise des techniques d’identification avancées, notamment le ton et la hauteur, pour apporter un contexte supplémentaire aux conversations.
Analytique des appels
Amazon Transcribe propose une API spéciale pour le service client et les appels commerciaux. Vous pouvez l’utiliser pour obtenir des informations sur le sentiment des clients et des agents, les moteurs d’appels, les mentions de phrases, le temps passé sans conversation, les interruptions, la vitesse de conversation, la détection des problèmes en temps réel et le résumé des conversations. Amazon Transcribe peut également procéder à la rédaction des enregistrements audio après l’appel, en remplaçant les informations personnelles par le silence pour les appels enregistrés.
Transcription médicale
Amazon Transcribe propose des API conformes à la loi HIPAA qui fournissent des transcriptions audio en texte précises en langage médical à partir de fichiers audio, tout en donnant la priorité à la confidentialité et à la sécurité des données des patients. Il est utile dans les interactions entre cliniciens et patients, où la prise de notes prend du temps, est source de distraction et perturbe la conversation.
Comment AWS peut-elle répondre à vos besoins en matière de transcription audio ?
La transcription de l’audio en texte permet de passer d’une communication éphémère à une source de données stockée, consultable, analysable et extrêmement précieuse. Les organisations utilisant la reconnaissance vocale pour transcrire des fichiers audio constatent des avantages considérables en termes de productivité, de formation, de service client, de ventes, etc.
L’intégration du convertisseur audio en texte Amazon Transcribe au sein de votre organisation garantit que les enregistrements vocaux conservent leur valeur et multiplient leurs applications utiles. Découvrez la gamme de solutions d’IA proposées par AWS pour vous aider à créer et à mettre à l’échelle des applications plus rapidement et plus efficacement.