Información general

Amazon Transcribe permite a los clientes de AWS agregar capacidades de conversión de voz a texto en sus aplicaciones habilitadas para voz. Mediante la tecnología de reconocimiento automático de voz (ASR), los clientes pueden utilizar Amazon Transcribe para diversas aplicaciones empresariales. Las características que ofrece el servicio incluyen el reconocimiento automático de voz, la diarización de los hablantes, la supresión de información de identificación personal (PII) y la identificación del idioma. Consulte la documentación para obtener más detalles. Esta tarjeta de servicio de IA describe una de estas características, Transcribe: lote (en inglés de EE. UU.), implementada por la API Transcribe::StartTranscriptionJob. Esta característica ejecuta el ASR en la región de inglés de EE. UU. con un ancho de banda bajo (8 kHz) o alto (16 kHz). Funciona con la voz grabada que está disponible en un archivo de audio estático (modo por lotes). Para observar el ASR casi en tiempo real en una transmisión multimedia, consulte la API Transcribe::StartStreamTranscription.

Para evaluar la calidad de Transcribe Speech, controlamos en qué medida las palabras de una transcripción de ASR coinciden con las palabras pronunciadas en la muestra de voz, tal como las transcribió un oyente humano. Cuando un orador dice: “Este sistema puede reconocer muy bien el habla”, esperamos que la transcripción contenga las palabras pronunciadas, no “Este sistema puede retener a un tren que anda”. Pueden aparecer tres tipos de errores en una transcripción: sustituciones (como reconocer por “retener”), inserciones (palabras adicionales como “a”) y eliminaciones (palabras faltantes, como “bien”). Las palabras que se transcriben de forma correcta se denominan aciertos. Las métricas de calidad, como la precisión, el recuerdo, la F1 y la tasa de errores de palabras (WER), dependen de la cantidad de aciertos y errores.

Existen varios factores que afectan a la precisión de cualquier sistema de ASR. La señal de audio de entrada consiste en la propia voz, modificada por una variedad de factores de confusión. Las palabras y expresiones individuales difieren de un hablante a otro en la frecuencia con la que se usan, en la forma en que se pronuncian y en la forma en que se combinan con otras palabras. Es posible que las palabras que difieren en ortografía y significado no difieran en sonido. Los hablantes pueden superponerse o interrumpirse entre sí. Los dispositivos de grabación difieren en calidad y posición en relación con el hablante (por ejemplo, campo lejano frente a campo cercano). Los entornos de grabación difieren en el nivel de ruido de fondo, la susceptibilidad al eco y la presencia de otros hablantes. El nivel de ruido de las líneas de transmisión varía. Transcribe está diseñado para distinguir entre el audio de diferentes palabras e ignorar las variaciones confusas.

Casos de uso previstos y limitaciones

Transcribe: lote (en inglés de EE. UU.) está diseñado para usarse en muestras de audio que contienen voz humana natural. No está diseñado para voces transformadas de forma mecánica o digital, ni para voces sintéticas. Su propósito es transcribir palabras del inglés estadounidense; consulte Supported languages and language-specific features para ver la lista completa de regiones e idiomas. Transcribe admite un amplio vocabulario de uso general; los clientes pueden agregar vocabularios y modelos lingüísticos personalizados para abarcar palabras y frases de dominios especializados. Transcribe admite la partición de altavoces, también conocida como diarización. Se pueden identificar hasta 10 altavoces únicos habilitando la partición de altavoces en la llamada a la API.

Transcribe - Lote (en inglés de EE. UU.) tiene muchas aplicaciones posibles, como el análisis de los centros de contacto (sentimiento, categorización y velocidad de conversación), la transcripción de correos de voz, la subtitulación de reuniones, la subtitulación de contenido multimedia (audio o video) y la búsqueda, el análisis y el análisis de palabras clave para contenido multimedia, lo que incluye la catalogación o indexación de archivos multimedia. El diseño de estas aplicaciones varía según 1/ el número de hablantes, 2/ el número de hablantes por canal (es decir, por dispositivo de grabación, como una computadora portátil o un teléfono móvil), 3/ el estilo de habla empleado por los hablantes, 4/ las condiciones de grabación (como la ubicación y el equipo) y otros factores. Por ejemplo, una aplicación de transcripción de un centro de contacto puede esperar dos hablantes, un por cada canal, grabación de campo cercano (con la boca del hablante cerca del micrófono) y un alto nivel de ruido de fondo, tanto del entorno doméstico de la persona que llama como del entorno de trabajo del operador del centro de contacto. Otro ejemplo es una aplicación para subtitular videos instructivos, un punto de entrada al análisis de medios, la indexación y la búsqueda. Esta aplicación esperaría a varios hablantes; un canal de audio compartido entre todos los hablantes; una voz guionada con menos palabras de relleno, pausas y disfluencias, pero con más jerga de dominios específicos, niveles más bajos de ruido de fondo y otras oclusiones de audio.

Diseño de Transcribe: lote (en inglés de EE. UU.)

Machine learning: Transcribe se creó con tecnología de ML y de ASR. Funciona de la siguiente manera: (1) Identifica las características acústicas relevantes de la entrada de audio. (2) Genera un conjunto de cadenas candidatas a nivel de palabra, en función de estas características. (3) Aplica los modelos lingüísticos para clasificar a las palabras candidatas y devolver la transcripción mejor clasificada. Consulte la documentación para desarrolladores para obtener más información sobre las llamadas a la API.

Expectativas de rendimiento: las variaciones individuales y de confusión diferirán entre las aplicaciones del cliente. Esto significa que el rendimiento también diferirá entre las aplicaciones, incluso si admiten el mismo caso de uso. Considere dos aplicaciones de transcripción A y B. La aplicación A permite subtitular videos para un programa de entrevistas de televisión y tiene varias voces por canal de grabación, micrófonos tipo boom de alta calidad y un ruido de fondo insignificante. La aplicación B ayuda a los centros de contacto a grabar las llamadas de los clientes y los clientes hablan cerca del micrófono, una voz por canal de grabación y diálogos con los clientes sin guion. Dado que A y B tienen diferentes tipos de entradas, es probable que tengan tasas de error diferentes, incluso si suponemos que cada aplicación se despliega de forma perfecta con Transcribe.

Metodología basada en pruebas: utilizamos varios conjuntos de datos para evaluar el rendimiento. Ningún conjunto de datos de evaluación proporciona una imagen absoluta del rendimiento. Esto se debe a que los conjuntos de datos de evaluación varían según su composición demográfica (la cantidad y el tipo de grupos definidos), la cantidad de variaciones de confusión (calidad del contenido, adecuación para el propósito), los tipos y la calidad de las etiquetas disponibles y otros factores. Medimos el rendimiento de Transcribe con pruebas en conjuntos de datos de evaluación que contienen grabaciones de audio de una variedad de hablantes que son representativos de la población de usuarios finales, donde cada grabación está etiquetada con las transcripciones basadas en la verdad y los atributos demográficos del hablante. Representamos el rendimiento general de un conjunto de datos mediante varias métricas, lo que incluye la tasa de errores de palabras y la F1, un porcentaje que equilibra de manera uniforme el porcentaje de palabras predichas que son correctas (precisión) con el porcentaje de palabras correctas que se incluyen en la predicción (recordar). Los grupos de un conjunto de datos se pueden definir mediante atributos demográficos (como el sexo, la edad y la raza) o variables de confusión (como los diferentes equipos de grabación, la distancia de cada hablante respecto del equipo de grabación, el posprocesamiento y los ruidos de fondo) o una combinación de ambos. Los diferentes conjuntos de datos de evaluación varían según estos y otros factores. Debido a esto, todas las métricas, tanto generales como de grupos, varían de un conjunto de datos a otro. Teniendo en cuenta esta variación, nuestro proceso de desarrollo examina el rendimiento de Transcribe mediante varios conjuntos de datos de evaluación, toma medidas para aumentar la precisión en los grupos en los que tuvo un desempeño inferior al esperado, trabaja para mejorar el grupo de conjuntos de datos de evaluación y, a continuación, repite.

Equidad y sesgo: nuestro objetivo es que Transcribe - Lote (en inglés de EE. UU.) funcione bien para los hablantes de inglés estadounidense en la variedad de pronunciaciones, entonaciones, vocabularios y características gramaticales que puedan utilizar estos hablantes. Consideramos las comunidades de hablantes definidas por regiones, como el Medio Oeste o la ciudad de Nueva York, y las comunidades definidas por múltiples dimensiones de identidad, lo que incluye la raza, la edad y el género. Para lograrlo, utilizamos el proceso de desarrollo iterativo descrito anteriormente. Como parte de este proceso, creamos conjuntos de datos para capturar una amplia gama de hablantes humanos con una amplia gama de factores de confusión. Hacemos pruebas rutinarias en conjuntos de datos para los que tenemos etiquetas demográficas confiables. Descubrimos que Transcribe funciona bien para todos los atributos demográficos. Por ejemplo, en un conjunto de datos de habla natural con 65 grupos demográficos, definidos por edad, ascendencia, género y dialecto regional (como mujer+europea, masculino+menor de 45 años), encontramos que la precisión del reconocimiento de palabras F1 es del 92 % o más para cada grupo de hablantes. Para las transcripciones con la división de altavoces (diarización) habilitada, en el mismo conjunto de datos encontramos que la precisión de la diarización es del 98 % o más para cada grupo de hablantes. Como los resultados dependen de Transcribe, del flujo de trabajo del cliente y del conjunto de datos de evaluación, recomendamos que los clientes también prueben Transcribe en su propio contenido.

Explicabilidad: cuando Amazon Transcribe transcribe audio, crea diferentes versiones de la misma transcripción y asigna una puntuación de confianza a cada versión. Si los clientes habilitan transcripciones alternativas, Amazon Transcribe devuelve versiones alternativas de la transcripción que tienen niveles de confianza más bajos. Los clientes pueden explorar transcripciones alternativas para obtener más información sobre las palabras y frases candidatas que se generaron para cada entrada de audio.

Robustez: maximizamos la robustez con una serie de técnicas, lo que incluye el uso de grandes conjuntos de datos de entrenamiento que capturan diversos tipos de variaciones entre muchas personas. Las entradas de audio ideales para el ASR de Transcribe contienen audio con alta calidad de grabación, bajo ruido de fondo y baja reverberación ambiental. Sin embargo, Transcribe está entrenado para ser resiliente incluso cuando las entradas difieren de las condiciones ideales y puede funcionar bien en entornos ruidosos y con varios hablantes.

Privacidad y seguridad: Amazon Transcribe solo procesa los datos de entrada de audio. Las entradas de audio nunca se incluyen en los resultados devueltos por el servicio. Las entradas y los resultados nunca se comparten entre los clientes. Los clientes pueden optar por no recibir formación sobre el contenido de los clientes a través de AWS Organizations u otros mecanismos de exclusión que proporcionemos. Consulte la sección 50.3 de las condiciones de servicio de AWS y las preguntas frecuentes sobre privacidad de datos de AWS para obtener más información. Para obtener información sobre privacidad y seguridad específica del servicio, consulte la sección Privacidad de datos de las preguntas frecuentes de Transcribe y la documentación de Seguridad de Amazon Transcribe.

Transparencia: cuando sea apropiado para su caso de uso, se recomienda a los clientes que incorporan Amazon Transcribe en su flujo de trabajo que divulguen el uso de la tecnología de ML y de ASR a sus usuarios finales y a otras personas afectadas por la aplicación y a ofrecerles la posibilidad de proporcionar comentarios para mejorar los flujos de trabajo. En su documentación, los clientes también pueden hacer referencia a esta tarjeta de servicio de IA.

Gobernanza: contamos con metodologías rigurosas para desarrollar nuestros servicios de IA de AWS de manera responsable, lo que incluye un proceso de desarrollo de productos retroactivo que incorpora la IA responsable en la fase de diseño, consultas de diseño y evaluaciones de implementación a cargo de expertos en datos y ciencia de IA responsables y dedicados, pruebas de rutina, revisiones con los clientes y desarrollo, difusión y entrenamiento de las prácticas recomendadas.

Prácticas recomendadas de despliegue y optimización del rendimiento

Alentamos a los clientes a crear y operar sus aplicaciones de manera responsable, tal como se describe en la guía Responsible Use of Machine Learning de AWS. Esto incluye la implementación de prácticas de IA responsables para abordar dimensiones fundamentales como la equidad y el sesgo, la robustez, la explicabilidad, la privacidad y la seguridad, la transparencia y la gobernanza.
 
Diseño del flujo de trabajo: el rendimiento de cualquier aplicación que utilice Transcribe depende del diseño del flujo de trabajo del cliente. Condiciones como el ruido de fondo, el equipo de grabación y otras se describen en la sección Casos de uso previstos. Según la aplicación, los clientes de Transcribe pueden optimizar estas condiciones, ya que definen el flujo de trabajo en el que se captura el audio de los usuarios finales. Transcribe proporciona características para que los clientes optimicen su rendimiento de reconocimiento dentro de la API. Estas características incluyen las condiciones de grabación, las frecuencias de muestreo, los vocabularios personalizados, los modelos lingüísticos personalizados y el filtrado de vocabulario o información de identificación personal (PII). La supervisión humana, la coherencia del flujo de trabajo y las pruebas periódicas para detectar desviaciones en el rendimiento también son consideraciones fundamentales que están bajo el control de los clientes y que contribuyen a obtener resultados precisos y justos.
 
  1. Condiciones de grabación: los flujos de trabajo deben incluir medidas para abordar las variaciones en las condiciones de grabación, como hablar lejos del micrófono o en condiciones ruidosas. Si la variación es alta, considere la posibilidad de proporcionar ayuda e instrucciones a las que puedan acceder todos los usuarios finales y supervisar la calidad de la grabación por medio del muestreo periódico y aleatorio de las entradas.

  2. Frecuencias de muestreo: los clientes tienen un parámetro opcional para especificar la frecuencia de muestreo de su audio de entrada, ya sean entradas con un ancho de banda bajo (8 kHz) o alto (16 kHz).

  3. Vocabularios personalizados: Transcribe reconoce el vocabulario utilizado en una variedad de comunidades de hablantes (regiones dialectales y grupos demográficos). En los casos en que los clientes deseen proporcionar soporte adicional para palabras específicas de su dominio o situación, como nombres de marcas o nombres propios y acrónimos, los clientes pueden desplegar vocabularios personalizados para mejorar la precisión de la transcripción de dichas palabras. Para obtener más información, consulte la documentación de Custom Vocabularies.

  4. Modelos lingüísticos personalizados: cuando una aplicación del cliente debe gestionar el habla específica de un dominio, que es más compleja que solo palabras individuales, los clientes pueden utilizar modelos lingüísticos personalizados para mejorar la precisión de la transcripción. Por ejemplo, al transcribir grabaciones de charlas sobre ciencias del clima, es posible aumentar la precisión de la transcripción al aprender el contexto en el que aparecen las palabras (como “flujo de hielo” frente a “témpano de hielo”). En este caso, los clientes pueden entrenar un modelo de lenguaje personalizado para reconocer los términos especializados. Para obtener más información, consulte la documentación de los Custom Language Models.

  5. Filtrado de vocabulario y supresión de PII: estas optimizaciones pueden mejorar la seguridad y la privacidad del idioma que se produce en las transcripciones. El filtrado de vocabulario permite a los clientes enmascarar o eliminar palabras delicadas o inadecuadas para su audiencia de los resultados de la transcripción, basándose en una lista definida por el cliente. La supresión de PII permite a los clientes generar una transcripción en la que se ha eliminado la PII, en función de los tipos de PII que Transcribe: lote (en inglés de EE. UU.) identifica. Estos tipos de PII incluyen nombre, dirección, número de tarjeta de crédito y número de seguro social, entre otros. Para obtener más información, incluida una lista completa de los tipos de PII y las consideraciones sobre el uso de la supresión de PII para cargas de trabajo reguladas, consulte la documentación sobre Filtro de vocabulario y Redacción de PII.

  6. Supervisión humana: si el flujo de trabajo de la aplicación de un cliente implica un caso de uso delicado o de alto riesgo, como una decisión que afecta los derechos de una persona o su acceso a los servicios esenciales, recomendamos incorporar la revisión humana en el flujo de trabajo de la aplicación cuando corresponda. Los sistemas de ASR pueden servir como herramientas para reducir el esfuerzo que implican las soluciones manuales por completo y para permitir que los humanos revisen y evalúen con rapidez el contenido del audio.

  7. Coherencia: los clientes deben establecer y aplicar políticas sobre los tipos de personalización del flujo de trabajo y las entradas de audio permitidas y sobre la forma en que las personas utilizan su propio juicio para evaluar los resultados de Transcribe. Estas políticas deben ser consistentes en los grupos demográficos. La modificación incoherente de las entradas de audio podría provocar resultados injustos para diferentes grupos demográficos.

  8. Desviación del rendimiento: un cambio en los tipos de audio que un cliente envía a Transcribe o un cambio en el servicio pueden generar resultados diferentes. Para abordar estos cambios, los clientes deben considerar la posibilidad de volver a probar de forma periódica el rendimiento de Transcribe y ajustar su flujo de trabajo si es necesario.

Más información

Glosario

La equidad y el sesgo se refieren a la forma en la que un sistema de IA afecta a las diferentes subpoblaciones de usuarios (por ejemplo, por género o etnia).

La explicabilidad se refiere a disponer de mecanismos para comprender y evaluar los resultados de un sistema de IA.

La robustez se refiere a disponer de mecanismos para garantizar que un sistema de IA funcione de manera confiable.

La privacidad y la seguridad se refieren a la protección de los datos contra el robo y su exposición.

La gobernanza se refiere a disponer de procesos para definir, implementar y hacer cumplir prácticas responsables de IA dentro de una organización.

La transparencia se refiere a la comunicación de la información sobre un sistema de IA para que las partes interesadas puedan tomar decisiones informadas sobre el uso que hacen del sistema.