Aspectos generales

P: ¿Qué es Amazon Transcribe?

Amazon Transcribe es un servicio de AWS que facilita la conversión de voz a texto a los clientes. Con la tecnología de reconocimiento de voz automático (ASR), los clientes pueden optar por utilizar Amazon Transcribe en una variedad de aplicaciones de negocios, como la transcripción de llamadas de voz del servicio de atención al cliente, la generación en tiempo real de subtítulos en contenido de audio o video o la realización de análisis (en texto) de contenido de audio o video.  

P. ¿Cómo interactúa Amazon Transcribe con otros productos de AWS?

Amazon Transcribe convierte la entrada de audio en texto, lo cual abre las puertas a diversas aplicaciones de análisis en texto de entradas de voz. Por ejemplo, al utilizar Amazon Comprehend en los datos de texto convertidos de Amazon Transcribe, los clientes pueden llevar a cabo análisis de opiniones o extraer entidades y frases clave. Del mismo modo, al integrarlo en Amazon Translate y Amazon Polly, los clientes pueden aceptar la entrada de voz en un idioma, traducirla a otro y generar una salida de voz, posibilitando con eficacia conversaciones multiculturales. También es posible integrar Amazon Transcribe en Amazon Elasticsearch para indexar y realizar búsquedas a partir de texto en la biblioteca de audio y video. 

Uso de Amazon Transcribe

P: ¿Cómo tendrán acceso a Transcribe los desarrolladores?

La mejor manera de comenzar a usar Amazon Transcribe es enviar una tarea a través de la consola para transcribir un archivo de audio. También puede llamar al servicio directamente desde la interfaz de la línea de comandos de AWS o usar uno de los SDK compatibles de su preferencia para integrarlo en sus aplicaciones. De cualquier manera, puede empezar a usar Amazon Transcribe para generar transcripciones automáticas de archivos de audio con unas pocas líneas de código.

P. ¿Qué tipo de contenido de entrada admite Amazon Transcribe?

Amazon Transcribe admite streaming de audio de 16 kHz y 8 kHz, así como varias codificaciones de audio, incluidas WAV, MP3, MP4 y FLAC.

P. ¿Amazon Transcribe admite transcripciones en tiempo real?

Sí. Amazon Transcribe permite a los usuarios abrir un stream bidireccional mediante HTTP2. Los usuarios pueden enviar streaming de audio al servicio y recibir streaming de texto a cambio en tiempo real.  

P. ¿Qué codificación admite la transcripción en tiempo real?

La transcripción de streaming actualmente admite la codificación PCM lineal de 16 bits. 

P. ¿Qué idiomas admite Amazon Transcribe?

Para obtener información sobre los idiomas admitidos, consulte esta página de documentación

P. ¿Con qué dispositivos funciona Amazon Transcribe?

Amazon Transcribe, en su mayor parte, admite cualquier dispositivo. En general, Amazon Transcribe funciona con cualquier dispositivo que incluya un micrófono integrado, como teléfonos, ordenadores, tablets o dispositivos de IoT (por ejemplo, sistemas de audio para coche). La API de Amazon Transcribe podrá detectar la calidad de la transmisión de audio que entre en el dispositivo (8 kHz o 16 kHz) y seleccionará debidamente los modelos acústicos para convertir la voz en texto. Además, los desarrolladores pueden llamar a la API de Transcribe mediante sus aplicaciones para obtener acceso a la función de conversión de voz a texto. 

P. ¿Hay restricciones en el tamaño del contenido de audio que puede procesar Amazon Transcribe?

Las llamadas al servicio de Amazon Transcribe están limitadas a 4 horas (o 2 GB) por llamada a la API para nuestro servicio por lotes. El servicio de streaming puede alojar conexiones abiertas de hasta 4 horas de duración. 

P. ¿Qué lenguajes de programación admite Amazon Transcribe?

El servicio por lotes de Amazon Transcribe admite .NET, Go, Java, Javascript, PHP, Python y Ruby.
El servicio en tiempo real de Amazon Transcribe admite Java SDK, Ruby SDK y C++ SDK. Próximamente admitiremos SDK adicionales. Para obtener más detalles, visite la página Recursos

P. No se reconocen las palabras de mi vocabulario personalizado. ¿Qué puedo hacer?

La salida del reconocimiento de voz depende de diversos factores al margen de las entradas del vocabulario personalizado, por lo que no se puede garantizar un reconocimiento correcto a pesar de la inclusión de un término en el vocabulario personalizado.
No obstante, el motivo más frecuente es que una palabra personalizada no presente una pronunciación correcta. Si no ha proporcionado una pronunciación para una palabra personalizada, intente crearla. Si ya ha proporcionado una pronunciación, compruebe de nuevo que sea correcta o incluya otras variantes de pronunciación en caso de ser necesario. Esto se puede hacer creando varias entradas en el archivo del vocabulario personalizado con distintas variantes en el campo de pronunciación.

P. ¿Por qué veo demasiadas palabras personalizadas en la salida?

Los vocabularios personalizados están optimizados para una pequeña lista de palabras objetivo; los vocabularios más extensos pueden provocar la generación excesiva de palabras personalizadas, especialmente cuando contienen palabras que se pronuncian de forma similar. Si tiene una lista larga, intente reducirla a palabras poco frecuentes y palabras que realmente se espera que aparezcan en los archivos de audio. Si dispone de un vocabulario extenso que abarca diversos casos de uso, divídalo en listas independientes para diferentes casos de uso. Las palabras cortas que suenan parecidas a muchas otras palabras pueden provocar la generación excesiva (demasiadas palabras personalizadas en la salida). Es preferible combinar estas palabras con las palabras que las rodean e incluirlas como frases separadas por guiones. Por ejemplo, la palabra personalizada “A/D” podría incluirse como parte de una frase como “convertidor A/D”.

P. Hay dos formas de proporcionar pronunciaciones, los campos IPA (AFI) o SoundsLike (Suena como) de la tabla del vocabulario personalizado. ¿Cuál es mejor?

IPA (alfabeto fonético internacional, AFI) permite proporcionar pronunciaciones más precisas. Utilice este campo para indicar la pronunciación si puede generar AFI (por ejemplo, a partir de un glosario con pronunciaciones AFI o una herramienta de conversión online).

P. Me gustaría usar AFI, pero no soy experto en lingüística. ¿Hay alguna herramienta online que pueda usar?

Diversos diccionarios estándar, como el Oxford English Dictionary o el Cambridge Dictionary (incluidas sus versiones online) proporcionan pronunciaciones en AFI. También existen convertidores online (por ejemplo, easypronunciation.com o tophonetics.com en el caso del inglés); sin embargo, tenga en cuenta que, en la mayoría de los casos, estas herramientas se basan en diccionarios subyacentes y pueden no generar AFI correcto para algunas palabras, como los nombres propios. Amazon Transcribe no avala ninguna herramienta de terceros.

P. ¿Tengo que usar diferentes estándares AFI específicos para distintos acentos de un mismo idioma (por ejemplo, inglés británico frente a inglés estadounidense)?

Debe utilizar el estándar AFI apropiado para los archivos de audio que vaya a procesar. Por ejemplo, si espera procesar audio de hablantes británicos, utilice el estándar de pronunciación correspondiente al inglés británico. El conjunto de símbolos AFI admitidos puede diferir para los distintos idiomas y dialectos admitidos por Amazon Transcribe; asegúrese de que sus pronunciaciones contengan solo los caracteres permitidos. Podrá encontrar detalles sobre los conjuntos de caracteres de AFI en la documentación: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets.

P. ¿Cómo puedo proporcionar la pronunciación mediante el campo SoundsLike (Suena como) de la tabla del vocabulario personalizado?

Puede dividir una palabra o una frase en partes más pequeñas y proporcionar una pronunciación para cada parte mediante la ortografía estándar del idioma a fin de imitar cómo suena la palabra. Por ejemplo, en inglés, puede proporcionar una sugerencia de pronunciación para la frase Los-Angeles de la siguiente forma: loss-ann-gel-es. La sugerencia para la palabra Etienne sería: eh-tee-en. Cada parte de la sugerencia se separa con un guion (-). Se pueden utilizar todos los caracteres admitidos para el idioma de entrada.

P. ¿Cómo funcionan las dos formas de proporcionar acrónimos (con puntos y sin puntos pero con pronunciaciones)?

Si utiliza un acrónimo que contiene puntos, se genera de forma interna la pronunciación para deletrearlo. Si no se emplean puntos, proporcione la pronunciación en el campo de pronunciación. En el caso de algunos acrónimos, no resulta obvio si se deletrean o se pronuncian como una palabra (por ejemplo, en inglés, NATO se suele pronunciar “n eɪ t oʊ” (nay-toh) en lugar de “ɛn eɪ ti oʊ” (N. A. T. O.)).

P. ¿Dónde puedo encontrar ejemplos sobre cómo usar las pronunciaciones personalizadas?

Encontrará ejemplos y formatos de entrada de muestra en la documentación: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

P. ¿Qué ocurre si utilizo AFI incorrecto? En caso de duda, ¿es preferible no introducir AFI?

El sistema utilizará la pronunciación que proporcione; esto debería aumentar las probabilidades de que la palabra se reconozca correctamente si la pronunciación es correcta y coincide con lo que se dice. Si no está seguro de estar generando AFI correcto, compare el procesamiento de sus archivos de audio con un vocabulario que contenga sus pronunciaciones AFI y con un vocabulario que solo contenga las palabras (y, opcionalmente, formas de tipo “mostrar como”). Si no proporciona pronunciaciones, el servicio utilizará una aproximación, que puede ser mejor o peor que lo que usted proporcione.

P. Si utilizo formas DisplayAs (Mostrar como), ¿puedo mostrar conjuntos de caracteres no relacionados con el idioma original que se transcribe (por ejemplo, que la salida de “Street” sea “街道“)?

Sí. Aunque las frases solo pueden usar un conjunto de caracteres limitado para el idioma concreto, se permiten caracteres UTF-8 aparte del carácter \t (tabulación) en la columna DisplayAs (Mostrar como).

Precios y disponibilidad

P: ¿Cuánto cuesta el servicio?

Consulte la página de precios de Amazon Transcribe para obtener más información.

P. ¿En qué regiones de AWS está disponible Amazon Transcribe?

Consulte la tabla de regiones de la infraestructura global de AWS.

Privacidad de datos

P: ¿Las entradas de voz que procesa Amazon Transcribe se almacenan? ¿Cómo los utiliza AWS?

Es posible que Amazon Transcribe almacene y use entradas de voz procesadas por el servicio únicamente para suministrar y mantener el servicio y para mejorar y desarrollar la calidad de Amazon Transcribe y otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon. El uso de su contenido es importante para la mejora continua de su experiencia como cliente de Amazon Transcribe, incluidos el desarrollo y el entrenamiento de tecnologías relacionadas. No utilizamos información con datos personales que pudiera estar incluida en el contenido para venderle a usted o a sus usuarios finales productos o servicios, ni para campañas de marketing. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Para obtener más información, consulte https://aws.amazon.com/compliance/data-privacy-faq/. Puede deshabilitar el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon si se pone en contacto con AWS Support.

P. ¿Puedo eliminar entradas de voz almacenadas por Amazon Transcribe?

Sí. Puede solicitar la eliminación de entradas de voz asociadas con su cuenta contactando con AWS Support. La eliminación de las entradas de voz podría influir negativamente en su experiencia de Amazon Transcribe.

P. ¿Quién tiene acceso al contenido que se procesa y almacena en Amazon Transcribe?

Solo los empleados autorizados tendrán acceso a su contenido procesado por Amazon Transcribe. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Para obtener más información, consulte https://aws.amazon.com/compliance/data-privacy-faq/.

P. ¿Continuaré siendo el propietario del contenido que se procese y almacene en Amazon Transcribe?

Siempre conservará la titularidad del contenido, que se utilizará únicamente con su consentimiento.

P. ¿El contenido que procesa Amazon Transcribe se traslada fuera de la región de AWS en la que estoy usando Amazon Transcribe?

Todo el contenido que se procesa con Amazon Transcribe se cifra y almacena en reposo en la región de AWS en la que se está usando Amazon Transcribe. Es posible que una parte del contenido procesado por Amazon Transcribe se almacene en otra región de AWS únicamente en relación con la mejora y el desarrollo continuos de su experiencia como cliente de Amazon Transcribe y otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon. Si deshabilita el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon poniéndose en contacto con AWS Support, su contenido no se almacenará en otra región de AWS. Puede solicitar la eliminación de entradas de voz asociadas con su cuenta si se pone en contacto con AWS Support. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Para obtener más información, consulte https://aws.amazon.com/compliance/data-privacy-faq/.

P. ¿Puedo utilizar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos para niños menores de 13 años y sujetos a la Ley de protección de la privacidad de los niños online (COPPA)?

Sí, sujeto al cumplimiento de los Términos de Servicio de Amazon Transcribe, incluida su obligación de proporcionar cualquier aviso requerido y obtener cualquier consentimiento verificable de los padres según COPPA, puede usar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos, en todo o en parte, para niños menores de 13 años.

P. ¿Cómo puedo determinar si mi sitio web, programa o aplicación está sujeto a la ley COPPA?

A fin de obtener información sobre los requisitos de la ley COPPA y sus directrices para determinar si su sitio web, programa u otra aplicación está sujeto a la ley COPPA, consulte directamente los recursos proporcionados y mantenidos por la Comisión Federal de Comercio de Estados Unidos. Este sitio también contiene información sobre cómo determinar si un servicio está dirigido o concebido, en todo o en parte, para niños menores de 13 años.

Más información sobre los precios de Amazon Transcribe

Visite la página de precios
¿Listo para comenzar?
Prueba la consola de Amazon Transcribe
¿Tiene más preguntas?
Contacte con nosotros