Aspectos generales

P: ¿Qué es Amazon Transcribe?

Amazon Transcribe es un servicio de inteligencia artificial (IA) de AWS que facilita la conversión de voz a texto. Con la tecnología de reconocimiento de voz automático (ASR), puede utilizar Amazon Transcribe en una variedad de aplicaciones de negocios, como la transcripción de llamadas de voz del servicio de atención al cliente, la generación en tiempo real de subtítulos en contenido de audio o video o la realización de análisis (en texto) de contenido de audio o video.  

P: ¿Cómo interactúa Amazon Transcribe con otros productos de AWS?

Amazon Transcribe convierte la entrada de audio en texto, lo cual abre las puertas a diversas aplicaciones de análisis en texto de entradas de voz. Por ejemplo, al utilizar Amazon Comprehend en los datos de texto convertidos de Amazon Transcribe, puede llevar a cabo análisis de opiniones o extraer entidades y frases clave. Del mismo modo, al integrarlo en Amazon Translate y Amazon Polly, puede aceptar la entrada de voz en un idioma, traducirla a otro y generar una salida de voz, lo que posibilita eficazmente las conversaciones multiculturales. También es posible integrar Amazon Transcribe en Amazon Kendra o Amazon OpenSearch para indexar y hacer búsquedas a partir de texto en la biblioteca de audio y video. Para obtener más información, consulte las soluciones de análisis de llamadas en vivo y asistencia a los agentes, análisis posterior a la llamada, MediaSearch o análisis de contenido.

P: ¿Qué más debo saber antes de usar Amazon Transcribe?

Amazon Transcribe está diseñado para manejar una amplia gama de características de habla y acústicas, incluidas las variaciones de volumen, tono y velocidad de habla. La calidad y el contenido de la señal de audio (incluidos, entre otros, factores como ruido de fondo, altavoces superpuestos, voz acentuada o cambios de idiomas dentro de un solo archivo de audio) pueden afectar la precisión de la salida del servicio. Actualizamos constantemente el servicio para mejorar su capacidad de acomodar variaciones acústicas adicionales y tipos de contenido.

Uso de Amazon Transcribe

P: ¿Cómo tendrán acceso a Amazon Transcribe los desarrolladores?

La mejor manera de comenzar es enviar una tarea a través de la consola para transcribir un archivo de audio. También puede llamar al servicio directamente desde la Interfaz de la línea de comandos de AWS o usar uno de los SDK compatibles de su preferencia para integrarlo en sus aplicaciones. De cualquier manera, puede empezar a usar Amazon Transcribe para generar transcripciones automáticas de archivos de audio con unas pocas líneas de código.

P. ¿Amazon Transcribe admite transcripciones en tiempo real?

Sí. Amazon Transcribe le permite abrir un flujo bidireccional mediante HTTP2. Puede enviar streaming de audio al servicio y recibir streaming de texto a cambio en tiempo real. Consulte la página de documentación para obtener más detalles.

P: ¿Qué codificación admite la transcripción en tiempo real?

Los tipos de formato multimedia admitidos difieren entre las transcripciones por lotes y las transcripciones en streaming, aunque en ambos casos se recomiendan los formatos sin pérdidas. Consulte la página de documentación para obtener más detalles.

P: ¿Qué idiomas admite Amazon Transcribe?

Para obtener más información sobre los idiomas admitidos, consulte esta página de documentación.

P. ¿Con qué dispositivos funciona Amazon Transcribe?

Amazon Transcribe, en su mayor parte, admite cualquier dispositivo. En general, funciona con cualquier dispositivo que incluya un micrófono integrado, como teléfonos, computadoras, tablets o dispositivos de IoT (por ejemplo, sistemas de audio para coche). La API de Amazon Transcribe podrá detectar la calidad de la transmisión de audio que entre en el dispositivo (8 kHz o 16 kHz) y seleccionará debidamente los modelos acústicos para convertir la voz en texto. Además, los desarrolladores pueden llamar a la API de Amazon Transcribe mediante sus aplicaciones para obtener acceso a la función de conversión de voz a texto.

P: ¿Hay restricciones en el tamaño del contenido de audio que puede procesar Amazon Transcribe?

Las llamadas al servicio de Amazon Transcribe están limitadas a cuatro horas (o 2 GB) por llamada a la API para nuestro servicio por lotes. El servicio de streaming puede alojar conexiones abiertas de hasta cuatro horas de duración.

P: ¿Qué lenguajes de programación admite Amazon Transcribe?

El servicio por lotes de Amazon Transcribe admite .NET, Go, Java, JavaScript, PHP, Python y Ruby. El servicio en tiempo real de Amazon Transcribe admite Java SDK, Ruby SDK y C++ SDK. Próximamente admitiremos SDK adicionales. Para obtener más detalles, visite la página de recursos y documentación.

P: No se reconocen las palabras de mi vocabulario personalizado. ¿Qué puedo hacer?

La salida del reconocimiento de voz depende de diversos factores al margen de las entradas del vocabulario personalizado, por lo que no se puede garantizar un reconocimiento correcto a pesar de la inclusión de un término en el vocabulario personalizado. No obstante, el motivo más frecuente es que una palabra personalizada no presente una pronunciación correcta. Si no ha proporcionado una pronunciación para una palabra personalizada, intente crearla. Si ya ha proporcionado una pronunciación, compruebe de nuevo que sea correcta o incluya otras variantes de pronunciación en caso de ser necesario. Esto se puede hacer creando varias entradas en el archivo del vocabulario personalizado con distintas variantes en el campo de pronunciación. Consulte la documentación sobre el vocabulario personalizado para obtener información adicional.

P: ¿Por qué veo demasiadas palabras personalizadas en la salida?

Los vocabularios personalizados están optimizados para una pequeña lista de palabras objetivo; los vocabularios más extensos pueden provocar la generación excesiva de palabras personalizadas, especialmente cuando contienen palabras que se pronuncian de forma similar. Si tiene una lista larga, intente reducirla a palabras poco frecuentes y palabras que realmente se espera que aparezcan en los archivos de audio. Si dispone de un vocabulario extenso que abarca diversos casos de uso, divídalo en listas independientes para diferentes casos de uso. Las palabras cortas que suenan parecidas a muchas otras palabras pueden provocar la generación excesiva (demasiadas palabras personalizadas en la salida). Es preferible combinar estas palabras con las palabras que las rodean e incluirlas como frases separadas por guiones. Por ejemplo, la palabra personalizada “A/D” podría incluirse como parte de una frase como “convertidor A/D”.

P: Hay dos formas de proporcionar pronunciaciones, los campos IPA (AFI) o SoundsLike (Suena como) de la tabla del vocabulario personalizado. ¿Cuál es mejor?

IPA (alfabeto fonético internacional, AFI) permite proporcionar pronunciaciones más precisas. Utilice este campo para indicar la pronunciación si puede generar AFI (por ejemplo, a partir de un glosario con pronunciaciones AFI o una herramienta de conversión en línea).

P: Me gustaría usar AFI, pero no soy experto en lingüística. ¿Hay alguna herramienta en línea que pueda usar?

Diversos diccionarios estándar, como el Oxford English Dictionary o el Cambridge Dictionary (incluidas sus versiones en línea) proporcionan pronunciaciones en AFI. También existen convertidores en línea (por ejemplo, easypronunciation.com o tophonetics.com en el caso del inglés); sin embargo, tenga en cuenta que, en la mayoría de los casos, estas herramientas se basan en diccionarios subyacentes y pueden no generar el AFI correcto para algunas palabras, como los nombres propios. Amazon Transcribe no avala ninguna herramienta de terceros.

P: ¿Tengo que usar diferentes estándares AFI específicos para distintos acentos de un mismo idioma (por ejemplo, inglés británico frente a inglés estadounidense)?

Debe usar el estándar AFI adecuado para los archivos de audio que vaya a procesar. Por ejemplo, si espera procesar audio de hablantes de inglés británico, use el estándar de pronunciación de esta variante. El conjunto de símbolos AFI admitidos puede diferir para los distintos idiomas y dialectos admitidos por Amazon Transcribe; asegúrese de que sus pronunciaciones contengan solo los caracteres permitidos. Encontrará más información sobre los juegos de caracteres AFI en la documentación: Custom Vocabularies (Vocabularios personalizados).

P: ¿Cómo puedo proporcionar la pronunciación mediante el campo SoundsLike (Suena como) de la tabla del vocabulario personalizado?

Puede dividir una palabra o una frase en partes más pequeñas y proporcionar una pronunciación para cada parte mediante la ortografía estándar del idioma a fin de imitar cómo suena la palabra. Por ejemplo, en inglés, puede proporcionar una sugerencia de pronunciación para la frase Los-Angeles de la siguiente forma: loss-ann-gel-es. La sugerencia para la palabra Etienne sería: eh-tee-en. Cada parte de la sugerencia se separa con un guion (-). Se pueden utilizar todos los caracteres admitidos para el idioma de entrada. Para más información, visite la página Custom Vocabularies (Vocabularios personalizados).

P: ¿Cómo funcionan las dos formas de proporcionar acrónimos (con puntos y sin puntos pero con pronunciaciones)?

Si utiliza un acrónimo que contiene puntos, se genera de forma interna la pronunciación para deletrearlo. Si no se emplean puntos, proporcione la pronunciación en el campo de pronunciación. En el caso de algunos acrónimos, no es obvio si tienen una pronunciación ortográfica o una pronunciación parecida a una palabra. Por ejemplo, OTAN, en inglés, suele pronunciarse “n eɪ t oʊ” (nay-toh) en lugar de “ɛn eɪ ti oʊ” (N. A. T. O.). Para más información, visite la página Custom Vocabularies (Vocabularios personalizados).

P: ¿Dónde puedo encontrar ejemplos sobre cómo usar las pronunciaciones personalizadas?

En esta documentación puede encontrar muestras de formatos de entrada y ejemplos.

P: ¿Qué ocurre si utilizo AFI incorrecto? En caso de duda, ¿es preferible no introducir AFI?

El sistema utilizará la pronunciación que proporcione; esto debería aumentar las probabilidades de que la palabra se reconozca correctamente si la pronunciación es correcta y coincide con lo que se dice. Si no está seguro de estar generando AFI correcto, compare el procesamiento de sus archivos de audio con un vocabulario que contenga sus pronunciaciones AFI y con un vocabulario que solo contenga las palabras (y, opcionalmente, formas de tipo “mostrar como”). Si no proporciona pronunciaciones, el servicio utilizará una aproximación, que puede ser mejor o peor que lo que usted proporcione.

P: Si utilizo formas DisplayAs (Mostrar como), ¿puedo mostrar conjuntos de caracteres no relacionados con el idioma original que se transcribe (por ejemplo, que la salida de “Street” sea “街道”)?

Sí. Aunque las frases solo pueden usar un conjunto de caracteres limitado para el idioma concreto, se permiten caracteres UTF-8 aparte del carácter \t (TAB) en la columna DisplayAs (Mostrar como).

P: ¿Está disponible la redacción automática de contenido o la redacción de información de identificación personal (PII) con las API de Transcribe, tanto por lotes como por streaming?

Sí, Amazon Transcribe admite la redacción automática de contenido o la redacción de PII tanto para las API por lotes como para las de streaming.

P: ¿Qué idiomas se admiten para la redacción automática de contenido o la identificación y redacción de PII?

Consulte la documentación de Amazon Transcribe para obtener información sobre la disponibilidad de idiomas de la redacción automática de contenido o la redacción de PII.

P: ¿La redacción de contenido automático también redacta información personal confidencial del audio fuente?

No, esta característica no extrae la información personal confidencial del audio de origen. Sin embargo, Amazon Transcribe Call Analytics elimina la información personal confidencial tanto de las transcripciones como del audio de origen. Visite este enlace para obtener más detalles sobre cómo Call Analytics puede redactar el audio. También puede redactar la información personal del audio de origen mediante las marcas temporales de inicio y final que se ofrecen en las transcripciones redactadas para cada instancia de un enunciado de información de identificación personal encontrado. Consulte esta solución de redacción de audio para las API estándar de Transcribe.

Sin embargo, las API especializadas de Amazon Transcribe Call Analytics eliminan la información personal confidencial tanto de las transcripciones como del audio de origen. Para obtener más información, consulte la documentación sobre redacción de audio de Call Analytics.

P: ¿Puedo utilizar la redacción de contenido automático para redactar información personal de las transcripciones de texto existentes?

No, la redacción de contenido automática solo funciona en archivos de audio como entrada.

P: ¿Qué más debo saber antes de utilizar la redacción de contenido automática?

La redacción de contenido automática se diseñó con el objetivo de identificar y extraer información de identificación personal (PII), pero debido a la naturaleza predictiva del machine learning, puede que no identifique ni extraiga todas las instancias de la PII en una transcripción generada por el servicio. Se recomienda que revise todos los resultados de la redacción automática de contenido para asegurarse de que respondan a sus necesidades.

P: ¿Existe alguna diferencia entre la redacción automática de contenido para las API de streaming y por lotes?

Sí, hay dos capacidades adicionales que admite la redacción automática de contenido para la API de streaming que no admite la API por lotes. Cuando utilice la redacción de contenido con la API de streaming, puede decidir identificar solo la PII y no redactar. También tiene la capacidad de identificar o redactar tipos específicos de PII con la API de streaming. Por ejemplo, puede redactar solo el número de seguridad social y la información de la tarjeta de crédito y mantener otros datos personales, como los nombres y las direcciones de correo electrónico.

P: ¿En qué regiones de AWS está disponible la redacción automática de contenido o la redacción de PII?

Consulte la documentación de Amazon Transcribe para obtener información sobre la disponibilidad de idiomas de la redacción automática de contenido o la redacción de PII para las API por lote y de streaming en las regiones de AWS.

P: ¿Qué tipos de API admiten la identificación automática de idiomas?

Actualmente, las API por lotes y de streaming admiten la identificación automática de idiomas.

P: ¿Qué idiomas puede identificar automáticamente Amazon Transcribe?

Amazon Transcribe puede identificar cualquiera de los idiomas que admiten las API por lotes y de streaming. Aquí encontrará más información sobre los idiomas admitidos y las características específicas para cada idioma.

P: ¿Amazon Transcribe puede identificar varios idiomas en un mismo archivo de audio?

Amazon Transcribe admite la identificación de varios idiomas por lotes. Consulte este enlace para obtener más detalles.

P: ¿Es posible restringir la lista de idiomas que se usará para la identificación automática del idioma?

Sí, puede especificar una lista de idiomas que pueden estar presentes en su biblioteca de medios. El idioma identificado se elegirá de esa lista. Si no se especifica ningún idioma, el sistema procesará el archivo de audio con todos los idiomas que admite Amazon Transcribe y seleccionará el más probable. La precisión de la identificación del idioma es mejor cuando se proporciona una lista de idiomas. Consulte este enlace para obtener más detalles.

Precios y disponibilidad

P: ¿Cuánto cuesta el servicio?

Consulte la página de precios de Amazon Transcribe para obtener más información.

P: ¿En qué regiones de AWS está disponible Amazon Transcribe?

Consulte la tabla de regiones de infraestructura global de AWS. Consulte aquí para obtener más información sobre los puntos de conexión y las cuotas de Amazon Transcribe.

Privacidad de datos

P: ¿Las entradas de voz que procesa Amazon Transcribe se almacenan? ¿Cómo las utiliza AWS?

Es posible que Amazon Transcribe almacene y use entradas de voz procesadas por el servicio únicamente para suministrar y mantener el servicio, y para mejorar y desarrollar la calidad de Amazon Transcribe y otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. El uso de su contenido es importante para la mejora continua de su experiencia como cliente de Amazon Transcribe, incluidos el desarrollo y el entrenamiento de tecnologías relacionadas. No utilizamos información con datos personales que pudiera estar incluida en el contenido para venderle a usted o a sus usuarios finales productos o servicios, ni para campañas de marketing. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información. Puede desactivar el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de machine learning e inteligencia artificial de Amazon. Para ello, utilice una política de no participación de AWS Organizations. Para obtener más información sobre cómo optar por la exclusión, consulte Política de exclusión de servicios de IA.

P: ¿Se pueden eliminar datos y artefactos asociados a trabajos de transcripción almacenados en Amazon Transcribe?

Sí. Puede usar las API para eliminar disponibles a fin de borrar datos y otros artefactos asociados a trabajos de transcripción. Si tiene problemas para hacerlo, contáctese con AWS Support.

P: ¿Quién tiene acceso al contenido que se procesa y almacena en Amazon Transcribe?

Solo los empleados autorizados tendrán acceso a su contenido procesado por Amazon Transcribe. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información.

P. ¿Continuaré siendo el propietario del contenido que se procese y almacene en Amazon Transcribe?

Siempre conservará la titularidad del contenido, que se utilizará únicamente con su consentimiento.

P: ¿Qué le ocurre a mis datos utilizados en modelos de lenguaje personalizado de entrenamiento? ¿Siguen siendo míos?

Al enviar datos de texto que se utilizan para entrenar un modelo dedicado, tiene la titularidad tanto de los datos de texto original como del modelo personalizado generado. Los datos de texto no se almacenarán ni se utilizarán para mejorar nuestro motor de reconocimiento del habla general. Los modelos que se producen a través de CLM están autocontenidos, y solo usted puede acceder a ellos.

P: Dado que el servicio no conservará mis datos de entrenamiento, ¿habrá algún tipo de desventaja o degradación de la calidad de la transcripción o de la experiencia del servicio en general?

No se producirá ninguna degradación de la calidad de la transcripción a causa de que nuestro servicio no almacene sus datos de entrenamiento. Una vez que los datos de entrenamiento se han utilizado para producir un modelo de lenguaje personalizado, el modelo pasa a estar disponible para usarlo cuantas veces considere necesario. El conjunto de entrenamiento original que cargó se eliminará de nuestros sistemas. La única desventaja tiene lugar si necesita asistencia técnica. Dado que no conservamos sus datos de entrenamiento originales, no tendremos acceso a aquellos activos o artefactos intermedios relacionados en caso de que necesite que nuestro equipo de asistencia investigue posibles errores del servicio. La asistencia seguirá estando disponible, aunque no con la misma celeridad puesto que es posible que necesitemos que nos brinde información adicional.

P: ¿Cómo puedo reutilizar los datos para futuras actualizados o mejoras del modelo?

Dado que los datos de entrenamiento no se almacenan, será necesario volver a cargar el mismo conjunto de datos y otros adicionales para entrenar nuevos modelos. En el momento en el que haya una actualización para el modelo base que brindó Amazon Transcribe, será notificado. Para sacar partido del modelo base más reciente, debe enviar sus datos para entrenar un nuevo modelo. Después, dispondrá para su uso tanto del modelo personalizado original que generó anteriormente y de la nueva versión.

P: ¿Cómo puedo eliminar un modelo?

Puede eliminar cualquier modelo de lenguaje personalizado que genere, según le convenga.

P: ¿El contenido que procesa Amazon Transcribe se traslada fuera de la región de AWS en la que estoy usando Amazon Transcribe?

Todo el contenido que se procesa con Amazon Transcribe se cifra y almacena en reposo en la región de AWS en la que se está usando Amazon Transcribe. Es posible que una parte del contenido procesado por Amazon Transcribe se almacene en otra región de AWS únicamente en relación con la mejora y el desarrollo continuos de su experiencia como cliente de Amazon Transcribe y otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon. Si deshabilita el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon poniéndose en contacto con AWS Support, su contenido no se almacenará en otra región de AWS. Puede solicitar la eliminación de entradas de voz asociadas con su cuenta si se pone en contacto con AWS Support. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información.

P. ¿Puedo utilizar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos para niños menores de 13 años y sujetos a la Ley de protección de la privacidad de los niños online (COPPA)?

Sí, sujeto al cumplimiento de los Términos de Servicio de Amazon Transcribe, incluida su obligación de proporcionar cualquier aviso requerido y obtener cualquier consentimiento verificable de los padres según COPPA, puede usar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos, en todo o en parte, para niños menores de 13 años.

P. ¿Cómo puedo determinar si mi sitio web, programa o aplicación está sujeto a la ley COPPA?

Para obtener información sobre los requisitos de la ley COPPA y sus directrices a fin de determinar si su sitio web, programa u otra aplicación están sujetos a dicha ley, consulte directamente los recursos que proporciona y mantiene la Comisión Federal de Comercio de Estados Unidos. Este sitio también contiene información sobre cómo determinar si un servicio está dirigido o concebido, en todo o en parte, para niños menores de 13 años.

Amazon Transcribe Call Analytics

P: ¿Qué es Amazon Transcribe Call Analytics?

Amazon Transcribe Call Analytics es una API con tecnología de IA que proporciona transcripciones de llamadas completas e información procesable sobre las conversaciones que puede agregar a las aplicaciones de llamadas para mejorar la experiencia del cliente y la productividad de los agentes. Combina eficaces modelos de conversión de voz a texto y de procesamiento de lenguaje natural (NLP) personalizados, entrenados específicamente para comprender las llamadas de atención al cliente y de ventas salientes. Como parte de las soluciones de inteligencia para centros de contacto (CCI) de AWS, esta API es independiente de los centros de contacto y facilita a los clientes y a los proveedores de software independientes la incorporación de funciones de análisis de llamadas en sus aplicaciones.

P: ¿Qué puedo hacer con Amazon Transcribe Call Analytics?

Análisis de llamadas con Amazon Transcribe puede hacer análisis en tiempo real y posteriores a la llamada. Con Análisis de llamadas, los desarrolladores pueden agregar rápidamente información valiosa, como las puntuaciones de las opiniones de los clientes y los agentes, los factores que influyen en las llamadas, las categorías y el resumen de estas, directamente como salida de la API a cualquier aplicación de llamadas entrantes o salientes. Los casos de uso más comunes son asistencia a agentes, resúmenes, alertas a supervisores y análisis de llamadas. Aquí tiene dos ejemplos de soluciones de código abierto basadas en Análisis de llamadas con Transcribe: análisis de llamadas en vivo y asistencia a los agentes y análisis posterior a la llamada.

¿Cómo puedo comenzar a utilizar Amazon Transcribe Call Analytics?

Puede utilizar Transcribe Call Analytics a través de las API y la Consola de administración de AWS. Los trabajos de análisis se pueden crear y monitorear a través de la API o la consola. En la consola aparecerá una lista de trabajos de análisis, así como una página de detalles del trabajo con los parámetros de entrada y una vista previa de la salida JSON. Adicionalmente, podrá crear y editar categorías a través de las API o la consola para la característica de categorización automatizada de contactos.

P: ¿Qué idiomas admite Amazon Transcribe Call Analytics?

Consulte la documentación de Amazon Transcribe para obtener información sobre la disponibilidad de idiomas de Amazon Transcribe Call Analytics.

P: ¿En qué regiones de AWS está disponible Amazon Transcribe Call Analytics?

Consulte la documentación de los servicios regionales de AWS para obtener información sobre la cobertura regional de AWS para Análisis de llamadas con Amazon Transcribe. Tenga en cuenta que el resumen generativo de llamadas de Análisis de llamadas con Amazon Transcribe solo está disponible como característica en versión preliminar en Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

P: ¿El resumen generativo de llamadas está disponible con la API de Análisis de llamadas con Transcribe para llamadas en tiempo real y de manera posterior a la llamada?

Actualmente, el resumen generativo de llamadas solo está disponible con la API de Análisis de llamadas con Transcribe para el análisis posterior a la llamada.

P: ¿Cómo funcionan los precios de Amazon Transcribe Call Analytics?

La API de Amazon Transcribe Call Analytics se cobrará por separado de las API estándar de Amazon Transcribe. Consulte la página de precios de Amazon Transcribe para obtener más detalles.

Amazon Transcribe Medical

P: ¿Qué es Amazon Transcribe Medical?

Amazon Transcribe Medical es un servicio de reconocimiento de voz automático (ASR) que permite a los desarrolladores añadir funcionalidad de voz a texto en relación con la medicina a sus aplicaciones Con Amazon Transcribe Medical, puede transcribir de manera rápida y precisa dictados médicos y conversaciones para diferentes fines, como registrar notas del médico o procesar en análisis de texto posteriores para extraer información significativa.

P: ¿Qué puedo hacer con Amazon Transcribe Medical?

Amazon Transcribe Medical utiliza modelos avanzados de machine learning para transcribir con precisión archivos de voz con contenido médico. Transcribe Medical puede generar transcripciones de texto que se pueden utilizar para admitir una variedad de casos de uso, que abarcan el flujo de trabajo de la documentación clínica y el control de la seguridad de los medicamentos (farmacovigilancia) hasta la subtitulación de telemedicina e, incluso, el análisis de centros de contacto en los ámbitos de la salud y las ciencias biológicas.

P: ¿Debo ser un experto en reconocimiento de voz automático (ASR) para usar Amazon Transcribe Medical?

No, no necesita ningún tipo de experiencia en ASR o aprendizaje automático para usar Amazon Transcribe Medical. Solo necesita llamar a la API de Transcribe Medical y el servicio manejará el aprendizaje automático requerido en el back-end para transcribir el archivo de voz con contenido médico al texto.

P: ¿Cómo puedo comenzar a utilizar Amazon Transcribe Medical?

Puede comenzar a utilizar Amazon Transcribe Medical desde la consola de administración de AWS o mediante el SDK. Consulte más detalles en esta página de documentación técnica.

Amazon Transcribe Medical ofrece una capa gratuita para que pueda probar el servicio. Para obtener más información, visite la página de precios.

P: P: ¿Qué idiomas admite Amazon Transcribe Medical?

Amazon Transcribe Medical actualmente admite la transcripción médica en inglés de EE.UU.

P: P: ¿Qué especialidades médicas admite Amazon Transcribe Medical?

Amazon Transcribe Medical admite transcripciones para una lista creciente de especialidades de atención primaria y especializada. Consulte nuestra documentación para obtener una lista completa de las especialidades médicas admitidas.

P: ¿En qué regiones de AWS se encuentra disponible Amazon Transcribe Medical?

Consulte la documentación de los servicios regionales de AWS para obtener información sobre la cobertura regional de AWS para Amazon Transcribe Medical.

P: ¿Cuáles son los precios de Amazon Transcribe Medical?

Consulte la página de precios de Amazon Transcribe Medical para obtener más información al respecto.

P: ¿Amazon Transcribe Medical cumple con los requisitos de HIPAA?

Sí.

P: ¿El contenido procesado por Amazon Transcribe Medical se utiliza para algún fin que no sea ofrecer el servicio?

Amazon Transcribe Medical no utiliza contenido procesado por el servicio para ningún motivo que no sea proporcionar y mantener el servicio. El contenido procesado por el servicio no se utiliza para desarrollar o mejorar la calidad de Amazon Transcribe Medical ni ninguna otra tecnología de aprendizaje automático o inteligencia artificial de Amazon.

P: ¿Amazon Transcribe Medical aprende con el transcurso del tiempo?

Sí, Amazon Transcribe Medical utiliza el aprendizaje automático y se entrena continuamente para mejorar sus funciones para los casos de uso del cliente. Amazon Transcribe Medical no almacena ni utiliza los datos del cliente utilizados con el servicio para entrenar a los modelos.

P: ¿Qué más debo saber antes de usar el servicio Amazon Transcribe Medical?

Amazon Transcribe Medical no sustituye el asesoramiento, el diagnóstico o el tratamiento médico profesional. Usted y sus usuarios finales son responsables de ejercer su propia discreción, experiencia y criterio al determinar el grado de corrección, integridad, oportunidad y adecuación de cualquier información proporcionada por Amazon Transcribe Medical. Usted y sus usuarios finales son los únicos responsables de cualquier decisión, consejo, acción u omisión basados en el uso de Amazon Transcribe Medical. 

Puede que Amazon Transcribe Medical no identifique con precisión información sanitaria protegida en todas las circunstancias, y no cumpla los requisitos de desidentificación de información sanitaria protegida de acuerdo con la HIPAA. Usted es responsable de revisar cualquier resultado proporcionado por Amazon Transcribe Medical para garantizar que se ajuste a sus necesidades.

Modelos de lenguaje personalizado

P: ¿Qué funcionalidad ofrecen los modelos de lenguaje personalizado actualmente?

Puede utilizar modelos de lenguaje personalizado (CLM) para formar y desarrollar modelos de lenguaje específicos del dominio. Actualmente, CLM es compatible con transcripciones del inglés australiano, inglés británico, hindi, inglés estadounidense y español estadounidense para transcripciones por lotes e inglés estadounidense para transcripciones de streaming. CLM admite el uso simultáneo de vocabulario personalizado para transcripciones por lotes.

P: ¿Qué cantidad y qué tipo de datos de formación necesito? ¿Cómo obtengo los datos? ¿Es necesario que los datos tengan un formato específico?

Los datos de texto deben ser relevantes para el audio que será transcrito mediante el modelo personalizado; debe contener tantas palabras específicas del dominio, frases y combinaciones de palabras como sea posible. Recomendamos utilizar al menos 100 000 y un máximo de 10 millones de palabras de texto. Los recursos de datos de texto se pueden obtener desde cualquier origen público o interno (por ejemplo, texto de sitios web de clientes). Recomendamos que cada archivo de texto plano contenga al menos 200 000 palabras, pero sin que el tamaño del archivo supere 1 GB. El texto debe estar en formato UTF-8, y utilizar una sentencia por línea. Cada frase debe contar con puntuación. Los usuarios son responsables de verificar la ortografía, eliminar caracteres de edición y validar el cifrado.

P: ¿Cómo uso los modelos de lenguaje personalizado (CLM)?

Para formar un modelo de lenguaje personalizado, los clientes solo tienen que suministrar los datos de texto en un bucket de Amazon S3. Los usuarios pueden utilizar a partir de eso momento la consola del servicio Amazon Transcribe para cargar y procesar los datos y entrenar un modelo de lenguaje personalizado. El entrenamiento se realiza de forma completamente automatizada y requiere una intervención mínima por parte del usuario. Una vez que el modelo personalizado final está preparado, estará disponible en la cuenta de AWS del cliente para la transcripción de archivos de audio específico del dominio. Además, los clientes pueden entrenar múltiples modelos personalizados para su uso en una variedad de casos de uso diferentes.

P: ¿Están las mejoras garantizadas? ¿Merece la pena el esfuerzo de recopilar datos de texto?

Las mejoras no están garantizadas, el cambio en el rendimiento dependerá de hasta qué punto los datos de texto coincidan con el audio, o de la cantidad de datos que provea. Por lo general, cuantos más datos, mejor, aunque lo más importante es que los datos deben cubrir palabras y secuencias de palabras que se prevea tengan lugar en los archivos de audio que pretende transcribir. Las mejoras de la precisión de la transcripción dependerán de la calidad de los datos de entrenamiento y del caso de uso. En algunos escenarios, el punto de referencia general indica desde un 10 % hasta un 15 % de mejora relativa de la precisión.

P: ¿Cuánto tiempo requiere el entrenamiento? ¿Cuándo podré utilizar el modelo?

El entrenamiento del modelo suele durar entre 6 y 10 horas. La duración del tiempo de entrenamiento depende del tamaño del conjunto de datos. El modelo personalizado está disponible justo después de que se haya completado el entrenamiento.

P: ¿Cómo podré utilizar el modelo? ¿Cómo sabré si funciona mejor que el modelo genérico que ofrece Amazon Transcribe?

El modelo se pondrá a disposición en una cuenta con un ID de modelo que se asigne con anterioridad al proceso de entrenamiento. Para poder utilizar el modelo, es necesario agregar un marcador con el ID de modelo a la solicitud de transcripción. Tiene que probar el modelo con sus archivos de audio y comparar los resultados con aquellos obtenidos con el motor genérico.

P: ¿Cuántos modelos de lenguaje personalizado puedo entrenar? ¿Puede tener varios modelos habilitados de forma simultánea para mi cuenta?

Puede entrenar de forma simultánea hasta 5 modelos diferentes en cualquier momento dado por cuenta de AWS. Para cada cuenta, puede almacenar hasta un máximo de 10 modelos de forma predeterminada. Si se necesitan más, se puede aumentar el límite de servicio desde aquí.

P: ¿Los modelos acústicos personalizados son compatibles?

No. Los modelos acústicos no son compatibles. Los modelos de lenguaje personalizado se crean en función de datos de texto relevantes a su caso de uso o dominio.

Más información sobre los precios de Amazon Transcribe

Visite la página de precios
¿Listo para comenzar?
Prueba la consola de Amazon Transcribe
¿Tiene más preguntas?
Contáctenos