Aspectos generales

P: ¿Qué es Amazon Transcribe?

Amazon Transcribe es un servicio de AWS que facilita la conversión de voz a texto a los clientes. Con la tecnología de reconocimiento de voz automático (ASR), los clientes pueden optar por utilizar Amazon Transcribe en una variedad de aplicaciones de negocios, como la transcripción de llamadas de voz del servicio de atención al cliente, la generación en tiempo real de subtítulos en contenido de audio o video o la realización de análisis (en texto) de contenido de audio o video.  

P. ¿Cómo interactúa Amazon Transcribe con otros productos de AWS?

Amazon Transcribe convierte la entrada de audio en texto, lo cual abre las puertas a diversas aplicaciones de análisis en texto de entradas de voz. Por ejemplo, al utilizar Amazon Comprehend en los datos de texto convertidos de Amazon Transcribe, los clientes pueden llevar a cabo análisis de opiniones o extraer entidades y frases clave. Del mismo modo, al integrarlo en Amazon Translate y Amazon Polly, los clientes pueden aceptar la entrada de voz en un idioma, traducirla a otro y generar una salida de voz, posibilitando con eficacia conversaciones multiculturales. También es posible integrar Amazon Transcribe en Amazon Elasticsearch para indexar y realizar búsquedas a partir de texto en la biblioteca de audio y vídeo. 

P: ¿Qué más debo saber antes de usar el servicio Amazon Transcribe?

El servicio Amazon Transcribe está diseñado para manejar una amplia gama de características de habla y acústicas, incluidas las variaciones de volumen, tono y velocidad de habla. La calidad y el contenido de la señal de audio (incluidos, entre otros, factores como ruido de fondo, altavoces superpuestos, voz acentuada o cambios de idiomas dentro de un solo archivo de audio) pueden afectar la precisión de la salida del servicio. Actualizamos constantemente el servicio para mejorar su capacidad de acomodar variaciones acústicas adicionales y tipos de contenido. 

Uso de Amazon Transcribe

P: ¿Cómo tendrán acceso a Transcribe los desarrolladores?

La mejor manera de comenzar a usar Amazon Transcribe es enviar una tarea a través de la consola para transcribir un archivo de audio. También puede llamar al servicio directamente desde la interfaz de la línea de comandos de AWS o usar uno de los SDK compatibles de su preferencia para integrarlo en sus aplicaciones. De cualquier manera, puede empezar a usar Amazon Transcribe para generar transcripciones automáticas de archivos de audio con unas pocas líneas de código.

P. ¿Qué tipo de contenido de entrada admite Amazon Transcribe?

Amazon Transcribe admite streaming de audio de 16 kHz y 8 kHz, así como varias codificaciones de audio, incluidas WAV, MP3, MP4 y FLAC.

P. ¿Amazon Transcribe admite transcripciones en tiempo real?

Sí. Amazon Transcribe permite a los usuarios abrir un stream bidireccional mediante HTTP2. Los usuarios pueden enviar streaming de audio al servicio y recibir streaming de texto a cambio en tiempo real.  

P. ¿Qué codificación admite la transcripción en tiempo real?

La transcripción de streaming actualmente admite la codificación PCM lineal de 16 bits. 

P. ¿Qué idiomas admite Amazon Transcribe?

Para obtener información sobre los idiomas admitidos, consulte esta página de documentación

P. ¿Con qué dispositivos funciona Amazon Transcribe?

Amazon Transcribe, en su mayor parte, admite cualquier dispositivo. En general, Amazon Transcribe funciona con cualquier dispositivo que incluya un micrófono integrado, como teléfonos, ordenadores, tablets o dispositivos de IoT (por ejemplo, sistemas de audio para coche). La API de Amazon Transcribe podrá detectar la calidad de la transmisión de audio que entre en el dispositivo (8 kHz o 16 kHz) y seleccionará debidamente los modelos acústicos para convertir la voz en texto. Además, los desarrolladores pueden llamar a la API de Transcribe mediante sus aplicaciones para obtener acceso a la función de conversión de voz a texto. 

P. ¿Hay restricciones en el tamaño del contenido de audio que puede procesar Amazon Transcribe?

Las llamadas al servicio de Amazon Transcribe están limitadas a 4 horas (o 2 GB) por llamada a la API para nuestro servicio por lotes. El servicio de streaming puede alojar conexiones abiertas de hasta 4 horas de duración. 

P. ¿Qué lenguajes de programación admite Amazon Transcribe?

El servicio por lotes de Amazon Transcribe admite .NET, Go, Java, Javascript, PHP, Python y Ruby.
El servicio en tiempo real de Amazon Transcribe admite Java SDK, Ruby SDK y C++ SDK. Próximamente admitiremos SDK adicionales. Para obtener más detalles, visite la página Recursos

P. No se reconocen las palabras de mi vocabulario personalizado. ¿Qué puedo hacer?

La salida del reconocimiento de voz depende de diversos factores al margen de las entradas del vocabulario personalizado, por lo que no se puede garantizar un reconocimiento correcto a pesar de la inclusión de un término en el vocabulario personalizado.
No obstante, el motivo más frecuente es que una palabra personalizada no presente una pronunciación correcta. Si no ha proporcionado una pronunciación para una palabra personalizada, intente crearla. Si ya ha proporcionado una pronunciación, compruebe de nuevo que sea correcta o incluya otras variantes de pronunciación en caso de ser necesario. Esto se puede hacer creando varias entradas en el archivo del vocabulario personalizado con distintas variantes en el campo de pronunciación.

P. ¿Por qué veo demasiadas palabras personalizadas en la salida?

Los vocabularios personalizados están optimizados para una pequeña lista de palabras objetivo; los vocabularios más extensos pueden provocar la generación excesiva de palabras personalizadas, especialmente cuando contienen palabras que se pronuncian de forma similar. Si tiene una lista larga, intente reducirla a palabras poco frecuentes y palabras que realmente se espera que aparezcan en los archivos de audio. Si dispone de un vocabulario extenso que abarca diversos casos de uso, divídalo en listas independientes para diferentes casos de uso. Las palabras cortas que suenan parecidas a muchas otras palabras pueden provocar la generación excesiva (demasiadas palabras personalizadas en la salida). Es preferible combinar estas palabras con las palabras que las rodean e incluirlas como frases separadas por guiones. Por ejemplo, la palabra personalizada “A/D” podría incluirse como parte de una frase como “convertidor A/D”.

P. Hay dos formas de proporcionar pronunciaciones, los campos IPA (AFI) o SoundsLike (Suena como) de la tabla del vocabulario personalizado. ¿Cuál es mejor?

IPA (alfabeto fonético internacional, AFI) permite proporcionar pronunciaciones más precisas. Utilice este campo para indicar la pronunciación si puede generar AFI (por ejemplo, a partir de un glosario con pronunciaciones AFI o una herramienta de conversión online).

P. Me gustaría usar AFI, pero no soy experto en lingüística. ¿Hay alguna herramienta online que pueda usar?

Diversos diccionarios estándar, como el Oxford English Dictionary o el Cambridge Dictionary (incluidas sus versiones online) proporcionan pronunciaciones en AFI. También existen convertidores online (por ejemplo, easypronunciation.com o tophonetics.com en el caso del inglés); sin embargo, tenga en cuenta que, en la mayoría de los casos, estas herramientas se basan en diccionarios subyacentes y pueden no generar AFI correcto para algunas palabras, como los nombres propios. Amazon Transcribe no avala ninguna herramienta de terceros.

P. ¿Tengo que usar diferentes estándares AFI específicos para distintos acentos de un mismo idioma (por ejemplo, inglés británico frente a inglés estadounidense)?

Debe utilizar el estándar AFI apropiado para los archivos de audio que vaya a procesar. Por ejemplo, si espera procesar audio de hablantes británicos, utilice el estándar de pronunciación correspondiente al inglés británico. El conjunto de símbolos AFI admitidos puede diferir para los distintos idiomas y dialectos admitidos por Amazon Transcribe; asegúrese de que sus pronunciaciones contengan solo los caracteres permitidos. Podrá encontrar detalles sobre los conjuntos de caracteres de AFI en la documentación: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets.

P. ¿Cómo puedo proporcionar la pronunciación mediante el campo SoundsLike (Suena como) de la tabla del vocabulario personalizado?

Puede dividir una palabra o una frase en partes más pequeñas y proporcionar una pronunciación para cada parte mediante la ortografía estándar del idioma a fin de imitar cómo suena la palabra. Por ejemplo, en inglés, puede proporcionar una sugerencia de pronunciación para la frase Los-Angeles de la siguiente forma: loss-ann-gel-es. La sugerencia para la palabra Etienne sería: eh-tee-en. Cada parte de la sugerencia se separa con un guion (-). Se pueden utilizar todos los caracteres admitidos para el idioma de entrada.

P. ¿Cómo funcionan las dos formas de proporcionar acrónimos (con puntos y sin puntos pero con pronunciaciones)?

Si utiliza un acrónimo que contiene puntos, se genera de forma interna la pronunciación para deletrearlo. Si no se emplean puntos, proporcione la pronunciación en el campo de pronunciación. En el caso de algunos acrónimos, no resulta obvio si se deletrean o se pronuncian como una palabra (por ejemplo, en inglés, NATO se suele pronunciar “n eɪ t oʊ” (nay-toh) en lugar de “ɛn eɪ ti oʊ” (N. A. T. O.)).

P. ¿Dónde puedo encontrar ejemplos sobre cómo usar las pronunciaciones personalizadas?

Encontrará ejemplos y formatos de entrada de muestra en la documentación: https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html.

P. ¿Qué ocurre si utilizo AFI incorrecto? En caso de duda, ¿es preferible no introducir AFI?

El sistema utilizará la pronunciación que proporcione; esto debería aumentar las probabilidades de que la palabra se reconozca correctamente si la pronunciación es correcta y coincide con lo que se dice. Si no está seguro de estar generando AFI correcto, compare el procesamiento de sus archivos de audio con un vocabulario que contenga sus pronunciaciones AFI y con un vocabulario que solo contenga las palabras (y, opcionalmente, formas de tipo “mostrar como”). Si no proporciona pronunciaciones, el servicio utilizará una aproximación, que puede ser mejor o peor que lo que usted proporcione.

P. Si utilizo formas DisplayAs (Mostrar como), ¿puedo mostrar conjuntos de caracteres no relacionados con el idioma original que se transcribe (por ejemplo, que la salida de “Street” sea “街道“)?

Sí. Aunque las frases solo pueden usar un conjunto de caracteres limitado para el idioma concreto, se permiten caracteres UTF-8 aparte del carácter \t (tabulación) en la columna DisplayAs (Mostrar como).

P: ¿La redacción de contenido automática está disponible con las API por lote y streaming para transcribir?

No, solo está disponible con las API por lote en este momento.

P: ¿Qué idiomas son compatibles con la redacción de contenido automática?

En este momento es compatible con Inglés - EE. UU.

P: ¿La redacción de contenido automático también redacta información personal confidencial del audio de origen?

No, esta característica no extrae la información personal confidencial del audio de origen. Sin embargo, puede redactar la información personal del audio de origen mediante las marcas temporales de inicio y final que se ofrecen en las transcripciones redactadas para cada instancia de un enunciado de información de identificación personal encontrado.

P: ¿Puedo utilizar la redacción de contenido automático para redactar información personal de las transcripciones de texto existentes?

No, la redacción de contenido automática solo funciona en archivos de audio como entrada.

P: ¿Qué más debo saber antes de utilizar la redacción de contenido automática?

La redacción de contenido automática se diseñó con el objetivo de identificar y extraer información de identificación personal (PII), pero debido a la naturaleza predictiva del aprendizaje automático, puede que no identifique ni extraiga todas las instancias de la PII en una transcripción generada por el servicio. Debería revisar todos los resultados proporcionados por la redacción de contenido automático a fin de asegurarse de que respondan a sus necesidades.

Precios y disponibilidad

P: ¿Cuánto cuesta el servicio?

Consulte la página de precios de Amazon Transcribe para obtener más información.

P. ¿En qué regiones de AWS está disponible Amazon Transcribe?

Consulte la tabla de regiones de la infraestructura global de AWS.

Privacidad de datos

P: ¿Las entradas de voz que procesa Amazon Transcribe se almacenan? ¿Cómo las utiliza AWS?

Es posible que Amazon Transcribe almacene y use entradas de voz procesadas por el servicio únicamente para suministrar y mantener el servicio, y para mejorar y desarrollar la calidad de Amazon Transcribe y otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. El uso de su contenido es importante para la mejora continua de su experiencia como cliente de Amazon Transcribe, incluidos el desarrollo y el entrenamiento de tecnologías relacionadas. No utilizamos información con datos personales que pudiera estar incluida en el contenido para venderle a usted o a sus usuarios finales productos o servicios, ni para campañas de marketing. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información. Puede desactivar el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de aprendizaje automático e inteligencia artificial de Amazon. Para ello, utilice una política de no participación de AWS Organizations. Para obtener más información acerca de cómo optar por la exclusión, consulte Administración de la política para no participar en los servicios de IA.

P: ¿Se pueden eliminar datos y artefactos asociados a trabajos de transcripción almacenados en Amazon Transcribe?

Sí. Puede usar las API para eliminar disponibles a fin de borrar datos y otros artefactos asociados a trabajos de transcripción. Si tiene problemas para hacerlo, contáctese con AWS Support.

P: ¿Quién tiene acceso al contenido que se procesa y almacena en Amazon Transcribe?

Solo los empleados autorizados tendrán acceso a su contenido procesado por Amazon Transcribe. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información.

P. ¿Continuaré siendo el propietario del contenido que se procese y almacene en Amazon Transcribe?

Siempre conservará la titularidad del contenido, que se utilizará únicamente con su consentimiento.

P: ¿Qué le ocurre a mis datos utilizados en modelos de lenguaje personalizado de entrenamiento? ¿Siguen siendo míos?

Al enviar datos de texto que se utilizan para entrenar un modelo dedicado, el cliente tiene la titularidad tanto de los datos de texto original como del modelo personalizado generado. Los datos de texto no se almacenarán ni se utilizarán para mejorar nuestro motor de reconocimiento del habla general. Los modelos que se producen a través de CLM están autocontenidos, y solo puede acceder a ellos el cliente.

P: Dado que el servicio no conservará mis datos de entrenamiento, ¿habrá algún tipo de desventaja o degradación de la calidad de la transcripción o de la experiencia del servicio en general?

No se producirá ninguna degradación de la calidad de la transcripción a causa de que nuestro servicio no almacene sus datos de entrenamiento. Una vez que los datos de entrenamiento se han utilizado para producir un modelo de lenguaje personalizado, el modelo pasa a estar disponible para usarlo cuantas veces considere necesario. El conjunto de entrenamiento original que cargó se eliminará de nuestros sistemas. La única desventaja tiene lugar si necesita asistencia técnica. Dado que no conservamos sus datos de entrenamiento originales, no tendremos acceso a aquellos activos o artefactos intermedios relacionados en caso de que necesite que nuestro equipo de asistencia investigue posibles errores del servicio. La asistencia seguirá estando disponible, aunque no con la misma celeridad puesto que es posible que necesitemos que nos brinde información adicional.

P: ¿Cómo puedo reutilizar los datos para futuras actualizados o mejoras del modelo?

Dado que los datos de entrenamiento no se almacenan, será necesario volver a cargar el mismo conjunto de datos y otros adicionales para entrenar nuevos modelos. En el momento en el que haya una actualización para el modelo base que brindó Amazon Transcribe, será notificado. Para sacar partido del modelo base más reciente, debe enviar sus datos para entrenar un nuevo modelo. Después, dispondrá para su uso tanto del modelo personalizado original que generó anteriormente y de la nueva versión.

P: ¿Cómo elimino un modelo?

Los usuarios pueden eliminar cualquier modelo de lenguaje personalizado que generasen a su conveniencia.

P. ¿El contenido que procesa Amazon Transcribe se traslada fuera de la región de AWS en la que estoy usando Amazon Transcribe?

Todo el contenido que se procesa con Amazon Transcribe se cifra y almacena en reposo en la región de AWS en la que se está usando Amazon Transcribe. Es posible que una parte del contenido procesado por Amazon Transcribe se almacene en otra región de AWS únicamente en relación con la mejora y el desarrollo continuos de su experiencia como cliente de Amazon Transcribe y otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon. Si deshabilita el uso de su contenido para mejorar y desarrollar el nivel de calidad de Amazon Transcribe y de otras tecnologías de aprendizaje automático/inteligencia artificial de Amazon poniéndose en contacto con AWS Support, su contenido no se almacenará en otra región de AWS. Puede solicitar la eliminación de entradas de voz asociadas con su cuenta si se pone en contacto con AWS Support. Su confianza, privacidad y la seguridad de su contenido son nuestra más absoluta prioridad, por lo que implementamos controles físicos y técnicos adecuados y sofisticados, incluidos sistemas de cifrado para la información almacenada y en tránsito, diseñados para impedir el acceso no autorizado o que se divulgue su contenido y para garantizar que nuestro uso cumpla con nuestro compromiso con usted. Consulte https://aws.amazon.com/compliance/data-privacy-faq/ para obtener más información.

P. ¿Puedo utilizar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos para niños menores de 13 años y sujetos a la Ley de protección de la privacidad de los niños online (COPPA)?

Sí, sujeto al cumplimiento de los Términos de Servicio de Amazon Transcribe, incluida su obligación de proporcionar cualquier aviso requerido y obtener cualquier consentimiento verificable de los padres según COPPA, puede usar Amazon Transcribe en sitios web, programas u otras aplicaciones dirigidos o concebidos, en todo o en parte, para niños menores de 13 años.

P. ¿Cómo puedo determinar si mi sitio web, programa o aplicación está sujeto a la ley COPPA?

A fin de obtener información sobre los requisitos de la ley COPPA y sus directrices para determinar si su sitio web, programa u otra aplicación está sujeto a la ley COPPA, consulte directamente los recursos proporcionados y mantenidos por la Comisión Federal de Comercio de Estados Unidos. Este sitio también contiene información sobre cómo determinar si un servicio está dirigido o concebido, en todo o en parte, para niños menores de 13 años.

Amazon Transcribe Medical

P: ¿Qué es Amazon Transcribe Medical?

Amazon Transcribe Medical es un servicio de reconocimiento de voz automático (ASR) que permite a los desarrolladores añadir funcionalidad de voz a texto en relación con la medicina a sus aplicaciones Con Amazon Transcribe Medical, puede transcribir de manera rápida y precisa dictados médicos y conversaciones para diferentes fines, como registrar notas del médico o procesar en análisis de texto posteriores para extraer información significativa.

P: ¿Qué puedo hacer con Amazon Transcribe Medical?

Amazon Transcribe Medical utiliza modelos avanzados de aprendizaje automático para transcribir con precisión archivos de voz con contenido médico. Transcribe Medical puede hacer transcripciones de texto generales que se pueden utilizar para admitir una variedad de casos de uso, que abarcan el flujo de trabajo de la documentación clínica y el control de la seguridad de los medicamentos (farmacovigilancia) hasta la subtitulación de telemedicina e, incluso, el análisis de centros de contacto en los ámbitos de la salud y las ciencias biológicas.

P: ¿Debo ser un experto en reconocimiento de voz automático (ASR) para usar Amazon Transcribe Medical?

No, no necesita ningún tipo de experiencia en ASR o aprendizaje automático para usar Amazon Transcribe Medical. Solo necesita llamar a la API de Transcribe Medical y el servicio manejará el aprendizaje automático requerido en el back-end para transcribir el archivo de voz con contenido médico al texto.

P: ¿Cómo puedo comenzar a utilizar Amazon Transcribe Medical?

Puede comenzar a utilizar Amazon Transcribe Medical desde la consola de administración de AWS o mediante el SDK. Consulte más detalles en esta página de documentación técnica.

Amazon Transcribe Medical ofrece una capa gratuita para que pueda probar el servicio. Para obtener más información, visite la página de precios.

P: P: ¿Qué idiomas admite Amazon Transcribe Medical?

Amazon Transcribe Medical actualmente admite la transcripción médica en inglés de EE.UU.

P: P: ¿Qué especialidades médicas admite Amazon Transcribe Medical?

Amazon Transcribe Medical admite la transcripción para atención primaria y cubre especialidades como medicina de familia, medicina interna, pediatría y ginecología obstétrica.

P: ¿En qué regiones de AWS se encuentra disponible Amazon Transcribe Medical?

Amazon Transcribe Medical actualmente está disponible en EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón), Canadá (Central), UE (Irlanda) y Asia Pacífico (Sídney).

P: ¿Cuáles son los precios de Amazon Transcribe Medical?

Consulte la página de precios de Amazon Transcribe Medical para obtener más información al respecto.

P: ¿Amazon Transcribe Medical cumple con los requisitos de HIPAA?

Sí.

P: ¿El contenido procesado por Amazon Transcribe Medical se utiliza para algún fin que no sea ofrecer el servicio?

Amazon Transcribe Medical no utiliza contenido procesado por el servicio para ningún motivo que no sea proporcionar y mantener el servicio. El contenido procesado por el servicio no se utiliza para desarrollar o mejorar la calidad de Amazon Transcribe Medical ni ninguna otra tecnología de aprendizaje automático o inteligencia artificial de Amazon.

P: ¿Amazon Transcribe Medical aprende con el transcurso del tiempo?

Sí, Amazon Transcribe Medical utiliza el aprendizaje automático y se entrena continuamente para mejorar sus funciones para los casos de uso del cliente. Amazon Transcribe Medical no almacena ni utiliza los datos del cliente utilizados con el servicio para entrenar a los modelos.

P: ¿Qué más debo saber antes de usar el servicio Amazon Transcribe Medical?

Amazon Transcribe Medical no sustituye el asesoramiento, el diagnóstico o el tratamiento médico profesional. Usted y sus usuarios finales son responsables de ejercer su propia discreción, experiencia y criterio al determinar el grado de corrección, integridad, oportunidad y adecuación de cualquier información proporcionada por Amazon Transcribe Medical. Usted y sus usuarios finales son los únicos responsables de cualquier decisión, consejo, acción u omisión basados en el uso de Amazon Transcribe Medical. Usted es responsable de revisar cualquier resultado proporcionado por Amazon Transcribe Medical para garantizar que se ajuste a sus necesidades.

Modelos de lenguaje personalizado

P: ¿Qué funcionalidad ofrecen los modelos de lenguaje personalizado actualmente?

En este momento, los modelos de lenguaje personalizado (CLM) son compatibles con la transcripción en ingles estadounidense. Está disponible como parte de la API de procesamiento de audio por lotes de Amazon Transcribe. CLM no admite de forma simultánea el uso adicional de vocabulario personalizado.

P: ¿Qué cantidad y qué tipo de datos de entrenamiento necesito? ¿Cómo obtengo los datos? ¿Es necesario que los datos tengan un formato específico?

Los datos de texto deben ser relevantes para el audio que será transcrito mediante el modelo personalizado; debe contener tantas palabras específicas del dominio, frases y combinaciones de palabras como sea posible. Recomendamos utilizar al menos 100 000 y un máximo de 10 millones de palabras de texto. Los recursos de datos de texto se pueden obtener desde cualquier origen público o interno (por ejemplo, texto de sitios web de clientes). Recomendamos que cada archivo de texto plano contenga al menos 200 000 palabras, pero sin que el tamaño del archivo supere 1 GB. El texto debe estar en formato UTF-8, y utilizar una sentencia por línea. Cada frase debe contar con puntuación. Los usuarios son responsables de revisar la ortografía, eliminar caracteres de edición y validar el cifrado.

P: ¿Cómo uso los modelos de lenguaje personalizado (CLM)?

Para entrenar un modelo de lenguaje personalizado, los clientes solo tienen que suministrar los datos de texto en un bucket de Amazon S3. Los usuarios pueden utilizar a partir de eso momento la consola del servicio Amazon Transcribe para cargar y procesar los datos y entrenar un modelo de lenguaje personalizado. El entrenamiento se realiza de forma completamente automatizada y requiere una intervención mínima por parte del usuario. Una vez que el modelo personalizado final está preparado, estará disponible en la cuenta de AWS del cliente para la transcripción de archivos de audio específico del dominio. Además, los clientes pueden entrenar múltiples modelos personalizados para su uso en una variedad de casos de uso diferentes.

P: ¿Están las mejoras garantizadas? ¿Merece la pena el esfuerzo de recopilar datos de texto?

Las mejoras no están garantizadas, el cambio en el rendimiento dependerá de hasta qué punto los datos de texto coincidan con el audio, o de la cantidad de datos que provea. Por lo general, cuantos más datos, mejor, aunque lo más importante es que los datos deben cubrir palabras y secuencias de palabras que se prevea tengan lugar en los archivos de audio que pretende transcribir. Las mejoras de la precisión de la transcripción dependerán de la calidad de los datos de entrenamiento y del caso de uso. En algunos escenarios, el punto de referencia general indica desde un 10 % hasta un 15 % de mejora relativa de la precisión.

P: ¿Cuánto tiempo requiere el entrenamiento? ¿Cuándo podré utilizar el modelo?

El entrenamiento del modelo suele durar entre 6 y 10 horas. La duración del tiempo de entrenamiento depende del tamaño del conjunto de datos. El modelo personalizado está disponible justo después de que se haya completado el entrenamiento.

P: ¿Cómo podré utilizar el modelo? ¿Cómo sabré si funciona mejor que el modelo genérico que ofrece Amazon Transcribe?

El modelo se pondrá a disposición en una cuenta del cliente con un ID de modelo asignado por el cliente con anterioridad al proceso de entrenamiento. Para poder utilizar el modelo, es necesario agregar un marcador con el ID de modelo a la solicitud de transcripción. Los clientes deben probar el modelo con sus archivos de audio y comparar los resultados con aquellos obtenidos con el motor genérico.

P: ¿Cuántos modelos de lenguaje personalizado puedo entrenar? ¿Puede tener varios modelos habilitados de forma simultánea para mi cuenta?

Puede entrenar de forma simultánea hasta 5 modelos diferentes en cualquier momento dado por cuenta de AWS. Para cada cuenta, puede almacenar hasta un máximo de 10 modelos de forma predeterminada. Si se necesitan más, se puede aumentar el límite de servicio desde aquí.

P: ¿Los modelos acústicos personalizados son compatibles?

No. Los modelos acústicos no son compatibles. Los modelos de lenguaje personalizado se crean en función de datos de texto relevantes a su caso de uso o dominio.

Más información sobre los precios de Amazon Transcribe

Visite la página de precios
¿Listo para comenzar?
Prueba la consola de Amazon Transcribe
¿Tiene más preguntas?
Contacte con nosotros