Saltar al contenido principal

Chips de IA de AWS

AWS Trainium

Trainium3, nuestro primer chip de IA de AWS de 3 nm diseñado específicamente para ofrecer la mejor economía de tokens en aplicaciones de generación de video, razonamiento y agénticas de última generación

¿Por qué Trainium?

AWS Trainium es una familia de aceleradores de IA diseñados de manera específica (Trn1, Trn2 y Trn3) diseñados con el objetivo de ofrecer rendimiento escalable y rentabilidad para el entrenamiento y la inferencia en una amplia gama de cargas de trabajo de IA generativa

La familia AWS Trainium

Trainium1

El chip AWS Trainium de primera generación impulsa las instancias Trn1 de Amazon Elastic Compute Cloud (Amazon EC2), que tienen costos de entrenamiento hasta un 50 % más bajos que las instancias de Amazon EC2 similares. Muchos clientes, como Ricoh, Karakuri, SplashMusic y Arcee AI, se están dando cuenta de los beneficios de rendimiento y costo de las instancias Trn1.

Trainium2

El chip AWS Trainium2 ofrece hasta cuatro veces más de rendimiento que el Trainium de primera generación. Las instancias Trn2 de Amazon EC2 y Trn2 UltraServers basadas en Trainium2 están diseñadas de manera específica para la IA generativa y ofrecen una relación precio-rendimiento entre un 30 y un 40 % superior a las instancias P5e y P5en de EC2 basadas en GPU. Las instancias Trn2 cuentan con hasta 16 chips Trainium2, mientras que las Trn2 UltraServers cuentan con hasta 64 chips Trainium2 interconectados con NeuronLink, nuestra interconexión exclusiva de chip a chip. Puede usar las instancias Trn2 y UltraServers para entrenar e implementar los modelos más exigentes, incluidos modelos de lenguaje de gran tamaño (LLM), modelos multimodales y transformadores de difusión, con el fin de crear un amplio conjunto de aplicaciones de IA generativa de última generación.

Trainium3

Las instancias Trn3 UltraServers, equipadas con nuestro chip de lA de 4ª. generación, AWS Trainium3 (el primer chip de IA de 3 nm de AWS) están diseñadas de manera específica para ofrecer la mejor economía de tokens para aplicaciones agénticas, de razonamiento y de generación de video de última generación. Las instancias Trn3 UltraServers ofrecen un rendimiento hasta 4,4 veces mayor, un ancho de banda de memoria 3,9 veces superior y una eficiencia energética 4 veces mayor en comparación con las instancias Trn2 UltraServers, lo que proporciona la mejor relación entre precio y rendimiento para la el entrenamiento y el servicio de modelos de frontera a escala, incluidos el aprendizaje por refuerzo, la combinación de expertos (MoE), el razonamiento y las arquitecturas de contexto extendido.

Cada chip AWS Trainium3 proporciona 2,52 petaflops (PFLOP) de procesamiento FP8, aumenta la capacidad de memoria 1,5 veces y el ancho de banda 1,7 veces en comparación con Trainium2, ya que cuenta con hasta 144 GB de memoria HBM3e y 4,9 TB/s de ancho de banda de memoria. Trainium3 está diseñado para cargas de trabajo densas y paralelas para expertos con tipos de datos avanzados (MXFP8 y MXFP4) y un mejor equilibrio entre memoria y procesamiento para tareas en tiempo real, multimodales y de razonamiento.

En Amazon Bedrock, Trainium3 es el acelerador más rápido, ya que ofrece un rendimiento hasta 3 veces más rápido que Trainium2 y una eficiencia energética 3 veces superior a la de cualquier otro acelerador del servicio. En pruebas de servicio a gran escala (por ejemplo, GPT-OSS), Trn3 ofrece más de 5 veces más tokens de salida por megavatio que Trn2 con una latencia similar por usuario, lo que permite una inferencia más sostenible y de mayor rendimiento a escala.

Creado para desarrolladores

Las nuevas instancias basadas en Trainium3 están diseñadas para los investigadores de IA y se basan en el SDK de AWS Neuron, para lograr
un rendimiento sin precedentes. 

Con la integración nativa de PyTorch, los desarrolladores pueden entrenar e implementar sin cambiar ni una sola línea de código. Para los
ingenieros de rendimiento de IA, hemos permitido un acceso más profundo a Trainium3, de modo que los desarrolladores puedan ajustar el rendimiento,
personalizar los núcleos y llevar sus modelos aún más lejos. Dado que la innovación prospera con la apertura, asumimos el compromiso
de colaborar con nuestros desarrolladores a través de herramientas y recursos de código abierto. 

Si desea obtener más información, visite Instancias Trn3 de Amazon EC2, descubra el SDK de AWS Neuron o regístrese para obtener acceso a la versión preliminar.

Beneficios

Las instancias Trn3 UltraServers cuentan con las últimas innovaciones de la tecnología UltraServers en escalado vertical, con NeuronSwitch-v1 para
comunicaciones colectivas all-to-all más rápidas en hasta 144 chips Trainium3. En conjunto, una única instancia Trn3 UltraServers proporciona
hasta 20,7 TB de HBM3e, 706 TB/s de ancho de banda de memoria y 362 PFLOP FP8, lo que supone hasta 4,4 veces más
rendimiento y una eficiencia energética 4 veces superior en comparación con las instancias Trn2 UltraServers. Trn3 proporciona el rendimiento
más alto al menor costo de entrenamiento e inferencia con los modelos más recientes de MoE y de razonamiento con más de 1 billón de parámetros, y ofrece un rendimiento significativamente mayor para GPT-OSS a escala en comparación con las instancias
basadas en Trainium2.

Las instancias Trn2 UltraServers siguen siendo una opción rentable y de alto rendimiento para el entrenamiento de la IA generativa y la inferencia de
modelos con hasta 1 billón de parámetros. Las instancias Trn2 cuentan con hasta 16 chips Trainium2 y las instancias Trn2 UltraServers cuentan con
hasta 64 chips Trainium2 conectados con NeuronLink, una interconexión de chip a chip exclusiva.

Las instancias Trn1 cuentan con hasta 16 chips Trainium y ofrecen hasta 3 PFLOP FP8, 512 GB de HBM con 9,8 TB/s de
ancho de banda de memoria y hasta 1,6 Tbps de red EFA.

Creado para la investigación y la experimentación

El SDK de AWS Neuron le permite sacar el máximo rendimiento de las instancias Trn3, Trn2 y Trn1 para que pueda centrarse en crear e implementar modelos y acelerar el tiempo de comercialización. AWS Neuron se integra de forma nativa con PyTorch, Jax y bibliotecas esenciales como Hugging Face, vLLM o PyTorch Lightning, entre otras. Optimiza los modelos listos para usar de cara al entrenamiento y a la inferencia distribuidos, al mismo tiempo que proporciona información detallada destinada a la creación de perfiles y a la depuración. AWS Neuron se integra con servicios como Amazon SageMaker, Amazon SageMaker Hyperpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster y AWS Batch, así como con servicios de terceros como Ray (Anyscale), Domino Data Lab y Datadog.

A fin de ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, AWS Trainium admite diferentes tipos de datos
de precisión mixta como BF16, FP16, FP8, MXFP8 y MXFP4. Para respaldar el rápido ritmo de la innovación en IA generativa,
Trainium2 y Trainium3 incluyen optimizaciones de hardware para una dispersión 4 veces mayor (16:4), microescalado, redondeo
estocástico y motores colectivos dedicados.

Neuron permite a los desarrolladores optimizar sus cargas de trabajo mediante Neuron Kernel Interface (NKI) para el desarrollo del kernel. NKI expone la ISA completa de Trainium, lo que permite un control total sobre la programación a nivel de instrucción, la asignación de memoria y la programación de la ejecución. Además de crear sus propios núcleos, los desarrolladores pueden usar la biblioteca de núcleos de Neuron, que es de código abierto y está lista para la implementación de núcleos optimizados. Por último, Neuron Explore proporciona una visibilidad de full-stack, al conectar el código de los desarrolladores con los motores del hardware.

Clientes

Clientes como Databricks, Ricoh, Karakuri, SplashMusic y otros se están dando cuenta de los beneficios de rendimiento y costo de las instancias Trn1.

Clientes como Anthropic, Databricks, Poolside, Ricoh y NinjaTech AI están obteniendo importantes beneficios de rendimiento y costos con las instancias Trn1 y Trn2.

Los primeros usuarios de Trn3 están logrando nuevos niveles de eficiencia y escalabilidad en la próxima generación de modelos de IA generativa a gran escala.

Missing alt text value

Conquiste el rendimiento, el coste y la escala de la IA

AWS Trainium2, diseñado para que la IA rinda como nunca

Historias de clientes con los chips de IA de AWS