- Amazon EC2›
- Tipos de instancias›
- Instancias Trn3
Instancias Trn3 de AWS EC2
Diseñadas específicamente para ofrecer la mejor economía de tokens en aplicaciones de generación de video, razonamiento y agénticas de vanguardia.
¿Por qué elegir Trn3 UltraServers de Amazon EC2?
Los modelos de frontera actuales están evolucionando hacia modelos multimodales con billones de parámetros y compatibilidad con contextos largos de más de un millón de tokens, lo que hace necesaria una nueva generación de computación de escalado vertical de alto rendimiento. Las instancias Trn3 UltraServers de Amazon EC2 y la pila para desarrolladores de AWS Neuron están diseñados de manera específica para estas demandas, ya que ofrecen el rendimiento, la rentabilidad y la eficiencia energética necesarios para entrenar y prestar servicio a la próxima generación de sistemas de razonamiento y agénticos a escala.
Las instancias Trn3 UltraServers de Amazon EC2 están equipadas con nuestro chip de lA de 4ª. generación, Trainium 3, el primer chip de IA de 3 nm de AWS que ha sido diseñado de manera específica con el objetivo de ofrecer la mejor economía de tokens para aplicaciones agénticas, de razonamiento y de generación de video de vanguardia.
Las instancias Trn3 UltraServers ofrecen un rendimiento hasta 4,4 veces mayor, un ancho de banda de memoria 3,9 veces superior y una relación rendimiento/vatio 4 veces más alta en comparación con las instancias Trn2 UltraServers, lo que proporciona la mejor relación entre precio y rendimiento para la el entrenamiento y el servicio de modelos de frontera a escala, incluidos el aprendizaje por refuerzo, la mezcla de expertos (MoE), el razonamiento y las arquitecturas de contexto extendido. Trn3 UltraServers continúa con el liderazgo de la familia Trainium en relación precio-rendimiento y escalabilidad, lo que le ayuda a entrenar más rápido e implementar la próxima generación de modelos fundacionales con un mayor rendimiento y de manera más rentable.
Las instancias Trn3 UltraServers pueden escalar hasta 144 chips Trainium3 (hasta 362 PFLOP FP8) y están disponibles en EC2 UltraClusters 3.0 para escalar a cientos de miles de chips. La instancia Trn3 UltraServer de próxima generación incluye NeuronSwitch-V1, una red de interconexión all-to-all que utiliza NeuronLink-v4 con 2 TB/s de ancho de banda por chip.
Puede comenzar de forma sencilla con compatibilidad nativa con PyTorch, JAX, Hugging Face Optimum Neuron y otras bibliotecas, junto con plena interoperabilidad en Amazon SageMaker, EKS, ECS, AWS Batch y ParallelCluster
Beneficios
Las instancias Trn3 UltraServers, equipadas con chips AWS Trainium3, ofrecen hasta 4,4 veces más rendimiento, 3,9 veces más ancho de banda de memoria y 4 veces más rendimiento por vatio en comparación con las instancias Trn2 UltraServers. En Amazon Bedrock, Trainium3 es el acelerador más veloz y ofrece un rendimiento hasta 3 veces más rápido que Trainium2. Este notable incremento del desempeño también se traduce en un rendimiento significativamente superior para modelos como GPT-OSS a escala en comparación con instancias basadas en Trainium2, y al mismo tiempo se mantiene una baja latencia por usuario.
Cada Trn3 UltraServer escala hasta 144 chips Trainium3, y los nuevos racks ofrecen más del doble de densidad de chips en comparación con Trn2, lo que aumenta el procesamiento por rack y mejora la eficiencia del centro de datos. Las instancias Trn3 UltraServers se basan en AWS Nitro System y Elastic Fabric Adapter (EFA), y se implementan en EC2 UltraClusters 3.0 sin bloqueo y a escala de varios petabits, lo que le permite escalar a cientos de miles de chips Trainium para un entrenamiento y un servicio distribuidos.
En continuidad con el legado de liderazgo en rendimiento de Trainium, las instancias Trn3 ofrecen una mejor relación precio-rendimiento que los aceleradores de IA heredados, lo que permite reducir el costo por token y el costo por experimento. Un mayor rendimiento en cargas de trabajo como GPT-OSS y LLM de escala avanzada reduce los costos de inferencia y reduce los tiempos de entrenamiento para los modelos más exigentes.
Los chips AWS Trainium3, nuestros primeros chips de IA de 3 nm, están optimizados para ofrecer la mejor economía de tokens para las aplicaciones de generación de video, razonamiento y agénticas de vanguardia. Las instancias Trn3 UltraServers ofrecen más de cuatro veces mayor eficiencia energética que las instancias Trn2 UltraServers, incluso ejecutándose en Amazon Bedrock. En la práctica, Trn3 obtiene más de 5 veces más tokens de producción por megavatio que Trn2 UltraServer, al tiempo que mantiene una latencia similar por usuario, lo que le ayuda a cumplir los objetivos de sostenibilidad sin comprometer el rendimiento.
Las instancias Trn3 UltraServers funcionan con AWS Neuron, la pila para desarrolladores de AWS Trainium y AWS Inferentia, por lo que puede ejecutar el código PyTorch y JAX existente sin necesidad de realizar cambios en el código.
TNeuron es compatible con bibliotecas de machine learning populares, como vLLM, Hugging Face, Optimum Neuron, PyTorch Lightning y TorchTitan, y se integra con servicios como Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch y AWS ParallelCluster.
Características
Cada chip AWS Trainium3 ofrece 2,52 FP8 PFLOP de capacidad de computación, y las instancias Trn3 UltraServers escalan hasta 144 chips Trainium3, lo que proporciona hasta 362 FP8 PFLOP de capacidad de computación FP8 total en un único UltraServer. Esta envolvente de computación de alta densidad está diseñada para entrenar y prestar servicio a transformadores de escala avanzada, modelos de mezcla de expertos y arquitecturas de contexto prolongado.
AWS Trainium3 mejora tanto la capacidad como el ancho de banda de memoria respecto a la generación anterior; cada chip ofrece 144 GB de HBM3e y 4,9 TB/s de ancho de banda de memoria. Trn3 UltraServer ofrece hasta 20,7 TB de HBM3e y 706 TB/s de ancho de banda de memoria agregado, lo que permite tamaños de lotes más grandes, ventanas de contexto ampliadas y una utilización mayor de modelos multimodales, de video y de razonamiento de gran tamaño.
Las instancias Trn3 UltraServers incorporan NeuronSwitch-v1, una red de interconexión all-to-all que duplica el ancho de banda de interconexión entre chips en comparación con Trn2 UltraServers, lo que mejora la eficiencia del paralelismo de modelos y reduce la sobrecarga de comunicación para MoE y el entrenamiento con paralelismo de tensores. Las instancias Trn3 UltraServers admiten hasta 144 chips por UltraServer, más del doble que las instancias Trn2 UltraServers. Para el entrenamiento distribuido a gran escala, implementamos Trn3 UltraServers en UltraCluster 3.0 con cientos de miles de chips Trainium3 en una red única sin bloqueo y a escala de petabits.
Trainium3 admite los modos de precisión FP32, BF16, MXFP8 y MXFP4, lo que le permite equilibrar precisión y eficiencia en cargas de trabajo densas y con paralelismo de expertos. Los motores integrados de comunicación colectiva aceleran la sincronización y reducen la sobrecarga de entrenamiento en modelos de transformador, de difusión y mezcla de expertos, lo que mejora el rendimiento de entrenamiento de extremo a extremo a escala.
Las instancias Trn3 UltraServers se programan mediante el SDK de AWS Neuron, que proporciona el compilador, el tiempo de ejecución, las bibliotecas de entrenamiento e inferencia y las herramientas de desarrollo para AWS Trainium y AWS Inferentia. Neuron Kernel Interface (NKI) ofrece acceso de bajo nivel al conjunto de instrucciones, la memoria y la programación de ejecución de Trainium para que los ingenieros de rendimiento puedan crear núcleos personalizados e impulsar el rendimiento más allá de los marcos estándar. Neuron Explorer ofrece un entorno unificado de creación de perfiles y depuración, que rastrea la ejecución desde el código PyTorch y JAX hasta las operaciones de hardware y proporciona información útil para estrategias de particionamiento, optimizaciones del núcleo y ejecuciones distribuidas a gran escala.
¿Ha encontrado lo que buscaba hoy?
Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios