Instancias Trn1 de Amazon EC2

Entrenamiento rentable y de alto rendimiento de modelos de IA generativa

Las instancias Trn1 de Amazon Elastic Compute Cloud (EC2), impulsadas por los aceleradoresAWS Trainium, están diseñadas específicamente para el entrenamiento con aprendizaje profundo (DL) de alto rendimiento de modelos de IA generativa, incluidos los modelos de lenguaje amplio (LLM) y de difusión latente. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a otras instancias de Amazon EC2 comparables. Puede usar instancias Trn1 para entrenar más de 100 000 millones de modelos de DL de parámetros y de IA generativa en un amplio conjunto de aplicaciones, como resúmenes de texto, generación de códigos, respuesta a preguntas, generación de imágenes y videos, recomendaciones y detección de fraudes.

El SDK de AWS Neuron ayuda a los desarrolladores a entrenar modelos en AWS Trainium (e implementar modelos en los aceleradores de AWS Inferentia). Se integra de forma nativa con marcos de trabajo, como PyTorch y TensorFlow, para que pueda seguir utilizando el código y los flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para obtener información sobre el soporte de Neuron actual para marcos y bibliotecas de machine learning (ML), arquitecturas de modelos y optimizaciones de hardware, consulte la documentación de Neuron.

Las instancias Trn1n ya están disponibles

Las instancias Trn1n duplican el ancho de banda de la red (en comparación con las instancias Trn1) hasta alcanzar los 1600 Gbps de Elastic Fabric Adapter (EFAv2). El mayor ancho de banda ofrece un tiempo de capacitación hasta un 20 % más rápido en relación con Trn1 para la capacitación de modelos de IA generativa intensivos en la red, como modelos de lenguaje grandes (LLM) y combinación de expertos (MoE).

Nuevas instancias Trn1 de Amazon EC2 | Amazon Web Services (1:34)

Beneficios

Reducción de los tiempos de entrenamiento para más de 100 000 millones de modelos de parámetros

Las instancias Trn1 se diseñan específicamente para lograr un DL de alto rendimiento y reducir los tiempos de entrenamiento de meses a semanas o incluso días. Con tiempos de entrenamiento más breves, puede iterar más rápido, crear modelos más innovadores y aumentar la productividad. Las instancias Trn1n ofrecen un tiempo de entrenamiento hasta un 20 % más rápido que las instancias Trn1 para los modelos que se benefician de un mayor ancho de banda de la red.

Reduzca sus costos de ajuste y preentrenamiento

Las instancias Trn1 ofrecen una alto rendimiento y un ahorro de hasta el 50 % en costos de entrenamiento en comparación con otras instancias Amazon EC2 comparables.

Uso de marcos de trabajo y bibliotecas de ML existentes

Utilice el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Trn1. Con Neuron, puede usar marcos de trabajo de ML populares, como PyTorch y TensorFlow, y seguir usando su código y flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para comenzar rápidamente a usar las instancias Trn1, vea ejemplos de modelos populares en la documentación de Neuron.

Escale verticalmente hasta 6 exaflops con EC2 UltraClusters

Las instancias Trn1 admiten hasta 800 Gbps de ancho de banda de la red Elastic Fabric Adapter (EFAv2) de segunda generación. Las instancias Trn1n admiten hasta 1600 Gbps de ancho de banda de la red de EFAv2 para ofrecer un rendimiento aún mayor para los modelos que hacen un uso intensivo de la red. Ambas instancias se implementan en EC2 UltraClusters que permiten escalar hasta 30 000 aceleradores Trainium, que están interconectados con una red a escala de petabits sin bloqueo para proporcionar 6 exaflops de rendimiento informático.

Funcionamiento

  • Uso de la DLAMI de AWS
  • El diagrama muestra el flujo de trabajo para implementar instancias Trn1 de Amazon EC2 mediante la AMI de aprendizaje profundo de AWS (DLAMI).
  • Uso de Amazon EKS
  • El diagrama muestra el flujo de trabajo para crear clústeres de Kubernetes, implementar instancias Trn1 de Amazon EC2 para sus clústeres y ejecutar sus cargas de trabajo de capacitación en Kubernetes.
  • Uso de Amazon ECS
  • El diagrama muestra el flujo de trabajo para implementar instancias Trn1 de Amazon EC2 mediante contenedores de aprendizaje profundo de AWS con Amazon ECS.
  • Uso de Amazon SageMaker
  • El diagrama muestra cómo entrenar un modelo en instancias Trn1 de Amazon EC2 mediante Amazon SageMaker.

Características

Hasta 3 petaflops con AWS Trainium

Las instancias Trn1 funcionan con hasta 16 aceleradores AWS Trainium creados específicamente para acelerar el entrenamiento de DL y ofrecer hasta 3 petaflops de potencia informática FP16/BF16. Cada acelerador incluye dos núcleos NeuronCore de segunda generación.

Hasta 512 GB de memoria aceleradora de gran ancho de banda

Para permitir un paralelismo eficiente de datos y modelos, cada instancia Trn1 tiene 512 GB de memoria aceleradora compartida (HBM) con 9,8 TB/s de ancho de banda total de memoria.

Redes y almacenamiento de alto rendimiento

Para respaldar el entrenamiento de modelos con uso intensivo de la red, como Mixture of Experts (MoE) y Generative PreTrained Transformers (GPT), cada instancia Trn1n ofrece hasta 1600 Gbps de ancho de banda de la red de EFAv2. Cada instancia Trn1 admite hasta 800 Gbps de ancho de banda de EFAv2. EFAv2 acelera el entrenamiento distribuido al ofrecer una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas en comparación con el servicio EFA de primera generación. Estas instancias también admiten hasta 80 Gbps de ancho de banda de Amazon Elastic Block Store (EBS) y hasta 8 TB de almacenamiento en disco duro de estado sólido (SSD) NVMe local para un acceso rápido a la carga de trabajo de grandes conjuntos de datos.

Para una conectividad rápida entre aceleradores y comunicaciones colectivas optimizadas, las instancias Trn1 admiten hasta 768 Gb/s de NeuronLink, una interconexión de alta velocidad sin bloqueos.

Optimización para nuevos tipos de datos

Para ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, las instancias Trn1 están optimizadas para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8).

Optimizaciones de DL de última generación

Para respaldar el rápido ritmo de innovación del DL y la IA generativa, las instancias Trn1 cuentan con varias innovaciones que las hacen flexibles y ampliables para entrenar modelos de DL en constante evolución. Las instancias Trn1 cuentan con optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Clientes

Helixon
“En HeliXon, creamos soluciones de IA de última generación para tratamientos basados en proteínas. Nuestro objetivo es desarrollar herramientas de IA que permitan a los científicos descifrar la función e interacciones de las proteínas, examinen los conjuntos de datos genómicos a gran escala para identificar objetivos y diseñar tratamientos como anticuerpos o terapias celulares. Hoy en día usamos bibliotecas de distribución de entrenamiento como FSDP para poner en paralelo el entrenamiento de modelos con varios servidores basados en GPU; sin embargo, aún tardamos semanas en entrenar un solo modelo. Nos complace usar las instancias Trn1 de Amazon EC2, que cuentan con el ancho de banda de la red más alto (800 Gbps) disponible en AWS para mejorar el rendimiento de nuestros trabajos de entrenamiento distribuido y reducir nuestros tiempos y costos de entrenamiento”.

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.

“Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Con base en nuestra exitosa experiencia de migración de cargas de trabajo de inferencia a instancias Inf1 y nuestro trabajo inicial en instancias Trn1 de EC2 basadas en AWS Trainium, esperamos que estas instancias proporcionen valor adicional a la mejora del costo y rendimiento integral del ML”.

Takuya Nakade, CTO, Money Forward, Inc.

Magic

Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.

“Entrenar grandes modelos autoregresivos basados en transformadores es un componente fundamente de nuestro trabajo. Las instancias Trn1 impulsadas por AWS Trainium se diseñan específicamente para estas cargas de trabajo y ofrecen escalabilidad casi infinita, conexión rápida a redes internodales y soporte avanzado para tipos de datos de 8 y 16 bits. Las instancias Trn1 nos ayudan a entrenar modelos grandes más rápido y a un costo más bajo. Estamos particularmente contentos con el soporte nativo para redondeo estocástico de BF16 en Trainium, lo que aumenta el rendimiento mientras la exactitud numérica no se distingue de la precisión total”.

Eric Steinberger, cofundador y director ejecutivo, Magic

Cactus

CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.

“En los laboratorios de Cactus, aprovechamos la potencia de la IA con investigaciones centradas en el procesamiento de lenguaje natural, clasificación y recomendación, IA conversacional, modelos de lenguaje amplio, visión artificial, AR/VR y XAI. En consonancia con nuestra búsqueda para habilitar un entrenamiento más rápido de los modelos de machine learning, así como permitir a nuestros investigadores llevar a cabo experimentos mientras administran los costos de infraestructura, nos encantó evaluar AWS Trainium. Las características listas para usar de AWS Trainium, como la optimización XLA, el entrenamiento paralelo de datos de varios trabajadores y el almacenamiento de gráficos en caché, son muy útiles porque nos ayudan a reducir los tiempos de entrenamiento y a llevar a cabo más experimentos de forma más rápida y accesible”.

Nishchay Shah, director de tecnología y jefe de productos emergentes, Cactus Communication

Watashiha

Watashiha ofrece un servicio de chatbot de IA innovador e interactivo, OGIRI AI, que incorpora sentido del humor para ofrecer una respuesta divertida en el acto a una pregunta.

“Utilizamos modelos de lenguaje amplio para incorporar el sentido del humor y ofrecer una experiencia conversacional más relevante a nuestros clientes en nuestros servicios de IA. Esto nos obliga a preentrenar y ajustar estos modelos con frecuencia. Entrenamos previamente un modelo japonés basado en GPT en la instancia Trn1.32xlarge de EC2, en el cual aprovechamos el paralelismo de tensores y datos. La capacitación se completó en 28 días, con una reducción de costos del 33 % en comparación con nuestra infraestructura anterior basada en GPU. Dado que nuestros modelos siguen creciendo rápidamente en complejidad, esperamos contar con instancias Trn1n, que tienen el doble de ancho de banda de la red que Trn1, para acelerar el entrenamiento de modelos más grandes”.

Yohei Kobashi, director técnico de Watashiha, K.K.

Socios

PyTorch
“En PyTorch, aceleramos el proceso de llevar el machine learning de la investigación de prototipos a la producción lista para los clientes. Hemos colaborado ampliamente con el equipo de AWS para ofrecer soporte de PyTorch nativo para las nuevas instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium que se diseñan específicamente para entrenar modelos de aprendizaje profundo. Los desarrolladores que se encargan de diseñar modelos de PyTorch pueden comenzar a entrenar en instancias Trn1 con cambios mínimos al código. Además, hemos trabajado con la comunidad de OpenXLA para habilitar bibliotecas distribuidas de PyTorch para facilitar la migración de modelos de instancias basadas en GPU a instancias Trn1. Estamos muy emocionados por la innovación que traerán las instancias Trn1 a la comunidad de PyTorch, incluidos tipos de datos más eficientes, formas dinámicas, operadores personalizados, redondeo estocástico optimizado en hardware y un modo de depuración ágil. Todo esto hace que las instancias Trn1 estén bien preparadas para que los desarrolladores de PyTorch las adopten ampliamente. Esperamos llevar a cabo contribuciones junto con PyTorch en el futuro para optimizar aún más el rendimiento del entrenamiento”.

Geeta Chauhan, IA aplicada, directora de Ingeniería de PyTorch

Logotipo de Hugging Face
“La misión de Hugging Face es democratizar el buen uso del ML para ayudar a los desarrolladores de ML de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores aceleradores de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, reducimos los costos hasta en un 70 % en comparación con las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a modelos LLM con una escala de más de 100 000 millones de parámetros y también a los últimos modelos de difusión y visión artificial”.

 

Servicios de Amazon que usan instancias Trn1

Amazon

El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

“Actualmente, entrenamos modelos de lenguaje amplio (LLM) que son multimodales (texto e imagen), multilingües, aplican para varias configuraciones regionales, cuentan con entrenamiento previo en varias tareas y abarcan varias entidades (productos, consultas, marcas, revisiones, etc.) que mejoran la experiencia de compra del cliente. Las instancias Trn1 proporcionan una manera más sostenible de entrenar LLM a la vez que ofrece el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrece alto rendimiento a menor precio. Planeamos descubrir el nuevo tipo de dato FP8 configurable y el redondeo estocástico acelerado de hardware para aumentar aún más la eficiencia de nuestros entrenamientos y la velocidad de desarrollo”.

Trishul Chilimbi, vicepresidente, Amazon Search

Introducción

Uso de Amazon SageMaker

Puede entrenar modelos en instancias Trn1 fácilmente mediante Amazon SageMaker . Reduzca significativamente el tiempo y el costo de los entrenamientos, y ajuste modelos de ML sin tener que administrar infraestructuras. Con SageMaker, puede usar herramientas integradas para administrar y dar seguimiento a experimentos de entrenamiento, elegir automáticamente hiperparámetros óptimos, depurar trabajos de entrenamiento y monitorear el uso de recursos del sistema.

Uso de las AMI de aprendizaje profundo de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de aprendizaje profundo (DL) la infraestructura y las herramientas necesarias para agilizar el DL en AWS a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar sus modelos DL de forma óptima en instancias Trn1.

Uso de contenedores de aprendizaje profundo de AWS

Ahora puede implementar instancias Trn1 en Amazon Elastic Kubernetes Service (EKS), que es un servicio Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), que es un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS . Para obtener más información sobre cómo ejecutar contenedores en instancias Trn1, consulte los tutoriales sobre contenedores de Neuron .

Detalles del producto

Tamaño de la instancia Trainium
Aceleradores
Acelerador
Memoria
(GB)
CPU virtuales Instancia
Memoria
(GiB)
Local
NVMe
Almacenamiento
(TB)
Red
Ancho de banda
(Gbps)
EFA y
RDMA
Soporte
EBS
Ancho de banda
(Gbps)
Bajo demanda
Precio por hora
1 año
Reservadas
Instancia
Efectiva
Por hora*
3 años
Reservadas
Instancia
Efectiva
Por hora*
trn1.2xlarge 1 32 8 32 0,5 Hasta 12,5 No Hasta 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21,50 USD 12,60 USD 7,59 USD

trn1n.32xlarge

16 512 128 512 8 1600 80 24,78 USD 14,52 USD 8,59 USD
Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.