Instancias Trn1 de Amazon EC2

Entrenamiento rentable y de alto rendimiento de modelos de IA generativa

Introducción a las instancias Trn1 mediante AWS Neuron

Las instancias Trn1 de Amazon Elastic Compute Cloud (EC2), impulsadas por los chips de AWS Trainium, están diseñadas específicamente para el entrenamiento con aprendizaje profundo (DL) de alto rendimiento de modelos de IA generativa, incluidos los modelos de lenguaje de gran tamaño (LLM) y de difusión latente. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a otras instancias de Amazon EC2 comparables. Puede usar instancias Trn1 para entrenar más de 100 000 millones de modelos de DL de parámetros y de IA generativa en un amplio conjunto de aplicaciones, como resúmenes de texto, generación de códigos, respuesta a preguntas, generación de imágenes y videos, recomendaciones y detección de fraudes.

El SDK de AWS Neuron ayuda a los desarrolladores a entrenar modelos en AWS Trainium (e implementar modelos en los chips de AWS Inferentia). Se integra de forma nativa con marcos de trabajo, como PyTorch y TensorFlow, para que pueda seguir utilizando el código y los flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para obtener información sobre el soporte de Neuron actual para marcos y bibliotecas de machine learning (ML), arquitecturas de modelos y optimizaciones de hardware, consulte la documentación de Neuron.

Las instancias Trn1n ya están disponibles

Las instancias Trn1n duplican el ancho de banda de la red (en comparación con las instancias Trn1) hasta alcanzar los 1600 Gbps de Elastic Fabric Adapter (EFAv2). El mayor ancho de banda ofrece un tiempo de entrenamiento hasta un 20 % más rápido en relación con Trn1 para el entrenamiento de modelos de IA generativa intensivos en la red, como modelos de lenguaje de gran tamaño (LLM) y combinación de expertos (MoE).

Nuevas instancias Trn1 de Amazon EC2 | Amazon Web Services (1:34)

Beneficios

Reducción de los tiempos de entrenamiento para más de 100 000 millones de modelos de parámetros

Las instancias Trn1 se diseñan específicamente para lograr un DL de alto rendimiento y reducir los tiempos de entrenamiento de meses a semanas o incluso días. Con tiempos de entrenamiento más breves, puede iterar más rápido, crear modelos más innovadores y aumentar la productividad. Las instancias Trn1n ofrecen un tiempo de entrenamiento hasta un 20 % más rápido que las instancias Trn1 para los modelos que se benefician de un mayor ancho de banda de la red.

Reduzca sus costos de ajuste y preentrenamiento

Las instancias Trn1 ofrecen una alto rendimiento y un ahorro de hasta el 50 % en costos de entrenamiento en comparación con otras instancias Amazon EC2 comparables.

Uso de marcos de trabajo y bibliotecas de ML existentes

Utilice el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Trn1. Con Neuron, puede usar marcos de trabajo de ML populares, como PyTorch y TensorFlow, y seguir usando su código y flujos de trabajo existentes para entrenar modelos en instancias Trn1. Para comenzar rápidamente a usar las instancias Trn1, vea ejemplos de modelos populares en la documentación de Neuron.

Escale verticalmente hasta 6 exaflops con UltraClusters de EC2

Las instancias Trn1 admiten hasta 800 Gbps de ancho de banda de la red Elastic Fabric Adapter (EFAv2) de segunda generación. Las instancias Trn1n admiten hasta 1600 Gbps de ancho de banda de la red de EFAv2 para ofrecer un rendimiento aún mayor para los modelos que hacen un uso intensivo de la red. Ambas instancias se implementan en EC2 UltraClusters que permiten escalar hasta 30 000 chips de Trainium, que están interconectados con una red a escala de petabits sin bloqueo para proporcionar 6 exaflops de rendimiento informático.

Funcionamiento

Uso de la DLAMI de AWS
Uso de Amazon EKS
Uso de Amazon ECS
Uso de Amazon SageMaker

Uso de la DLAMI de AWS
Amplíe y lea la descripción de la imagen.

La primera sección, titulada Aplicación de usuario, muestra los principales métodos que puede utilizar para lanzar automáticamente la AMI de aprendizaje profundo de AWS (DLAMI) e instancias Trn1 de Amazon EC2: Interfaz de la línea de comandos de AWS (AWS CLI), herramientas de AWS y SDK, y AWS Cloud Control API. El segundo método principal para lanzar una DLAMI desde la interfaz web es la Consola de administración de AWS.

La siguiente sección muestra las instancias Trn1 de Amazon EC2 que se lanzan desde la DLAMI seleccionada.

Otro grupo muestra un terminal local, un terminal remoto de EC2 y un script de aplicación que se pueden usar para actualizar y administrar una DLAMI para lanzar instancias de EC2 en función de las actualizaciones.
Uso de Amazon EKS
Amplíe y lea la descripción de la imagen.

El primer cuadro muestra cómo se usa Amazon Elastic Kubernetes Service (EKS) para crear clústeres de Kubernetes que funcionan con Amazon EKS Distro.

Después de crear los clústeres, puede implementar nodos de trabajo Trn1 o Trn1n para su clúster de EKS.

A continuación, puede ejecutar sus cargas de trabajo de entrenamiento en Kubernetes.
Uso de Amazon ECS
Amplíe y lea la descripción de la imagen.

En la primera etapa del flujo de trabajo, se utiliza Amazon Elastic Container Registry (ECR) para crear imágenes y almacenarlas mediante ECR o cualquier otro repositorio.

A continuación, puede usar Amazon Elastic Container Service (ECS) para seleccionar la imagen del contenedor de aprendizaje profundo (DLC) para su carga de trabajo.

A continuación, implemente la carga de trabajo de entrenamiento en el servidor de instancias Trn1 o Trn1n de Amazon EC2.

Por último, utilice Amazon ECS para administrar sus contenedores.
Uso de Amazon SageMaker
Amplíe y lea la descripción de la imagen.

Primero, seleccione las instancias Trn1 o Trn1n (ml.trn1 o ml.trn1n) como opción de entrenamiento de SageMaker.

Se aplica un modelo de facturación por segundo y paga por lo que utiliza. Puede utilizar las bibliotecas de formación distribuidas y el compilador de entrenamiento de SageMaker para escalar y aumentar el rendimiento.

A continuación, aplique el ajuste del modelo de automatización para la optimización de los hiperparámetros.

Luego, la interactividad y el monitoreo se logran mediante la depuración, la creación de perfiles y la administración de experimentos. Ajuste sus costos con Managed Spot Training.

Por último, guarde los artefactos del modelo resultantes para su modelo entrenado en un bucket de Amazon S3.

Características

Hasta 3 petaflops con AWS Trainium

Las instancias Trn1 funcionan con hasta 16 chips de AWS Trainium creados específicamente para acelerar el entrenamiento de DL y ofrecer hasta 3 petaflops de potencia informática FP16/BF16. Cada chip incluye dos núcleos NeuronCore de segunda generación.

Hasta 512 GB de memoria aceleradora de gran ancho de banda

Para permitir un paralelismo eficiente de datos y modelos, cada instancia Trn1 tiene 512 GB de memoria aceleradora compartida (HBM) con 9,8 TB/s de ancho de banda total de memoria.

Redes y almacenamiento de alto rendimiento

Para respaldar el entrenamiento de modelos con uso intensivo de la red, como Mixture of Experts (MoE) y Generative PreTrained Transformers (GPT), cada instancia Trn1n ofrece hasta 1600 Gbps de ancho de banda de la red de EFAv2. Cada instancia Trn1 admite hasta 800 Gbps de ancho de banda de EFAv2. EFAv2 acelera el entrenamiento distribuido al ofrecer una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas en comparación con el servicio EFA de primera generación. Estas instancias también admiten hasta 80 Gbps de ancho de banda de Amazon Elastic Block Store (EBS) y hasta 8 TB de almacenamiento en disco duro de estado sólido (SSD) NVMe local para un acceso rápido a la carga de trabajo de grandes conjuntos de datos.

Interconexión de NeuronLink

Para una conectividad rápida entre aceleradores y comunicaciones colectivas optimizadas, las instancias Trn1 admiten hasta 768 Gb/s de NeuronLink, una interconexión de alta velocidad sin bloqueos.

Optimización para nuevos tipos de datos

Para ofrecer un alto rendimiento y, al mismo tiempo, cumplir con los objetivos de precisión, las instancias Trn1 están optimizadas para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8).

Optimizaciones de DL de última generación

Para respaldar el rápido ritmo de innovación del DL y la IA generativa, las instancias Trn1 cuentan con varias innovaciones que las hacen flexibles y ampliables para entrenar modelos de DL en constante evolución. Las instancias Trn1 cuentan con optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Clientes

Más de 10 000 organizaciones de todo el mundo (incluidas Comcast, Condé Nast y más del 50 % de las empresas de la lista Fortune 500) confían en los Databricks para unificar sus datos, análisis e inteligencia artificial.

“Miles de clientes han implementado Databricks en AWS, lo que les brinda la capacidad de utilizar MosaicML para preentrenar, ajustar y servir modelos base para una variedad de casos de uso. AWS Trainium nos brinda la escala y el alto rendimiento necesarios para entrenar nuestros modelos MPT de Mosaic, y a un bajo costo. A medida que entrenamos nuestros modelos MPT de Mosaic de próxima generación, Trainium2 permitirá construir modelos aún más rápido, lo que nos permitirá ofrecer a nuestros clientes una escala y un rendimiento sin precedentes para que puedan lanzar al mercado sus propias aplicaciones de IA generativa con mayor rapidez”.

Naveen Rao, VP of Generative AI de Databricks

Con la misión de “reinventar el mecanismo de creación de valor y hacer avanzar a la humanidad”, Stockmark ayuda a muchas empresas a crear y construir negocios innovadores al proporcionar tecnología de procesamiento del lenguaje natural de vanguardia.

“Con 16 nodos de instancias Trn1 de Amazon EC2 impulsadas por chips de AWS Trainium, hemos desarrollado y publicado stockmark-13b, un modelo de lenguaje de gran tamaño con 13 000 millones de parámetros, previamente entrenado desde cero en un corpus japonés de 220 000 millones de tokens. El corpus incluye los textos más recientes sobre dominios empresariales hasta septiembre de 2023. El modelo obtuvo la puntuación más alta de JSquad (0,813) en el punto de referencia JGLUE (Japanese General Language Understanding Evaluation) en comparación con otros modelos equivalentes. Está disponible en Hugging Face Hub y se puede usar comercialmente con la licencia de MIT. Las instancias Trn1 nos permitieron lograr una reducción del 20 % en los costos de capacitación en comparación con las instancias de GPU equivalentes”.

Kosuke Arima, CTO de Stockmark Co., Ltd.

RICOH ofrece soluciones para el lugar de trabajo y servicios de transformación digital diseñados para gestionar y optimizar el flujo de información entre las empresas.

“La migración a las instancias de Trn1 fue bastante sencilla. Pudimos completar el entrenamiento de nuestro modelo de parámetros 13B en solo 8 días. Basándonos en este éxito, esperamos desarrollar y entrenar nuestro modelo de parámetros 70B en Trainium y estamos entusiasmados con el potencial de estas instancias para entrenar nuestros modelos de manera más rápida y rentable”.

Yoshiaki Umetsu, Director, Digital Technology Development Center, RICOH

Helixon

“En HeliXon, creamos soluciones de IA de última generación para tratamientos basados en proteínas. Nuestro objetivo es desarrollar herramientas de IA que permitan a los científicos descifrar la función e interacciones de las proteínas, examinen los conjuntos de datos genómicos a gran escala para identificar objetivos y diseñar tratamientos como anticuerpos o terapias celulares. Hoy en día usamos bibliotecas de distribución de entrenamiento como FSDP para poner en paralelo el entrenamiento de modelos con varios servidores basados en GPU; sin embargo, aún tardamos semanas en entrenar un solo modelo. Nos complace usar las instancias Trn1 de Amazon EC2, que cuentan con el ancho de banda de la red más alto (800 Gbps) disponible en AWS para mejorar el rendimiento de nuestros trabajos de entrenamiento distribuido y reducir nuestros tiempos y costos de entrenamiento”.

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.

“Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Con base en nuestra exitosa experiencia de migración de cargas de trabajo de inferencia a instancias Inf1 y nuestro trabajo inicial en instancias Trn1 de EC2 basadas en AWS Trainium, esperamos que estas instancias proporcionen valor adicional a la mejora del costo y rendimiento integral del ML”.

Takuya Nakade, CTO, Money Forward, Inc.

Magic

Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.

“Entrenar grandes modelos autorregresivos basados en transformadores es un componente fundamental de nuestro trabajo. Las instancias Trn1 impulsadas por AWS Trainium se diseñan específicamente para estas cargas de trabajo y ofrecen escalabilidad casi infinita, conexión rápida a redes internodales y soporte avanzado para tipos de datos de 8 y 16 bits. Las instancias Trn1 nos ayudan a entrenar modelos grandes más rápido y a un costo más bajo. Estamos particularmente contentos con el soporte nativo para redondeo estocástico de BF16 en Trainium, lo que aumenta el rendimiento mientras la exactitud numérica no se distingue de la precisión total”.

Eric Steinberger, cofundador y director ejecutivo, Magic

Cactus

CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.

“En los laboratorios de Cactus, aprovechamos la potencia de la IA con investigaciones centradas en el procesamiento de lenguaje natural, clasificación y recomendación, IA conversacional, modelos de lenguaje amplio, visión artificial, AR o VR y XAI. En consonancia con nuestra búsqueda para habilitar un entrenamiento más rápido de los modelos de machine learning, así como permitir a nuestros investigadores llevar a cabo experimentos mientras administran los costos de infraestructura, nos encantó evaluar AWS Trainium. Las características listas para usar de AWS Trainium, como la optimización XLA, el entrenamiento paralelo de datos de varios trabajadores y el almacenamiento de gráficos en caché, son muy útiles porque nos ayudan a reducir los tiempos de entrenamiento y a llevar a cabo más experimentos de forma más rápida y accesible”.

Nishchay Shah, director de tecnología y jefe de productos emergentes, Cactus Communication

Watashiha

Watashiha ofrece un servicio de chatbot de IA innovador e interactivo, OGIRI AI, que incorpora sentido del humor para ofrecer una respuesta divertida en el acto a una pregunta.

“Utilizamos modelos de lenguaje amplio para incorporar el sentido del humor y ofrecer una experiencia conversacional más relevante a nuestros clientes en nuestros servicios de IA. Esto nos obliga a preentrenar y ajustar estos modelos con frecuencia. Entrenamos previamente un modelo japonés basado en GPT en la instancia Trn1.32xlarge de EC2, en el cual aprovechamos el paralelismo de tensores y datos. El entrenamiento se completó en 28 días, con una reducción de costos del 33 % en comparación con nuestra infraestructura anterior basada en GPU. Dado que nuestros modelos siguen creciendo rápidamente en complejidad, esperamos contar con instancias Trn1n, que tienen el doble de ancho de banda de la red que Trn1, para acelerar el entrenamiento de modelos más grandes”.

Yohei Kobashi, director técnico de Watashiha, K.K.

Socios

“En PyTorch, aceleramos el proceso de llevar el machine learning de la investigación de prototipos a la producción lista para los clientes. Hemos colaborado ampliamente con el equipo de AWS para ofrecer soporte de PyTorch nativo para las nuevas instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium que se diseñan específicamente para entrenar modelos de aprendizaje profundo. Los desarrolladores que se encargan de diseñar modelos de PyTorch pueden comenzar a entrenar en instancias Trn1 con cambios mínimos al código. Además, hemos trabajado con la comunidad de OpenXLA para habilitar bibliotecas distribuidas de PyTorch para facilitar la migración de modelos de instancias basadas en GPU a instancias Trn1. Estamos muy emocionados por la innovación que traerán las instancias Trn1 a la comunidad de PyTorch, incluidos tipos de datos más eficientes, formas dinámicas, operadores personalizados, redondeo estocástico optimizado para hardware y un modo de depuración ágil. Todo esto hace que las instancias Trn1 estén bien preparadas para que los desarrolladores de PyTorch las adopten ampliamente. Esperamos llevar a cabo contribuciones junto con PyTorch en el futuro para optimizar aún más el rendimiento del entrenamiento”.

Geeta Chauhan, IA aplicada, directora de ingeniería de PyTorch

Logotipo de Hugging Face

“La misión de Hugging Face es democratizar el buen ML para ayudar a los desarrolladores de ML de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores chips de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a modelos LLM con una escala de más de 100 000 millones de parámetros y también a los últimos modelos de difusión y visión artificial”.

Servicios de Amazon que usan instancias Trn1

Amazon

El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

“Actualmente, entrenamos modelos de lenguaje amplio (LLM) que son multimodales (texto e imagen), multilingües, aplican para varias configuraciones regionales, cuentan con entrenamiento previo en varias tareas y abarcan varias entidades (productos, consultas, marcas, revisiones, etc.) que mejoran la experiencia de compra del cliente. Las instancias Trn1 proporcionan una manera más sostenible de entrenar los LLM a la vez que ofrecen el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrecen alto rendimiento a menor precio. Planeamos descubrir el nuevo tipo de datos FP8 configurable y el redondeo estocástico acelerado de hardware para aumentar aún más la eficiencia de nuestros entrenamientos y la velocidad de desarrollo”.

Trishul Chilimbi, vicepresidente, Amazon Search

Introducción

Uso de Amazon SageMaker

Puede entrenar modelos en instancias Trn1 fácilmente mediante Amazon SageMaker. Reduzca significativamente el tiempo y el costo de los entrenamientos, y ajuste modelos de ML sin tener que administrar infraestructuras. Con SageMaker, puede usar herramientas integradas para administrar experimentos de entrenamiento y hacer un seguimiento, elegir automáticamente hiperparámetros óptimos, depurar trabajos de entrenamiento y supervisar el uso de recursos del sistema.

Uso de las AMI de aprendizaje profundo de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de aprendizaje profundo (DL) la infraestructura y las herramientas necesarias para agilizar el DL en AWS a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar sus modelos DL de forma óptima en instancias Trn1.

Uso de contenedores de aprendizaje profundo de AWS

Ahora puede implementar instancias Trn1 en Amazon Elastic Kubernetes Service (EKS), que es un servicio de Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), que es un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Trn1, consulte los tutoriales sobre contenedores de Neuron.

Detalles del producto

Tamaño de la instancia	Chips de Trainium	Acelerador Memoria (GB)	CPU virtuales	Instancia Memoria (GiB)	Local NVMe Almacenamiento (TB)	Red Ancho de banda (Gbps)	EFA y RDMA Soporte	EBS Ancho de banda (Gbps)	Bajo demanda Precio por hora	1 año Reservadas Instancia Efectiva Por hora*	3 años Reservadas Instancia Efectiva Por hora*
trn1.2xlarge	1	32	8	32	0,5	Hasta 12,5	No	Hasta 20	1,34 USD	0,79 USD	0,4744 USD
trn1.32xlarge	16	512	128	512	8	800	Sí	80	21,50 USD	12,60 USD	7,59 USD
trn1n.32xlarge	16	512	128	512	8	1600	Sí	80	24,78 USD	14,52 USD	8,59 USD

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.