Instancias Trn1 de Amazon EC2

Entrenamiento de aprendizaje profundo rentable y de alto rendimiento en la nube

Las instancias Trn1 de Amazon EC2, con tecnología de aceleradores de AWS Trainium, se diseñan específicamente para llevar a cabo entrenamientos de aprendizaje profundo de alto rendimiento a la vez que ofrecen un ahorro de hasta el 50 % en los costos de entrenamiento en comparación con instancias basadas en GPU. Las instancias Trn1 ofrecen el rendimiento más alto durante el entrenamiento de aprendizaje profundo de modelos de procesamiento de lenguaje natural (NLP) en AWS. Puede usar las instancias Trn1 para entrenar el NLP y modelos de visión artificial y de recomendaciones en una gran variedad de aplicaciones, como reconocimiento de voz, recomendaciones, detección de fraudes, clasificación de imágenes y videos. Puede empezar a usar instancias Trn1 mediante flujos de trabajo existentes en marcos de machine learning (ML) populares, como PyTorch y TensorFlow. El SDK AWS Neuron se integra con estos marcos sin problemas para que pueda comenzar con solo unos cambios en líneas de código. Para obtener información sobre el soporte de Neuron actual para marcos y bibliotecas de ML, arquitecturas de modelos y optimizaciones de hardware, consulte la documentación de Neuron.

Nuevas instancias Trn1 de Amazon EC2 | Amazon Web Services (1:34)

Beneficios

Reducción de los tiempos de entrenamiento


Las instancias Trn1 se diseñan específicamente para lograr un aprendizaje profundo de alto rendimiento y reducir los tiempos de entrenamiento de meses a semanas o incluso días. Con tiempos de entrenamiento más breves, puede iterar más rápido, crear modelos más innovadores y aumentar la productividad.

Costos de entrenamiento de aprendizaje profundo más bajos

Las instancias Trn1 ofrecen alto rendimiento y un ahorro de hasta el 50 % en el costo por entrenamiento en comparación con las instancias basadas en GPU.

Compilación con soporte nativo para marcos y bibliotecas de ML

Puede empezar a usar instancias Trn1 mediante marcos de ML populares, como PyTorch y TensorFlow. El SDK de AWS Neuron se integra con estos marcos sin problemas para ayudarle a comenzar con solo unos cambios en líneas de código. Para comenzar rápidamente a usar las instancias Trn1, vea ejemplos de modelos populares en la documentación de Neuron.

Escale verticalmente hasta 6,3 exaflops de computación bajo demanda

Las instancias Trn1 son las primeras instancias de EC2 que tienen un ancho de banda de la red de hasta 800 Gbps para Elastic Fabric Adapter (EFA). Se implementan en UltraClusters de EC2 que permiten escalar hasta 30 000 aceleradores Trainium, que se interconectan con redes a escala sin bloqueos de petabits para proporcionar 6,3 exaflops de computación.

Características

Aceleradores AWS Trainium

Las instancias Trn1 cuentan con la tecnología de hasta 16 aceleradores AWS Trainium, los cuales se diseñan específicamente para acelerar el entrenamiento de aprendizaje profundo. Cada acelerador incluye dos núcleos NeuronCore de segunda generación. A fin de admitir un paralelismo eficiente de datos y modelos, cada instancia Trn1 cuenta con 512 GB de memoria de gran ancho de banda (HBM2e) y entrega hasta 3,4 petaflops de potencia de cómputo de FP16/BF16. También incluye NeuronLink, una interconexión intrainstancia sin bloqueo y de gran ancho de banda. Para obtener un alto rendimiento a la vez que cumple sus objetivos de precisión, Trainium tiene soporte nativo para una gran variedad de tipos de datos, como FP32, TF32, BF16, FP16, UINT8 y FP8 configurable. Habilita la compatibilidad del hardware con el redondeo estocástico, lo que permite brindar un alto rendimiento y gran precisión en comparación con los modos de redondeo heredados. Trainium también admite formas de tensor dinámicas y operadores personalizados escritos en C++ para ofrecerle una infraestructura flexible y a prueba del futuro que satisfaga sus necesidades de entrenamiento.

SDK de AWS Neuron

El SDK de AWS Neuron consta de un compilador, extensiones de marcos, una biblioteca de tiempos de ejecución y herramientas para desarrolladores. Está integrado de manera nativa con marcos de ML como TensorFlow y PyTorch. AWS Neuron también admite bibliotecas de entrenamiento distribuidas, como Megatron-LM, PyTorch FSDP y otras. Para comenzar a usar las instancias Trn1 rápidamente, vea ejemplos de modelos populares en la documentación de Neuron.

Redes y almacenamiento de alto rendimiento

Cada instancia Trn1 admite hasta 800 Gbps de ancho de banda de la red de Elastic Fabric Adapter. Cada instancia de Trn1 también admite hasta 80 Gbps de ancho de banda de Amazon Elastic Block Store (EBS) y hasta 8 TB de almacenamiento en disco duro de estado sólido (SSD) NVMe local para el acceso rápido de las cargas de trabajo a conjuntos de datos de gran tamaño.

UltraClusters de Amazon EC2

Las instancias Trn1 se despliegan en UltraClusters de EC2 que habilitarán el escalado de hasta 30 000 aceleradores de Trainium. Estos aceleradores se interconectan con redes sin bloqueos a escala de petabits para proporcionar hasta 6,3 exaflops de computación conectada a soluciones de almacenamiento como Amazon S3. Con Amazon FSx para Lustre, puede acceder a almacenamiento compartido que le ofrece latencias por debajo de los milisegundos y hasta cientos de gigabytes de rendimiento por segundo.

Socios

PyTorch
“En PyTorch, aceleramos el proceso de llevar el machine learning de la investigación de prototipos a la producción lista para los clientes. Hemos colaborado ampliamente con el equipo de AWS para ofrecer soporte de PyTorch nativo para las nuevas instancias Trn1 de Amazon EC2 impulsadas por AWS Trainium que se diseñan específicamente para entrenar modelos de aprendizaje profundo. Los desarrolladores que se encargan de diseñar modelos de PyTorch pueden comenzar a entrenar en instancias Trn1 con cambios mínimos al código. Además, hemos trabajado con la comunidad de OpenXLA para habilitar bibliotecas distribuidas de PyTorch para facilitar la migración de modelos de instancias basadas en GPU a instancias Trn1. Estamos muy emocionados por la innovación que traerán las instancias Trn1 a la comunidad de PyTorch, incluidos tipos de datos más eficientes, formas dinámicas, operadores personalizados, redondeo estocástico optimizado en hardware y un modo de depuración ágil. Todo esto hace que Trn1 esté bien preparado para que los desarrolladores de PyTorch la adopten ampliamente . Esperamos llevar a cabo contribuciones junto con PyTorch en el futuro para optimizar aún más el rendimiento del entrenamiento”.

Geeta Chauhan, Applied AI, directora de Ingeniería

Clientes

Helixon
“En HeliXon, creamos soluciones de IA de última generación para tratamientos basados en proteínas. Nuestro objetivo es desarrollar herramientas de IA que permitan a los científicos descifrar la función e interacciones de las proteínas, examinen los conjuntos de datos genómicos a gran escala para identificar objetivos y diseñar tratamientos como anticuerpos o terapias celulares. Hoy en día usamos bibliotecas de distribución de entrenamiento como FSDP para poner en paralelo el entrenamiento de modelos con varios servidores basados en GPU; sin embargo, aún tardamos semanas en entrenar un solo modelo. Nos complace usar las instancias Trn1 de Amazon EC2, que cuentan con el ancho de banda de la red más alto (800 Gbps) disponible en AWS para mejorar el rendimiento de nuestros trabajos de entrenamiento distribuido y reducir nuestros tiempos y costos de entrenamiento”.

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa.

“Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Mientras seguimos ajustando los modelos adaptados de NLP periódicamente, también es importante reducir los costos y tiempos de entrenamiento de modelos. Con base en nuestra exitosa experiencia de migración de cargas de trabajo de inferencia a instancias Inf1 y nuestro trabajo inicial en instancias Trn1 de EC2 basadas en AWS Trainium, esperamos que estas instancias proporcionen valor adicional a la mejora del costo y rendimiento integral del ML”.

Takuya Nakade, CTO, Money Forward, Inc.

Magic

Magic es un producto integrado y una empresa de investigación que desarrolla IA que es como el colega ideal para hacer que el mundo sea más productivo.

“Entrenar grandes modelos autoregresivos basados en transformadores es un componente fundamente de nuestro trabajo. Las instancias Trn1 impulsadas por AWS Trainium se diseñan específicamente para estas cargas de trabajo y ofrecen escalabilidad casi infinita, conexión rápida a redes internodales y soporte avanzado para tipos de datos de 8 y 16 bits. Las instancias Trn1 nos ayudan a entrenar modelos grandes más rápido y a un costo más bajo. Estamos particularmente contentos con el soporte nativo para redondeo estocástico de BF16 en Trainium, lo que aumenta el rendimiento mientras la exactitud numérica no se distingue de la precisión total”.

Eric Steinberger, cofundador y director ejecutivo, Magic

Cactus

CACTUS tiene un conjunto de productos y soluciones para investigadores y organizaciones que mejora el financiamiento, publicación, difusión y descubrimiento de la investigación.

“En los laboratorios de Cactus, aprovechamos la potencia de la IA con investigaciones centradas en el procesamiento de lenguaje natural, clasificación y recomendación, IA conversacional, modelos de lenguaje amplio, visión artificial, AR/VR y XAI. En consonancia con nuestra búsqueda para habilitar un entrenamiento más rápido de los modelos de machine learning, así como permitir a nuestros investigadores llevar a cabo experimentos mientras administran los costos de infraestructura, nos encantó evaluar AWS Trainium. Las características listas para usar de AWS Trainium, como la optimización XLA, el entrenamiento paralelo de datos de varios trabajadores y el almacenamiento de gráficos en caché, son muy útiles porque nos ayudan a reducir los tiempos de entrenamiento y a llevar a cabo más experimentos de forma más rápida y accesible”.

Nishchay Shah, director de tecnología y jefe de productos emergentes, Cactus Communication

Servicios de Amazon que usan instancias Trn1

Amazon

El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

“Actualmente, entrenamos modelos de lenguaje amplio (LLM) que son multimodales (texto e imagen), multilingües, aplican para varias configuraciones regionales, cuentan con entrenamiento previo en varias tareas y abarcan varias entidades (productos, consultas, marcas, revisiones, etc.) que mejoran la experiencia de compra del cliente. Las instancias Trn1 proporcionan una manera más sostenible de entrenar LLM a la vez que ofrece el mejor rendimiento por vatios en comparación con otras soluciones aceleradas de machine learning y nos ofrece alto rendimiento a menor precio. Planeamos descubrir el nuevo tipo de dato FP8 configurable y el redondeo estocástico acelerado de hardware para aumentar aún más la eficiencia de nuestros entrenamientos y la velocidad de desarrollo”.

Trishul Chilimbi, vicepresidente, Amazon Search

Introducción

Uso de Amazon SageMaker

Puede entrenar modelos en instancias Trn1 fácilmente mediante Amazon SageMaker. Reduzca significativamente el tiempo y el costo de los entrenamientos y ajuste modelos de ML sin tener que administrar infraestructuras. Con SageMaker, puede usar herramientas integradas para administrar y dar seguimiento a experimentos de entrenamiento, elegir automáticamente hiperparámetros óptimos, depurar trabajos de entrenamiento y supervisar el uso de recursos del sistema.

Uso de AMI de aprendizaje profundo de AWS
 
Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y a los profesionales del aprendizaje profundo la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo en la nube a cualquier escala. Los controladores de AWS Neuron vienen preconfigurados en las DLAMI para entrenar sus modelos de aprendizaje profundo de forma óptima en instancias Trn1.
Uso de contenedores de aprendizaje profundo de AWS
 
Ahora puede implementar instancias Trn1 en Amazon Elastic Kubernetes Service (EKS), que es un servicio Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), que es un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Trn1, consulte los tutoriales sobre contenedores de Neuron.

Detalles del producto

Tamaño de la instancia Trainium
Aceleradores
Acelerador
Memoria
(GB)
CPU virtuales Instancia
Memoria
(GiB)
Local
NVMe
Almacenamiento
(TB)
Red
Ancho de banda
(Gbps)
EFA y
RDMA
Soporte
EBS
Ancho de banda
(Gbps)
Bajo demanda
Precio por hora
1 año
Reservadas
Instancia
Efectiva
Por hora*
3 años
Reservadas
Instancia
Efectiva
Por hora*
trn1.2xlarge 1 32 8 32 0,5 Hasta 12,5 No Hasta 20 1,34 USD 0,79 USD 0,4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21,50 USD 12,60 USD 7,59 USD
Regístrese para abrir una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.