Instancias Trn1 de Amazon EC2

El mejor rendimiento de precios para formar modelos de aprendizaje profundo en la nube

Las instancias Trn1 de Amazon Elastic Compute Cloud (EC2) entregarán el mejor rendimiento de precio para formar modelos de aprendizaje profundo en la nube para casos de uso como procesamiento de lenguaje natural, visión artificial, búsqueda, recomendación, clasificación y más. Las instancias Trn1 cuentan con tecnología de AWS Trainium, el segundo chip de machine learning diseñado por AWS que está optimizado para el entrenamiento de aprendizaje profundo de alto rendimiento.

Estas instancias admiten hasta 16 aceleradores de AWS Trainium, hasta 800 Gbps de ancho de banda de red de Elastic Fabric Adapter (EFA) y 768 GB/s de altísima velocidad, con conectividad NeuronLink.

Además, las instancias Trn1 se implementan en UltraClusters de Amazon EC2 consistentes en decenas de miles de aceleradores de Trainium para entrenar con rapidez incluso los modelos de aprendizaje profundo más complejos con billones de parámetros.

Los desarrolladores pueden comenzar rápidamente a utilizar instancias Trn1 mediante el SDK de AWS Neuron y a entrenar modelos a través de marcos de ML líderes.

Nuevas instancias Trn1 de Amazon EC2 | Amazon Web Services (1:11)

Beneficios

Mejor precio por rendimiento para entrenamiento de modelos

Las instancias Trn1 cuentan con la tecnología de los aceleradores Trainium de AWS, diseñados específicamente para el entrenamiento de ML y con el objetivo de brindar la mejor relación entre precio y rendimiento para entrenar modelos de aprendizaje profundo en la nube.

Reduzca el entrenamiento de modelos de meses a días

Implemente instancias Trn1 en UltraClusters de EC2 para escalar el entrenamiento de modelos a más de 10 000 aceleradores interconectados con redes a escala de petabits para el entrenamiento de ML más rápido en Amazon EC2.

Facilidad de uso

Puede comenzar a utilizar fácilmente las instancias Trn1 mediante el SDK de AWS Neuron que viene integrado con marcos de ML líderes, como PyTorch y TensorFlow, y seguir utilizando flujos de trabajo de ML ya existentes con cambios mínimos en el código.

Maximización de la eficiencia de los recursos

Las instancias Trn1 están basadas en AWS Nitro System, una combinación de hardware dedicado e hipervisor ligero que le brinda una amplia colección de bloques de creación flexibles para ensamblar los recursos de computación, almacenamiento, memoria y redes que necesita para un mejor rendimiento y seguridad en general.

Características

Aceleradores AWS Trainium

Las instancias Trn1 cuentan con la potencia de hasta 16 aceleradores de AWS Trainium con motores matemáticos específicos para procesar algoritmos de aprendizaje profundo, que hace que dichos aceleradores sean más eficientes que las GPU de uso general para el entrenamiento de modelos de aprendizaje profundo. Cada acelerador entrega hasta 210 billones de operaciones por segundo (TOPS) de potencia de computación, admite 32 GB de memoria de alto ancho de banda (HBM2e) y cuenta con NeuronLink, que brinda una interconexión sin bloqueo y de altísima velocidad entre instancias de 768 GB/s.

Redes y almacenamiento de alto rendimiento

Las instancias Trn1 entregan hasta 800 Gbps de redes de alto rendimiento. También son compatibles con Elastic Fabric Adapter (EFA), una interfaz de red personalizada diseñada por AWS para mejorar la eficiencia de escalado y brindar latencias bajas para un entrenamiento más rápido. Cada instancia Trn1 también admite hasta 8 TB de almacenamiento SSD NVMe local para un acceso rápido de las cargas de trabajo a grandes conjuntos de datos.

UltraClusters de Amazon EC2

Las instancias Trn1 están implementadas en UltraClusters de EC2 que consisten en decenas de miles de aceleradores de Trainium interconectados con una red a escala de petabits sin bloqueo. Los desarrolladores pueden acceder a un almacenamiento a escala de petabytes, de alto rendimiento y baja latencia con Amazon FSx for Lustre.

SDK de AWS Neuron

Comience a utilizar fácilmente las instancias Trn1 de Amazon EC2 con el SDK de AWS Neuron. El SDK de Neuron consiste en un compilador, extensiones de marcos, una biblioteca de tiempo de ejecución y herramientas para desarrolladores, integradas de manera nativa con marcos de ML, como TensorFlow y PyTorch. Puede utilizar bibliotecas de entrenamiento distribuido, como Megatron-ML y DeepSpeed, para un entrenamiento de modelos distribuido eficiente. El SDK de Neuron admite un gran número de operadores para un procesamiento de lenguaje natural de vanguardia y modelos de visión artificial. Los desarrolladores avanzados pueden implementar operadores personalizados con C++.

Creado en el sistema de AWS Nitro

Las instancias Trn1 se incorporan al sistema Nitro de AWS, que descarga muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Clientes

Anthropic
“En Anthropic creamos sistemas de IA fiables, interpretables y dirigibles que tendrán muchas oportunidades de crear valor de manera comercial y beneficiar al público. Nuestros intereses en investigación abarcan múltiples áreas, incluido el lenguaje natural, opiniones humanas, leyes de escalada, aprendizaje por refuerzo, generación de código e interpretabilidad. Una clave fundamental para nuestro éxito es el acceso a una infraestructura moderna que nos permite acelerar grandes flotas de aceleradores de aprendizaje profundo de alto rendimiento. Esperamos poder comenzar a utilizar AWS Trainium, puesto que su capacidad sin precedentes de escalado a decenas de miles de nodos y mayor ancho de banda de red nos permitirá iterar más rápido a la vez que mantenemos nuestros costos bajo control”.

Tom Brown, cofundador de Anthropic

Sprinklr
“El procesamiento de lenguaje natural y los modelos de ML de visión artificial de Sprinklr analizan diferentes formatos de datos con orígenes como publicaciones en redes sociales disponibles públicamente, publicaciones de blog, contenidos de video y otros contenidos disponibles en dominios públicos en más de 30 canales. En función del valor de nuestra experiencia con AWS Inferentia, esperamos empezar a utilizar con AWS Trainium con la esperanza de mejorar el tiempo de entrenamiento y reducir los costos de entrenamiento de nuestros modelos. Estamos expectantes ante la idea de desarrollar nuestros modelos con estas instancias de entrenamiento de alto rendimiento y costo reducido”.

Vasant Srinivasan, vicepresidente sénior de ingeniería de productos en Sprinklr

Introducción a AWS

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.