Instancias DL1 de Amazon EC2

Formación de bajo costo para modelos de aprendizaje profundo

Las instancias DL1 de Amazon EC2, con la tecnología de los aceleradores Gaudi de Habana Labs (una compañía de Intel), brindan modelos de aprendizaje profundo con un coste de entrenamiento más bajo para casos de uso de procesamiento de lenguaje natural, detección de objetos y reconocimiento de imágenes. Las instancias DL1 ofrecen un rendimiento de precio hasta un 40 % superior para el entrenamiento de modelos de aprendizaje profundo en comparación con las instancias de EC2 de la generación actual basadas en GPU.

Estas instancias cuentan con 8 aceleradores Gaudi con 32 GiB de memoria de gran ancho de banda (HBM) por acelerador, 768 GiB de memoria del sistema, procesadores personalizados Intel Xeon Scalable de segunda generación, 400 Gbps de rendimiento de redes y 4 TB de almacenamiento local NVMe.

Las instancias DL1 incluyen el SDK SynapseAI® de Habana, integrado con marcos de machine learning líderes como TensorFlow y PyTorch.

Puede comenzar a utilizar instancias DL1 con facilidad, mediante AMI de aprendizaje profundo de AWS o AWS Deep Learning Containers, o Amazon EKS y ECS para aplicaciones en contenedores. Amazon SageMaker será compatible próximamente con las instancias DL1.

Nuevo video de información general acerca de las nuevas instancias DL1 de Amazon EC2 (1:33)

Beneficios

Formación de bajo costo para modelos de aprendizaje profundo

Las instancias DL1 ofrecen un rendimiento de precio hasta un 40 % superior para la formación de modelos de aprendizaje profundo en comparación con nuestras instancias EC2 basadas en GPU más recientes. Estas instancias cuentan con aceleradores Gaudi que están diseñados específicamente para formar modelos de aprendizaje profundo. También puede lograr ahorros notables al utilizar Savings Plans de EC2 para reducir de forma significativa el costo que implica la formación de sus modelos de aprendizaje profundo.

Facilidad de uso y portabilidad del código

Desarrolladores de todos los niveles de experiencia pueden comenzar a utilizar con facilidad instancias DL1. Pueden seguir utilizando sus propios servicios de administración de flujos de trabajo mediante las AMI de aprendizaje profundo de AWS y los contenedores de aprendizaje profundo para comenzar a utilizar las instancias DL1. Los usuarios avanzados también pueden crear kernels personalizados para optimizar el rendimiento de sus modelos con Tensor Proccesing Cores programables de Gaudi. (TPC). A través de herramientas SynapseAI® de Habana, estos usuarios pueden migrar sin problemas los modelos existentes que se ejecutan en instancias basadas en la GPU o CPU a instancias DL1, con mínimos cambios de código.

Compatibilidad con los principales marcos y modelos de ML

Las instancias DL1 son compatibles con los principales marcos de ML, como TensorFlow y PyTorch, lo cual le permite seguir utilizando sus flujos de trabajo de ML preferidos. Puede acceder a modelos optimizados como Mask R-CNN para detección de objetos y BERT para procesamiento de lenguaje natural en el repositorio de GitHub de Habana para crear, formar e implementar sus modelos con rapidez. La completa biblioteca de kernels de Tensor Processing Core (TPC) de SynapseAI es compatible con una amplia variedad de operadores y varios tipos de datos para diferentes necesidades de modelos y rendimiento.

Características

Con la tecnología de los aceleradores Gaudi de Habana Labs

Las instancias DL1 cuentan con la tecnología de los aceleradores Gaudi de Habana Labs (una compañía de Intel), los cuales cuentan con ocho TPC completamente programables y 32 GiB de memoria de ancho de banda elevado por acelerador. Cuentan con una arquitectura de computación heterogénea para aumentar la eficiencia de la formación y un motor centralizado configurable para operaciones matemáticas de matrices. También disponen de la única integración nativa de la industria de diez puertos Gigabit Ethernet 100 en todos los aceleradores Gaudi para una comunicación con latencia baja entre aceleradores.

SDK SynapseAI® de Habana

El SDK SynapseAI® se compone de un compilador gráfico y tiempo de ejecución, biblioteca de kernels de TPC, firmware, controladores y herramientas. Está integrado con marcos populares como TensorFlow y PyTorch. Sus bibliotecas de comunicación ayuda a escalar verticalmente con rapidez a varios aceleradores con las mismas operaciones que utiliza actualmente para instancias basadas en GPU. Este escalado determinista da lugar a una mayor utilización y una mejor eficiencia en una variedad de topologías de redes neuronales. Gracias a las herramientas de SynapseAI®, puede migrar de forma íntegra y ejecutar sus modelos existentes en instancias DL1 con modificaciones mínimas del código.

Redes y almacenamiento de alto desempeño

Las instancias DL1 brindan 400 Gbps de rendimiento de redes y conectividad a Amazon Elastic Fabric Adapter (EFA) y Amazon Elastic Network Adapter (ENA) para aplicaciones que necesitan acceso a redes de alta velocidad. Para un acceso rápido a conjuntos de datos de gran tamaño, las instancias DL1 también incluyen 4 TB de almacenamiento NVMe y entregan un rendimiento de lectura de 8 GB/seg.

Creación en el sistema Nitro de AWS

Las instancias DL1 se incorporan al sistema Nitro de AWS, que es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Detalles del producto

Tamaño de la instancia

vCPU

Memoria de la instancia (GiB)

Aceleradores Gaudi

Ancho de banda de red (Gbps)

Acelerador entre pares bidireccional (Gbps)

Almacenamiento de instancias (GB) Ancho de banda de EBS (Gbps) Bajo demanda (precio/hora) Por hora real en una instancia reservada por 1 año* Por hora real en una instancia reservada por 3 años*

dl1.24xlarge

96

768

8

400

100

4 x 1000 
SSD NVMe
19 13,11 USD 7,87 USD 5,24 USD

*Los precios mostrados son para las regiones Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

Testimonios de clientes

Seagate

Seagate Technology ha sido un líder global en soluciones de almacenamiento y administración de datos durante más de 40 años. Los ingenieros de ciencia de datos y machine learning de Seagate han creado un sistema de detección de defectos de aprendizaje profundo (DL) avanzado y lo han implementado a nivel global en las instalaciones de fabricación de la compañía. En un proyecto reciente de prueba de concepto, Habana Gaudi superó los objetivos de rendimiento para la formación de uno de los modelos de segmentación semántica de DL utilizados actualmente en la producción de Seagate. 

“Esperamos que la ventaja significativa en cuanto a precio de las instancias DL1 de Amazon EC2, con la tecnología de los aceleradores Gaudi de Habana, suponga un atractivo añadido a los clústeres informáticos de AWS. A medida que Habana Labs continúa evolucionando y permite una cobertura más amplia de operadores, hay potencial para abarcar casos de uso empresariales adicionales, y de ese modo brindar un mayor ahorro”.

Darrell Louder, director de ingeniería sénior de operaciones, tecnología y análisis avanzados de Seagate

Leidos

Leidos está entre los 10 principales proveedores de TI para asistencia sanitaria y brinda una amplia gama de soluciones personalizables y escalables a hospitales y sistemas de salud, organizaciones biomédicas y cualquier agencia federal de EE. UU. centrada en la salud.

“Una de las numerosas tecnologías con las que hacemos que avance la sanidad actualmente es el uso de machine learning y aprendizaje profundo para el diagnóstico de enfermedades a partir de datos de imágenes médicas. Nuestros enormes conjuntos de datos requieren una formación precisa y eficiente para ayudar a los investigadores que tratan de resolver algunos de los misterios médicos más urgentes. Dada la necesidad de Leidos y sus clientes de contar con una formación rápida, sencilla y rentable para modelos de aprendizaje profundo, nos complace haber comenzado este viaje con Intel y AWS para utilizar instancias DL1 de Amazon EC2 basadas en los procesadores de IA de Habana Gaudi. Gracias a las instancias DL1, esperamos un aumento de la velocidad y eficiencia de la formación de modelos, junto a la consiguiente reducción del riesgo y el costo de investigación y desarrollo”. 

Chetan Paul, director de tecnología (CTO) y servicios humanos de Leidos 

Intel

Intel ha creado una tecnología de seguimiento de atletas en 3D que analiza videos de los atletas en acción en tiempo real para informar acerca de procesos de formación de rendimiento y mejorar las experiencias del público durante las competiciones.

“Formar nuestros modelos en instancias DL1 de Amazon EC2, con la tecnología de aceleradores Gaudi de Habana Labs, nos permitirá procesar de manera precisa y fiable miles de video y generar datos de rendimiento asociados, además de reducir los costos de formación. Gracias a las instancias DL1, ahora podemos formar a la velocidad y el costo requerido para prestar servicios productivos a atletas, equipos y emisoras de todos los niveles en una variedad de deportes”. 

Rick Echevarria, vicepresidente del grupo de ventas y marketing de Intel

Riskfuel

Riskfuel brinda valoraciones y análisis de riesgo en tiempo real a compañías que administran catálogos financieros, para que puedan mejorar la precisión y el rendimiento comercial.

“Hubo dos factores que nos llevaron hasta las instancias DL1 de Amazon EC2 basadas en aceleradores de IA de Habana Gaudi. En primer lugar, queríamos asegurarnos de que nuestros clientes de banca y seguros podían ejecutar modelos de Riskfuel que sacasen partido del hardware más reciente. Por suerte, la migración de nuestros modelos a las instancias DL1 fue sencilla y directa; la verdad es que solo tuvimos que cambiar unas pocas líneas de código. En segundo lugar, los costos de formación suponen una parte importante de nuestro gasto, y la promesa de obtener un rendimiento de precio hasta un 40 % superior suponía un beneficio potencialmente notable para nuestras finanzas”. 

Ryan Ferguson, director ejecutivo (CEO) de Riskfuel

Fractal

Fractal es líder mundial en inteligencia artificial y análisis, y su tecnología respalda las decisiones que toman empresas de Fortune 500.

“La IA y el aprendizaje profundo son el núcleo de nuestra capacidad de visión artificial, la cual permite a los clientes tomar mejores decisiones en los sectores a los que prestamos servicio. Para lograr mejorar la precisión, los conjuntos de datos cada vez tienen un tamaño mayor y son más complejos, lo cual requiere a su vez modelos más grandes y más complejos. Esto supone que es necesario un rendimiento de precio informático mejorado. Las nuevas instancias DL1 de Amazon EC2 prometen un costo notablemente reducido para la formación que las instancias EC2 basadas en GPU. Esperamos que esto haga que la formación de modelos de IA en la nube sea mucho más competitiva en cuanto a costo y accesibilidad que nunca para una amplia variedad de clientes”.

Srikanth Velamakanni, director ejecutivo (CEO) del grupo de Fractal

Introducción

Las AWS Deep Learning AMIs (DLAMI) y los AWS Deep Learning Containers (DLC)

Las AWS Deep Learning AMIs (DLAMI) y los AWS Deep Learning Containers (DLC) brindan a científicos de datos, profesionales de ML e investigadores imágenes de máquina y contenedores preinstaladas con marcos de aprendizaje profundo que hacen que comenzar sea fácil, puesto que omiten el complicado proceso que supone crear y optimizar sus entornos de software desde cero. El SDK de SynapseAI para los aceleradores de Gaudi está integrado en las AWS DL AMI y los DLC, lo cual le permite comenzar a utilizar las instancias DL1 rápidamente.

Amazon Elastic Kubernetes Service (EKS) o Elastic Container Service (ECS)

Los clientes que prefieren administrar sus propias cargas de trabajo en contenedores mediante servicios de orquestación de contenedores pueden implementar instancias DL1 con Amazon EKS o ECS.

Recursos adicionales

Demostración: Formación de modelos de aprendizaje profundo con instancias de DL1 de Amazon EC2 (2:03)
Presentamos las instancias DL1 de Amazon EC2 (3:41)
Comparación del costo de formación de DL1 de Amazon EC2 (0:50)
Comience a utilizar de manera sencilla las instancias DL1 de Amazon EC2 (0:49)

Documentación de Habana® Gaudi® v. 0.15

Visite la documentación »

Foro de desarrolladores de Habana®

Visite el foro »

Repositorio de GitHub de Habana®

Visite GitHub »

Introducción a AWS

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.