Saltar al contenido principal

Instancias DL1 de Amazon EC2

Formación de bajo costo para modelos de aprendizaje profundo

¿Por qué usar las instancias DL1 de Amazon EC2?

Las instancias DL1 de Amazon EC2, con la tecnología de los aceleradores Gaudi de Habana Labs (una compañía de Intel), brindan modelos de aprendizaje profundo con un coste de entrenamiento más bajo para casos de uso de procesamiento de lenguaje natural, detección de objetos y reconocimiento de imágenes. Las instancias DL1 ofrecen un rendimiento de precio hasta un 40 % superior para el entrenamiento de modelos de aprendizaje profundo en comparación con las instancias de EC2 de la generación actual basadas en GPU.

Estas instancias cuentan con 8 aceleradores Gaudi con 32 GiB de memoria de gran ancho de banda (HBM) por acelerador, 768 GiB de memoria del sistema, procesadores personalizados Intel Xeon Scalable de segunda generación, 400 Gbps de rendimiento de redes y 4 TB de almacenamiento local NVMe.

Las instancias DL1 incluyen el SDK SynapseAI® de Habana, integrado con marcos de machine learning líderes como TensorFlow y PyTorch.

Puede comenzar a utilizar instancias DL1 con facilidad, mediante AMI de aprendizaje profundo de AWS o AWS Deep Learning Containers, o Amazon EKS y ECS para aplicaciones en contenedores. Amazon SageMaker será compatible próximamente con las instancias DL1.

Video de información general sobre las nuevas instancias DL1 de Amazon EC2

Beneficios

Las instancias DL1 ofrecen un rendimiento de precio hasta un 40 % superior para la formación de modelos de aprendizaje profundo en comparación con nuestras instancias EC2 basadas en GPU más recientes. Estas instancias cuentan con aceleradores Gaudi que están diseñados específicamente para formar modelos de aprendizaje profundo. También puede lograr ahorros notables al utilizar Savings Plans de EC2 para reducir de forma significativa el costo que implica la formación de sus modelos de aprendizaje profundo.

Desarrolladores de todos los niveles de experiencia pueden comenzar a utilizar con facilidad instancias DL1. Pueden seguir utilizando sus propios servicios de administración de flujos de trabajo mediante las AMI de aprendizaje profundo de AWS y los contenedores de aprendizaje profundo para comenzar a utilizar las instancias DL1. Los usuarios avanzados también pueden crear kernels personalizados para optimizar el rendimiento de sus modelos con Tensor Proccesing Cores programables de Gaudi. (TPC). A través de herramientas SynapseAI® de Habana, estos usuarios pueden migrar sin problemas los modelos existentes que se ejecutan en instancias basadas en la GPU o CPU a instancias DL1, con mínimos cambios de código.

Las instancias DL1 son compatibles con los principales marcos de ML, como TensorFlow y PyTorch, lo cual le permite seguir utilizando sus flujos de trabajo de ML preferidos. Puede acceder a modelos optimizados como Mask R-CNN para detección de objetos y BERT para procesamiento de lenguaje natural en el repositorio de GitHub de Habana para crear, formar e implementar sus modelos con rapidez. La completa biblioteca de kernels de Tensor Processing Core (TPC) de SynapseAI es compatible con una amplia variedad de operadores y varios tipos de datos para diferentes necesidades de modelos y rendimiento.

Características

Las instancias DL1 cuentan con la tecnología de los aceleradores Gaudi de Habana Labs (una compañía de Intel), los cuales cuentan con ocho TPC completamente programables y 32 GiB de memoria de ancho de banda elevado por acelerador. Cuentan con una arquitectura de computación heterogénea para aumentar la eficiencia de la formación y un motor centralizado configurable para operaciones matemáticas de matrices. También disponen de la única integración nativa de la industria de diez puertos Gigabit Ethernet 100 en todos los aceleradores Gaudi para una comunicación con latencia baja entre aceleradores.

El SDK SynapseAI® se compone de un compilador gráfico y tiempo de ejecución, biblioteca de kernels de TPC, firmware, controladores y herramientas. Está integrado con marcos populares como TensorFlow y PyTorch. Sus bibliotecas de comunicación ayuda a escalar verticalmente con rapidez a varios aceleradores con las mismas operaciones que utiliza actualmente para instancias basadas en GPU. Este escalado determinista da lugar a una mayor utilización y una mejor eficiencia en una variedad de topologías de redes neuronales. Gracias a las herramientas de SynapseAI®, puede migrar de forma íntegra y ejecutar sus modelos existentes en instancias DL1 con modificaciones mínimas del código.

Las instancias DL1 brindan 400 Gbps de rendimiento de redes y conectividad a Amazon Elastic Fabric Adapter (EFA) y Amazon Elastic Network Adapter (ENA) para aplicaciones que necesitan acceso a redes de alta velocidad. Para un acceso rápido a conjuntos de datos de gran tamaño, las instancias DL1 también incluyen 4 TB de almacenamiento NVMe y entregan un rendimiento de lectura de 8 GB/seg.

Las instancias DL1 están basadas en AWS Nitro System, el cual es una amplia colección de bloques de creación que descargan varias de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer un alto rendimiento, alta disponibilidad y alta seguridad, al mismo tiempo que reducen los gastos operativos de la virtualización.

Detalles del producto

Instance Size
vCPU
Instance Memory (GiB)
Gaudi Accelerators
Network Bandwidth (Gbps)
Accelerator Peer-to-Peer Bidirectional (Gbps)
Instance Storage (GB)
EBS Bandwidth (Gbps)
On-demand (Price/Hr)
1-yr Reserved Instance Effective Hourly
3-yr Reserved Instance Effective Hourly*
dl1.24xlarge

96

768

8

400

100

4 x 1000 
SSD NVMe

19

13,11 USD

7,87 USD

5,24 USD

*Los precios mostrados son para las regiones Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).

 

Seagate

Seagate Technology ha sido un líder global en soluciones de almacenamiento y administración de datos durante más de 40 años. Los ingenieros de ciencia de datos y aprendizaje automático de Seagate han creado un sistema avanzado de detección de defectos de aprendizaje profundo (DL) y lo han implementado en todo el mundo en las instalaciones de fabricación de la empresa. En un proyecto reciente de prueba de concepto, Habana Gaudi superó los objetivos de rendimiento para la formación de uno de los modelos de segmentación semántica de DL utilizados actualmente en la producción de Seagate. 

«Esperamos que la importante ventaja de precio y rendimiento de las instancias DL1 de Amazon EC2, impulsadas por los aceleradores Habana Gaudi, pueda convertirse en una atractiva incorporación futura a los clústeres de procesamiento de AWS. A medida que Habana Labs continúa evolucionando y permite una cobertura más amplia de operadores, hay potencial para abarcar casos de uso empresariales adicionales, y de ese modo brindar un mayor ahorro”.

Darrell Louder, director sénior de ingeniería de operaciones, tecnología y análisis avanzados de Seagate
Missing alt text value

Leidos

Leidos se encuentra entre los 10 principales proveedores de TI para la asistencia sanitaria y ofrece una amplia gama de soluciones personalizables y escalables a hospitales, sistemas de salud, organizaciones biomédicas y agencias federales de EE. UU. centradas en la salud. 

«Una de las numerosas tecnologías que estamos habilitando para mejorar la atención médica en la actualidad es el uso del aprendizaje automático y el aprendizaje profundo para el diagnóstico de enfermedades a partir de datos de imágenes médicas. Nuestros enormes conjuntos de datos requieren una formación precisa y eficiente para ayudar a los investigadores que tratan de resolver algunos de los misterios médicos más urgentes. Dada la necesidad de Leidos y sus clientes de contar con una formación rápida, sencilla y rentable para modelos de aprendizaje profundo, nos complace haber comenzado este viaje con Intel y AWS para utilizar instancias DL1 de Amazon EC2 basadas en los procesadores de IA de Habana Gaudi. Al usar las instancias DL1, esperamos un aumento en la velocidad y la eficiencia de la capacitación de los modelos, con la consiguiente reducción del riesgo y el costo de la investigación y el desarrollo. »

Chetan Paul, CTO de Salud y Servicios Humanos - Leidos
Missing alt text value

Intel

Intel ha creado una tecnología de seguimiento de atletas en 3D que analiza videos de los atletas en acción en tiempo real para informar acerca de procesos de formación de rendimiento y mejorar las experiencias del público durante las competiciones.

«Entrenar nuestros modelos en instancias DL1 de Amazon EC2, con la tecnología de los aceleradores Gaudí de Habana Labs, nos permitirá procesar miles de vídeos de forma precisa y fiable y generar los datos de rendimiento asociados, a la vez que reduciremos los costes de formación. Con las instancias DL1, ahora podemos entrenar a la velocidad y el costo necesarios para atender de manera productiva a atletas, equipos y locutores de todos los niveles en una variedad de deportes. »

Rick Echevarría, vicepresidente del grupo de ventas y marketing de Intel
Missing alt text value

Combustible de riesgo

RiskFuel proporciona valoraciones en tiempo real y sensibilidad al riesgo a las empresas que gestionan carteras financieras, lo que les ayuda a aumentar la precisión y el rendimiento de las operaciones.

«Dos factores nos llevaron a elegir las instancias DL1 de Amazon EC2 basadas en los aceleradores de IA de Habana Gaudi. En primer lugar, queríamos asegurarnos de que nuestros clientes de banca y seguros podían ejecutar modelos de Riskfuel que sacasen partido del hardware más reciente. Por suerte, la migración de nuestros modelos a las instancias DL1 fue sencilla y directa; la verdad es que solo tuvimos que cambiar unas pocas líneas de código. En segundo lugar, los costos de capacitación son un componente importante de nuestros gastos, y la promesa de una mejora de hasta un 40% en el rendimiento de los precios ofrece un beneficio potencialmente sustancial para nuestros resultados finales. »

Ryan Ferguson, director ejecutivo de Riskfuel
Missing alt text value

Fractal


Fractal es líder mundial en inteligencia artificial y análisis, y su tecnología respalda las decisiones que toman empresas de Fortune 500.
 

«La inteligencia artificial y el aprendizaje profundo son la base de nuestra capacidad de visión artificial, ya que permiten a los clientes tomar mejores decisiones en todos los sectores a los que prestamos servicios. Para lograr mejorar la precisión, los conjuntos de datos cada vez tienen un tamaño mayor y son más complejos, lo cual requiere a su vez modelos más grandes y más complejos. Esto supone que es necesario un rendimiento de precio informático mejorado. Las nuevas instancias DL1 de Amazon EC2 prometen un costo notablemente reducido para la formación que las instancias EC2 basadas en GPU. Esperamos que esto haga que la capacitación de modelos de IA en la nube sea mucho más rentable y accesible que antes para una amplia gama de clientes. »

Srikanth Velamakanni, director ejecutivo del grupo - Fractal
Missing alt text value

Introducción

Las AWS Deep Learning AMIs (DLAMI) y los AWS Deep Learning Containers (DLC)

Las AWS Deep Learning AMIs (DLAMI) y los AWS Deep Learning Containers (DLC) brindan a científicos de datos, profesionales de ML e investigadores imágenes de máquina y contenedores preinstaladas con marcos de aprendizaje profundo que hacen que comenzar sea fácil, puesto que omiten el complicado proceso que supone crear y optimizar sus entornos de software desde cero. El SDK de SynapseAI para los aceleradores de Gaudi está integrado en las AWS DL AMI y los DLC, lo cual le permite comenzar a utilizar las instancias DL1 rápidamente.

Amazon Elastic Kubernetes Service (EKS) o Elastic Container Service (ECS)

Los clientes que prefieran administrar sus propias cargas de trabajo en contenedores con servicios de orquestación de contenedores pueden implementar instancias DL1 con Amazon EKS o ECS.

¿Ha encontrado lo que buscaba hoy?

Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios