Instances Amazon EC2 DL1

Coûts d'entraînement des modèles de deep learning peu élevés

Les instances Amazon EC2 DL1 optimisées par les accélérateur Gaudi de Habana Labs (une société Intel) permettent de réduire les coûts d'entraînement des modèles de deep learning pour les cas d'utilisation concernant le traitement du langage naturel, la détection d'objets et la reconnaissance des images. Les instances DL1 offrent un rapport prix/performance jusqu'à 40 % supérieur pour l'entraînement de deep learning par rapport à la génération actuelle d'instances EC2 basées sur les GPU.

Les instances Amazon EC2 DL1 sont dotées de 8 accélérateurs Gaudi avec 32 Gio de mémoire à haute bande passante (HBM, high bandwidth memory) par accélérateur, 768 Gio de mémoire système, des processeurs de 2e génération Intel Xeon Scalable sur mesure, 400 Gbit/s de débit réseau et 4 To de stockage local NVMe.

Les instances DL1 incluent le kit SDK Habana SynapseAI®. Ce dernier est intégré aux principaux cadres de machine learning tels que TensorFlow et PyTorch.

Pour pouvez facilement démarrer les instances DL1 à l'aide des AWS Deep Learning AMI ou des AWS Deep Learning Containers, ou encore à l'aide d'Amazon EKS et ECS pour les applications conteneurisées. La prise en charge des instances DL1 dans Amazon SageMaker sera bientôt disponible.

Nouvelle vidéo de présentation des instances Amazon EC2 DL1 (1:33)

Avantages

Coûts d'entraînement des modèles de deep learning peu élevés

Les instances DL1 offrent un rapport prix/performance jusqu'à 40 % supérieur pour l'entraînement de deep learning par rapport à nos dernières instances EC2 basées sur les GPU. Ces instances disposent d'accélérateurs Gaudi spécialement conçus pour l'entraînement des modèles de deep learning. Vous pouvez également réaliser des économies supplémentaires en utilisant des Savings Plan EC2 afin de réduire considérablement les coûts d'entraînement de vos modèles de deep learning.

Simplicité d'utilisation et portabilité du code

Quel que soit leur niveau d'expertise, tous les développeurs peuvent facilement démarrer les instances DL1. Ils peuvent continuer à utiliser leurs propres services de gestion des flux en utilisant des AWS DL AMI ou des DL Containers pour démarrer les instances DL1. Les utilisateurs avancés peuvent également créer des noyaux personnalisés pour optimiser les performances de leurs modèles à l'aide des Tensor Processing Cores programmables de Gaudi. (TPCs). À l'aide des outils Habana SynapseAI®, les utilisateurs peuvent migrer aisément leurs modèles existants qui s'exécutent sur des instances basés sur des GPU ou CPU vers les instances DL1 avec des modifications minimales du code.

Prise en charge des principaux cadres et modèles de ML

Les instances DL1 prennent en charge les principaux cadres de ML tels que TensorFlow et PyTorch, ce qui vous permet de continuer à utiliser vos flux de ML préférés. Pour pouvez accéder à des modèles optimisés tels que Mask R-CNN pour la détection d'objets et BERT pour le traitement du langage naturel sur le référentiel GitHub de Habana pour rapidement créer, entraîner et déployer vos modèles. La riche bibliothèque de noyaux Tensor Processing Core (TPC) de SynapseAI prend en charge un large éventail d'opérateurs et plusieurs types de données pour un large ensemble de modèles et de besoins de performances.

Fonctionnalités

Optimisées par les accélérateurs Gaudi de Habana Labs

Les instances DL1 sont optimisées par les accélérateurs Gaudi de Habana Labs (une société Intel), qui disposent de huit TPC entièrement programmables et de 32 Gio de mémoire à haute bande passante par accélérateur. Elles sont dotées d'une architecture de calcul hétérogène qui permet de maximiser l'efficacité de l'entraînement ainsi que d'un moteur centralisé configurable pour les opérations mathématiques de la matrice. Elles disposent également de la seule intégration native du secteur de dix ports Ethernet 100 gigabits sur chaque accélérateur Gaudi pour une communication à faible latence entre les accélérateurs.

Kit SDK Habana SynapseAI®

Le kit SDK Habana SynapseAI® se compose d'un compilateur et d'un environnement d'exécution graphiques, d'une bibliothèque de noyaux TPC, d'un micrologiciel, de pilotes et d'outils. Il est intégré aux principaux cadres, tels que TensorFlow et PyTorch. Ses bibliothèques de communication permettent de se mettre rapidement à l'échelle vers plusieurs accélérateurs qui utilisent les mêmes opérations que celles que vous utilisez aujourd'hui pour les instances basées sur des GPU. Cette mise à l'échelle déterministe se traduit par une utilisation plus élevée et une efficacité accrue sur un large éventail de topologies de réseaux neuronaux. À l'aide des outils SynapseAI®, vous pouvez migrer et exécuter en toute transparente vos modèles existants sur des instances DL1 avec des modifications minimales du code.

Mise en réseau et stockage haute performance

Les instances DL1 offrent 400 Gbits/s de débit réseau et de connectivité à Amazon Elastic Fabric Adapter (EFA) et Amazon Elastic Network Adapter (ENA) aux applications qui ont besoin d'accéder à une mise en réseau à haut débit. Pour accéder rapidement à des jeux de données volumineux, les instances DL1 incluent également 4 To de stockage NVMe local et offrent un débit de lecture de 8 Go/s.

Basées sur le système AWS Nitro

Les instances DL1 reposent sur le système AWS Nitro, qui est un ensemble étendu de composants qui décharge de nombreuses fonctions de virtualisation traditionnelles sur du matériel et des logiciels dédiés afin d'offrir des niveaux élevés de performances, de disponibilité et de sécurité, tout en réduisant les frais de virtualisation.

Description détaillée

Taille d'instance

vCPU

Mémoire d'instance (Gio)

Accélérateurs Gaudi

Bande passante réseau (Gbit/s)

Accélérateur pair-à-pair bidirectionnel (Gbit/s)

Stockage d'instance (Go) Bande passante EBS (Gbit/s) À la demande (prix/heure) Tarif horaire effectif des instances réservées sur 1 an* Tarif horaire effectif des instances réservées sur 3 ans*

dl1.24xlarge

96

768

8

400

100

4 x 1000 
SSD NVMe
19 13,11 USD 7,87 USD 5,24 USD

*Prix pratiqués dans les régions USA Est (Virginie du Nord) et USA Ouest (Oregon).

Témoignages de clients

Seagate

Seagate Technology est un leader mondial proposant des solutions de stockage et de gestion de données depuis plus de 40 ans. Les ingénieurs en science des données et en machine learning de Seagate ont créé un système avancé de détection des défauts de deep learning (DL), puis ils l'ont déployé à l'échelle mondiale sur les sites de fabrication de l'entreprise. Dans un récent projet de preuve de concept, Habana Gaudi a dépassé les objectifs de performance pour l'entraînement de l'un des modèles de segmentation sémantique de DL actuellement utilisés dans la production de Seagate. 

« Nous prévoyons que l'avantage significatif en termes de rapport qualité/prix des instances Amazon EC2 DL1, optimisées par les accélérateurs Habana Gaudi, pourrait constituer un futur ajout convaincant aux clusters de calcul AWS. Tandis que Habana Labs continue d'évoluer et permet une couverture plus large des opérateurs, il est possible de l'étendre à d'autres cas d'utilisation d'entreprise, et réaliser ainsi des économies de coûts supplémentaires. »

Darrell Louder, directeur principal de l'ingénierie des opérations, de la technologie et de l'analytique avancée - Seagate

Leidos

Leidos est reconnu en tant que l'un des 10 meilleurs fournisseurs informatiques dans le domaine de la santé offrant une large gamme de solutions personnalisables et évolutives aux hôpitaux et aux systèmes de santé, aux organisations biomédicales et à toutes les agences fédérales américaines axées sur la santé. 

« L'une des nombreuses technologies qui nous permettent actuellement de faire progresser les soins de santé est l'utilisation du machine learning et du deep learning pour le diagnostic des maladies sur la base des données d'imagerie médicale. Nos gigantesques jeux de données nécessitent un entraînement rapide et efficace pour aider les chercheurs à résoudre certains des mystères médicaux les plus urgents. Étant donné que Leidos et ses clients ont besoin d'un entraînement rapide, facile et rentable de leurs modèles de deep learning, nous sommes ravis d'avoir commencé ce voyage avec Intel et AWS pour utiliser les instances Amazon EC2 DL1 basées sur les processeurs d'IA Habana Gaudi. En utilisant les instances DL1, nous nous attendons à accroître la vitesse et l'efficacité de l'entraînement des modèles, avec une réduction ultérieure des risques et des coûts de recherche et développement. » 

Chetan Paul, CTO santé et services sociaux - Leidos 

Intel

Intel a créé la technologie 3D de suivi des athlètes qui analyse la vidéo des athlètes en action en temps réel pour informer les processus d'entraînement aux performances et améliorer les expériences du public lors des compétitions.

« L'entraînement de nos modèles sur des instances Amazon EC2 DL1, optimisées par les accélérateurs Gaudi de Habana Labs, nous permet de traiter avec précision et fiabilité des milliers de vidéos et de générer des données de performances associées, tout en réduisant les coûts d'entraînement. Avec les instances DL1, nous pouvons désormais nous entraîner nos modèles en fonction de la vitesse et des coûts requis pour servir de manière productive les athlètes, les équipes et les diffuseurs de tous niveaux et dans plusieurs sports. » 

Rick Echevarria, vice-président, ventes et marketing du groupe - Intel

Riskfuel

RiskFuel fournit des évaluations en temps réel et une sensibilité aux risques aux entreprises qui gèrent des portefeuilles financiers, les aidant à augmenter la précision et les performances des transactions.

« Deux facteurs nous ont poussés vers les instances Amazon EC2 DL1 basées sur les accélérateurs d'IA Habana Gaudi. Tout d'abord, nous voulons nous assurer que nos clients dans les domaine de la banque et de l'assurance puissent exécuter des modèles Riskfuel qui tirent parti du matériel le plus récent. Fort heureusement pour nous, nous avons constaté que la migration de nos modèles vers des instances DL1 est très simple : en réalité, il suffit simplement de changer quelques lignes de code. Ensuite, les coûts d'entraînement constituent une composante importante de nos dépenses, et la promesse d'une amélioration prix/performances allant jusqu'à 40 % offre un avantage potentiellement substantiel à nos résultats. » 

Ryan Ferguson, président-directeur général (PDG) - Riskfuel

Fractal

Fractal est un leader mondial de l'intelligence artificielle et de l'analyse qui favorise les décisions des entreprises figurant au classement Fortune 500.

« L'IA et le deep learning sont au cœur de notre capacité de vision industrielle, permettant aux clients de prendre de meilleures décisions dans tous les secteurs que nous servons. Afin d'améliorer la précision, les jeux de données deviennent de plus en plus volumineux et complexes, et nécessitent des modèles plus volumineux et plus complexes. Cela conduit à la nécessité d'améliorer le calcul du rapport prix/performances. Les nouvelles instances Amazon EC2 DL1 promettent un entraînement à un coût considérablement inférieur par rapport aux instances EC2 basées sur des GPU. Nous nous attendons à ce que cela rende l'entraînement des modèles d'IA sur le cloud beaucoup plus compétitive et accessible qu'auparavant pour un large éventail de clients. »

Srikanth Velamakanni, président-directeur général (PDG) du groupe - Fractal

Pour commencer

AWS Deep Learning AMI (DLAMI) et AWS Deep Learning Containers (DLC)

Les AWS Deep Learning AMI (DLAMI) et les AWS Deep Learning Containers (DLC) fournissent aux scientifiques des données, aux spécialistes du ML et aux chercheurs des images de machines et de conteneurs préinstallées et dotées de cadres de deep learning permettant de faciliter le démarrage et d'ignorer le processus compliqué de création et d'optimisation de vos environnements logiciels à partir de zéro. Le kit SDK SynapseAI pour les accélérateurs Gaudi est intégré aux AWS DLAMI et aux AWS DLC, ce qui vous permet de démarrer rapidement avec les instances DL1.

Amazon Elastic Kubernetes Service (EKS) ou Elastic Container Service (ECS)

Les clients qui préfèrent gérer leurs propres applications conteneurisées via des services d'orchestration de conteneurs peuvent déployer des instances DL1 avec Amazon EKS ou ECS.

Ressources supplémentaires

Démonstration : Entraînement des modèles de deep learning à l'aide des instances Amazon EC2 DL1 (2:03)
Présentation des instances Amazon EC2 DL1 (3:41)
Comparaison des coûts d'entraînement des instances Amazon EC2 DL1 (0:50)
Démarrer facilement avec les instances Amazon EC2 DL1 (0:49)

Documentation Habana® Gaudi® v0.15

Consulter la documentation »

Forum des développeurs Habana®

Consulter le forum »

Référentiel GitHub Habana®

Consulter GitHub »

Démarrer avec AWS

Créer un compte AWS

Créer un compte AWS

Obtenez un accès instantané à l'offre gratuite d'AWS.

Apprendre avec des didacticiels simples

Apprenez-en plus avec les didacticiels de 10 minutes.

Explorez et apprenez avec des didacticiels simples.

Commencer à créer avec EC2 dans la console

Commencez à créer sur la console.

Lancez votre projet AWS en vous appuyant sur les guides étape par étape.