- Amazon EC2›
- Types d’instances›
- Instances Trn2
Prise en main des instances Trn2 avec AWS Neuron
Le calcul EC2 le plus puissant pour l’entraînement et l’inférence en matière d’IA générative
Pourquoi choisir les instances Amazon EC2 Trn2 et les UltraServers ?
Les instances Amazon EC2 Trn2, alimentées par 16 puces AWS Trainium2, sont spécialement conçues pour l’IA générative et offrent des instances EC2 à haute performance pour entraîner et déployer des modèles avec des centaines de milliards à des milliers de milliards de paramètres. Les instances Trn2 offrent un rapport qualité/prix supérieur de 30 à 40 % à celui des instances EC2 P5e et P5en basées sur GPU. Avec les instances Trn2, vous pouvez bénéficier de performances d’entraînement et d’inférence de pointe tout en réduisant les coûts, ce qui vous permet de réduire les temps d’entraînement, d’itérer plus rapidement et de proposer des expériences en temps réel alimentées par l’IA. Vous pouvez utiliser les instances Trn2 pour entraîner et déployer des modèles, notamment des grands modèles de langage (LLM), des modèles multimodaux et des transformeurs de diffusion afin de créer des applications d’IA générative de nouvelle génération.
Pour réduire les temps d’entraînement et fournir des temps de réponse révolutionnaires (latence par jeton) pour les modèles les plus exigeants et les plus modernes, vous pourriez avoir besoin de plus de calcul et de mémoire que ce qu’une seule instance peut fournir. Les serveurs Trn2 UltraServer utilisent NeuronLink, une interconnexion puce à puce propriétaire, pour connecter 64 puces Trainium2 sur quatre instances Trn2, quadruplant ainsi la bande passante du réseau, de mémoire et de réseau disponible sur un seul nœud et offrant des performances révolutionnaires sur AWS pour le deep learning et les charges de travail d’IA générative. En ce qui concerne l’inférence, les UltraServers permettent d’obtenir des temps de réponse inégalés, pour des expériences en temps réel optimales. En matière d’entraînement, les UltraServers augmentent la vitesse et l’efficacité de l’entraînement des modèles grâce à une communication collective plus rapide pour le parallélisme des modèles, surpassant les performances des instances autonomes.
Vous pouvez facilement démarrer sur les instances Trn2 et les serveurs Trn2 UltraServer grâce à la prise en charge native des cadres du machine learning (ML) courants tels que PyTorch et JAX.
« Les UltraServers Trn2 sont désormais disponibles pour les charges de travail d’IA générative les plus exigeantes. »
Avantages
Les instances Trn2 vous aident à réduire vos temps d’entraînement et à proposer une expérience d’inférence en temps réel à vos utilisateurs finaux. Les instances Trn2 sont dotées de 16 puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire, pour fournir jusqu’à 20,8 pétaflops FP8 de calcul. Les instances Trn2 disposent d’un total de 1,5 To de HBM3 avec 46 téraoctets par seconde (To/s) de bande passante mémoire et 3,2 térabits par seconde (Tbit/s) de réseau Elastic Fabric Adapter (eFav3). Les serveurs Trn2 UltraServer (disponibles en version préliminaire) disposent de 64 puces Trainium2 connectées à NeuronLink et fournissent jusqu’à 83,2 pétaflops de calcul FP8, 6 To de mémoire totale à bande passante élevée avec 185 To/s de bande passante mémoire totale et 12,8 Tbit/s de réseau EFav3.
Pour permettre un entraînement distribué efficace, les instances Trn2 fournissent 3,2 Tbit/s et les serveurs Trn2 UltraServer fournissent 12,8 Tbit/s de réseau eFAV3. EFA est basé sur l’AWS Nitro System, ce qui signifie que toutes les communications via EFA sont cryptées en transit sans aucune perte de performance. EFA utilise également un protocole sophistiqué de routage du trafic et de contrôle de la congestion qui lui permet de mettre à l’échelle de manière fiable des centaines de milliers de puces Trainium2. Les instances Trn2 et les UltraServers sont déployés dans des UltraClusters EC2 pour permettre un entraînement réparti à l’échelle sur des dizaines de milliers de puces Trainium sur un seul réseau non bloquant à l’échelle du pétabit.
Les instances Trn2 offrent un rapport qualité/prix supérieur de 30 à 40 % à celui des instances EC2 P5e et P5en basées sur GPU
Les instances Trn2 sont 3 fois plus économes en énergie que les instances Trn1. Ces instances et les puces sous-jacentes utilisent des processus de silicium avancés ainsi que des optimisations matérielles et logicielles pour fournir une efficacité énergétique élevée lors de l’exécution des charges de travail d’IA générative à grande échelle.
Le SDK AWS Neuron vous permet d’extraire toutes les performances des instances Trn2 et des UltraServers. Neuron s’intègre nativement à JAX et PyTorch, ainsi qu’aux bibliothèques essentielles telles que Hugging Face, PyTorch Lightning et d’autres. Neuron est conçu pour les chercheurs et les explorateurs en IA afin de débloquer des performances révolutionnaires. Grâce à l’intégration native de PyTorch, vous pouvez entraîner et déployer sans modifier une seule ligne de code. Pour les ingénieurs de performance en IA, nous avons activé un accès plus approfondi à Trainium 2, afin que vous puissiez affiner les performances, personnaliser les noyaux et pousser vos modèles encore plus loin. Grâce à Neuron, vous pouvez utiliser des instances Trn2 avec des services tels qu’Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster et AWS Batch, ainsi que des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog. Parce que l’innovation repose sur l’ouverture, Neuron s’engage à favoriser l’innovation grâce à l’open source et à la collaboration ouverte avec l’ensemble de la communauté de l’IA.
Fonctions
Les instances Trn2 sont dotées de 16 puces Trainium2 interconnectées à NeuronLink pour fournir jusqu’à 20,8 pétaflops FP8 de calcul. Les serveurs Trn2 UltraServer étendent la connectivité NeuronLink à 64 puces Trainium2 réparties sur quatre instances Trn2 pour fournir jusqu’à 83,2 pétaflops FP8 de calcul.
Les instances Trn2 fournissent 1,5 To de mémoire accélératrice avec 46 To/s de bande passante mémoire totale. Les serveurs Trn2 UltraServer offrent 6 To de mémoire accélératrice partagée avec 185 To/s de bande passante mémoire totale pour prendre en charge les modèles de fondation de très grande taille.
Pour prendre en charge l’entraînement distribué à l’échelle des modèles de fondation de très grande taille, les instances Trn2 fournissent 3,2 Tbit/s et les serveurs Trn2 UltraServer fournissent 12,8 Tbit/s de bande passante du réseau eFAV3. Associé à EC2 UltraClusters, l’eFAV3 offre une latence réseau inférieure à celle de l’eFAV2. Chaque instance Trn2 prend en charge jusqu’à 8 To et chaque Trn2 UltraServer prend en charge jusqu’à 32 To de stockage NVMe local pour un accès plus rapide à de grands jeux de données.
Les instances Trn2 et les UltraServers prennent en charge les types de données FP32, TF32, BF16, FP16 et les types de données FP8 (cFP8) configurables. Ils prennent également en charge des optimisations de pointe en matière d’IA, notamment une dispersion 4 fois plus faible (16:4), un arrondissement stochastique et des moteurs collectifs dédiés. Neuron Kernel Interface (NKI) permet un accès direct à l’architecture du jeu d’instructions (ISA) à l’aide d’un environnement basé sur Python avec une interface de type Triton, ce qui vous permet d’innover en matière d’architectures de modèles et de noyaux de calcul hautement optimisés qui surpassent les techniques existantes.
Neuron prend en charge plus de 100 000 modèles sur le concentrateur de modèles Hugging Face pour l’entraînement et le déploiement sur Trn2, y compris des architectures de modèles populaires telles que Llama et Stable Diffusion. Neuron s’intègre nativement à JAX, PyTorch et à des outils, frameworks et bibliothèques essentiels tels que NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab et Data Dog. Il optimise les modèles prêts à l’emploi pour l’entraînement et l’inférence distribués, tout en fournissant des informations analytiques détaillées pour le profilage et le débogage. Neuron s’intègre également à des services tels qu’Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster et AWS Batch.
Témoignages de clients et de partenaires
Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciales grâce aux instances Amazon EC2 Trn2.
Anthropic
Chez Anthropic, des millions de personnes font confiance à Claude au quotidien pour leur travail. Nous annonçons deux avancées majeures avec AWS : tout d’abord, un nouveau « mode optimisé pour la latence » pour Claude 3.5 Haiku, qui s’exécute 60 % plus rapidement sur Trainium2 via Amazon Bedrock. Ensuite, le projet Rainier, un nouveau cluster composé de centaines de milliers de puces Trainium2 délivrant des centaines d’exaflops, soit plus de cinq fois la taille de notre cluster précédent. Le projet Rainier contribuera à dynamiser à la fois nos recherches et notre prochaine génération de mise à l’échelle. Pour nos clients, cela signifie plus d’intelligence, des prix plus bas et des vitesses plus rapides. Nous ne nous contentons pas de créer une IA plus rapide, nous créons une IA fiable qui se met à l’échelle.
Databricks
Mosaic AI de Databricks permet aux organisations de créer et de déployer des systèmes d’agents de qualité. Il est construit de manière native au-dessus du lac de données, permettant aux clients de personnaliser facilement et en toute sécurité leurs modèles à l’aide de données d’entreprise et de fournir des résultats plus précis et spécifiques à un domaine. Grâce à la haute performance et à la rentabilité de Trainium, les clients peuvent mettre à l’échelle l’entraînement des modèles sur Mosaic AI à un faible coût. La disponibilité de Trainium2 constituera un avantage majeur pour Databricks et ses clients, car la demande pour Mosaic AI continue de croître dans tous les segments de clientèle et dans le monde entier. Databricks, l’une des plus grandes entreprises de données et d’IA au monde, prévoit d’utiliser TRN2 pour fournir de meilleurs résultats et réduire le coût total de possession jusqu’à 30 % pour ses clients.
poolside
Chez Poolside, nous sommes prêts à construire un monde dans lequel l’IA sera à l’origine de la majorité des travaux à valeur économique et des progrès scientifiques. Nous pensons que le développement de logiciels sera la première capacité majeure des réseaux neuronaux à atteindre le niveau d’intelligence humaine, car c’est dans ce domaine que nous pouvons le mieux combiner les approches de recherche et d’apprentissage. Pour y parvenir, nous créons des modèles de fondation, une API et un assistant pour mettre la puissance de l’IA générative à la portée de vos développeurs (ou de leur clavier). L’infrastructure que nous utilisons pour créer et faire fonctionner nos produits est un élément essentiel de l’activation de cette technologie. Avec AWS Trainium2, nos clients seront en mesure d’étendre leur utilisation de Poolside à un rapport qualité/prix différent des autres accélérateurs d’IA. En outre, nous prévoyons de former les futurs modèles avec les serveurs Trainium2 UltraServer, avec des économies attendues de 40 % par rapport aux instances EC2 P5.
Itaú Unibanco
L’objectif d’Itaú Unibanco est d’améliorer la relation des gens par rapport à l’argent, en créant un impact positif sur leur vie tout en élargissant leurs possibilités de transformation. Chez Itaú Unibanco, nous pensons que chaque client est unique et nous nous attachons à répondre à leurs besoins grâce à des parcours numériques intuitifs, qui tirent parti de la puissance de l’IA pour s’adapter en permanence à leurs habitudes de consommation.
Nous avons testé AWS Trainium et Inferentia pour diverses tâches, allant de l’inférence standard à des applications optimisées. Les performances de ces puces d’intelligence artificielle nous ont permis de franchir des étapes importantes dans notre recherche et notre développement. Pour les tâches d’inférence par lots et en ligne, nous avons constaté une amélioration du débit 7 fois supérieure à celle des GPU. Ces performances accrues favorisent l’expansion de nouveaux cas d’utilisation dans l’ensemble de l’organisation. La dernière génération de puces Trainium2 offre des fonctionnalités révolutionnaires à l’IA générative et ouvre la voie à l’innovation chez Itau.
NinjaTech AI
Ninja est un agent d’IA complet pour une productivité illimitée : un simple abonnement, un accès illimité aux meilleurs modèles d’IA du monde ainsi qu’aux meilleures compétences d’IA telles que : l’écriture, le codage, le brainstorming, la génération d’images, la recherche en ligne. Ninja est une plateforme agentique qui propose « SuperAgent ». Cette plateforme utilise un mélange d’agents avec une précision de classe mondiale comparable (et dans certaines catégories, elle les surpasse) aux modèles de fondation pionniers. La technologie agentique de Ninja exige des accélérateurs les plus performants, afin d’offrir les expériences uniques en temps réel auxquelles nos clients s’attendent.
Nous sommes très enthousiastes à l’idée du lancement d’AWS TRN2, car nous pensons qu’il offrira les meilleures performances en matière de coût par jeton et la vitesse la plus rapide actuellement possible pour notre modèle de base Ninja LLM, basé sur Llama 3.1 405B. La faible latence de Trn2, associée à des prix compétitifs et à une disponibilité à la demande, est stupéfiante ; nous ne pouvons que nous réjouir de l’arrivée de Trn2 !
Ricoh
L’équipe de machine learning RICOH développe des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations dans nos solutions d’entreprise.
La migration vers les instances Trn1 a été facile et directe. Nous avons pu pré-entraîner notre paramètre 13B LLM en seulement 8 jours, en utilisant un cluster de 4 096 puces Trainium ! Après le succès obtenu avec notre petit modèle, nous avons optimisé un nouveau LLM plus grand basé sur Llama-3-Swallow-70B, et grâce à Trainium, nous avons pu réduire nos coûts d’entraînement de 50 % et améliorer l’efficacité énergétique de 25 % par rapport à l’utilisation des dernières machines GPU d’AWS. Nous sommes ravis d’exploiter la dernière génération de puces AWS AI, Trainium2, pour continuer à fournir à nos clients les meilleures performances au moindre coût.
PyTorch
Ce que j’ai le plus apprécié dans la bibliothèque d’inférence AWS Neuron NxD, c’est la fluidité avec laquelle elle s’intègre aux modèles PyTorch. L’approche de NxD est simple et conviviale. Notre équipe a pu intégrer les modèles PyTorch de HuggingFace avec un minimum de modifications de code en peu de temps. L’activation des fonctionnalités avancées telles que le traitement par lots en continu et le décodage spéculatif était simple. Cette facilité d’utilisation améliore la productivité des développeurs, ce qui permet aux équipes de se concentrer davantage sur l’innovation et moins sur les problèmes d’intégration.
Refact.ai
Refact.ai propose des outils d’IA complets tels que la saisie automatique du code alimentée par la génération augmentée par extraction (RAG), fournissant des suggestions plus précises et un chat contextuel utilisant à la fois des modèles propriétaires et open source.
Les clients ont constaté une augmentation de 20 % des performances et de 1,5 fois le nombre de jetons par dollar avec les instances EC2 Inf2 par rapport aux instances EC2 G5. Les fonctionnalités de peaufinage de Refact.ai améliorent encore la capacité de nos clients à comprendre et à s’adapter à la base de code et à l’environnement uniques de leur organisation. Nous sommes également ravis de proposer les fonctionnalités de Trainium2, qui permettront un traitement encore plus rapide et plus efficace de nos flux de travail. Cette technologie avancée permettra à nos clients d’accélérer leur processus de développement logiciel, en augmentant la productivité des développeurs tout en maintenant des normes de sécurité strictes pour leur base de code.
Karakuri Inc.
KARAKURI développe des outils d’IA pour améliorer l’efficacité du support client basé sur le Web et simplifier l’expérience client. Ces outils incluent des chatbots dotés de fonctions d’IA générative, des outils de centralisation des FAQ et un outil de réponse aux e-mails, qui améliorent tous l’efficacité et la qualité du support client. Grâce à AWS Trainium, nous avons réussi à former KARAKURI LM 8x7B Chat v0.1. Pour les start-ups, comme la nôtre, nous devons optimiser le temps de création et les coûts nécessaires à l’entraînement des LLM. Avec le soutien d’AWS Trainium et de l’équipe AWS, nous avons pu développer un LLM de niveau pratique en peu de temps. De plus, en adoptant AWS Inferentia, nous avons pu créer un service d’inférence rapide et rentable. Nous sommes très enthousiastes à propos de Trainium2 car il permettra de révolutionner notre processus d’entraînement en réduisant notre temps d’entraînement par deux et en atteignant de nouveaux records en matière d’efficacité !
Stockmark Inc.
Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel. Le nouveau service d’analyse et de collecte de données de Stockmark, appelé Anews et SAT, est un service de structuration des données qui améliore considérablement les utilisations de l’IA générative en organisant toutes les formes d’informations stockées dans une organisation, nous ont obligés à repenser la façon dont nous avons construit et déployé des modèles pour soutenir ces produits. Avec 256 accélérateurs Trainium, nous avons développé et publié stockmark- 13b, un grand modèle de langage avec 13 milliards de paramètres, pré-entraîné à partir de zéro sur un corpus de jeux de données japonaises de 220 milliards de tokens. Les instances Trn1 nous ont aidés à réduire nos coûts d’entraînement de 20 %. En nous appuyant sur Trainium, nous avons développé avec succès un LLM capable de répondre aux questions critiques des professionnels avec une précision et une rapidité sans précédent. Ce résultat est d’autant plus remarquable que les entreprises sont souvent confrontées à la difficulté d’obtenir des ressources informatiques adéquates pour le développement de modèles. Grâce à la rapidité impressionnante et à la réduction des coûts des instances Trn1, nous sommes impatients de découvrir les avantages supplémentaires que Trainium2 apportera à nos flux de travail et à nos clients.
Mise en route
La prise en charge de SageMaker pour les instances Trn2 sera bientôt disponible. Vous pourrez facilement entraîner des modèles sur des instances Trn2 à l’aide d’Amazon SageMaker HyperPod, qui fournit un cluster de calcul résilient, des performances d’entraînement optimisées et une utilisation efficace des ressources de calcul, de réseau et de mémoire sous-jacentes. Vous pouvez également étendre le déploiement de votre modèle sur des instances Trn2 à l’aide de SageMaker pour gérer les modèles plus efficacement en production et réduire la charge opérationnelle.
Les AWS Deep Learning AMIs (DLAMI) fournissent aux chercheurs et aux professionnels du deep learning (DL) l’infrastructure et les outils nécessaires pour accélérer le DL sur AWS, à n’importe quelle échelle. Les pilotes AWS Neuron sont préconfigurés dans la DLAMI pour entraîner vos modèles DL de manière optimale sur les instances Trn2.
La prise en charge des conteneurs Deep Learning pour les instances Trn2 sera bientôt disponible. À l’aide de ces conteneurs, vous pourrez désormais déployer des instances Trn2 dans Amazon Elastic Kubernetes Service (Amazon EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (Amazon ECS), un service d’orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning. Pour en savoir plus sur l’exécution de conteneurs sur des instances Trn2, consultez les didacticiels sur les conteneurs Neuron.
Informations sur le produit
|
Instance Size
|
Available in EC2 UltraServers
|
Trainium2 chips
|
Accelerator memory
|
vCPUs
|
Memory (TB)
|
Instance storage (TB)
|
Network bandwidth (Tbps)
|
EBS bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|
|
Trn2.3xlarge
|
Non |
1 |
96 Go |
12 |
128 Go |
1 disque SSD NVMe de 470 Go
|
200 |
5 |
|
trn2.48xlarge
|
Non
|
16
|
1,5 To
|
192
|
2 To
|
4 SSD NVMe 1,92
|
3,2
|
80
|
|
trn2u.48xlarge
|
Oui |
16
|
1,5 To
|
192
|
2 To
|
4 SSD NVMe 1,92
|
3,2
|
80
|