AWS Trainium
Obtenez des performances élevées pour l’entraînement en deep learning et IA générative tout en réduisant les coûts
Pourquoi choisir Trainium ?
Les puces AWS Trainium constituent une famille de puces IA spécialement conçues par AWS pour l’entraînement et l’inférence en intelligence artificielle, offrant des performances élevées tout en réduisant les coûts.
La puce AWS Trainium de première génération alimente les instances Amazon Elastic Compute Cloud (Amazon EC2) Trn1, permettant de réduire jusqu’à 50 % les coûts d’entraînement par rapport aux instances Amazon EC2 comparables. De nombreux clients, dont Databricks, Ricoh, NinjaTech AI et Arcee AI, tirent parti des avantages en matière de performances et de coûts qu’offrent les instances Trn1.
La puce AWS Trainium2 fournit des performances jusqu’à quatre fois supérieures à celles de la puce Trainium de première génération. Les instances Amazon EC2 Trn2 basées sur Trainium2 sont spécialement conçues pour l’IA générative et offrent un rapport coût‑performance supérieur de 30 à 40 % par rapport à la génération actuelle d’instances EC2 P5e et P5en basées sur GPU. Les instances Trn2 intègrent 16 puces Trainium2 interconnectées via NeuronLink, notre technologie exclusive d’interconnexion entre puces. Vous pouvez utiliser les instances Trn2 pour entraîner et déployer les modèles les plus exigeants, notamment les grands modèles de langage (LLM), les modèles multimodaux et les transformeurs de diffusion, afin de créer un large éventail d’applications d’IA générative de nouvelle génération. Les Trn2 UltraServers, une nouveauté EC2 (disponible en version préliminaire), sont parfaitement adaptés aux modèles les plus volumineux nécessitant davantage de mémoire et de bande passante mémoire que ce que peuvent offrir les instances EC2 autonomes. L’UltraServer utilise NeuronLink pour connecter 64 puces Trainium2 sur quatre instances Trn2 en un seul nœud, ouvrant ainsi de nouvelles possibilités. En ce qui concerne l’inférence, les UltraServers permettent d’obtenir des temps de réponse inégalés, pour des expériences en temps réel optimales. En matière d’entraînement, les UltraServers augmentent la vitesse et l’efficacité de l’entraînement des modèles grâce à une communication collective plus rapide pour le parallélisme des modèles, surpassant les performances des instances autonomes.
Vous pouvez commencer à entraîner et à déployer des modèles sur les instances Trn2 et Trn1 grâce à la prise en charge native des frameworks de machine learning (ML) populaires tels que PyTorch et JAX.
Avantages
IA générative rentable et hautement performante
Les UltraServers et instances Trn2 fournissent des performances exceptionnelles dans Amazon EC2 pour l’entraînement et l’inférence en IA générative. Chaque Trn2 UltraServer possède 64 puces Trainium2 interconnectées via NeuronLink, notre technologie exclusive d’interconnexion entre puces, et offre jusqu’à 83,2 pétaflops de calcul en FP8, 6 To de HBM3 avec 185 To/s de bande passante mémoire et 12,8 Tb/s de connectivité Elastic Fabric Adapter (EFA). Chaque instance Trn2 intègre 16 puces Trainium2 connectées via NeuronLink et offre jusqu’à 20,8 pétaflops de calcul en FP8, 1,5 To de HBM3 avec 46 To/s de bande passante mémoire et 3,2 Tb/s de connectivité EFA. L’instance Trn1 comprend jusqu’à 16 puces Trainium et fournit jusqu’à 3 pétaflops de calcul en FP8, 512 Go de HBM avec 9,8 To/s de bande passante mémoire et jusqu’à 1,6 Tb/s de connectivité EFA.
Prise en charge native des frameworks et bibliothèques ML
AWS Neuron SDK vous permet de tirer pleinement parti des instances Trn2 et Trn1, afin que vous puissiez vous concentrer sur la création et le déploiement de modèles tout en accélérant la mise sur le marché. AWS Neuron s’intègre nativement à JAX, PyTorch ainsi qu’aux bibliothèques essentielles telles que Hugging Face, PyTorch Lightning et NeMo. AWS Neuron prend en charge plus de 100 000 modèles sur le hub de modèles Hugging Face, y compris des modèles populaires tels que la famille de modèles Llama de Meta et Stable Diffusion XL. Il optimise les modèles prêts à l’emploi pour l’entraînement et l’inférence distribués, tout en fournissant des informations analytiques détaillées pour le profilage et le débogage. AWS Neuron s’intègre à des services tels qu’Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster et AWS Batch, et à des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.
Optimisations de pointe en matière d’IA
Pour fournir des performances élevées tout en respectant les objectifs de précision, les puces Trainium sont optimisées pour les formats FP32, TF32, BF16, FP16, et pour le nouveau type de données configurable FP8 (cFP8). Pour accompagner le rythme rapide de l’innovation en IA générative, Trainium2 intègre des optimisations matérielles pour une parcimonie 4x (16:4), la micro‑mise à l’échelle, l’arrondi stochastique et des moteurs collectifs dédiés.
Conçu pour la recherche en IA
Neuron Kernel Interface (NKI) permet un accès direct à l’architecture du jeu d’instructions (ISA) via un environnement basé sur Python avec une interface de type Triton, vous donnant la possibilité d’innover en matière d’architectures de modèles et de noyaux de calcul hautement optimisés qui surpassent les techniques existantes.