- Produit›
- Machine learning›
- AWS Trainium
AWS Trainium
Trainium3, notre première puce AWS AI 3 nm conçue pour offrir les meilleurs avantages économiques en matière de jetons pour les applications agentiques, de raisonnement et de génération vidéo de nouvelle génération
Pourquoi choisir Trainium ?
AWS Trainium est une famille d’accélérateurs d’IA spécialement conçus (Trn1, Trn2 et Trn3) conçus pour offrir des performances évolutives et une rentabilité en matière de formation et d’inférence sur un large éventail de charges de travail d’IA générative
La famille AWS Trainium
Trainium1
La puce AWS Trainium de première génération alimente les instances Amazon Elastic Compute Cloud (Amazon EC2) Trn1, permettant de réduire jusqu’à 50 % les coûts d’entraînement par rapport aux instances Amazon EC2 comparables. De nombreux clients, dont Ricoh, Karakuri, SplashMusic et Arcee AI, tirent parti des avantages en termes de performances et de coûts des instances Trn1.
Trainium2
La puce AWS Trainium2 fournit des performances jusqu’à quatre fois supérieures à celles de la puce Trainium de première génération. Les instances Amazon EC2 Trn2 basées sur Trainium2 et les UltraServersTrn2, sont spécialement conçues pour l’IA générative et offrent un rapport coût‑performance supérieur de 30 à 40 % par rapport aux instances Trn2 EC2 et P5e basées sur GPU. Les instances Trn2 comportent jusqu’à 16 puces Trainium2, et les UltraServers Trn2 comportent jusqu’à 64puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire. Vous pouvez utiliser les instances Trn2 et UltraServers pour entraîner et déployer les modèles les plus exigeants, notamment les grands modèles de langage (LLM), les modèles multimodaux et les transformeurs de diffusion, afin de créer un large éventail d’applications d’IA générative de nouvelle génération.
Trainium3
Les UltraServers Trn3, alimentés par notre puce IA de quatrième génération, AWS Trainium, la première puce IA 3 nm d’AWS, sont spécialement conçus pour offrir les meilleurs avantages économiques en matière de jetons pour les applications d’agent, de raisonnement et de génération vidéo de nouvelle génération. Les UltraServers Trn3 offrent des performances jusqu’à 4,4 fois supérieures, une bande passante mémoire 3,9 fois plus élevée et une efficacité énergétique quatre fois supérieure à celle des UltraServers Trn2. Ils offrent le meilleur rapport prix/performances pour la formation et la gestion de modèles à échelle limite, notamment l’apprentissage par renforcement, le mélange d’experts (MoE), le raisonnement et les architectures à contexte long.
Chaque puce AWS Trainium3 fournit 2,52 pétaflops (PFLOP) de calcul FP8, augmente la capacité mémoire de 1,5 fois et la bande passante de 1,7 fois par rapport à Trainium 2 pour atteindre 144 Go de mémoire HBM3e, et 4,9 To/s de bande passante mémoire. Trainium3 est conçu pour les charges de travail parallèles denses et expertes avec des types de données avancés (MXFP8 et MXFP4) et un meilleur équilibre mémoire-calcul pour tâches multimodales, en temps réel et de raisonnement.
Sur Amazon Bedrock, Trainium3 est l’accélérateur le plus rapide, offrant des performances jusqu’à 3 fois plus rapides que Trainium2 et une efficacité énergétique 3 fois supérieure à celle de tout autre accélérateur du service. Lors de tests de diffusion à grande échelle (par exemple, GPT-OSS), Trn3 fournit des jetons de sortie par mégawatt plus de 5 fois plus élevés que Trn2 avec une latence similaire par utilisateur, ce qui permet une inférence de débit plus durable et plus élevée à grande échelle.
Conçu pour les développeurs
De nouvelles instances basées sur Trainium3 sont conçues pour les chercheurs en IA et alimentées par le SDK AWS Neuron, afin de débloquer
des performances révolutionnaires.
Grâce à l’intégration native de PyTorch, les développeurs peuvent s’entraîner et déployer sans modifier une seule ligne de code. Pour les
ingénieurs de performance de l’IA, nous avons amélioré l’accès à Trainium3, afin que les développeurs puissent optimiser les performances,
personnaliser les noyaux et pousser vos modèles encore plus loin. Parce que l’innovation favorise l’ouverture, nous nous engageons
à interagir avec nos développeurs par le biais d’outils et de ressources open source.
Pour en savoir plus, consultez les instances Amazon EC2 Trn3, explorez le SDK AWS Neuron ou inscrivez-vous pour accéder à la version préliminaire.
Avantages
Les UltraServers Trn3 sont dotés des dernières innovations en matière de technologie UltraServer évolutive, avec NeuronSwitch-v1 pour
des collectifs tout-en-un plus rapides utilisant jusqu’à 144 puces Trainium3. Dans l’ensemble, un seul serveur Trn3 UltraServer fournit
jusqu’à 20,7 To de HBM3e, 706 To/s de bande passante mémoire et 362 FP8 PFLOP, soit 4,4 fois plus
de performances et une efficacité énergétique quatre fois supérieure à celle des UltraServers Trn2. Trn3 fournit les plus hautes
performances au moindre coût pour la formation et l’inférence avec les derniers modèles MoE à paramètres 1T+ et de type de raisonnement, et augmente considérablement le débit pour le GPT-OSS servant à grande échelle par rapport aux instances basées sur
Trainium2.
Les UltraServers Trn2 restent une option performante et rentable pour la formation à l’IA générative et l’inférence de
modèles jusqu’à des paramètres 1T. Les instances Trn2 comportent jusqu’à 16 puces Trainium2 et la fonctionnalité Trn2 UltraServers
jusqu’à 64 puces Trainium2 connectées à NeuronLink, une interconnexion puce à puce propriétaire.
Les instances Trn1 comportent jusqu’à 16 puces Trainium et fournissent jusqu’à 3 PFLOP FP8, 512 Go de HBM avec 9,8 To/s de
bande passante mémoire et jusqu’à 1,6 Tbit/s de réseau EFA.
Conçu pour la recherche et l’expérimentation
AWS Neuron SDK vous permet de tirer pleinement parti des instances Trn3, Trn2 et Trn1 afin que vous puissiez vous concentrer sur la création et le déploiement de modèles tout en accélérant la mise sur le marché. AWS Neuron s’intègre nativement à et PyTorch Jax, ainsi qu’aux bibliothèques essentielles telles que Hugging Face, vLLM, PyTorch Lightning et d’autres. Il optimise les modèles prêts à l’emploi pour l’entraînement et l’inférence distribués, tout en fournissant des informations analytiques détaillées pour le profilage et le débogage. AWS Neuron s’intègre à des services tels qu’Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster et AWS Batch, et à des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.
Pour fournir des performances élevées tout en atteignant les objectifs de précision, AWS Trainium prend en charge une gamme de niveaux de précision mixtes
de types de données tels que BF16, FP16, FP8, MXFP8 et MXFP4. Pour soutenir le rythme rapide de l’innovation dans le domaine de l’IA générative,
Trainium2 et Trainium3 proposent des optimisations matérielles pour une dispersion 4 fois plus faible (16:4), une micro-mise à l’échelle et une stochastique
arrondi et moteurs collectifs dédiés.
Neuron permet aux développeurs d’optimiser leurs charges de travail à l’aide de l’interface NKI (Neuron Kernel Interface) pour le développement du noyau. NKI expose l’intégralité de Trainium ISA, permettant un contrôle complet de la programmation au niveau des instructions, de l’allocation de mémoire et de la planification de l’exécution. En plus de créer vos propres noyaux, les développeurs peuvent utiliser la bibliothèque Neuron Kernel, qui est open source, prête à déployer des noyaux optimisés. Enfin, Neuron Explore offre une visibilité complète de la pile, en connectant le code des développeurs jusqu’aux moteurs du matériel.
Clients
Des clients tels que Databricks, Ricoh, Karakuri, SplashMusic et d’autres tirent parti des avantages en termes de performances et de coûts des instances Trn1.
Des clients tels qu’Anthropic, Databricks, Poolside, Ricoh et NinjaTech AI bénéficient d’avantages significatifs en termes de performances et de coûts sur les instances Trn1 et Trn2.
Les premiers utilisateurs de Trn3 atteignent de nouveaux niveaux d’efficacité et la capacité de mise à l’échelle pour la prochaine génération de modèles d’IA générative à grande échelle.