Puces IA AWS

AWS Trainium

Trainium3, notre première puce AWS AI 3 nm conçue pour offrir les meilleurs avantages économiques en matière de jetons pour les applications agentiques, de raisonnement et de génération vidéo de nouvelle génération

Démarrez avec Trainium à l’aide d’AWS Neuron

Pourquoi choisir Trainium ?

AWS Trainium est une famille d’accélérateurs d’IA spécialement conçus (Trn1, Trn2 et Trn3) conçus pour offrir des performances évolutives et une rentabilité en matière de formation et d’inférence sur un large éventail de charges de travail d’IA générative

La famille AWS Trainium

Trainium1

La puce AWS Trainium de première génération alimente les instances Amazon Elastic Compute Cloud (Amazon EC2) Trn1, permettant de réduire jusqu’à 50 % les coûts d’entraînement par rapport aux instances Amazon EC2 comparables. De nombreux clients, dont Ricoh, Karakuri, SplashMusic et Arcee AI, tirent parti des avantages en termes de performances et de coûts des instances Trn1.

Trainium2

La puce AWS Trainium2 fournit des performances jusqu’à quatre fois supérieures à celles de la puce Trainium de première génération. Les instances Amazon EC2 Trn2 basées sur Trainium2 et les UltraServersTrn2, sont spécialement conçues pour l’IA générative et offrent un rapport coût‑performance supérieur de 30 à 40 % par rapport aux instances Trn2 EC2 et P5e basées sur GPU. Les instances Trn2 comportent jusqu’à 16 puces Trainium2, et les UltraServers Trn2 comportent jusqu’à 64puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire. Vous pouvez utiliser les instances Trn2 et UltraServers pour entraîner et déployer les modèles les plus exigeants, notamment les grands modèles de langage (LLM), les modèles multimodaux et les transformeurs de diffusion, afin de créer un large éventail d’applications d’IA générative de nouvelle génération.

Trainium3

Les UltraServers Trn3, alimentés par notre puce IA de quatrième génération, AWS Trainium, la première puce IA 3 nm d’AWS, sont spécialement conçus pour offrir les meilleurs avantages économiques en matière de jetons pour les applications d’agent, de raisonnement et de génération vidéo de nouvelle génération. Les UltraServers Trn3 offrent des performances jusqu’à 4,4 fois supérieures, une bande passante mémoire 3,9 fois plus élevée et une efficacité énergétique quatre fois supérieure à celle des UltraServers Trn2. Ils offrent le meilleur rapport prix/performances pour la formation et la gestion de modèles à échelle limite, notamment l’apprentissage par renforcement, le mélange d’experts (MoE), le raisonnement et les architectures à contexte long.

Chaque puce AWS Trainium3 fournit 2,52 pétaflops (PFLOP) de calcul FP8, augmente la capacité mémoire de 1,5 fois et la bande passante de 1,7 fois par rapport à Trainium 2 pour atteindre 144 Go de mémoire HBM3e, et 4,9 To/s de bande passante mémoire. Trainium3 est conçu pour les charges de travail parallèles denses et expertes avec des types de données avancés (MXFP8 et MXFP4) et un meilleur équilibre mémoire-calcul pour tâches multimodales, en temps réel et de raisonnement.

Sur Amazon Bedrock, Trainium3 est l’accélérateur le plus rapide, offrant des performances jusqu’à 3 fois plus rapides que Trainium2 et une efficacité énergétique 3 fois supérieure à celle de tout autre accélérateur du service. Lors de tests de diffusion à grande échelle (par exemple, GPT-OSS), Trn3 fournit des jetons de sortie par mégawatt plus de 5 fois plus élevés que Trn2 avec une latence similaire par utilisateur, ce qui permet une inférence de débit plus durable et plus élevée à grande échelle.

Conçu pour les développeurs

De nouvelles instances basées sur Trainium3 sont conçues pour les chercheurs en IA et alimentées par le SDK AWS Neuron, afin de débloquer
des performances révolutionnaires.

Grâce à l’intégration native de PyTorch, les développeurs peuvent s’entraîner et déployer sans modifier une seule ligne de code. Pour les
ingénieurs de performance de l’IA, nous avons amélioré l’accès à Trainium3, afin que les développeurs puissent optimiser les performances,
personnaliser les noyaux et pousser vos modèles encore plus loin. Parce que l’innovation favorise l’ouverture, nous nous engageons
à interagir avec nos développeurs par le biais d’outils et de ressources open source.

Pour en savoir plus, consultez les instances Amazon EC2 Trn3, explorez le SDK AWS Neuron ou inscrivez-vous pour accéder à la version préliminaire.

Avantages

Les UltraServers Trn3 sont dotés des dernières innovations en matière de technologie UltraServer évolutive, avec NeuronSwitch-v1 pour
des collectifs tout-en-un plus rapides utilisant jusqu’à 144 puces Trainium3. Dans l’ensemble, un seul serveur Trn3 UltraServer fournit
jusqu’à 20,7 To de HBM3e, 706 To/s de bande passante mémoire et 362 FP8 PFLOP, soit 4,4 fois plus
de performances et une efficacité énergétique quatre fois supérieure à celle des UltraServers Trn2. Trn3 fournit les plus hautes
performances au moindre coût pour la formation et l’inférence avec les derniers modèles MoE à paramètres 1T+ et de type de raisonnement, et augmente considérablement le débit pour le GPT-OSS servant à grande échelle par rapport aux instances basées sur
Trainium2.

Les UltraServers Trn2 restent une option performante et rentable pour la formation à l’IA générative et l’inférence de
modèles jusqu’à des paramètres 1T. Les instances Trn2 comportent jusqu’à 16 puces Trainium2 et la fonctionnalité Trn2 UltraServers
jusqu’à 64 puces Trainium2 connectées à NeuronLink, une interconnexion puce à puce propriétaire.

Les instances Trn1 comportent jusqu’à 16 puces Trainium et fournissent jusqu’à 3 PFLOP FP8, 512 Go de HBM avec 9,8 To/s de
bande passante mémoire et jusqu’à 1,6 Tbit/s de réseau EFA.

Conçu pour la recherche et l’expérimentation

AWS Neuron SDK vous permet de tirer pleinement parti des instances Trn3, Trn2 et Trn1 afin que vous puissiez vous concentrer sur la création et le déploiement de modèles tout en accélérant la mise sur le marché. AWS Neuron s’intègre nativement à et PyTorch Jax, ainsi qu’aux bibliothèques essentielles telles que Hugging Face, vLLM, PyTorch Lightning et d’autres. Il optimise les modèles prêts à l’emploi pour l’entraînement et l’inférence distribués, tout en fournissant des informations analytiques détaillées pour le profilage et le débogage. AWS Neuron s’intègre à des services tels qu’Amazon SageMaker, Amazon SageMaker Hyerpod, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster et AWS Batch, et à des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.

Pour fournir des performances élevées tout en atteignant les objectifs de précision, AWS Trainium prend en charge une gamme de niveaux de précision mixtes
de types de données tels que BF16, FP16, FP8, MXFP8 et MXFP4. Pour soutenir le rythme rapide de l’innovation dans le domaine de l’IA générative,
Trainium2 et Trainium3 proposent des optimisations matérielles pour une dispersion 4 fois plus faible (16:4), une micro-mise à l’échelle et une stochastique
arrondi et moteurs collectifs dédiés.

Neuron permet aux développeurs d’optimiser leurs charges de travail à l’aide de l’interface NKI (Neuron Kernel Interface) pour le développement du noyau. NKI expose l’intégralité de Trainium ISA, permettant un contrôle complet de la programmation au niveau des instructions, de l’allocation de mémoire et de la planification de l’exécution. En plus de créer vos propres noyaux, les développeurs peuvent utiliser la bibliothèque Neuron Kernel, qui est open source, prête à déployer des noyaux optimisés. Enfin, Neuron Explore offre une visibilité complète de la pile, en connectant le code des développeurs jusqu’aux moteurs du matériel.

Clients

Des clients tels que Databricks, Ricoh, Karakuri, SplashMusic et d’autres tirent parti des avantages en termes de performances et de coûts des instances Trn1.

Des clients tels qu’Anthropic, Databricks, Poolside, Ricoh et NinjaTech AI bénéficient d’avantages significatifs en termes de performances et de coûts sur les instances Trn1 et Trn2.

Les premiers utilisateurs de Trn3 atteignent de nouveaux niveaux d’efficacité et la capacité de mise à l’échelle pour la prochaine génération de modèles d’IA générative à grande échelle.

Maîtrisez la performance, le coût et la mise à l’échelle de l’IA

AWS Trainium2 pour des performances d’IA révolutionnaires

Témoignages clients sur les puces IA AWS

Ressources

Blog

Entraînez et déployez des modèles de manière rentable avec AWS Trainium3 (bientôt disponible)

Blog

Optimisez et déployez les modèles Llama 2 de manière rentable dans Amazon SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Lire le blog

Blog

Entraînez Llama2 avec AWS Trainium sur Amazon Elastic Kubernetes Service (Amazon EKS)

Lire le blog

Blog

Quand frugalité rime avec précision : entraînement rentable des modèles GPT NeoX et Pythia avec AWS Trainium

Lire le blog

Blog

Comment Amazon Search M5 a réduit de 30 % les coûts d’entraînement de grands modèles de langage (LLM) en utilisant AWS Trainium

Lire le blog

Blog

Peaufinage rapide et rentable de Llama 2 avec AWS Trainium

Lire le blog

Blog

Mettez à l’échelle vos charges de travail de ML sur Amazon ECS grâce aux instances AWS Trainium

Lire le blog

Ressources supplémentaires

Utilisez AWS Neuron et initiez‑vous à AWS Trainium depuis TensorFlow, PyTorch ou MXNet

Démarrez avec Trainium

Console

Commencer à créer dans la console

Se connecter

Offre gratuite

Exemples d’entraînement et tutoriels (Trn1 et Trn1n)

AWS Trainium

Pourquoi choisir Trainium ?

La famille AWS Trainium

Trainium1

Trainium2

Trainium3

Conçu pour les développeurs

Avantages

Clients

Maîtrisez la performance, le coût et la mise à l’échelle de l’IA

AWS Trainium2 pour des performances d’IA révolutionnaires

Témoignages clients sur les puces IA AWS

Ressources

Entraînez et déployez des modèles de manière rentable avec AWS Trainium3 (bientôt disponible)

Optimisez et déployez les modèles Llama 2 de manière rentable dans Amazon SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Entraînez Llama2 avec AWS Trainium sur Amazon Elastic Kubernetes Service (Amazon EKS)

Quand frugalité rime avec précision : entraînement rentable des modèles GPT NeoX et Pythia avec AWS Trainium

Comment Amazon Search M5 a réduit de 30 % les coûts d’entraînement de grands modèles de langage (LLM) en utilisant AWS Trainium

Peaufinage rapide et rentable de Llama 2 avec AWS Trainium

Mettez à l’échelle vos charges de travail de ML sur Amazon ECS grâce aux instances AWS Trainium

Utilisez AWS Neuron et initiez‑vous à AWS Trainium depuis TensorFlow, PyTorch ou MXNet

Démarrez avec Trainium

Commencer à créer dans la console

Exemples d’entraînement et tutoriels (Trn1 et Trn1n)

Apprendre

Ressources

Développeurs

Aide

AWS Trainium

Pourquoi choisir Trainium ?

La famille AWS Trainium

Trainium1

Trainium2

Trainium3

Conçu pour les développeurs

Avantages

IA générative rentable et hautement performante

Prise en charge native des frameworks et bibliothèques ML

Optimisations de pointe en matière d’IA

Créez et optimisez sur Trainium

Clients

Maîtrisez la performance, le coût et la mise à l’échelle de l’IA

AWS Trainium2 pour des performances d’IA révolutionnaires

Témoignages clients sur les puces IA AWS

Ressources

Entraînez et déployez des modèles de manière rentable avec AWS Trainium3 (bientôt disponible)

Optimisez et déployez les modèles Llama 2 de manière rentable dans Amazon SageMaker JumpStart avec AWS Inferentia et AWS Trainium

Entraînez Llama2 avec AWS Trainium sur Amazon Elastic Kubernetes Service (Amazon EKS)

Quand frugalité rime avec précision : entraînement rentable des modèles GPT NeoX et Pythia avec AWS Trainium

Comment Amazon Search M5 a réduit de 30 % les coûts d’entraînement de grands modèles de langage (LLM) en utilisant AWS Trainium

Peaufinage rapide et rentable de Llama 2 avec AWS Trainium

Mettez à l’échelle vos charges de travail de ML sur Amazon ECS grâce aux instances AWS Trainium

Utilisez AWS Neuron et initiez‑vous à AWS Trainium depuis TensorFlow, PyTorch ou MXNet

Démarrez avec Trainium

Commencer à créer dans la console

Exemples d’entraînement et tutoriels (Trn1 et Trn1n)

Apprendre

Ressources

Développeurs

Aide