- Amazon EC2›
- Types d’instances›
- Instances Trn3
Instances AWS EC2 Trn3
Conçues spécialement pour offrir les meilleures économies de jetons pour les applications agentiques, de raisonnement et de création de vidéos de nouvelle génération.
Pourquoi choisir les serveurs Amazon EC2 Trn3 UltraServers ?
Les modèles de pointe actuels modifient des modèles multimodaux comportant des milliards de paramètres et prenant en charge de longs contextes sur 1 million de jetons, ce qui nécessite la prochaine génération de calcul haute performance et à l’échelle. Les Amazon EC2 Trn3 UltraServers et la suite de développement AWS Neuron sont spécialement conçus pour répondre à ces exigences. Ils offrent les performances, la rentabilité et l’efficacité énergétique nécessaires pour entraîner et exploiter la prochaine génération de systèmes agentiques et de raisonnement à l’échelle.
Les Amazon EC2 Trn3 UltraServers sont alimentés par notre puce IA de quatrième génération Trainium3, notre première puce IA AWS 3 nm spécialement conçue pour offrir les meilleures économies de jetons pour les applications agentiques, de raisonnement et de création de vidéos de nouvelle génération.
Le Trn3 UltraServer offre des performances jusqu’à 4,4 fois plus élevées, une bande passante mémoire 3,9 fois plus élevée et des performances/watt plus de 4 fois supérieures à celles de nos Trn2 UltraServers, offrant le meilleur rapport prix/performances pour l’entraînement et la gestion de modèles à échelle frontière, notamment l’apprentissage par renforcement, le mélange d’experts (MoE), le raisonnement et les architectures à contexte long. Les Trn3 UltraServers maintiennent la position de leader de la famille Trainium en matière de rapport qualité-prix et de capacité de mise à l’échelle, en vous aidant à entraîner plus rapidement et à déployer la prochaine génération de modèles de fondation plus performants et plus rentables.
Les Trn3 UltraServers peuvent augmenter verticalement jusqu’à 144 puces Trainium3 (jusqu’à 362 PFLOP FP8) et sont disponibles dans EC2 UltraClusters 3.0 pour être mis à l’échelle à des centaines de milliers de puces. Le Trn3 UltraServer de nouvelle génération intègre NeuronSwitch-v1, une structure tout-en-un utilisant NeuronLink-v4 avec 2 To/s de bande passante par puce.
Vous pouvez démarrer facilement grâce à la prise en charge native de PyTorch, JAX, Hugging Face Optimum Neuron et d’autres bibliothèques, ainsi qu’à une compatibilité totale entre Amazon SageMaker, EKS, ECS, AWS Batch et ParallelCluster
Avantages
Les Trn3 UltraServers, alimentés par des puces AWS Trainium3, offrent des performances jusqu’à 4,4 fois supérieures, une bande passante mémoire 3,9 fois plus élevée et des performances par watt 4 fois supérieures à celles de nos Trn2 UltraServers. Sur Amazon Bedrock, Trainium3 est l’accélérateur le plus rapide, offrant des performances jusqu’à 3 fois plus rapides que Trainium2. Cette amélioration remarquable des performances se traduit également par un débit nettement plus élevé pour les modèles comme GPT-OSS servant à l’échelle par rapport aux instances basées sur Trainium2, tout en maintenant une faible latence par utilisateur.
Chaque Trn3 UltraServer peut augmenter verticalement jusqu’à 144 puces Trainium3, et les nouveaux racks offrent une densité de puces deux fois supérieure à celle de Trn2, ce qui augmente le calcul par rack et améliore l’efficacité des centres de données. Les Trn3 UltraServers sont basés sur AWS Nitro System et Elastic Fabric Adapter (EFA), et sont déployés dans des systèmes EC2 UltraClusters 3.0 non bloquants à l’échelle de plusieurs pétabits, ce qui vous permet de mettre à l’échelle jusqu’à des centaines de milliers de puces Trainium pour un entraînement et un service distribués.
Poursuivant l’héritage de Trainium en matière de performances, les instances Trn3 offrent un meilleur rapport prix/performances que les accélérateurs d’IA traditionnels, ce qui vous permet de réduire le coût par jeton et le coût par expérience. L’augmentation du débit des charges de travail comme GPT-OSS et les LLM à l’échelle frontière réduit les coûts d’inférence et les temps d’entraînement pour vos modèles les plus exigeants.
Les puces AWS Trainium3, nos premières puces d’IA 3 nm, sont optimisées pour offrir les meilleurs avantages économiques en matière de jetons pour les applications agentiques, de raisonnement et de création de vidéos de nouvelle génération. Les Trn3 UltraServers offrent une efficacité énergétique quatre fois supérieure à celle des Trn2 UltraServers et sur Amazon Bedrock. En service dans le monde réel, Trn3 génère plus de 5 fois plus de jetons de sortie par mégawatt que Trn2 UltraServer tout en maintenant une latence similaire par utilisateur, ce qui vous permet d’atteindre vos objectifs de durabilité sans compromettre les performances.
Les Trn3 UltraServers sont alimentés par AWS Neuron, la suite de développement pour AWS Trainium et AWS Inferentia. Vous pouvez donc exécuter du code PyTorch et JAX existant sans modifier le code.
TNeuron prend en charge les bibliothèques de machine learning populaires comme vLLM, Hugging Face Optimum Neuron, PyTorch Lightning, TorchTitan, et s’intègre à des services comme Amazon SageMaker, Amazon SageMaker HyperPod, Amazon EKS, Amazon ECS, AWS Batch et AWS ParallelCluster.
Fonctions
Chaque puce AWS Trainium3 fournit 2,52 PFLOP FP8 de calcul, et les Trn3 UltraServers peuvent augmenter verticalement jusqu’à 144 puces Trainium3, fournissant jusqu’à 362 PFLOP FP8 de calcul FP8 total dans un seul UltraServer. Cette enveloppe de calcul haute densité est conçue pour entraîner et exploiter des transformateurs à l’échelle frontière, des modèles de mélange d’experts et des architectures à contexte long.
AWS Trainium3 offre à la fois une capacité de mémoire et une bande passante supérieures par rapport à la génération précédente, chaque puce offrant 144 Go de HBM3e et 4,9 To/s de bande passante mémoire. Le UltraServer Trn3 fournit jusqu’à 20,7 To de HBM3e et 706 To/s de bande passante mémoire agrégée, ce qui permet des tailles de lots plus importantes, des fenêtres contextuelles étendues et une meilleure utilisation pour les très grands modèles multimodaux, vidéo et de raisonnement.
Les Trn3 UltraServers apportent NeuronSwitch-V1, une structure tout-en-un qui double la bande passante d’interconnexion entre puces sur les Trn2 UltraServers, améliorant ainsi l’efficacité du modèle parallèle et réduisant les frais de communication pour l’entraînement MoE et parallèle aux tenseurs. Les Trn3 UltraServers prennent en charge jusqu’à 144 puces par UltraServer, soit plus de deux fois plus que les Trn2 UltraServers. Pour l’entraînement distribué à grande échelle, nous déployons des Trn3 UltraClusters 3.0 avec des centaines de milliers de puces Trainium3 dans un seul réseau non bloquant à l’échelle du pétabit.
Trainium3 prend en charge les modes de précision FP32, BF16, MXFP8 et MXFP4, ce qui vous permet d’équilibrer précision et efficacité sur des charges de travail denses et parallèles entre experts. Les moteurs de communication collective intégrés accélèrent la synchronisation et réduisent les frais d’entraînement pour les grands modèles de transformateur, de diffusion et de mélange d’experts, améliorant ainsi le débit d’entraînement de bout en bout à l’échelle.
Les Trn3 UltraServers sont programmés à l’aide du SDK AWS Neuron, qui fournit les bibliothèques de compilation, d’exécution, d’entraînement et d’inférence, ainsi que des outils de développement pour AWS Trainium et AWS Inferentia. Neuron Kernel Interface (NKI) offre un accès de bas niveau au jeu d’instructions Trainium, à la mémoire et à la planification de l’exécution, de sorte que les ingénieurs de performance peuvent créer des noyaux personnalisés et améliorer les performances au-delà des frameworks standard. Neuron Explorer fournit un environnement de profilage et de débogage unifié, retraçant l’exécution du code PyTorch et JAX jusqu’aux opérations matérielles et fournissant des informations exploitables pour les stratégies de partitionnement, l’optimisation du noyau et les exécutions distribuées à grande échelle.
Avez-vous trouvé les informations que vous recherchiez ?
Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages