Passer au contenu principal

Instances Amazon EC2 Trn1

Entraînement performant et rentable de modèles d'IA génératifs

Pour choisir les instances Amazon EC2 Trn1 ?

Les instances Amazon Elastic Compute Cloud (EC2) Trn1, alimentées par des puces AWS Trainium, sont spécialement conçues pour l'apprentissage en profondeur (DL) hautes performances de modèles d'IA génératifs, y compris des modèles de langage volumineux (LLM) et des modèles de diffusion latente. Les instances Trn1 permettent d’économiser jusqu’à 50 % sur les coûts d’entraînement par rapport à d’autres instances Amazon EC2 comparables. Vous pouvez utiliser les instances Trn1 pour entraîner plus de 100 milliards de paramètres DL et des modèles d’IA générative dans un large éventail d’applications telles que la synthèse de texte, la génération de code, la réponse à des questions, la génération d’images et de vidéos, la recommandation et la détection des fraudes.

Le kit SDK AWS Neuron aide les développeurs à entraîner des modèles sur AWS Trainium (et à déployer des modèles sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec des cadres tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser votre code et vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour en savoir plus sur la prise en charge actuelle de Neuron pour les frameworks et bibliothèques d'apprentissage automatique (ML), les architectures de modèles et les optimisations matérielles, consultez la documentation Neuron.

Présentation des instances Amazon EC2 Trn1 basées sur AWS Trainium

Avantages

Les instances Trn1 sont spécialement conçues pour un DL de haute performance et réduisent les temps d'entraînement de plusieurs mois à quelques semaines, voire à quelques jours. Grâce à la réduction des temps d'entraînement, vous pouvez itérer plus rapidement, créer des modèles plus innovants et augmenter votre productivité. Les instances Trn1n offrent un temps d'entraînement jusqu'à 20 % plus rapide que les Trn1 pour les modèles qui bénéficient d'une bande passante du réseau accrue.

Les instances Trn1 offrent des performances élevées tout en permettant d'économiser jusqu'à 50 % sur les coûts d'entraînement par rapport à d'autres instances Amazon EC2 comparables.

Utilisez le kit SDK AWS Neuron pour extraire toutes les performances des instances Trn1. Avec Neuron, vous pouvez utiliser des cadres de machine learning populaires tels que PyTorch et TensorFlow et continuer de vous servir de votre code et de vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour démarrer rapidement avec les instances Trn1, consultez les exemples de modèles populaires dans la documentation Neuron.

Les instances Trn1 prennent en charge jusqu'à 800 Gbit/s de bande passante du réseau Elastic Fabric Adapter (EFAv2) de deuxième génération. Les instances Trn1n prennent en charge jusqu’à 1600 Gbit/s de bande passante du réseau EFAv2 afin d’offrir des performances encore plus élevées pour les modèles gourmands en réseau. Les deux types d’instances sont déployés dans des UltraClusters EC2 qui permettent de mettre à l’échelle jusqu’à 30 000 puces Trainium, qui sont interconnectés avec un réseau non bloquant à l’échelle du pétabit pour fournir 6 exaflops de calcul.

Fonctions

Les instances Trn1 sont alimentées par jusqu’à 16 puces AWS Trainium spécialement conçus pour accélérer l’entraînement DL et fournir jusqu’à 3 pétaflops de puissance de calcul FP16/BF16. Chaque puce comprend deux NeuronCores de deuxième génération.

Pour permettre un parallélisme efficace des données et des modèles, chaque instance Trn1 dispose de 512 Go de mémoire d'accélération partagée (HBM) avec 9,8 To/s de bande passante de mémoire totale.

Pour prendre en charge l'entraînement de modèles gourmands en réseau, tels que Mixture of Experts (MoE) et Generative Pre-Trained Transformers (GPT), chaque instance Trn1n fournit jusqu'à 1 600 Gbit/s de bande passante réseau EFAv2. Chaque instance Trn1 prend en charge jusqu'à 800 Gbit/s de bande passante EFAv2. L'EFAv2 accélère l’entraînement distribué en améliorant jusqu'à 50 % les performances de communication collective par rapport à l'EFA de première génération. Ces instances prennent également en charge jusqu'à 80 Gbit/s de bande passante Amazon Elastic Block Store (EBS) et jusqu'à 8 To de stockage sur disque SSD NVMe local pour un accès rapide des charges de travail à de grands jeux de données.

Pour une connectivité rapide entre les puces Trainium et des communications collectives rationalisées, les instances Trn1 prennent en charge jusqu’à 768 Go/s de NeuronLink, une interconnexion haut débit non bloquante.

Pour fournir des performances élevées tout en respectant les objectifs de précision, les instances Trn1 sont optimisées pour les types de données FP32, TF32, BF16, FP16, UINT8 et pour le nouveau type de données configurable FP8 (cFP8). Pour soutenir le rythme rapide de l'innovation en matière de DL et de l'IA générative, les instances Trn1 présentent plusieurs innovations qui les rendent flexibles et extensibles pour entraîner des modèles DL en constante évolution. Les instances Trn1 bénéficient d'optimisations matérielles et d'une prise en charge logicielle pour les formes d'entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l'avenir, elles prennent en charge les opérateurs personnalisés écrits en C++. Elles prennent également en charge l'arrondi stochastique, une méthode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.

Témoignages des clients et des partenaires

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs métier grâce aux instances Amazon EC2 Trn1.

Databricks

Plus de 10 000 organisations dans le monde, dont Comcast, Condé Nast et plus de 50 % des entreprises du Fortune 500, font confiance à Databricks pour unifier leurs données, leurs analyses et leur IA.

« Des milliers de clients ont mis en œuvre Databricks sur AWS, ce qui leur permet d'utiliser MosaicML pour préformer, affiner et diffuser des modèles de base pour divers cas d'utilisation. AWS Trainium nous offre l'évolutivité et les hautes performances nécessaires pour entraîner nos modèles Mosaic MPT, et ce, à moindre coût. Alors que nous entraînons nos modèles Mosaic MPT de prochaine génération, Trainium2 permettra de créer des modèles encore plus rapidement, ce qui nous permettra d'offrir à nos clients une évolutivité et des performances sans précédent afin qu'ils puissent commercialiser plus rapidement leurs propres applications d'IA générative. « 

Naveen Rao, vice-président du service d'IA générative, Databricks

Missing alt text value

Stockmark Co., Ltd.

Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel.

« Avec 16 nœuds d'instances Amazon EC2 Trn1 alimentés par des puces AWS Trainium, nous avons développé et publié stockmark-13b, un grand modèle de langage avec 13 milliards de paramètres, pré-entraîné à partir de zéro sur un corpus japonais de 220 milliards de jetons. Le corpus comprend les derniers textes du domaine des affaires jusqu’en septembre 2023. Le modèle a obtenu le score JSquad le plus élevé (0,813) au test de référence JGLUE (Japanese General Language Understanding Evaluation) par rapport à d'autres modèles équivalents. Il est disponible sur Hugging Face Hub et peut être utilisé à des fins commerciales avec la licence MIT. Les instances Trn1 nous ont permis de réduire les coûts de formation de 20 % par rapport aux instances GPU équivalentes. « 

Kosuke Arima, CTO de Stockmark Co., Ltd.

Missing alt text value

RICOH

RICOH propose des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations entre les entreprises.

« La migration vers les instances Trn1 a été assez simple. Nous avons été en mesure d'achever la formation de notre modèle de paramètres 13B en seulement 8 jours. Forts de ce succès, nous sommes impatients de développer et d'entraîner notre modèle de paramètres 70B sur Trainium et sommes enthousiasmés par le potentiel de ces instances pour entraîner nos modèles plus rapidement et de manière plus rentable. « 

Yoshiaki Umetsu, Director, Centre de développement des technologies numériques, RICOH

Missing alt text value

Hélixon

« Chez HelixON, nous développons des solutions d'IA de nouvelle génération pour les thérapies à base de protéines. Notre objectif est de développer des outils d'IA qui permettent aux scientifiques de déchiffrer la fonction et l'interaction des protéines, d'interroger des jeux de données génomiques à grande échelle pour identifier des cibles et de concevoir des traitements tels que des anticorps et des thérapies cellulaires. Aujourd'hui, nous utilisons des bibliothèques de distribution d'entraînement telles que FSDP pour paralléliser l'entraînement des modèles sur de nombreux serveurs basés sur des GPU, mais cela nous prend encore des semaines pour entraîner un seul modèle. Nous sommes ravis d'utiliser les instances Amazon EC2 Trn1, dotées de la bande passante réseau la plus élevée (800 Gbit/s) disponible sur AWS pour améliorer les performances de nos tâches de formation distribuées et réduire les temps de formation de nos modèles, tout en réduisant nos coûts de formation. « 

Jian Peng, CEO, Helixon

Missing alt text value

Money Forward, Inc.

Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste.

« Nous avons lancé un service de chatbot basé sur l'IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d'inférence de 97 % par rapport à des instances comparables basées sur des GPU, tout en réduisant les coûts. Comme nous ajustons régulièrement les modèles de NLP personnalisés, il est également important de réduire les temps et les coûts d'entraînement des modèles. Sur la base de notre expérience acquise lors de la migration réussie de la charge de travail d'inférence sur les instances Inf1 et de nos premiers travaux sur les instances EC2 Trn1 basées sur AWS Trainium, nous pensons que les instances Trn1 apporteront une valeur ajoutée en améliorant les performances et les coûts du ML de bout en bout. « 

Takuya Nakade, CTO, Money Forward, Inc.

Missing alt text value

Magic

Magic est une société intégrée de produits et de recherche qui développe une IA qui se présente comme un collègue chargé de rendre le monde plus productif. 

« La formation de grands modèles autorégressifs basés sur des transformateurs est une composante essentielle de notre travail. Les instances Trn1 basées sur AWS Trainium sont conçues spécifiquement pour ces charges de travail et offrent une capacité de mise à l'échelle quasi infinie, une mise en réseau rapide entre les nœuds et une prise en charge avancée des types de données 8 et 16 bits. Les instances Trn1 nous aideront à entraîner de grands modèles plus rapidement et à moindre coût. Nous sommes particulièrement enthousiasmés par la prise en charge native de l'arrondissement stochastique BF16 dans Trainium, qui permet d'améliorer les performances alors que la précision numérique est impossible à distinguer de la précision totale. « 

Eric Steinberger, Cofounder and CEO, Magic

Missing alt text value

Cactus Communications

CACTUS propose une gamme de produits et de solutions destinés aux chercheurs et aux organisations qui améliorent la manière dont la recherche est financée, publiée, communiquée et découverte. 

« Chez Cactus Labs, nous exploitons la puissance de l'IA, avec des recherches axées sur le traitement du langage naturel, le classement et la recommandation, l'IA conversationnelle, les grands modèles linguistiques, la vision par ordinateur, la réalité augmentée, la réalité virtuelle et la XAI. Dans le cadre de notre objectif visant à accélérer l'entraînement des modèles de machine learning et à permettre à nos chercheurs de réaliser davantage d'expériences tout en gérant les coûts d'infrastructure, nous avons été ravis d'évaluer AWS Trainium. Les fonctionnalités prêtes à l'emploi d'AWS Trainium, telles que l'optimisation XLA, la formation parallèle aux données multi-travailleurs et la mise en cache de graphes, nous sont très utiles pour réduire nos temps de formation et nous aider à réaliser davantage d'expériences plus rapidement et à moindre coût. « 

Nishchay Shah, directeur technique et responsable des produits émergents, Cactus Communications

Missing alt text value

Watashiha

Watashiha propose un service de chatbot intelligent innovant et interactif, appelé « OGIRI AI », qui intègre l'humour pour donner une réponse amusante et instantanée à une question. 

« Nous utilisons de grands modèles linguistiques pour intégrer l'humour et offrir une expérience conversationnelle plus pertinente à nos clients sur nos services d'IA. Cela nous oblige à pré-entraîner et à ajuster fréquemment ces modèles. Nous avons pré-entraîné un modèle japonais basé sur GPT sur l'instance EC2 Trn1.32xlarge, en tirant parti du tenseur et du parallélisme des données. L'entraînement a été achevé en 28 jours avec une réduction des coûts de 33 % par rapport à notre ancienne infrastructure basée sur des GPU. Alors que la complexité de nos modèles continue de croître rapidement, nous attendons avec impatience les instances Trn1n, dont la bande passante réseau est deux fois supérieure à celle de Trn1, afin d'accélérer la formation de modèles plus volumineux. « 

Yohei Kobashi, CTO, Watashiha, K.K.

Missing alt text value

PyTorch

« Chez PyTorch, nous accélérons le passage de l'apprentissage automatique, du prototypage de recherche à la production prête pour les clients. Nous avons étroitement collaboré avec l'équipe d'AWS pour fournir une prise en charge PyTorch native pour les nouvelles instances Amazon EC2 Trn1 basées sur AWS Trainium et conçues spécialement pour l'entraînement de modèles de deep learning. Les développeurs qui créent des modèles PyTorch peuvent commencer à entraîner sur des instances Trn1 avec des modifications de code réduites au minimum. En outre, nous avons travaillé avec la communauté d'OpenXLA pour proposer les bibliothèques distribuées PyTorch afin de faciliter la migration de modèles depuis des instances basées sur GPU vers des instances Trn1. Nous sommes enthousiasmés par les innovations apportées par les instances Trn1 à la communauté de PyTorch, notamment des types de données plus efficaces, des formes dynamiques, des opérateurs personnalisés, un arrondissement stochastique optimisé pour le matériel et un mode de débogage rapide. Tout cela fait de Trn1 une solution idéale pour une adoption généralisée par les développeurs de PyTorch et nous attendons avec impatience de futures contributions conjointes à PyTorch afin d'optimiser davantage les performances d'entraînement. « 

Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

Missing alt text value

Hugging Face

« La mission de Hugging Face est de démocratiser le ML de qualité afin d'aider les développeurs de ML du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA générative à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type BERT par rapport à Inferentia1. Avec Inferentia2, notre communauté sera en mesure d'adapter facilement ces performances aux LLM à une échelle de plus de 100 milliards de paramètres, ainsi qu'aux derniers modèles de diffusion et de vision par ordinateur. « 

Missing alt text value

Amazon

« Nous formons de grands modèles linguistiques (LLM) multimodaux (texte + image), multilingues, multilocaux, pré-formés à de multiples tâches et couvrant plusieurs entités (produits, requêtes, marques, avis, etc.) afin d'améliorer l'expérience d'achat des clients. Les instances Trn1 constituent un moyen plus durable d'entraîner des LLM en fournissant le meilleur rapport performance/watt comparé aux autres solutions de machine learning accélérées et nous offrent des performances élevées au moindre coût. Nous prévoyons d'explorer le nouveau type de données FP8 configurable et l'arrondissement stochastique accéléré par le matériel afin d'améliorer encore l'efficacité de notre entraînement et notre vitesse de développement. « 

Trishul Chilimbi, vice-président, Amazon Search

The Amazon logo featuring the word 'amazon' in lowercase black letters with an orange arrow curving from the letter 'a' to 'z' underneath.

Mise en route

Vous pouvez facilement entraîner des modèles sur des instances Trn1 à l’aide d’Amazon SageMaker. Vous réduisez considérablement le temps et les coûts d'entraînement et d'ajustement des modèles de ML sans avoir à gérer l'infrastructure. Avec SageMaker, vous pouvez utiliser des outils intégrés pour gérer et suivre les expériences d'entraînement, choisir automatiquement les hyperparamètres optimaux, déboguer les tâches d'entraînement et surveiller l'utilisation des ressources du système.

Les AWS Deep Learning AMIs (DLAMI) fournissent aux chercheurs et aux professionnels du deep learning (DL) l’infrastructure et les outils nécessaires pour accélérer le deep learning sur AWS, à n’importe quelle échelle. Les pilotes AWS Neuron sont préconfigurés dans la DLAMI pour entraîner vos modèles DL de manière optimale sur les instances Trn1.

Vous pouvez désormais déployer des instances Trn1 dans Amazon Elastic Kubernetes Service (EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (ECS), un service d’orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning. Pour en savoir plus sur l’exécution de conteneurs sur des instances Trn1, consultez les tutoriels sur les conteneurs Neuron.

Informations sur le produit

Instance Size
Trainium Chips
Accelerator Memory (GB)
vCPUs
Instance Memory (GiB)
Local NVMe Storage (TB)
Network Bandwidth (Gbps)
EFA and RDMA Support
EBS Bandwidth (Gbps)
On-Demand Price per Hour
1-Year Reserved Instance Effective Hourly*
3-Year Reserved Instance Effective Hourly*
trn1.2xlarge
1
32
8
32
0,5
Jusqu'à 12,5
Non
Jusqu'à 20
1,34 USD
0,79 USD
0,4744 USD
trn1.32xlarge
16
512
128
512
8
800
Oui
80
21,50 USD
12,60 USD
7,59 USD
trn1n.32xlarge
16
512
128
512
8
1 600
Oui
80
24,78 USD
14,52 USD
8,59 USD