Instances Amazon EC2 Trn1
Entraînement performant et rentable de modèles d'IA génératifs
Optimisées par les puces AWS Trainium, les instances Amazon Elastic Compute Cloud (EC2) Trn1 sont spécialement conçues pour l’entraînement deep learning (DL) à hautes performances de modèles d’IA générative, notamment de grands modèles de langage (LLM) et des modèles de diffusion latente. Les instances Trn1 permettent d’économiser jusqu’à 50 % sur les coûts d’entraînement par rapport à d’autres instances Amazon EC2 comparables. Vous pouvez utiliser les instances Trn1 pour entraîner plus de 100 milliards de paramètres DL et des modèles d’IA générative dans un large éventail d’applications telles que la synthèse de texte, la génération de code, la réponse à des questions, la génération d’images et de vidéos, la recommandation et la détection des fraudes.
Le kit SDK AWS Neuron aide les développeurs à entraîner des modèles sur AWS Trainium (et à déployer des modèles sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec des cadres tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser votre code et vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour en savoir plus sur la prise en charge actuelle par Neuron des cadres et bibliothèques de machine learning (ML), des architectures de modèles et des optimisations matérielles, consultez la documentation de Neuron.
Les instances Trn1n sont désormais disponibles
Les instances Trn1n doublent la bande passante du réseau (par rapport aux instances Trn1) pour atteindre 1 600 Gbit/s d'Elastic Fabric Adapter (EFAv2). L'augmentation de la bande passante permet d'accélérer de 20 % le temps d'entraînement par rapport à Trn1 pour l'entraînement de modèles d'IA générative à forte intensité de réseau, tels que les grands modèles de langage (LLM) et le mélange d'experts (MoE).
Avantages
Réduction des temps d'entraînement pour plus de 100 milliards de modèles de paramètres
Les instances Trn1 sont spécialement conçues pour un DL de haute performance et réduisent les temps d'entraînement de plusieurs mois à quelques semaines, voire à quelques jours. Grâce à la réduction des temps d'entraînement, vous pouvez itérer plus rapidement, créer des modèles plus innovants et augmenter votre productivité. Les instances Trn1n offrent un temps d'entraînement jusqu'à 20 % plus rapide que les Trn1 pour les modèles qui bénéficient d'une bande passante du réseau accrue.
Réduction des coûts de réglage et de pré-entraînement
Les instances Trn1 offrent des performances élevées tout en permettant d'économiser jusqu'à 50 % sur les coûts d'entraînement par rapport à d'autres instances Amazon EC2 comparables.
Utilisation de vos frameworks et bibliothèques de machine learning existants
Utilisez le kit SDK AWS Neuron pour extraire toutes les performances des instances Trn1. Avec Neuron, vous pouvez utiliser des cadres de machine learning populaires tels que PyTorch et TensorFlow et continuer de vous servir de votre code et de vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour démarrer rapidement avec les instances Trn1, consultez les exemples de modèles populaires dans la documentation Neuron.
Augmentation de jusqu'à 6 exaflops avec des UltraClusters EC2
Les instances Trn1 prennent en charge jusqu'à 800 Gbit/s de bande passante du réseau Elastic Fabric Adapter (EFAv2) de deuxième génération. Les instances Trn1n prennent en charge jusqu’à 1600 Gbit/s de bande passante du réseau EFAv2 afin d’offrir des performances encore plus élevées pour les modèles gourmands en réseau. Les deux types d’instances sont déployés dans des UltraClusters EC2 qui permettent de mettre à l’échelle jusqu’à 30 000 puces Trainium, qui sont interconnectés avec un réseau non bloquant à l’échelle du pétabit pour fournir 6 exaflops de calcul.
Fonctionnement
-
Utilisation d'AWS DLAMI
-
Commencer à utiliser Amazon EKS
-
Utiliser Amazon ECS
-
Utilisation d'Amazon SageMaker
-
Utilisation d'AWS DLAMI
-
Commencer à utiliser Amazon EKS
-
Utiliser Amazon ECS
-
Utilisation d'Amazon SageMaker
Fonctionnalités
Jusqu’à 3 pétaflops avec AWS Trainium
Les instances Trn1 sont alimentées par jusqu’à 16 puces AWS Trainium spécialement conçus pour accélérer l’entraînement DL et fournir jusqu’à 3 pétaflops de puissance de calcul FP16/BF16. Chaque puce comprend deux NeuronCores de deuxième génération.
Jusqu’à 512 Go de mémoire d’accélérateur à large bande passante
Pour permettre un parallélisme efficace des données et des modèles, chaque instance Trn1 dispose de 512 Go de mémoire d'accélération partagée (HBM) avec 9,8 To/s de bande passante de mémoire totale.
Mise en réseau et stockage hautes performances
Pour prendre en charge l'entraînement de modèles gourmands en réseau, tels que Mixture of Experts (MoE) et Generative Pre-Trained Transformers (GPT), chaque instance Trn1n fournit jusqu'à 1 600 Gbit/s de bande passante réseau EFAv2. Chaque instance Trn1 prend en charge jusqu'à 800 Gbit/s de bande passante EFAv2. L'EFAv2 accélère l’entraînement distribué en améliorant jusqu'à 50 % les performances de communication collective par rapport à l'EFA de première génération. Ces instances prennent également en charge jusqu'à 80 Gbit/s de bande passante Amazon Elastic Block Store (EBS) et jusqu'à 8 To de stockage sur disque SSD NVMe local pour un accès rapide des charges de travail à de grands jeux de données.
Interconnexion NeuronLink
Pour une connectivité rapide entre les puces Trainium et des communications collectives rationalisées, les instances Trn1 prennent en charge jusqu’à 768 Go/s de NeuronLink, une interconnexion haut débit non bloquante.
Optimisées pour de nouveaux types de données
Pour fournir des performances élevées tout en respectant les objectifs de précision, les instances Trn1 sont optimisées pour les types de données FP32, TF32, BF16, FP16, UINT8 et pour le nouveau type de données configurable FP8 (cFP8).
Optimisations DL de pointe
Pour soutenir le rythme rapide de l'innovation en matière de DL et de l'IA générative, les instances Trn1 présentent plusieurs innovations qui les rendent flexibles et extensibles pour entraîner des modèles DL en constante évolution. Les instances Trn1 bénéficient d'optimisations matérielles et d'une prise en charge logicielle pour les formes d'entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l'avenir, elles prennent en charge les opérateurs personnalisés écrits en C++. Elles prennent également en charge l'arrondi stochastique, une méthode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.
Clients
« Des milliers de clients ont mis en œuvre Databricks sur AWS, ce qui leur permet d'utiliser MosaicML pour préformer, affiner et diffuser des modèles de base pour de nombreux cas d'utilisation. AWS Trainium nous offre l'évolutivité et les hautes performances nécessaires pour entraîner nos modèles Mosaic MPT, et ce, à moindre coût. Alors que nous entraînons nos modèles Mosaic MPT de nouvelle génération, Trainium2 nous permettra de créer des modèles encore plus rapidement, ce qui nous permettra d'offrir à nos clients une évolutivité et des performances sans précédent afin de leur permettre de commercialiser plus rapidement leurs propres applications d'IA générative. »
Naveen Rao, vice-président du service d'IA générative, Databricks
« Avec 16 nœuds d’instances Amazon EC2 Trn1 alimentés par les puces AWS Trainium, nous avons développé et publié stockmark-13b, un grand modèle de langage comportant 13 milliards de paramètres, pré-entraîné de zéro sur un corpus japonais de 220 milliards de jetons. Le corpus comprend les derniers textes du domaine des affaires jusqu’en septembre 2023. Le modèle a obtenu le score JSquad le plus élevé (0,813) au test de référence JGLUE (Japanese General Language Understanding Evaluation) par rapport à d'autres modèles équivalents. Il est disponible sur Hugging Face Hub et peut être utilisé à des fins commerciales avec la licence MIT. Les instances Trn1 nous ont permis de réduire les coûts de formation de 20 % par rapport aux instances GPU équivalentes. »
Kosuke Arima, CTO de Stockmark Co., Ltd.
Yoshiaki Umetsu, Director, Centre de développement des technologies numériques, RICOH
« Chez HeliXon, nous créons des solutions d'IA de nouvelle génération pour les thérapies à base de protéines. Notre objectif est de développer des outils d'IA qui permettent aux scientifiques de déchiffrer la fonction et l'interaction des protéines, d'interroger des jeux de données génomiques à grande échelle pour identifier des cibles et de concevoir des traitements tels que des anticorps et des thérapies cellulaires. Aujourd'hui, nous utilisons des bibliothèques de distribution d'entraînement telles que FSDP pour paralléliser l'entraînement des modèles sur de nombreux serveurs basés sur des GPU, mais cela nous prend encore des semaines pour entraîner un seul modèle. Nous sommes ravis d'utiliser les instances Amazon EC2 Trn1, dotées de la bande passante du réseau la plus élevée (800 Gbit/s) disponible sur AWS pour améliorer les performances de nos tâches d'entraînement distribuées et réduire les temps d'entraînement de nos modèles, tout en réduisant nos coûts. »
Jian Peng, CEO, Helixon
Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste.
« Nous avons lancé un service de chatbot basé sur l'IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d'inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Comme nous ajustons régulièrement les modèles de NLP personnalisés, il est également important de réduire les temps et les coûts d'entraînement des modèles. Sur la base de notre expérience acquise lors de la migration réussie de la charge de travail d'inférence sur les instances Inf1 et de nos premiers travaux sur les instances EC2 Trn1 basées sur AWS Trainium, nous pensons que les instances Trn1 apporteront une valeur ajoutée en termes d'amélioration des performances et des coûts du ML de bout en bout. »
Takuya Nakade, CTO, Money Forward, Inc.
Magic est une société intégrée de produits et de recherche qui développe une IA qui se présente comme un collègue chargé de rendre le monde plus productif.
« L'entraînement de grands modèles autorégressifs basés sur des transformateurs est un élément essentiel de notre travail. Les instances Trn1 basées sur AWS Trainium sont conçues spécifiquement pour ces charges de travail et offrent une capacité de mise à l'échelle quasi infinie, une mise en réseau rapide entre les nœuds et une prise en charge avancée des types de données 8 et 16 bits. Les instances Trn1 nous aideront à entraîner de grands modèles plus rapidement et à moindre coût. Nous sommes particulièrement enthousiasmés par la prise en charge native de l'arrondissement stochastique BF16 dans Trainium, qui améliore les performances alors que la précision numérique est indissociable de la précision totale. »
Eric Steinberger, Cofounder and CEO, Magic
CACTUS propose une gamme de produits et de solutions destinés aux chercheurs et aux organisations qui améliorent la manière dont la recherche est financée, publiée, communiquée et découverte.
« Chez Cactus Labs, nous exploitons la puissance de l'IA en menant des recherches axées sur le traitement du langage naturel, le classement et la recommandation, l'IA conversationnelle, les grands modèles de langage, la vision par ordinateur, la réalité augmentée et virtuelle et la XAI. Dans le cadre de notre objectif visant à accélérer l'entraînement des modèles de machine learning et à permettre à nos chercheurs de réaliser davantage d'expériences tout en gérant les coûts d'infrastructure, nous avons été ravis d'évaluer AWS Trainium. Les fonctionnalités prêtes à l'emploi d'AWS Trainium, telles que l'optimisation XLA, l'entraînement parallèle aux données multi-travailleurs et la mise en cache de graphes nous sont vraiment utiles pour réduire nos temps d'entraînement et nous aider à réaliser davantage d'expériences plus rapidement et à moindre coût. »
Nishchay Shah, directeur technique et responsable des produits émergents, Cactus Communications
Watashiha propose un service de chatbot intelligent innovant et interactif, appelé « OGIRI AI », qui intègre l'humour pour donner une réponse amusante et instantanée à une question.
« Nous utilisons de grands modèles de langage pour intégrer l'humour et offrir une expérience conversationnelle plus pertinente à nos clients sur nos services d'IA. Cela nous oblige à pré-entraîner et à ajuster fréquemment ces modèles. Nous avons pré-entraîné un modèle japonais basé sur GPT sur l'instance EC2 Trn1.32xlarge, en tirant parti du tenseur et du parallélisme des données. L'entraînement a été achevé en 28 jours avec une réduction des coûts de 33 % par rapport à notre ancienne infrastructure basée sur des GPU. Alors que la complexité de nos modèles continue de croître rapidement, nous attendons avec impatience les instances Trn1n, qui disposent de deux fois plus de bande passante du réseau que les Trn1, afin d'accélérer l'entraînement des modèles plus volumineux. »
Yohei Kobashi, CTO, Watashiha, K.K.
Partenaires
« Chez PyTorch, nous accélérons les étapes du machine learning du prototypage de recherche à la production prête pour les clients. Nous avons étroitement collaboré avec l'équipe d'AWS pour fournir une prise en charge PyTorch native pour les nouvelles instances Amazon EC2 Trn1 basées sur AWS Trainium et conçues spécialement pour l'entraînement de modèles de deep learning. Les développeurs qui créent des modèles PyTorch peuvent commencer à entraîner sur des instances Trn1 avec des modifications de code réduites au minimum. En outre, nous avons travaillé avec la communauté d'OpenXLA pour proposer les bibliothèques distribuées PyTorch afin de faciliter la migration de modèles depuis des instances basées sur GPU vers des instances Trn1. Nous sommes enthousiasmés par les innovations apportées par les instances Trn1 à la communauté de PyTorch, notamment des types de données plus efficaces, des formes dynamiques, des opérateurs personnalisés, un arrondissement stochastique optimisé pour le matériel et un mode de débogage rapide. Tout cela contribue à une large adoption idéale des instances Trn1 par les développeurs de PyTorch et nous attendons avec impatience les futures contributions conjointes à PyTorch afin d'optimiser davantage les performances d'entraînement. »
Geeta Chauhan, Applied AI, Engineering Manager, PyTorch
« La mission de Hugging Face est de démocratiser une machine learning de qualité afin d’aider les développeurs de machine learning du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA générative à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type BERT par rapport à Inferentia1. Avec Inferentia2, notre communauté pourra facilement adapter cette performance aux LLM à l'échelle de plus de 100 milliards de paramètres, ainsi qu'aux modèles de diffusion et de vision par ordinateur les plus récents. »
Services Amazon utilisant des instances Trn1
Le moteur de recherche de produits d'Amazon indexe des milliards de produits, répond à des milliards de requêtes de clients chaque jour et est l'un des services les plus utilisés au monde.
« Nous entraînons de grands modèles de langage (LLM) multimodaux (texte et image), multilingues, multirégions, préentraînés sur de multiples tâches et couvrant plusieurs entités (produits, requêtes, marques, avis, etc.) afin d'améliorer l'expérience d'achat des clients. Les instances Trn1 constituent un moyen plus durable d'entraîner des LLM en fournissant le meilleur rapport performance/watt comparé aux autres solutions de machine learning accélérées et nous offrent des performances élevées au moindre coût. Nous prévoyons d'explorer le nouveau type de données FP8 configurable et l'arrondissement stochastique accéléré hardware afin d'améliorer encore l'efficacité de notre entraînement et notre vitesse de développement. »
Trishul Chilimbi, VP, Amazon Search
Mise en route
Utilisation d'Amazon SageMaker
Vous pouvez facilement entraîner des modèles sur des instances Trn1 à l'aide d'Amazon SageMaker. Vous réduisez considérablement le temps et les coûts d'entraînement et d'ajustement des modèles de ML sans avoir à gérer l'infrastructure. Avec SageMaker, vous pouvez utiliser des outils intégrés pour gérer et suivre les expériences d'entraînement, choisir automatiquement les hyperparamètres optimaux, déboguer les tâches d'entraînement et surveiller l'utilisation des ressources du système.
Utilisation des AWS Deep Learning AMI
Exécution des conteneurs AWS Deep Learning
Informations sur le produit
Taille de l’instance | Puces Trainium |
Accélérateur Mémoire (Go) |
vCPU | Instance Mémoire (Gio) |
Local NVMe Stockage (To) |
Réseau Bande passante (Gbit/s) |
EFA et RDMA Support |
EBS Bande passante (Gbit/s) |
À la demande Tarif horaire |
1 an Réservée Instance Efficace Tarif horaire* |
3 ans Réservée Instance Efficace Tarif horaire* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0,5 | Jusqu'à 12,5 | Non | Jusqu'à 20 | 1,34 USD | 0,79 USD | 0,4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | Oui | 80 | 21,50 USD | 12,60 USD | 7,59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1 600 | Oui | 80 | 24,78 USD | 14,52 USD | 8,59 USD |
Créer un compte AWS
Obtenez un accès instantané à l'offre gratuite d'AWS.
Apprenez-en plus avec des tutoriels de 10 minutes.
Explorez et apprenez avec des tutoriels simples.
Commencez à créer sur la console.
Lancez votre projet AWS en vous appuyant sur les guides étape par étape.