Instances Amazon EC2 Trn1

Entraînement performant et rentable de modèles d'IA génératifs

Prise en main des instances Trn1 avec AWS Neuron

Optimisées par les puces AWS Trainium, les instances Amazon Elastic Compute Cloud (EC2) Trn1 sont spécialement conçues pour l’entraînement deep learning (DL) à hautes performances de modèles d’IA générative, notamment de grands modèles de langage (LLM) et des modèles de diffusion latente. Les instances Trn1 permettent d’économiser jusqu’à 50 % sur les coûts d’entraînement par rapport à d’autres instances Amazon EC2 comparables. Vous pouvez utiliser les instances Trn1 pour entraîner plus de 100 milliards de paramètres DL et des modèles d’IA générative dans un large éventail d’applications telles que la synthèse de texte, la génération de code, la réponse à des questions, la génération d’images et de vidéos, la recommandation et la détection des fraudes.

Le kit SDK AWS Neuron aide les développeurs à entraîner des modèles sur AWS Trainium (et à déployer des modèles sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec des cadres tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser votre code et vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour en savoir plus sur la prise en charge actuelle par Neuron des cadres et bibliothèques de machine learning (ML), des architectures de modèles et des optimisations matérielles, consultez la documentation de Neuron.

Les instances Trn1n sont désormais disponibles

Les instances Trn1n doublent la bande passante du réseau (par rapport aux instances Trn1) pour atteindre 1 600 Gbit/s d'Elastic Fabric Adapter (EFAv2). L'augmentation de la bande passante permet d'accélérer de 20 % le temps d'entraînement par rapport à Trn1 pour l'entraînement de modèles d'IA générative à forte intensité de réseau, tels que les grands modèles de langage (LLM) et le mélange d'experts (MoE).

Nouvelles instances Amazon EC2 Trn1 | Amazon Web Services (1:34)

Avantages

Réduction des temps d'entraînement pour plus de 100 milliards de modèles de paramètres

Les instances Trn1 sont spécialement conçues pour un DL de haute performance et réduisent les temps d'entraînement de plusieurs mois à quelques semaines, voire à quelques jours. Grâce à la réduction des temps d'entraînement, vous pouvez itérer plus rapidement, créer des modèles plus innovants et augmenter votre productivité. Les instances Trn1n offrent un temps d'entraînement jusqu'à 20 % plus rapide que les Trn1 pour les modèles qui bénéficient d'une bande passante du réseau accrue.

Réduction des coûts de réglage et de pré-entraînement

Les instances Trn1 offrent des performances élevées tout en permettant d'économiser jusqu'à 50 % sur les coûts d'entraînement par rapport à d'autres instances Amazon EC2 comparables.

Utilisation de vos frameworks et bibliothèques de machine learning existants

Utilisez le kit SDK AWS Neuron pour extraire toutes les performances des instances Trn1. Avec Neuron, vous pouvez utiliser des cadres de machine learning populaires tels que PyTorch et TensorFlow et continuer de vous servir de votre code et de vos flux de travail existants pour entraîner des modèles sur des instances Trn1. Pour démarrer rapidement avec les instances Trn1, consultez les exemples de modèles populaires dans la documentation Neuron.

Augmentation de jusqu'à 6 exaflops avec des UltraClusters EC2

Les instances Trn1 prennent en charge jusqu'à 800 Gbit/s de bande passante du réseau Elastic Fabric Adapter (EFAv2) de deuxième génération. Les instances Trn1n prennent en charge jusqu’à 1600 Gbit/s de bande passante du réseau EFAv2 afin d’offrir des performances encore plus élevées pour les modèles gourmands en réseau. Les deux types d’instances sont déployés dans des UltraClusters EC2 qui permettent de mettre à l’échelle jusqu’à 30 000 puces Trainium, qui sont interconnectés avec un réseau non bloquant à l’échelle du pétabit pour fournir 6 exaflops de calcul.

Fonctionnement

Utilisation d'AWS DLAMI
Commencer à utiliser Amazon EKS
Utiliser Amazon ECS
Utilisation d'Amazon SageMaker

Utilisation d'AWS DLAMI
Agrandir et lire la description de l'image.

La première section intitulée « Application utilisateur » présente les principales méthodes que vous pouvez utiliser pour lancer automatiquement l'AWS Deep Learning AMI (DLAMI) et les instances Amazon EC2 Trn1 : interface de la ligne de commande AWS (AWS CLI), outils et kits SDK AWS et AWS Cloud Control API. La seconde méthode principale pour lancer une DLAMI à partir de l'interface web est la console de gestion AWS.

Depuis la DLAMI, la section suivante présente les instances Amazon EC2 Trn1 qui sont lancées à partir de la DLAMI sélectionnée.

Un autre groupe présente un terminal local, un terminal distant EC2 et un script d'application qui peuvent être utilisés pour mettre à jour et gérer une DLAMI afin de lancer des instances EC2 en fonction des mises à jour.
Commencer à utiliser Amazon EKS
Agrandir et lire la description de l'image.

Le premier encadré montre comment Amazon Elastic Kubernetes Service (EKS) est utilisé pour créer des clusters Kubernetes alimentés par Amazon EKS Distro.

Après avoir créé les clusters, vous pouvez déployer des composants masters Trn1 ou Trn1n pour votre cluster EKS.

Vous pouvez ensuite exécuter vos charges de travail d'entraînement sur Kubernetes.
Utiliser Amazon ECS
Agrandir et lire la description de l'image.

Dans la première étape du flux de travail, Amazon Elastic Container Registry (ECR) est utilisé pour créer des images et les stocker à l'aide d'ECR ou de tout autre référentiel.

Ensuite, vous pouvez utiliser Amazon Elastic Container Service (ECS) pour sélectionner l'image du conteneur de deep learning (DLC) pour votre charge de travail.

Déployez ensuite votre charge de travail d'entraînement sur le serveur d'instance Amazon EC2 Trn1 ou Trn1n.

Enfin, utilisez Amazon ECS pour gérer vos conteneurs.
Utilisation d'Amazon SageMaker
Agrandir et lire la description de l'image.

Sélectionnez d'abord les instances Trn1 ou Trn1n (ml.trn1 ou ml.trn1n) comme option d'entraînement SageMaker.

Un modèle de facturation à la seconde est appliqué et vous ne payez que ce que vous utilisez. Vous pouvez utiliser des bibliothèques d'entraînement distribuées et le compilateur d'entraînement SageMaker pour mettre à l'échelle et booster les performances.

Ensuite, appliquez le réglage du modèle d'automatisation pour optimiser les hyperparamètres.

L'interactivité et la surveillance sont ensuite assurées grâce au débogage, au profilage et à la gestion des expériences. Ajustez votre coût avec l'entraînement Spot géré.

Enfin, enregistrez les artefacts de modèle qui en résultent pour votre modèle entraîné dans un compartiment Amazon S3.

Fonctionnalités

Jusqu’à 3 pétaflops avec AWS Trainium

Les instances Trn1 sont alimentées par jusqu’à 16 puces AWS Trainium spécialement conçus pour accélérer l’entraînement DL et fournir jusqu’à 3 pétaflops de puissance de calcul FP16/BF16. Chaque puce comprend deux NeuronCores de deuxième génération.

Jusqu’à 512 Go de mémoire d’accélérateur à large bande passante

Pour permettre un parallélisme efficace des données et des modèles, chaque instance Trn1 dispose de 512 Go de mémoire d'accélération partagée (HBM) avec 9,8 To/s de bande passante de mémoire totale.

Mise en réseau et stockage hautes performances

Pour prendre en charge l'entraînement de modèles gourmands en réseau, tels que Mixture of Experts (MoE) et Generative Pre-Trained Transformers (GPT), chaque instance Trn1n fournit jusqu'à 1 600 Gbit/s de bande passante réseau EFAv2. Chaque instance Trn1 prend en charge jusqu'à 800 Gbit/s de bande passante EFAv2. L'EFAv2 accélère l’entraînement distribué en améliorant jusqu'à 50 % les performances de communication collective par rapport à l'EFA de première génération. Ces instances prennent également en charge jusqu'à 80 Gbit/s de bande passante Amazon Elastic Block Store (EBS) et jusqu'à 8 To de stockage sur disque SSD NVMe local pour un accès rapide des charges de travail à de grands jeux de données.

Interconnexion NeuronLink

Pour une connectivité rapide entre les puces Trainium et des communications collectives rationalisées, les instances Trn1 prennent en charge jusqu’à 768 Go/s de NeuronLink, une interconnexion haut débit non bloquante.

Optimisées pour de nouveaux types de données

Pour fournir des performances élevées tout en respectant les objectifs de précision, les instances Trn1 sont optimisées pour les types de données FP32, TF32, BF16, FP16, UINT8 et pour le nouveau type de données configurable FP8 (cFP8).

Optimisations DL de pointe

Pour soutenir le rythme rapide de l'innovation en matière de DL et de l'IA générative, les instances Trn1 présentent plusieurs innovations qui les rendent flexibles et extensibles pour entraîner des modèles DL en constante évolution. Les instances Trn1 bénéficient d'optimisations matérielles et d'une prise en charge logicielle pour les formes d'entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l'avenir, elles prennent en charge les opérateurs personnalisés écrits en C++. Elles prennent également en charge l'arrondi stochastique, une méthode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.

Clients

Plus de 10 000 organisations dans le monde, dont Comcast, Condé Nast et plus de 50 % des entreprises du Fortune 500, font confiance à Databricks pour unifier leurs données, leurs analyses et leur IA.

« Des milliers de clients ont mis en œuvre Databricks sur AWS, ce qui leur permet d'utiliser MosaicML pour préformer, affiner et diffuser des modèles de base pour de nombreux cas d'utilisation. AWS Trainium nous offre l'évolutivité et les hautes performances nécessaires pour entraîner nos modèles Mosaic MPT, et ce, à moindre coût. Alors que nous entraînons nos modèles Mosaic MPT de nouvelle génération, Trainium2 nous permettra de créer des modèles encore plus rapidement, ce qui nous permettra d'offrir à nos clients une évolutivité et des performances sans précédent afin de leur permettre de commercialiser plus rapidement leurs propres applications d'IA générative. »

Naveen Rao, vice-président du service d'IA générative, Databricks

Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel.

« Avec 16 nœuds d’instances Amazon EC2 Trn1 alimentés par les puces AWS Trainium, nous avons développé et publié stockmark-13b, un grand modèle de langage comportant 13 milliards de paramètres, pré-entraîné de zéro sur un corpus japonais de 220 milliards de jetons. Le corpus comprend les derniers textes du domaine des affaires jusqu’en septembre 2023. Le modèle a obtenu le score JSquad le plus élevé (0,813) au test de référence JGLUE (Japanese General Language Understanding Evaluation) par rapport à d'autres modèles équivalents. Il est disponible sur Hugging Face Hub et peut être utilisé à des fins commerciales avec la licence MIT. Les instances Trn1 nous ont permis de réduire les coûts de formation de 20 % par rapport aux instances GPU équivalentes. »

Kosuke Arima, CTO de Stockmark Co., Ltd.

RICOH propose des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations entre les entreprises.

« La migration vers les instances Trn1 a été assez simple. Nous avons été en mesure d'achever la formation de notre modèle de paramètres 13B en seulement 8 jours. Forts de ce succès, nous sommes impatients de développer et d'entraîner notre modèle de paramètres 70B sur Trainium et sommes enthousiasmés par le potentiel de ces instances pour entraîner nos modèles plus rapidement et de manière plus rentable. »

Yoshiaki Umetsu, Director, Centre de développement des technologies numériques, RICOH

Helixon

« Chez HeliXon, nous créons des solutions d'IA de nouvelle génération pour les thérapies à base de protéines. Notre objectif est de développer des outils d'IA qui permettent aux scientifiques de déchiffrer la fonction et l'interaction des protéines, d'interroger des jeux de données génomiques à grande échelle pour identifier des cibles et de concevoir des traitements tels que des anticorps et des thérapies cellulaires. Aujourd'hui, nous utilisons des bibliothèques de distribution d'entraînement telles que FSDP pour paralléliser l'entraînement des modèles sur de nombreux serveurs basés sur des GPU, mais cela nous prend encore des semaines pour entraîner un seul modèle. Nous sommes ravis d'utiliser les instances Amazon EC2 Trn1, dotées de la bande passante du réseau la plus élevée (800 Gbit/s) disponible sur AWS pour améliorer les performances de nos tâches d'entraînement distribuées et réduire les temps d'entraînement de nos modèles, tout en réduisant nos coûts. »

Jian Peng, CEO, Helixon

Money Forward

Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste.

« Nous avons lancé un service de chatbot basé sur l'IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d'inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Comme nous ajustons régulièrement les modèles de NLP personnalisés, il est également important de réduire les temps et les coûts d'entraînement des modèles. Sur la base de notre expérience acquise lors de la migration réussie de la charge de travail d'inférence sur les instances Inf1 et de nos premiers travaux sur les instances EC2 Trn1 basées sur AWS Trainium, nous pensons que les instances Trn1 apporteront une valeur ajoutée en termes d'amélioration des performances et des coûts du ML de bout en bout. »

Takuya Nakade, CTO, Money Forward, Inc.

Magic

Magic est une société intégrée de produits et de recherche qui développe une IA qui se présente comme un collègue chargé de rendre le monde plus productif.

« L'entraînement de grands modèles autorégressifs basés sur des transformateurs est un élément essentiel de notre travail. Les instances Trn1 basées sur AWS Trainium sont conçues spécifiquement pour ces charges de travail et offrent une capacité de mise à l'échelle quasi infinie, une mise en réseau rapide entre les nœuds et une prise en charge avancée des types de données 8 et 16 bits. Les instances Trn1 nous aideront à entraîner de grands modèles plus rapidement et à moindre coût. Nous sommes particulièrement enthousiasmés par la prise en charge native de l'arrondissement stochastique BF16 dans Trainium, qui améliore les performances alors que la précision numérique est indissociable de la précision totale. »

Eric Steinberger, Cofounder and CEO, Magic

Cactus

CACTUS propose une gamme de produits et de solutions destinés aux chercheurs et aux organisations qui améliorent la manière dont la recherche est financée, publiée, communiquée et découverte.

« Chez Cactus Labs, nous exploitons la puissance de l'IA en menant des recherches axées sur le traitement du langage naturel, le classement et la recommandation, l'IA conversationnelle, les grands modèles de langage, la vision par ordinateur, la réalité augmentée et virtuelle et la XAI. Dans le cadre de notre objectif visant à accélérer l'entraînement des modèles de machine learning et à permettre à nos chercheurs de réaliser davantage d'expériences tout en gérant les coûts d'infrastructure, nous avons été ravis d'évaluer AWS Trainium. Les fonctionnalités prêtes à l'emploi d'AWS Trainium, telles que l'optimisation XLA, l'entraînement parallèle aux données multi-travailleurs et la mise en cache de graphes nous sont vraiment utiles pour réduire nos temps d'entraînement et nous aider à réaliser davantage d'expériences plus rapidement et à moindre coût. »

Nishchay Shah, directeur technique et responsable des produits émergents, Cactus Communications

Watashiha

Watashiha propose un service de chatbot intelligent innovant et interactif, appelé « OGIRI AI », qui intègre l'humour pour donner une réponse amusante et instantanée à une question.

« Nous utilisons de grands modèles de langage pour intégrer l'humour et offrir une expérience conversationnelle plus pertinente à nos clients sur nos services d'IA. Cela nous oblige à pré-entraîner et à ajuster fréquemment ces modèles. Nous avons pré-entraîné un modèle japonais basé sur GPT sur l'instance EC2 Trn1.32xlarge, en tirant parti du tenseur et du parallélisme des données. L'entraînement a été achevé en 28 jours avec une réduction des coûts de 33 % par rapport à notre ancienne infrastructure basée sur des GPU. Alors que la complexité de nos modèles continue de croître rapidement, nous attendons avec impatience les instances Trn1n, qui disposent de deux fois plus de bande passante du réseau que les Trn1, afin d'accélérer l'entraînement des modèles plus volumineux. »

Yohei Kobashi, CTO, Watashiha, K.K.

Partenaires

« Chez PyTorch, nous accélérons les étapes du machine learning du prototypage de recherche à la production prête pour les clients. Nous avons étroitement collaboré avec l'équipe d'AWS pour fournir une prise en charge PyTorch native pour les nouvelles instances Amazon EC2 Trn1 basées sur AWS Trainium et conçues spécialement pour l'entraînement de modèles de deep learning. Les développeurs qui créent des modèles PyTorch peuvent commencer à entraîner sur des instances Trn1 avec des modifications de code réduites au minimum. En outre, nous avons travaillé avec la communauté d'OpenXLA pour proposer les bibliothèques distribuées PyTorch afin de faciliter la migration de modèles depuis des instances basées sur GPU vers des instances Trn1. Nous sommes enthousiasmés par les innovations apportées par les instances Trn1 à la communauté de PyTorch, notamment des types de données plus efficaces, des formes dynamiques, des opérateurs personnalisés, un arrondissement stochastique optimisé pour le matériel et un mode de débogage rapide. Tout cela contribue à une large adoption idéale des instances Trn1 par les développeurs de PyTorch et nous attendons avec impatience les futures contributions conjointes à PyTorch afin d'optimiser davantage les performances d'entraînement. »

Geeta Chauhan, Applied AI, Engineering Manager, PyTorch

« La mission de Hugging Face est de démocratiser une machine learning de qualité afin d’aider les développeurs de machine learning du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA générative à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type BERT par rapport à Inferentia1. Avec Inferentia2, notre communauté pourra facilement adapter cette performance aux LLM à l'échelle de plus de 100 milliards de paramètres, ainsi qu'aux modèles de diffusion et de vision par ordinateur les plus récents. »

Services Amazon utilisant des instances Trn1

Amazon

Le moteur de recherche de produits d'Amazon indexe des milliards de produits, répond à des milliards de requêtes de clients chaque jour et est l'un des services les plus utilisés au monde.

« Nous entraînons de grands modèles de langage (LLM) multimodaux (texte et image), multilingues, multirégions, préentraînés sur de multiples tâches et couvrant plusieurs entités (produits, requêtes, marques, avis, etc.) afin d'améliorer l'expérience d'achat des clients. Les instances Trn1 constituent un moyen plus durable d'entraîner des LLM en fournissant le meilleur rapport performance/watt comparé aux autres solutions de machine learning accélérées et nous offrent des performances élevées au moindre coût. Nous prévoyons d'explorer le nouveau type de données FP8 configurable et l'arrondissement stochastique accéléré hardware afin d'améliorer encore l'efficacité de notre entraînement et notre vitesse de développement. »

Trishul Chilimbi, VP, Amazon Search

Mise en route

Utilisation d'Amazon SageMaker

Vous pouvez facilement entraîner des modèles sur des instances Trn1 à l'aide d'Amazon SageMaker. Vous réduisez considérablement le temps et les coûts d'entraînement et d'ajustement des modèles de ML sans avoir à gérer l'infrastructure. Avec SageMaker, vous pouvez utiliser des outils intégrés pour gérer et suivre les expériences d'entraînement, choisir automatiquement les hyperparamètres optimaux, déboguer les tâches d'entraînement et surveiller l'utilisation des ressources du système.

Utilisation des AWS Deep Learning AMI

Les AWS Deep Learning AMIs (DLAMI) fournissent aux chercheurs et aux professionnels du deep learning (DL) l'infrastructure et les outils nécessaires pour accélérer le deep learning sur AWS, à n'importe quelle échelle. Les pilotes AWS Neuron sont préconfigurés dans la DLAMI pour entraîner vos modèles DL de manière optimale sur les instances Trn1.

Exécution des conteneurs AWS Deep Learning

Vous pouvez désormais déployer des instances Trn1 dans Amazon Elastic Kubernetes Service (EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (ECS), un service d'orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning. Pour en savoir plus sur l'exécution de conteneurs sur des instances Trn1, consultez les tutoriels sur les conteneurs Neuron.

Informations sur le produit

Taille de l’instance	Puces Trainium	Accélérateur Mémoire (Go)	vCPU	Instance Mémoire (Gio)	Local NVMe Stockage (To)	Réseau Bande passante (Gbit/s)	EFA et RDMA Support	EBS Bande passante (Gbit/s)	À la demande Tarif horaire	1 an Réservée Instance Efficace Tarif horaire*	3 ans Réservée Instance Efficace Tarif horaire*
trn1.2xlarge	1	32	8	32	0,5	Jusqu'à 12,5	Non	Jusqu'à 20	1,34 USD	0,79 USD	0,4744 USD
trn1.32xlarge	16	512	128	512	8	800	Oui	80	21,50 USD	12,60 USD	7,59 USD
trn1n.32xlarge	16	512	128	512	8	1 600	Oui	80	24,78 USD	14,52 USD	8,59 USD

Créer un compte AWS

Créer un compte AWS

Obtenez un accès instantané à l'offre gratuite d'AWS.

Apprendre avec des tutoriels simples

Apprenez-en plus avec des tutoriels de 10 minutes.

Explorez et apprenez avec des tutoriels simples.

Commencer à créer avec EC2 dans la console

Commencez à créer sur la console.

Lancez votre projet AWS en vous appuyant sur les guides étape par étape.