Passer au contenu principal

Blocs de capacité Amazon EC2

Blocs de capacité Amazon EC2 pour le ML

Réservez des instances de calcul accéléré dans Amazon EC2 UltraClusters pour exécuter vos charges de travail ML

Pourquoi utiliser les blocs de capacité EC2 pour le ML ?

Avec les blocs de capacité Amazon Elastic Compute Cloud (Amazon EC2) pour le machine learning, vous pouvez facilement réserver des instances de calcul accéléré pour une date de début future. Capacity Blocks prend en charge les instances Amazon EC2 P6e-GB200, P6-B200, P5en, P5e , P5 et P4d , accélérées par les derniers GPU NVIDIA Blackwell, les GPU NVIDIA H200 Tensor Core, les GPU NVIDIA H100 Tensor Core et les GPU NVIDIA A100 Tensor Core, respectivement, ainsi que les instances Trn2 et Trn1 optimisées par AWS Trainium. Les blocs de capacité EC2 sont situés dans des clusters Amazon EC2 UltraClusters conçus pour les charges de travail d'apprentissage automatique (ML) hautes performances. Vous pouvez réserver des instances de calcul accéléré pour une durée maximale de six mois dans des clusters de 1 à 64 instances (512 GPU ou 1 024 puces Trainium), ce qui vous permet d’exécuter un large éventail de charges de travail de machine learning. Les blocs de capacité EC2 peuvent être réservés huit semaines à l'avance maximum.

Avantages

Planifiez votre développement de ML en toute confiance en garantissant la capacité future disponible pour les instances de calcul accéléré.

Bénéficiez d'une connectivité réseau à faible latence et à haut débit grâce à la colocalisation dans Amazon EC2 UltraClusters, qui permet un entraînement distribué.

Bénéficiez d'un accès prévisible aux instances de calcul accéléré offrant les meilleures performances dans Amazon EC2 pour le machine learning.

Cas d'utilisation

Bénéficiez d'un accès ininterrompu aux instances de calcul accéléré que vous réservez pour terminer l'entraînement et le réglage des modèles de ML.

Basés sur des blocs de capacité, les plans d’entraînement flexibles Amazon SageMaker HyperPod vous aident à respecter les calendriers et les budgets d’entraînement des modèles en réservant et en exécutant automatiquement des tâches d’entraînement sur plusieurs blocs de capacité de calcul en fonction de vos besoins d’entraînement.

Réalisez des expériences et créez des prototypes qui nécessitent des instances de calcul accéléré pendant de courtes durées.

Répondez à vos besoins de croissance en réservant la capacité adéquate pour servir vos clients.

NVIDIA

« La demande de calcul accéléré augmente de façon exponentielle alors que les entreprises du monde entier adoptent l'IA générative pour remodeler leur activité. Grâce aux nouveaux blocs de capacité EC2 d'AWS pour le machine learning, les entreprises d'IA du monde entier peuvent désormais louer le H100, non pas un seul serveur à la fois, mais à une échelle dédiée uniquement disponible sur AWS, ce qui leur permet de former rapidement et à moindre coût de grands modèles de langage et d'exécuter des inférences dans le cloud exactement quand elles en ont besoin. «

Ian Buck, vice-président de l'informatique HPC, NVIDIA

Missing alt text value

Arcee

« Arcee fournit une plateforme d'IA qui permet de développer et de faire progresser ce que nous appelons les SLM : de petits modèles linguistiques spécialisés, sécurisés et évolutifs. Les blocs de capacité Amazon EC2 pour le ML constituent une partie importante de notre environnement de calcul de ML pour l'entraînement des SLM sur AWS, car ils nous fournissent un accès fiable à la capacité des GPU lorsque nous en avons besoin. Cela signifie à son tour que notre équipe interne et nos clients bénéficient de la flexibilité. Le fait de savoir que nous pouvons obtenir un cluster de GPU en quelques jours et sans engagement à long terme a changé la donne pour nous. «

Mark McQuade, PDG et cofondateur d'Arcee

Missing alt text value

Partenaires d'Amplify

« Nous avons établi un partenariat avec plusieurs fondateurs qui tirent parti de l'apprentissage profond et de grands modèles linguistiques pour commercialiser des innovations révolutionnaires. Nous pensons qu'un accès prévisible et rapide à la capacité de calcul des GPU est fondamental pour permettre aux fondateurs non seulement de donner rapidement vie à leurs idées, mais également de continuer à mettre en œuvre leur vision et à apporter une valeur ajoutée croissante à leurs clients. La disponibilité d'un maximum de 512 GPU NVIDIA H100 via des blocs de capacité EC2 change la donne dans l'environnement actuel où l'offre est limitée, car nous pensons que cela fournira aux start-ups la capacité de calcul GPU dont elles ont besoin, quand elles en ont besoin, sans prendre d'engagements de capital à long terme. Nous sommes impatients de soutenir les fondateurs qui s'appuient sur AWS en tirant parti des blocs de capacité GPU et de son portefeuille leader de services d'apprentissage automatique et d'IA générative. «

Mark LaRosa, partenaire opérationnel, Amplify Partners

Missing alt text value

Canva

« Aujourd'hui, Canva permet à plus de 150 millions d'utilisateurs actifs par mois de créer des ressources visuelles attrayantes qui peuvent être publiées n'importe où. Nous utilisons des instances EC2 P4de pour former des modèles multimodaux qui alimentent les nouveaux outils d'IA générative, permettant à nos utilisateurs d'expérimenter des idées librement et rapidement. Alors que nous cherchons à entraîner des modèles plus grands, nous avons besoin de pouvoir mettre à l'échelle de manière prévisible des centaines de GPU pendant nos sessions d'entraînement. C'est passionnant de voir AWS lancer des blocs de capacité EC2 avec prise en charge des instances P5. Nous pouvons désormais accéder de manière prévisible à un maximum de 512 GPU NVIDIA H100 dans des EC2 UltraClusters à faible latence pour entraîner des modèles encore plus grands qu'auparavant. '

Greg Roodt, responsable des plateformes de données, Canva

Missing alt text value

Tableau de bord

« Dashtoon associe une IA de pointe à la créativité pour transformer les conteurs en artistes capables de créer des bandes dessinées numériques, quelles que soient leurs compétences artistiques ou leurs connaissances techniques, brisant ainsi les barrières traditionnelles en matière de création de contenu illustré. Plus de 80 000 utilisateurs actifs par mois utilisent notre application pour consommer des bandes dessinées, tandis que nos créateurs génèrent plus de 100 000 images par jour sur Dashtoon Studio. Nous utilisons AWS depuis sa création et nous utilisons des instances Amazon EC2 P5 pour entraîner et affiner des modèles multimodaux, notamment Stable Diffusion XL, GroundingDINO et Segment Anything. Les performances ont été multipliées par 3 lors de l'utilisation d'instances P5, alimentées par des GPU NVIDIA H100, par rapport à l'utilisation d'instances P4d équivalentes, alimentées par des GPU NVIDIA A100. La taille de nos jeux de données d'entraînement varie, et alors que nous cherchons à mettre à l'échelle notre modèle d'entraînement, les blocs de capacité Amazon EC2 pour le ML nous permettent de répondre de manière flexible à nos besoins en matière de GPU avec des délais prévisibles et courts (dès le lendemain), ce qui nous permet de réduire le délai de mise à disposition de nouvelles fonctionnalités pour nos utilisateurs. Nous sommes ravis de continuer à tirer parti des blocs de capacité EC2 pour accélérer notre innovation. «

Soumyadeep Mukherjee, cofondateur et directeur technique, Dashtoon

Missing alt text value

Leonardo.Ai

« Notre équipe de Leonardo exploite l'IA générative pour permettre aux professionnels de la création et aux passionnés de créer des ressources visuelles d'une qualité, d'une rapidité et d'une cohérence de style inégalées. Notre base repose sur une suite de modèles d'IA affinés et sur de puissants outils, offrant un contrôle granulaire avant et après avoir cliqué sur Générer. Nous tirons parti d'une large gamme de services AWS non seulement pour créer et entraîner nos modèles, mais également pour les héberger afin de permettre à des millions de clients actifs chaque mois de les utiliser. Nous sommes ravis du lancement des blocs de capacité EC2 pour le ML. Cela nous permet d'accéder de manière élastique à la capacité du GPU à des fins d'entraînement et d'expérimentation, tout en nous permettant de passer à différentes instances EC2 susceptibles de mieux répondre à nos besoins de calcul. «

Peter Runham, directeur technique, Leonardo.Ai

Missing alt text value

À propos de AI

« Chez OctoAI, nous permettons aux créateurs d'applications d'exécuter, de régler et de faire évoluer facilement l'IA générative, en optimisant l'exécution des modèles et en utilisant l'automatisation pour faire évoluer leurs services et réduire la charge d'ingénierie. Notre capacité à augmenter verticalement la capacité des GPU sur de courtes durées est essentielle, d'autant plus que nous travaillons avec des clients qui souhaitent mettre à l'échelle rapidement leurs applications de machine learning de zéro à des millions d'utilisateurs dans le cadre de leurs lancements de produits. Les blocs de capacité EC2 pour le ML nous permettent de faire tourner de manière prévisible différentes tailles de clusters GPU en fonction des évolutions prévues par nos clients, tout en offrant des économies potentielles par rapport aux engagements de capacité à long terme ou au déploiement sur site. «

Luis Ceze, PDG d'OctoAI

Missing alt text value

tuba

« La plateforme de développement de données d'IA de Snorkel aide les entreprises à créer et à utiliser rapidement l'IA. Cela inclut de plus en plus la distillation d'informations provenant de LLM à forte intensité de calcul dans des modèles spécialisés plus petits, nécessitant de courtes périodes de calcul pendant le développement. Les blocs de capacité EC2 pour le machine learning ont le potentiel d'apporter une amélioration majeure par rapport aux options existantes pour acquérir de la capacité GPU. L'accès garanti à une capacité GPU à court terme et les performances réseau élevées d'EC2 UltraClusters sont des éléments essentiels pour les flux de travail de développement de l'IA que les entreprises doivent prendre en charge aujourd'hui et dans les années à venir. «

Braden Hancock, cofondateur et responsable technique, Snorkel

Missing alt text value