Blocs de capacité Amazon EC2 pour le ML

Réservez des instances de calcul accéléré dans Amazon EC2 UltraClusters pour exécuter vos charges de travail ML

Pourquoi utiliser les blocs de capacité EC2 pour le ML ?

Avec les blocs de capacité Amazon Elastic Compute Cloud (Amazon EC2) pour le machine learning, vous pouvez facilement réserver des instances de calcul accéléré pour une date de début future. Les blocs de capacité prennent en charge les instances Amazon EC2 P5en, P5e, P5 et P4d alimentés respectivement par les GPU NVIDIA H200 Tensor Core, NVIDIA H100 Tensor Core et NVIDIA A100 Tensor Core les plus récents, ainsi que les instances Trn2 et Trn1 alimentés par AWS Trainium. Les blocs de capacité EC2 sont situés dans les Amazon EC2 UltraClusters, conçus pour les charges de travail de machine learning (ML) haute performance. Vous pouvez réserver des instances de calcul accéléré pour une durée maximale de six mois dans des clusters de 1 à 64 instances (512 GPU ou 1 024 puces Trainium), ce qui vous permet d’exécuter un large éventail de charges de travail de machine learning. Les blocs de capacité EC2 peuvent être réservés huit semaines à l'avance maximum.

Avantages

Planifiez en toute confiance

Planifiez votre développement de ML en toute confiance en garantissant la capacité future disponible pour les instances de calcul accéléré.

Connectivité réseau haut débit à faible latence

Bénéficiez d'une connectivité réseau à faible latence et à haut débit grâce à la colocalisation dans Amazon EC2 UltraClusters, qui permet un entraînement distribué.

Haute performance

Bénéficiez d'un accès prévisible aux instances de calcul accéléré offrant les meilleures performances dans Amazon EC2 pour le machine learning.

Cas d'utilisation

Entraînez ou optimisez les modèles ML à l'aide d'instances de calcul accéléré

Bénéficiez d'un accès ininterrompu aux instances de calcul accéléré que vous réservez pour terminer l'entraînement et le réglage des modèles de ML.

Effectuez un entraînement des modèles d’IA générative efficace avec une infrastructure gérée

Basés sur des blocs de capacité, les plans d’entraînement flexibles Amazon SageMaker HyperPod vous aident à respecter les calendriers et les budgets d’entraînement des modèles en réservant et en exécutant automatiquement des tâches d’entraînement sur plusieurs blocs de capacité de calcul en fonction de vos besoins d’entraînement.

Bénéficiez d'instances de calcul accéléré pendant le temps dont vous avez besoin pour exécuter vos expériences

Réalisez des expériences et créez des prototypes qui nécessitent des instances de calcul accéléré pendant de courtes durées.

Planifiez pour de futures augmentations de la demande d'applications de machine learning

Répondez à vos besoins de croissance en réservant la capacité adéquate pour servir vos clients.

NVIDIA

La demande de calcul accéléré augmente de façon exponentielle alors que les entreprises du monde entier adoptent l'IA générative pour remodeler leur activité. Grâce aux nouveaux blocs de capacité EC2 d'AWS pour le ML, les entreprises d'IA du monde entier peuvent désormais louer le H100, non pas un seul serveur à la fois, mais à une échelle dédiée uniquement disponible sur AWS, ce qui leur permet d'entraîner rapidement et à moindre coût de grands modèles de langage et d'exécuter des inférences dans le cloud exactement quand elles en ont besoin.

Ian Buck, vice-président du calcul hyperscale et HPC, NVIDIA
Arcee

Arcee fournit une plateforme d'IA qui permet le développement et l'avancement de ce que nous appelons les SLM, à savoir de petits modèles de langage spécialisés, sécurisés et évolutifs. Les blocs de capacité Amazon EC2 pour le ML constituent une partie importante de notre environnement de calcul de ML pour l'entraînement des SLM sur AWS, car ils nous fournissent un accès fiable à la capacité des GPU lorsque nous en avons besoin. Cela signifie à son tour que notre équipe interne et nos clients bénéficient de la flexibilité. Le fait de savoir que nous pouvons obtenir un cluster de GPU en quelques jours et sans engagement à long terme a changé la donne pour nous.

Mark McQuade, PDG et cofondateur d'Arcee
Amplify Partners

Nous avons établi un partenariat avec plusieurs fondateurs qui tirent parti du deep learning et de grands modèles de langage pour commercialiser des innovations révolutionnaires. Nous pensons qu'un accès prévisible et rapide à la capacité de calcul des GPU est fondamental pour permettre aux fondateurs non seulement de donner rapidement vie à leurs idées, mais également de continuer à mettre en œuvre leur vision et à apporter une valeur ajoutée croissante à leurs clients. La disponibilité d'un maximum de 512 GPU NVIDIA H100 via des blocs de capacité EC2 change la donne dans l'environnement actuel où l'offre est limitée, car nous pensons que cela fournira aux start-ups la capacité de calcul GPU dont elles ont besoin, quand elles en ont besoin, sans prendre d'engagements de capital à long terme. Nous sommes impatients de soutenir les fondateurs qui s'appuient sur AWS en tirant parti des blocs de capacité GPU et de son portefeuille de premier plan de services de machine learning et d'IA générative.

Mark LaRosa, partenaire opérationnel, Amplify Partners
Canva

Aujourd'hui, Canva permet à plus de 150 millions d'utilisateurs actifs par mois de créer des ressources visuelles attrayantes qui peuvent être publiées n'importe où. Nous utilisons des instances EC2 P4de pour former des modèles multimodaux qui alimentent les nouveaux outils d'IA générative, permettant à nos utilisateurs d'expérimenter des idées librement et rapidement. Alors que nous cherchons à entraîner des modèles plus grands, nous avons besoin de pouvoir mettre à l'échelle de manière prévisible des centaines de GPU pendant nos sessions d'entraînement. C'est passionnant de voir AWS lancer des blocs de capacité EC2 avec prise en charge des instances P5. Nous pouvons désormais accéder de manière prévisible à un maximum de 512 GPU NVIDIA H100 dans des UltraClusters EC2 à faible latence pour entraîner des modèles encore plus grands qu'auparavant.

Greg Roodt, responsable des plateformes de données, Canva
Dashtoon

Dashtoon associe une IA de pointe à la créativité pour transformer les conteurs en artistes capables de créer des bandes dessinées numériques, quelles que soient leurs compétences artistiques ou leurs connaissances techniques, brisant ainsi les barrières traditionnelles en matière de création de contenu illustré. Plus de 80 000 utilisateurs actifs par mois utilisent notre application pour consommer des bandes dessinées, tandis que nos créateurs génèrent plus de 100 000 images par jour sur Dashtoon Studio. Nous utilisons AWS depuis sa création et nous utilisons des instances Amazon EC2 P5 pour entraîner et affiner des modèles multimodaux, notamment Stable Diffusion XL, GroundingDINO et Segment Anything. Les performances ont été multipliées par 3 lors de l'utilisation d'instances P5, alimentées par des GPU NVIDIA H100, par rapport à l'utilisation d'instances P4d équivalentes, alimentées par des GPU NVIDIA A100. La taille de nos jeux de données d'entraînement varie, et alors que nous cherchons à mettre à l'échelle notre modèle d'entraînement, les blocs de capacité Amazon EC2 pour le ML nous permettent de répondre de manière flexible à nos besoins en matière de GPU avec des délais prévisibles et courts (dès le lendemain), ce qui nous permet de réduire le délai de mise à disposition de nouvelles fonctionnalités pour nos utilisateurs. Nous sommes ravis de continuer à tirer parti des blocs de capacité EC2 pour accélérer notre innovation.

Soumyadeep Mukherjee, cofondateur et directeur technique, Dashtoon
Leonardo.Ai

Notre équipe de Leonardo exploite l'IA générative pour permettre aux professionnels de la création et aux passionnés de créer des ressources visuelles d'une qualité, d'une rapidité et d'une cohérence de style inégalées. Notre base repose sur une suite de modèles d'IA affinés et sur de puissants outils, offrant un contrôle granulaire avant et après avoir cliqué sur Générer. Nous tirons parti d'une large gamme de services AWS non seulement pour créer et entraîner nos modèles, mais également pour les héberger afin de permettre à des millions de clients actifs chaque mois de les utiliser. Nous sommes ravis du lancement des blocs de capacité EC2 pour le ML. Cela nous permet d'accéder de manière élastique à la capacité des GPU à des fins d'entraînement et d'expérimentation, tout en nous permettant de passer à différentes instances EC2 susceptibles de mieux répondre à nos besoins de calcul.

Peter Runham, directeur technique, Leonardo.Ai
OctoAI

Chez OctoAI, nous permettons aux créateurs d'applications d'exécuter, de régler et de mettre facilement à l'échelle l'IA générative, en optimisant l'exécution des modèles et en utilisant l'automatisation pour mettre à l'échelle leurs services et réduire la charge d'ingénierie. Notre capacité à augmenter verticalement la capacité des GPU sur de courtes durées est essentielle, d'autant plus que nous travaillons avec des clients qui souhaitent mettre à l'échelle rapidement leurs applications de machine learning de zéro à des millions d'utilisateurs dans le cadre de leurs lancements de produits. Les blocs de capacité EC2 pour le ML nous permettent de créer de manière prévisible différentes tailles de clusters GPU en fonction des mises à l'échelle verticales prévues par nos clients, tout en offrant des économies potentielles par rapport aux engagements de capacité à long terme ou au déploiement sur site.

Luis Ceze, PDG d'OctoAI
Snorkel

La plateforme de développement de données d'IA de Snorkel aide les entreprises à créer et à utiliser rapidement l'IA. Cela inclut de plus en plus la distillation d'informations provenant de LLM à forte intensité de calcul dans des modèles spécialisés plus petits, nécessitant de courtes périodes de calcul pendant le développement. Les blocs de capacité EC2 pour le machine learning ont le potentiel d'apporter une amélioration majeure par rapport aux options existantes pour acquérir de la capacité GPU. L'accès garanti à une capacité GPU à court terme et les performances réseau élevées des UltraClusters EC2 sont des aides essentielles pour les flux de travail de développement de l'IA que les entreprises doivent prendre en charge aujourd'hui et dans les années à venir.

Braden Hancock, cofondateur et responsable technique, Snorkel