Clients Amazon SageMaker HyperPod
Les meilleures startups et organisations d'IA de toutes tailles forment et déploient des modèles de base à grande échelle sur SageMaker HyperPod
-
Hugging Face
Hugging Face a utilisé SageMaker HyperPod pour créer d'importants nouveaux modèles de base ouverts comme StarCoder, IDEFICS et Zephyr qui ont été téléchargés des millions de fois. Les capacités de résilience et de performance de SageMaker HyperPod ont permis à notre équipe open science de se concentrer sur l'innovation et la publication d'améliorations importantes dans la façon dont les modèles de base sont construits, plutôt que sur la gestion de l'infrastructure. Nous avons particulièrement apprécié la capacité de SageMaker HyperPod à détecter la panne matérielle de ML et à remplacer rapidement le matériel défectueux sans interrompre l'entraînement continu des modèles. Comme nos équipes doivent innover rapidement, cette fonctionnalité de récupération automatique des tâches nous a permis de minimiser les interruptions pendant le processus d'entraînement des modèles de base, ce qui nous a permis d'économiser des centaines d'heures d'entraînement en l'espace d'un an seulement.
Jeff Boudier, responsable des produits chez Hugging Face -
Perplexity AI
Nous étions à la recherche de la bonne infrastructure de ML pour augmenter la productivité et réduire les coûts afin de construire de grands modèles de langage très performants. Après quelques expériences réussies, nous sommes passés d'autres fournisseurs de cloud à AWS afin d'utiliser Amazon SageMaker HyperPod. Nous utilisons HyperPod depuis quatre mois pour construire et affiner les LLM alimentant le moteur de réponse conversationnel Perplexity qui répond aux questions avec des références fournies sous forme de citations. SageMaker HyperPod surveillant l’état des clusters et remédiant aux défaillances des GPU automatiquement, nos développeurs peuvent se concentrer sur l’élaboration de modèles au lieu de passer du temps à gérer et à optimiser l’infrastructure sous-jacente. Les bibliothèques parallèles de données et de modèles intégrées à SageMaker HyperPod nous ont permis d’optimiser le temps d’entraînement sur les GPU et de doubler le débit d’entraînement. Par conséquent, nos expériences d’entraînement peuvent désormais s’exécuter deux fois plus vite, ce qui signifie que nos développeurs peuvent itérer plus rapidement, accélérant ainsi le développement de nouvelles expériences d’IA générative pour nos clients.
Aravind Srinivas, cofondateur et PDG de Perplexity AI -
Articul8 AI
La gouvernance des tâches Amazon SageMaker HyperPod permet d’optimiser l’utilisation des GPU au sein des différentes équipes et projets. En tant que start-up GenAI à croissance rapide, Articul8 AI optimise constamment son environnement de calcul pour allouer des ressources de calcul accéléré le plus efficacement possible. Grâce à la hiérarchisation automatique des tâches et à l’allocation des ressources dans SageMaker HyperPod, elle a constaté une amélioration spectaculaire de l’utilisation des GPU, réduisant ainsi les temps d’inactivité et accélérant le processus de développement de leurs modèles en optimisant des tâches allant de l’entraînement et de l’optimisation à l’inférence. La possibilité de transférer automatiquement les ressources vers des tâches hautement prioritaires a augmenté la productivité de son équipe, ce qui lui a permis de commercialiser les nouvelles innovations en matière d’IA générative plus rapidement que jamais.
Amazon SageMaker HyperPod nous a énormément aidés à gérer et à exploiter nos ressources de calcul de manière plus efficace avec un minimum de durée d’indisponibilité. Nous avons été les premiers à adopter le service HyperPod basé sur Slurm et avons bénéficié de sa facilité d’utilisation et de ses fonctionnalités de résilience, ce qui a permis d’améliorer la productivité de 35 % et d’étendre rapidement nos opérations GenAI. En tant que société Kubernetes, nous sommes ravis d’annoncer le lancement du support Amazon EKS pour SageMaker HyperPod. Cela change la donne pour nous, car il s’intègre parfaitement à nos pipelines d’entraînement existants et nous permet de gérer et d’exploiter encore plus facilement nos clusters Kubernetes à grande échelle. En outre, cela aide également nos clients finaux, car nous sommes désormais en mesure d’intégrer et de produire cette fonctionnalité dans notre plateforme GenAI, ce qui permet à nos clients d’exécuter leurs propres charges de travail d’entraînement et de mise au point d’une manière plus rationalisée.
Arun Subramaniyan, fondateur et PDG d’Articul8 AI -
Thomson Reuters
Thomson Reuters, une société mondiale de technologies axées sur l’IA et le contenu, a testé la fonctionnalité de gouvernance des tâches d’Amazon SageMaker HyperPod afin de relever un défi majeur lié à la priorisation des charges de travail. Grâce à la gouvernance des tâches, l’entreprise peut désormais gérer les charges de travail des clients, telles que les demandes d’inférence, parallèlement à ses propres projets de développement de modèles en cours, en veillant à hiérarchiser les demandes urgentes des clients sans perturber les recherches internes, ce qui se traduit par une meilleure utilisation des ressources et une meilleure satisfaction des clients. « Grâce à Amazon SageMaker HyperPod, nous avons pu répondre à nos exigences en matière d’entraînement de grands modèles de langage. », explique John Duprey, ingénieur émérite chez Thomson Reuters Labs. « Grâce à Amazon EKS sur SageMaker HyperPod, nous avons pu augmenter notre capacité et gérer facilement des tâches d’entraînement, ce qui nous a permis de tirer parti des avantages des LLM dans des domaines tels que la synthèse et la classification juridiques. »
Thomson Reuters est à la pointe du développement de l'IA depuis plus de 30 ans, et nous nous engageons à fournir des solutions significatives qui aident nos clients à obtenir des résultats plus rapidement, avec un meilleur accès à des informations fiables. Pour accélérer notre innovation en matière d'IA générative, outre le partenariat avec des fournisseurs de LLM, nous étudions également la possibilité d'entraîner des modèles personnalisés plus efficacement grâce à notre contenu unique et exclusif et à notre expertise humaine. Les bibliothèques d'entraînement distribué de SageMaker HyperPod nous permettent d'améliorer les performances d'entraînement des modèles à grande échelle. De plus, sa fonctionnalité de résilience permet de gagner du temps lors de la surveillance et de la gestion de l'infrastructure. L'entraînement de nos modèles de base sur SageMaker HyperPod accélérera davantage notre mise sur le marché et nous aidera à fournir des solutions de qualité à nos clients à un rythme soutenu.
Joel Hron, responsable de l’IA et des laboratoires chez Thomson Reuters, et John Duprey, ingénieur émérite chez Thomson Reuters Labs -
Stability AI
En tant que leader de l'IA générative open source, notre objectif est de maximiser l'accessibilité de l'IA moderne. Nous construisons des modèles de base avec des dizaines de milliards de paramètres, ce qui nécessite une infrastructure capable de mettre à l'échelle des performances d'entraînement optimisées. Grâce à l'infrastructure gérée et aux bibliothèques d'optimisation de SageMaker HyperPod, nous pouvons réduire le temps et les coûts d'entraînement de plus de 50 %. Cela rend l'entraînement de nos modèles plus résilient et plus performant afin de construire plus rapidement des modèles de pointe.
Emad Mostaque, fondateur et PDG : Stability AI -
Recursal AI
L’ensemble du processus a été rationalisé. Grâce à SageMaker HyperPod, nous pouvons tirer parti des fonctionnalités de résilience des clusters qui identifient et restaurent automatiquement les tâches d’entraînement depuis le dernier point de contrôle enregistré en cas de panne matérielle. Nous exécutons des charges de travail très diverses, qu’il s’agisse d’applications, d’inférence ou d’entraînement, avec Kubernetes comme fil conducteur. Pour nous, Amazon EKS avec SageMaker HyperPod fonctionne parfaitement : les nœuds s’intègrent à notre cluster.
Nathan Wilce, responsable de l’infrastructure et des données, Recursal -
Hippocratic AI
Hippocratic AI, une société d’IA qui développe le premier grand modèle de langage (LLM) axé sur la sécurité pour les soins de santé. Pour entraîner son principal LLM et les modèles de superviseur, Hippocratic AI avait besoin de puissantes ressources de calcul, très demandées et difficiles à obtenir. Les plans d’entraînement flexibles d’Amazon SageMaker HyperPod lui a permis d’accéder plus facilement aux instances Amazon Elastic Compute Cloud (Amazon EC2) P5. HippocraticAI tire également parti des services AWS tels que Grafana pour suivre les importantes métriques d’utilisation du GPU. À l’aide des instances Amazon EC2 P5, Hippocratic AI a multiplié par quatre la vitesse d’entraînement de modèle et met à l’échelle sa solution pour s’adapter à des centaines de cas d’utilisation. Cela lui a permis de sécuriser les ressources de calcul nécessaires et à entraîner rapidement des modèles.
-
NinjaTech
NinjaTech AI, une société d’IA générative qui fournit un SuperAgent tout-en-un pour une productivité illimitée, a utilisé les plans d’entraînement flexibles Amazon SageMaker HyperPod pour accélérer l’optimisation de divers modèles internes, notamment le modèle Llama 3.1 405B afin de réduire les coûts d’entraînement de modèle et d’automatiser le processus. L’entreprise vise à fournir une expérience fluide à ses utilisateurs qui souhaitent accéder aux différents agents d’IA qui optimisent leur technologie SuperAgent. Pour y parvenir, elle avait besoin d’un modèle capable de prédire automatiquement l’intention de l’utilisateur et de déterminer quel agent d’IA lui conviendrait le mieux. Ce mécanisme nécessitait de fréquentes mises à jour du modèle en intégrant les commentaires des clients et les nouvelles fonctionnalités de manière itérative, impliquant 10 à 100 m de jetons à chaque cycle d’optimisation LoRA. En tant que start-up, l’acquisition et l’exploitation de ressources de calcul hautes performances constituent un défi en raison de leurs coûts élevés et de leurs problèmes de bande passante, en particulier dans les clusters à nœuds multiples qui impliquent un réseau et un stockage rapides en plus d’un calcul accéléré. En outre, le processus d’entraînement prend beaucoup de temps et implique des étapes telles que le téléchargement de modèle, l’entraînement distribué, le point de contrôle, la surveillance, la correction automatique, la fusion et la quantification. Les plans d’entraînement flexibles d’HyperPod ont fourni à l’entreprise un calcul fiable et abordable avant le cycle de formation, répondant à ses exigences spécifiques en matière de calcul et de calendrier, tout en garantissant un entraînement de modèle efficace.
-
OpenBabylon
Les développeurs et les scientifiques de données d’OpenBabylon, une société d’intelligence artificielle qui personnalise de grands modèles de langages pour les langues sous-représentées, utilisent les plans d’entraînement flexibles de SageMaker HyperPod depuis quelques mois afin de rationaliser leur accès aux ressources GPU afin de réaliser des expériences à grande échelle. En utilisant les fonctionnalités de formation distribuées de SageMaker HyperPod à plusieurs nœuds, ils ont mené 100 expériences d’entraînement de modèle à grande échelle, et ainsi obtenu des résultats de pointe en matière de traduction de l’anglais vers l’ukrainien. Cette avancée a été réalisée dans les délais et à moindre coût, démontrant la capacité de SageMaker HyperPod à mener à bien des projets complexes dans les délais et le budget impartis.
-
Salesforce
Les chercheurs de Salesforce cherchaient des moyens de démarrer rapidement l’optimisation et l’entraînement de modèle de fondation, sans avoir à se soucier de l’infrastructure ni à passer des semaines à optimiser son programme de formation pour chaque nouveau modèle. Grâce aux recettes Amazon SageMaker HyperPod, les chercheurs de Salesforce peuvent réaliser un prototypage rapide lors de la personnalisation des modèles de fondation. Désormais, les équipes de recherche en intelligence artificielle de Salesforce peuvent démarrer en quelques minutes grâce à diverses recettes de préentraînement et d’optimisation, et peuvent opérationnaliser des modèles frontaliers hautement performants.
Fonctionnalités d’Amazon SageMaker HyperPod
Favoriser l’innovation et dégager une plus grande valeur commerciale avec les partenaires AWS qui possèdent des connaissances techniques approfondies et qui ont fait leurs preuves auprès des clients
-
Accenture
Nous étendons notre partenariat avec AWS en tant que partenaire de lancement pour la gouvernance des tâches Amazon SageMaker HyperPod. Notre collaboration avec AWS nous permettra de guider les clients vers les dernières avancées technologiques tout en contribuant à réduire les coûts des applications d’IA génératives. En combinant les fonctionnalités de gouvernance centralisées de SageMaker HyperPod et notre expérience en matière de projets d’IA générative, nous pouvons aider les entreprises à tirer parti de l’IA générative encore plus rapidement, en améliorant l’expérience client et en augmentant le retour sur investissement.
Jennifer Jackson, responsable mondiale d’Accenture AWS Business Group et directrice générale senior -
Slalom
Nous sommes ravis de collaborer avec la société AWS en tant que partenaire de lancement pour la gouvernance des tâches Amazon SageMaker HyperPod. En collaborant avec AWS, nous pouvons désormais aider nos clients à adopter rapidement les dernières avancées technologiques et à réduire les coûts de leurs applications d’IA génératives. En associant les fonctionnalités de gouvernance centralisées de SageMaker HyperPod à la vaste expérience de Slalom en matière d’IA et de cloud, nous pouvons offrir des expériences client exceptionnelles tout en augmentant le retour sur investissement.
Jeff Kempiners, directeur général du Centre d’excellence Amazon (CoE) de Slalom -
Rackspace Technology
Nous sommes ravis de collaborer avec AWS en tant que partenaire de lancement pour la gouvernance des tâches de SageMaker HyperPod. Ensemble, nous pouvons aider nos clients à réduire les coûts des applications d’IA génératives, tout en restant au fait des dernières avancées technologiques. En combinant les fonctionnalités de gouvernance centralisée de SageMaker HyperPod avec l’expertise approfondie de Rackspace en matière d’IA et de cloud, nous pouvons transformer les expériences des clients et améliorer simultanément leur retour sur investissement.
Srini Koushik, présidente de l’IA, de la technologie et du développement durable chez Rackspace Technology