Amazon SageMaker AI annonce la disponibilité des instances P5e et G6e pour l'inférence

Publié le: 11 déc. 2024

Nous avons le plaisir d'annoncer la disponibilité générale des instances G6e (alimentées par des GPU NVIDIA L40S Tensor Core) et P5e (alimentées par des GPU NVIDIA H200 Tensor Core) optimisées pour l'inférence sur Amazon SageMaker.

Avec 1 128 Go de mémoire GPU à bande passante élevée sur 8 GPU NVIDIA H200, 30 To de stockage SSD NVMe local, 192 vCPU et 2 Tio de mémoire système, les instances ml.p5e.48xlarge peuvent offrir des performances exceptionnelles pour les charges de travail d'inférence d'IA à forte intensité de calcul, telles que les grands modèles de langage avec plus de 100 Go de paramètres, les modèles de fondation multimodaux, la génération de données synthétiques et les applications d'IA générative complexes, notamment la réponse aux questions, la génération de code, la vidéo ou encore la génération d'images.

Alimentées par 8 GPU Tensor Core NVIDIA L40 avec 48 Go de mémoire chacun et des processeurs AMD EPYC de troisième génération, les instances ml.g6e peuvent fournir des performances jusqu'à 2,5 fois supérieures à celles des instances ml.g5. Les clients peuvent utiliser les instances ml.g6e pour déployer de l’inférence d’IA pour de grands modèles de langage (LLM) avec jusqu'à 13 octets de paramètres et des modèles de diffusion pour générer des images, des vidéos et du son.

Les instances ml.p5e et ml.g6e peuvent désormais être utilisées sur SageMaker dans les régions USA Est (Ohio) et USA Ouest (Oregon). Pour commencer, il vous suffit de demander une augmentation de la limite via AWS Service Quotas. Pour en savoir plus sur la tarification de ces instances, consultez notre page de tarification. Pour en savoir plus sur le déploiement de modèles avec SageMaker, consultez la présentation ici et la documentation ici. Pour en savoir plus sur ces instances en général, consultez les pages produits des instances P5e et G6e.

Sélectionner vos préférences de cookies

Amazon SageMaker AI annonce la disponibilité des instances P5e et G6e pour l'inférence

Fin de la prise en charge d'Internet Explorer