Pourquoi utiliser les UltraClusters Amazon EC2 ?
Les UltraClusters Amazon Elastic Compute Cloud (Amazon EC2) permet une mise à l'échelle à des milliers de GPU ou à des accélérateurs de ML conçus à cet effet, tels qu'AWS Trainium, pour accéder à la demande à un superordinateur. Il démocratise l'accès à des performances d'un superordinateur pour les développeurs de machine learning (ML), d'IA générative et de calcul haute performance (HPC) grâce à un modèle de tarification à l'usage simple sans aucun coût de configuration ou de maintenance. Les instances Amazon EC2 P5, les instances Amazon EC2 P4d et les instances Amazon EC2 Trn1 sont toutes déployées dans les UltraClusters Amazon EC2.
Les UltraClusters EC2 sont composés de milliers d'instances EC2 accélérées qui sont co-localisées dans une zone de disponibilité AWS donnée et interconnectées via le réseau Elastic Fabric Adapter (EFA) dans un réseau non bloquant à l'échelle du pétabit. Les UltraClusters EC2 donnent également accès à Amazon FSx pour Lustre, un stockage partagé entièrement géré basé sur le système de fichiers parallèle haute performance le plus populaire pour traiter rapidement des jeux de données volumineux à la demande et à grande échelle avec des latences inférieures à la milliseconde. Les UltraClusters EC2 fournissent des fonctionnalités de mise à l'échelle horizontale pour l'entraînement distribué de ML et les charges de travail HPC étroitement couplées.
Les instances Amazon EC2 P5 et Trn1 utilisent une architecture d'UltraClusters EC2 de deuxième génération qui fournit une structure réseau permettant de réduire le nombre de sauts sur le cluster, de réduire la latence et d'augmenter la mise à l'échelle.