Amazon EKS unterstützt jetzt bis zu 100.000 Worker-Knoten pro Cluster
Heute kündigt Amazon EKS die Unterstützung von bis zu 100.000 Worker-Knoten in einem Cluster an, sodass Sie extrem skalierbare KI/ML-Trainings- und Inferenz-Workloads in einem einzigen Cluster ausführen können. Mit den Typen für die beschleunigte Computing-Instance der neuen Generation von Amazon EC2 unterstützen 100.000 Worker-Knoten bis zu 1,6 Millionen Trainium-Chips mit Trn2-Instances und 800.000 NVIDIA-GPUs mit P5- und P6-Instances in einem einzigen Cluster. Auf diese Weise können Sie extrem skalierbare KI/ML-Workloads ausführen, bei denen alle Rechenbeschleuniger in einem einzigen Cluster verfügbar sein müssen, da diese Workloads nicht einfach auf mehrere Cluster verteilt werden können.
Die fortschrittlichsten KI-Modelle mit Billionen von Parametern weisen deutlich verbesserte Fähigkeiten auf, um Zusammenhänge zu verstehen, zu argumentieren und komplexe Aufgaben zu lösen. Um diese immer leistungsfähigeren Modelle zu entwickeln und zu betreiben, benötigen Unternehmen Zugriff auf eine große Anzahl von Rechenbeschleunigern in einem einzigen Cluster. Der konsolidierte Zugriff auf einen so großen Pool an Rechenbeschleunigern bietet entscheidende Vorteile: Er ermöglicht es Unternehmen, leistungsfähigere KI-Modelle als je zuvor zu erstellen und bereitzustellen, senkt die Kosten, indem Rechenbeschleuniger effizient zwischen Trainings- und Inferenz-Workloads aufgeteilt werden, und ermöglicht die nahtlose Nutzung vorhandener KI/ML-Tools und Frameworks, die nicht für die clusterübergreifende Verwendung konzipiert sind.
Weitere Informationen finden Sie in unserem Blog zur Einführung.