Amazon EKS ahora admite hasta 100 000 nodos de trabajo por clúster
Hoy, Amazon EKS anuncia la compatibilidad con hasta 100 000 nodos de trabajo en un clúster. Esto le permite ejecutar cargas de trabajo de inferencia y entrenamiento de AI/ML a gran escala en un solo clúster. Con los tipos de instancias de computación acelerada de nueva generación de Amazon EC2, puede usar hasta 100 000 nodos de trabajo en un solo clúster. Estos nodos admiten hasta 1,6 millones de chips Trainium con instancias Trn2 y 800 000 GPU de NVIDIA con instancias P5 y P6. De esta manera, puede ejecutar cargas de trabajo de AI/ML a gran escala que requieren tener todos los aceleradores de computación disponibles en un único clúster. Esto es necesario porque dichas cargas no se pueden distribuir fácilmente entre varios clústeres.
Los modelos de IA más avanzados con billones de parámetros demuestran capacidades significativamente mejoradas para comprender el contexto, razonar y resolver tareas complejas. Para crear y operar estos modelos cada vez más potentes, las organizaciones necesitan tener acceso a un gran número de aceleradores de computación en un solo clúster. El acceso consolidado a un conjunto tan grande de aceleradores de computación ofrece beneficios cruciales: permite a las organizaciones crear e implementar modelos de IA más potentes que nunca, reduce los costos al compartir de manera eficiente los aceleradores de computación entre las cargas de trabajo de capacitación e inferencia, y permite el uso sin problemas de las herramientas y marcos de AI/ML existentes que no están diseñados para funcionar en clústeres.
Para obtener más información, consulte el blog de lanzamiento.