Amazon EKS теперь поддерживает до 100 000 рабочих узлов в одном кластере
Эластичный сервис Amazon Kubernetes (Amazon EKS) сегодня объявляет о поддержке до 100 000 рабочих узлов в кластере, что позволяет выполнять сверхмасштабные рабочие нагрузки искусственного интеллекта (ИИ), машинного обучения и логического вывода в одном кластере. Новое поколение инстансов ускоренных вычислений Amazon EC2 поддерживает до 100 000 рабочих узлов с максимум 1,6 миллиона чипов Trainium на базе инстансов Trn2 и 800 000 графических процессоров NVIDIA на базе инстансов P5 и P6 в одном кластере. Это позволяет запускать сверхмасштабные рабочие нагрузки ИИ и машинного обучения, которым необходимо, чтобы все ускорители вычислений находились в одном кластере, так как эти нагрузки трудно распределять между разными кластерами.
Самые современные модели ИИ, содержащие триллионы параметров, демонстрируют значительно более совершенные возможности для понимания контекста, рассуждения и решения сложных задач. Для создания и эксплуатации этих постоянно развивающихся моделей организациям необходимо иметь доступ к огромному количеству ускорителей вычислений в одном кластере. Консолидированный доступ к такому большому пулу вычислительных ускорителей обеспечивает важные преимущества: позволяет организациям создавать и развертывать более мощные ИИ-модели, чем когда-либо прежде, уменьшает затраты за счет эффективного распределения вычислительных ускорителей между рабочими нагрузками обучения и логического вывода, а также обеспечивает беспрепятственное использование уже имеющихся инструментов и платформ ИИ и машинного обучения, которые не предназначены для работы в разных кластерах.
Дополнительные сведения см. в блоге, посвященном запуску.