Compatibilidad de Amazon EKS en Amazon SageMaker HyperPod para escalar el desarrollo del modelo fundacional

Publicado en: 10 de sep de 2024

Nos complace anunciar la disponibilidad general de la compatibilidad con Amazon EKS en SageMaker HyperPod, que permite a los clientes ejecutar y administrar sus cargas de trabajo de Kubernetes en SageMaker HyperPod, una infraestructura diseñada específicamente para el desarrollo de modelos fundacionales (FM) que reduce el tiempo de entrenamiento de los modelos hasta en un 40 %.

Muchos clientes utilizan Kubernetes para organizar sus flujos de trabajo de ML debido a su portabilidad, escalabilidad y un rico ecosistema de herramientas. Estos clientes desean seguir utilizando la interfaz familiar de Kubernetes, pero quieren una forma automatizada de gestionar las fallas de hardware. La compatibilidad con EKS en HyperPod combina las ventajas de SageMaker HyperPod, que ofrece clústeres de alto rendimiento y recuperación automática con la capacidad de contenedorización de Amazon EKS, un servicio gestionado de Kubernetes. Con este lanzamiento, los clientes pueden realizar comprobaciones de estado exhaustivas durante la creación del clúster para reducir las fallas durante el entrenamiento. Además, HyperPod reemplaza automáticamente los nodos defectuosos y reanuda el entrenamiento desde el último punto de control tanto en AWS Trainium como en la GPU de Nvidia a una escala de más de mil aceleradores. Los clientes tienen la flexibilidad de usar la nueva CLI de HyperPod o sus herramientas preferidas para enviar, administrar y monitorear las cargas de trabajo. El entorno de clúster persistente ofrece acceso por SSM y la posibilidad de personalizar el clúster. Los clústeres de HyperPod orquestados por EKS también se integran con la Información de contenedores de CloudWatch para ofrecer una observabilidad inmediata, al descubrir automáticamente el estado de los nodos de HyperPod y visualizarlos en paneles seleccionados.

Esta versión está disponible de forma general en las regiones de AWS en las que SageMaker HyperPod está disponible, excepto en Europa (Londres).

Para obtener más información, consulte la siguiente lista de recursos: página web, blog de noticias de AWS, documentación y repositorio de Github.