AWS Neuron anuncia la compatibilidad con la asignación dinámica de recursos con Amazon EKS
AWS anuncia el controlador de asignación dinámica de recursos (DRA) de Neuron para Amazon Elastic Kubernetes Service (EKS), que incorpora la programación basada en el hardware nativa de Kubernetes a las instancias basadas en AWS Trainium. El controlador Neuron DRA publica atributos detallados del dispositivo directamente en el programador de Kubernetes, lo que permite tomar decisiones de ubicación teniendo en cuenta la topología sin extensiones personalizadas del programador.
La implementación de cargas de trabajo de IA en Kubernetes requiere que los ingenieros de ML tomen decisiones de infraestructura que no estén directamente relacionadas con el desarrollo del modelo, como determinar la cantidad de dispositivos, comprender las topologías de hardware y red y escribir manifiestos específicos para aceleradores. Esto genera obstáculos, dificulta la iteración y hace que las cargas de trabajo dependan demasiado de la infraestructura subyacente. A medida que los casos de uso se expanden al entrenamiento distribuido, la inferencia de contextos prolongados y las arquitecturas desagregadas, esta complejidad se convierte en un cuello de botella de escalado.
El controlador Neuron DRA elimina esta carga al separar los problemas de infraestructura de los flujos de trabajo de ML. Los equipos de infraestructura definen plantillas ResourceClaim reutilizables que capturan las políticas de topología, asignación y red de los dispositivos. Los ingenieros de ML pueden simplemente hacer referencia a estas plantillas en sus manifiestos, sin necesidad de razonar sobre los detalles del hardware. Esto permite una implementación uniforme en todos los tipos de carga de trabajo y, al mismo tiempo, permite la configuración por carga de trabajo para que varias cargas de trabajo puedan compartir los mismos nodos de manera eficiente.
El controlador Neuron DRA es compatible con todos los tipos de instancias de AWS Trainium y está disponible en todas las regiones de AWS en las que esté disponible AWS Trainium.
Para obtener documentación, plantillas de muestra y guías de implementación, visite la documentación de Neuron DRA.
Más información: