AWS Neuron annonce la prise en charge de l’allocation dynamique des ressources avec Amazon EKS
AWS annonce le pilote d’allocation dynamique des ressources (DRA) Neuron pour Amazon Elastic Kubernetes Service (EKS), qui permet aux instances basées sur AWS Trainium de planifier en fonction du matériel natif de Kubernetes. Le pilote Neuron DRA publie de riches attributs de périphérique directement dans le planificateur Kubernetes, ce qui permet de prendre des décisions de placement tenant compte de la topologie sans extensions de planificateur personnalisées.
Le déploiement de charges de travail basées sur l’IA sur Kubernetes oblige les ingénieurs en ML à prendre des décisions d’infrastructure qui ne sont pas directement liées au développement du modèle, telles que la détermination du nombre d’appareils, la compréhension des topologies du matériel et du réseau ainsi que la rédaction de manifestes spécifiques aux accélérateurs. Cela crée des frictions, ralentit les itérations et associe étroitement les charges de travail à l’infrastructure sous-jacente. À mesure que les cas d’utilisation s’étendent à la formation distribuée, à l’inférence contextuelle longue et aux architectures désagrégées, cette complexité devient un obstacle à la mise à l’échelle.
Le pilote Neuron DRA supprime cette charge en séparant les problèmes d’infrastructure des flux de travail de ML. Les équipes chargées de l’infrastructure définissent des ResourceClaimTemplates réutilisables, qui capturent la topologie, l’allocation et les politiques réseau des appareils. Les ingénieurs en ML peuvent simplement faire référence à ces modèles dans leurs manifestes, sans avoir à raisonner sur les détails matériels. Cela permet un déploiement cohérent sur tous les types de charge de travail tout en permettant une configuration par charge de travail afin que plusieurs charges de travail puissent partager efficacement les mêmes nœuds.
Le pilote Neuron DRA prend en charge tous les types d’instances AWS Trainium et est disponible dans toutes les Régions AWS où AWS Trainium est disponible.
Pour obtenir de la documentation, des exemples de modèles et des Guides d’implémentation, consultez la documentation Neuron DRA.
En savoir plus :