Ankündigung der Kubernetes Dynamic Resource Allocation für Elastic Fabric Adapter
Amazon Elastic Kubernetes Service (Amazon EKS) unterstützt jetzt Dynamic Resource Allocation (DRA) für Elastic Fabric Adapter (EFA) und vereinfacht so die High-Performance-Kommunikation zwischen Knoten sowie den RDMA (Remote Direct Memory Access) für Workloads in den Bereichen KI, Machine Learning und High Performance Computing (HPC). Der EFA-DRA-Treiber, der auf dem Upstream-DRANET-Projekt basiert, ermöglicht die gemeinsame Nutzung von EFA-Schnittstellen und die topologiebewusste Zuweisung für Workloads, die auf Kubernetes ausgeführt werden.
Mit dem EFA-DRA-Treiber können Sie EFA-Schnittstellen und Beschleuniger zuweisen, die sich denselben PCIe-Root oder dieselbe Gerätegruppe teilen. So ist sichergestellt, dass der Datenverkehr zwischen den Knoten über die nächstgelegene Netzwerkschnittstelle zu den jeweiligen NVIDIA-GPUs, AWS Trainium- oder AWS Inferentia-Geräten auf dem Knoten geleitet wird. Der EFA-DRA-Treiber unterstützt auch die gemeinsame Nutzung von EFA-Schnittstellen für Workloads, die auf demselben Knoten ausgeführt werden. Dies ermöglicht eine maximale Auslastung der EFA-Schnittstelle.
Der EFA-DRA-Treiber wird für neue Bereitstellungen auf Amazon-EKS-Clustern empfohlen, auf denen Kubernetes Version 1.34 oder höher mit EKS-verwalteten Knotengruppen oder selbstverwalteten Knoten ausgeführt wird. Der EFA-DRA-Treiber ist in allen AWS-Regionen verfügbar, in denen Amazon EKS verfügbar ist. Das EFA-Geräte-Plugin wird weiterhin unterstützt und wird für die Verwendung mit Karpenter und den Automatikmodus von Amazon EKS empfohlen.
Weitere Informationen finden Sie unter Verwalten von EFA-Geräten auf Amazon EKS im Benutzerhandbuch von Amazon EKS.