Amazon SageMaker HyperPod unterstützt jetzt reine EFA-Netzwerkschnittstellen
Amazon SageMaker HyperPod unterstützt jetzt reine EFA-Netzwerkschnittstellen für Cluster-Instance-Gruppen, sodass Sie dedizierte Elastic Fabric Adapter (EFA)-Geräte ohne den herkömmlichen Elastic Network Adapter (ENA) für IP-Netzwerke konfigurieren können. SageMaker HyperPod ist eine speziell für die KI/ML-Modellentwicklung entwickelte Infrastruktur, die eine robuste, leistungsstarke Umgebung mit integrierter Fehlertoleranz und automatisierter Cluster-Wiederherstellung bietet. Mit dieser Unterstützung für reine EFA-Netzwerkschnittstellen können Sie KI/ML-Cluster weiter skalieren, ohne zu riskieren, die verfügbaren IP-Adressen in Ihrer VPC auszuschöpfen.
Bei der Ausführung umfangreicher verteilter Trainings-Workloads ist die Kommunikationsbandbreite zwischen den Knoten entscheidend für die Trainingsleistung. SageMaker HyperPod-Cluster-Instances unterstützen mehrere EFA-fähige Netzwerkschnittstellen. Wenn Sie sie jedoch mit dem Standard-EFA-Schnittstellentyp konfigurieren, werden an jede Schnittstelle sowohl ein EFA-Gerät als auch ein ENA-Gerät (für IP-Netzwerke) angeschlossen – auch wenn IP-Netzwerke nur für eine Teilmenge von Schnittstellen innerhalb eines Knotens benötigt werden. Der Schnittstellentyp „efa“ verbraucht unweigerlich IP-Adressen in Ihrem Subnetz für jedes angeschlossene ENA-Gerät, was zu einer Erschöpfung der IP-Adressen führen und die Anzahl der Knoten, die Sie in einem einzelnen Subnetz bereitstellen können, einschränken kann. Mit diesem Launch können Sie jetzt bei der Konfiguration von Netzwerkschnittstellen für Ihre HyperPod-Cluster-Instance-Gruppen „efa-only“ festlegen. Diese Option weist die Netzwerkschnittstelle ausschließlich dem EFA-Verkehr zu, ohne dass ein ENA-Gerät angeschlossen werden muss. So können Sie die Anzahl der EFA-Schnittstellen maximieren, die für die Kommunikation zwischen Knoten mit niedriger Latenz und hohem Durchsatz vorgesehen sind. Da reine EFA-Schnittstellen keine IP-Adressen benötigen, können Sie auf größere Cluster innerhalb derselben Subnetze skalieren, ohne dass IP-Adressen ausgeschöpft werden. Diese Konfiguration ist besonders vorteilhaft für groß angelegte verteilte Trainingsjobs, bei denen die Kommunikationsbandbreite zwischen den Knoten entscheidend ist und kein dediziertes IP-Netzwerk für jede Schnittstelle erforderlich ist.
Um reine EFA-Schnittstellen zu aktivieren, geben Sie „efa-only“ in der ClusterNetworkInterface-Konfiguration an, wenn Sie Ihren HyperPod-Cluster über die CreateCluster/UpdateCluster API erstellen oder aktualisieren. Diese Konfiguration ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker HyperPod unterstützt wird. Weitere Informationen finden Sie unter ClusterNetworkInterface in der Amazon SageMaker API-Referenz.