Amazon SageMaker HyperPod, 이제 EFA 전용 네트워크 인터페이스 지원
Amazon SageMaker HyperPod에서 클러스터 인스턴스 그룹에 대해 EFA 전용 네트워크 인터페이스를 지원합니다. 이제 기존의 IP 네트워킹용 Elastic Network Adapter(ENA) 없이 전용 Elastic Fabric Adapter(EFA) 디바이스를 구성할 수 있습니다. SageMaker HyperPod는 AI/ML 모델 개발 목적으로 구축된 인프라로서, 내결함성과 자동 클러스터 복구가 내장된 탄력적인 고성능 환경을 제공합니다. 이제 EFA 전용이 지원되어 VPC의 IP 주소 고갈 위험 없이 AI/ML 클러스터를 추가로 규모 조정할 수 있습니다.
대규모 분산 훈련 워크로드를 실행할 때 노드 간 통신 대역폭은 훈련 성과에 매우 중요합니다. SageMaker HyperPod 클러스터 인스턴스는 여러 개의 EFA 지원 네트워크 인터페이스를 지원하지만, 표준 EFA 인터페이스 유형으로 구성하면 노드 내 인터페이스 중 일부에만 IP 네트워킹이 필요한 경우에도 각 인터페이스에 EFA 디바이스와 ENA 디바이스(IP 네트워킹용)가 모두 연결됩니다. EFA 인터페이스 유형은 연결된 각 ENA 디바이스 서브넷의 IP 주소를 필연적으로 소모하므로 IP 주소 고갈이 발생하고 단일 서브넷 내에 배포할 수 있는 노드 수가 제한될 수 있습니다. 이번 출시로 이제 HyperPod 클러스터 인스턴스 그룹의 네트워크 인터페이스를 구성할 때 EFA 전용으로 설정할 수 있습니다. 이 옵션은 ENA 디바이스를 연결하지 않고 EFA 트래픽 전용으로 네트워크 인터페이스를 할당하므로, 지연 시간이 짧고 처리량이 많은 노드 간 통신 전용 EFA 인터페이스의 수를 극대화할 수 있습니다. EFA 전용 인터페이스에는 IP 주소가 필요하지 않으므로 IP 고갈 없이 동일한 서브넷 내에서 더 큰 클러스터로 확장할 수 있습니다. 이 구성은 노드 간 통신 대역폭이 중요하고 모든 인터페이스의 전용 IP 네트워킹이 필요하지 않은 대규모 분산 훈련 작업에 특히 유용합니다.
EFA 전용을 활성화하려면 CreateCluster/UpdateCluster API를 통해 HyperPod 클러스터를 만들거나 업데이트할 때 클러스터 네트워크 인터페이스 구성에서 EFA 전용을 지정하세요. EFA 전용 구성은 Amazon SageMaker HyperPod가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세히 알아보려면 Amazon SageMaker API 참조의 ClusterNetworkInterface를 참조하세요.