게시된 날짜: May 10, 2021
Amazon SageMaker는 이제 machine learning 모델 훈련을 위한 Elastic Fabric Adapter(EFA)를 지원합니다. EFA는 Amazon EC2 인스턴스에 대한 네트워크 인터페이스이며, 이를 통해 고객은 AWS에서 높은 수준의 노드 간 통신을 필요로 하는 애플리케이션을 대규모로 실행할 수 있습니다. EFA는 추가 비용 없이 SageMaker 상의 분산형 훈련을 유의미하게 가속화할 수 있습니다. 예를 들어 저희는 BERT 자연 언어 처리 모델을 32 ml.p4d.24xlarge 인스턴스 상의 SageMaker 분산형 데이터 패러렐 라이브러리로 훈련시켰습니다. 해당 훈련은 EFA를 사용하여 Elastic Network Adapter(ENA) 대비 130% 빨라졌습니다.
분산형 훈련은 개발자와 데이터 사이언티스트가 모델을 더 빠르게 훈련하고 모델 품질을 개선하게 해줍니다. 고객은 SageMaker 분산형 훈련 라이브러리이 대규모 딥 러닝 모델 및 데이터 세트를 위한 가장 빠르고 쉬운 방법을 제공하기 때문에 사용합니다. EFA의 고유한 운영 시스템 바이패스 네트워킹 매커니즘은 인스턴스 간 커뮤니케이션 성능을 향상시키며 SageMaker 상의 분산형 훈련을 더욱 가속화시킵니다.
SageMaker에서 EFA는 추가 비용 없이 사용할 수 있습니다. SageMaker의 EFA는 현재 ml.p3dn.24xlarge, ml.p4d.24xlarge, 및 ml.c5n.18xlarge 인스턴스에서 지원합니다. SageMaker는 TensorFlow 및 PyTorch 딥 러닝 컨테이너를 사용하는 훈련 작업을 분산하여 고객의 추가 조치 없이도 EFA의 이점을 자동으로 얻습니다. EFA는 최소한으로 구성을 변경하여 VPC 또는 사용자 지정 Docker 이미지를 사용하는 훈련 작업을 구현할 수 있습니다.
Amazon SageMaker가 지원하는 EFA에 대해 더 알아보려면, SageMaker distributed training library 설명서 또는 how to run training with EFA in your container를 확인하십시오. 시작하려면 Amazon SageMaker 콘솔에 로그인하십시오.