AWS Batch, 이제 다중 노드 병렬 작업을 사용하여 Amazon EKS에서 갱 스케줄링 지원
AWS는 오늘 Amazon Elastic Kubernetes Service(Amazon EKS)의 AWS Batch에서 다중 노드 병렬(MNP) 작업을 정식 출시한다고 발표했습니다. AWS Batch MNP 작업을 통해 다중 계층 AI/ML 모델 훈련과 같이 긴밀하게 연결된 고성능 컴퓨팅(HPC) 애플리케이션을 실행할 수 있습니다. AWS Batch를 사용하면 수동 개입 없이 Amazon EKS 클러스터에서 노드를 시작, 구성 및 관리하는 데 도움이 됩니다.
RegisterJobsDefinition API를 사용하거나 AWS Batch Management Console의 작업 정의 섹션을 통해 MNP 작업을 구성할 수 있습니다. MNP 작업을 사용하면 여러 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에 걸쳐 있는 Amazon EKS 워크로드에서 AWS Batch를 실행할 수 있습니다. AWS Batch MNP 작업은 NVIDIA Collective Communications Library(NCCL), Gloo, 메시지 전달 인터페이스(MPI) 또는 Unified Collective Communication(UCC) 같은 모든 IP 기반 인스턴스 간 통신 프레임워크 및 PyTorch 및 Dask 같은 기계 학습 및 병렬 컴퓨팅 라이브러리를 지원합니다. 자세한 내용은 AWS Batch 사용 설명서의 다중 노드 병렬 작업 페이지를 참조하세요.
AWS Batch는 개발자, 과학자 및 엔지니어가 규모에 관계없이 기계 학습 모델 훈련, 시뮬레이션 및 분석을 위한 배치 처리를 효율적으로 실행할 수 있도록 지원합니다. 다중 노드 병렬 작업은 AWS Batch가 제공되는 모든 AWS 리전에서 사용할 수 있습니다.