게시된 날짜: May 1, 2019
Amazon EKS 딥 러닝 벤치마킹 유틸리티는 Kubernetes 클러스터에서 기계 학습 벤치마킹을 위한 새로운 자동화된 도구입니다. 이 도구는 Amazon Elastic Container Service for Kubernetes(EKS) 팀에서 구축하였으며 오픈 소스로 제공됩니다.
Kubernetes는 훈련 및 추론을 위해 기계 학습 모델을 신속하게 확장하고 AWS에서 데이터 소스에 가까운 위치에서 실행할 수 있도록 지원하는 오픈 소스 소프트웨어입니다. Kubernetes에서 기계 학습 작업을 실행할 수 있는 변수 및 인프라 옵션이 광범위하므로, 워크로드에 맞는 적절한 구성을 찾기 위해서는 지속적인 벤치마킹이 필요합니다. 이전에는 Kubernetes에서 기계 학습 성능을 벤치마킹하려면 각 성능 최적화에 대해 여러 수동 단계를 수행해야 했으므로 비용 효율적이고 성능이 뛰어난 기계 학습 작업을 설정하는 데 상당한 시간과 노력이 투입되었습니다.
Amazon EKS 딥 러닝 벤치마킹 유틸리티는 딥 러닝 훈련 및 기타 기계 학습 워크로드를 위해 AWS에서 실행되는 Kubernetes 클러스터의 성능 벤치마킹을 간소화합니다. 이 유틸리티는 클러스터 생성부터 클러스터 종료까지 자동화된 엔드 투 엔드 벤치마킹 워크플로를 제공하며, 고도로 구성 가능한 클러스터 구성, 다양한 백엔드 스토리지 시스템 및 여러 프레임워크(Tensorflow, Horovod, OpenMPI, PyTorch 및 MxNet 등)를 지원합니다.
자세한 내용은 GitHub에서 이 프로젝트를 참조하십시오.
Amazon EKS로 분산 딥 러닝 성능을 최적화하는 방법을 자세히 알아보려면 블로그 게시물을 읽어보십시오.