Amazon Web Services 한국 블로그

Fast.ai, AWS 기반 GPU 인스턴스로 가장 빠른 ImageNet 모델 학습 기록 수립

딥 러닝을 쉽게 활용할 수 있도록 돕는 fast.ai는 16개의 Amazon EC2 P3.16xlarge 인스턴스를 사용하여 18분 만에 1백만 개의 이미지로 ResNet-50 딥 러닝 모델을 훈련하는 데 성공했다고 발표했습니다. 이러한 획기적인 신기록을 달성하는 데에는 단지 40달러의 비용 밖에 들지 않았습니다. 본 기록은 기존 보다 40% 빠른 것으로 딥 러닝 모델의 훈련 시간을 획기적으로 단축함으로써 더 저렴한 비용으로 더 빠르게 시장에 선보일 수 있음을 단적으로 보여줍니다.

Amazon EC2 P3 인스턴스는 퍼블릭 클라우드에서 AI/ML 모델의 훈련에 사용할 수 있는 가장 강력한 GPU 가속화 컴퓨팅 인프라 중 하나입니다. NVIDIA V100 GPU 8개가 장착된 단일 Amazon EC2 P3 인스턴스는 ResNet-50 딥 러닝 모델을 ImageNet으로 3시간 이내에 훈련할 수 있습니다. 최근 블로그의 데모에 설명한 것처럼, 클라우드의 여러 Amazon EC2 P3 인스턴스에 훈련 워크로드를 분산하는 최적화 기술을 사용하면 훈련 시간이 추가로 단축됩니다. fast.ai에서는 유사한 분산 훈련 기술 및 최적화를 사용하여 Amazon EC2 P3.16xlarge 인스턴스 16개에서 ImageNet 훈련을 18분 만에 93%의 정확도로 완료했습니다.

Amazon EC2 P3 인스턴스는 전 세계 14개 리전에서 제공되므로 고객은 데이터가 위치한 곳에서 훈련을 수행할 수 있습니다. 이 인스턴스는 예약 인스턴스와 온디맨드 및 스팟 인스턴스(온디맨드 요금에서 최대 90% 할인된 요금으로 제공)로 제공되며 TensorFlow, MXNet, PyTorch 및 Caffe2를 비롯한 모든 주요 AI/ML 프레임워크를 지원합니다. Amazon SageMakerAWS Deep Learning AMI를 포함하는 Amazon의 Machine Learning 서비스, 스토리지 및 네트워킹 서비스로 구성된 포트폴리오를 사용하여 모델을 훈련하고 프로덕션 환경에 배포할 수 있습니다.

최신 모델 훈련 결과에 대한 자세한 내용은 fast.ai의 블로그를 참조하십시오.

이 글은 AWS Machine Learning 블로그의 New speed record set for training deep learning models on AWS를 강지양 AWS 솔루션즈아키텍트가 감수하였습니다.