Amazon Web Services 한국 블로그

Amazon SageMaker Training Complier 신규 기능 출시 – 딥러닝 모델 훈련 속도 가속화

Amazon SageMaker 교육 컴파일러 사용의 이점을 설명하는 이미지 오늘, 딥 러닝(DL) 모델 훈련을 최대 50% 가속화할 수 있는 새로운Amazon SageMaker 기능인 Amazon SageMaker Training Complier 를 발표하게 되어 기쁩니다.

DL 모델의 복잡성이 커짐에 따라 최적화 및 훈련에 소요되는 시간도 늘어납니다. 예를 들어 널리 사용되는 자연어 처리(NLP) 모델 “RoBERTa“를 훈련하는 데 25,000시간의 GPU가 소요될 수 있습니다. 고객이 모델 훈련에 소요되는 시간을 줄이기 위해 적용할 수 있는 기술과 최적화가 있지만, 구현하기에는 시간이 걸리며 드문 기술이 필요합니다. 이는 인공 지능(AI) 의 광범위한 채택에서 혁신과 진보를 방해할 수 있습니다.

지금까지 어떻게 이루어 졌습니까?
일반적으로 훈련 속도를 높이는 세 가지 방법이 있습니다.

  1. 보다 강력한 개별 기계를 사용하여 계산 처리
  2. GPU 인스턴스 클러스터 전체에 컴퓨팅을 분산하여 모델을 병렬로 훈련
  3. 적은 메모리와 컴퓨팅을 활용하여 GPU에서 더욱 효율적으로 실행되도록 모델 코드 최적화

실제로 기계 학습(ML) 코드를 최적화하는 것은 어렵고 시간이 오래 걸리며 습득하기에는 드문 기술입니다. 데이터 사이언티스트는 일반적으로 TensorFlow 또는 PyTorch와 같은 Python 기반 ML 프레임워크에서 훈련 코드를 작성하며 기계 학습 프레임워크를 사용하여 Python 코드를 일반적으로 커널이라고 하는 GPU에서 실행할 수 있는 수학 함수로 변환합니다. 그러나 기계 학습 프레임워크가 사용자의 코드와 모델에 맞는 커널을 만드는 대신 사전 구축된 일반 GPU 커널을 사용하기 때문에 사용자의 Python 코드에서 이 번역은 종종 비효율적입니다.

가장 숙련된 GPU 프로그래머도 새로운 모델마다 사용자 지정 커널을 만들고 최적화하는 데 몇 달이 걸릴 수 있습니다. 이 문제를 해결하기 위해 SageMaker Training Complier를 구축했습니다.

오늘 출시를 통해 SageMaker Training Complier 는 자동으로 Python 훈련 코드를 컴파일하고 사용자 모델에 맞는 GPU 커널을 생성할 수 있게 되었습니다. 그 결과, 훈련 코드는 메모리와 계산을 더 적게 사용하므로 더 빨리 훈련할 수 있습니다. 예를 들어 Hugging Face의 GPT-2 모델을 미세 조정할 때 SageMaker Training Complier  훈련 시간을 거의 3시간에서 90분으로 줄였습니다.

딥 러닝 모델 자동 최적화
그렇다면 어떻게 이러한 가속을 달성했을까요? SageMaker Training Complier는 DL 모델을 높은 수준의 언어 표현에서 상용 프레임워크를 사용하는 작업보다 빠르게 훈련하는 하드웨어 최적화 지침으로 변환하여 훈련 작업을 가속화합니다. 내부적으로 SageMaker Training Complier는 네이티브 PyTorch 및 TensorFlow 프레임워크가 제공하는 것 이상으로 증분 최적화하여 SageMaker GPU 인스턴스에서 컴퓨팅 및 메모리 사용률을 극대화합니다.

보다 구체적으로 설명하자면,SageMaker Training Complier는 그래프 수준 최적화(운영자 융합, 메모리 계획 및 대수 단순화), 데이터 흐름 수준 최적화(레이아웃 변환, 공통 하위 표현식 제거) 및 백엔드 최적화 (메모리 대기 시간 숨기기, 루프 지향 최적화) 를 통해 하드웨어 리소스를 효율적으로 사용하는 최적화된 모델을 생성합니다. 결과적으로 훈련이최대 50% 까지 가속화되고 반환된 모델은 SageMaker Training Complier를 사용하지 않은 경우와 동일합니다.

하지만 SageMaker Training Complier를 모델에 어떻게 사용하십니까? 코드 두 줄을 추가하는 것만큼 간단할 수 있습니다!

SageMaker 교육 컴파일러 코드 변경 사항

훈련 시간이 단축됨에 따라 고객은 저렴한 비용으로 새로 훈련된 모델을 혁신하고 배포하는 데 더 많은 시간을 할애할 수 있으며 더 큰 모델과 더 많은 데이터를 실험할 수 있습니다.

SageMaker Training Complier 최대한 활용하기
많은 DL 모델이의 이점을 누릴 수 있지만, 더 긴 훈련으로 더 큰 모델을 사용하면 시간과 비용을 최대한 절감할 수 있습니다. 예를 들어 장기 실행 RoBERTa 기반 미세 조정 연습에서는 훈련 시간과 비용이 30% 감소했습니다.

“모든 사람을 위해 더 스마트하고 간단하며 비용 효율적인 의료 탐색을 만드는 것”이라는 사명을 가진 조직인 Quantum Health의 선임 데이터 사이언티스트인 Jorge Lopez Grisman은 다음과 같이 말했습니다.

“NLP 모델로 반복하는 것은 크기 때문에 어려울 수 있습니다.훈련 시간이 길어지면 워크플로가 저하되고 비용이 많이 들면 팀이 더 나은 성능을 제공할 수 있는 더 큰 모델을 시도하지 못하게 할 수 있습니다. Amazon SageMaker Training Complier는 이러한 마찰을 완화할 수 있는 잠재력이 있기 때문에 흥미롭습니다. SageMaker Training Complier로 속도를 높이는 것은 우리 팀이 앞으로 더 민첩하고 혁신적으로 발전할 수 있는 진정한 승리입니다.”

추가 리소스
Amazon SageMaker Training Complier 에서 어떤 이점을 얻을 수 있는지 자세히 알아보려면여기 페이지를 방문하세요. 시작하려면 여기 기술 문서를 참조하세요.

– Sean