게시된 날짜: Dec 1, 2021
오늘 우리는 GPU 인스턴스의 보다 효율적인 사용을 통해 딥 러닝 모델의 훈련을 최대 50%까지 가속화할 수 있는 SageMaker의 새로운 기능인 Amazon SageMaker Training Compiler를 발표하게 된 것을 기쁘게 생각합니다.
자연어 처리 및 컴퓨터 비전 작업을 위한 최첨단 DL 모델은 훈련하는 데 수천 GPU 시간이 걸릴 수 있는 수십억 개의 파라미터가 있는 복잡한 다층 신경망입니다. 이러한 모델을 미세 조정하는 데에도 때로는 며칠이 걸리므로 높은 비용이 발생하고 혁신이 느려질 수 있습니다. 이 프로세스를 가속화하기 위해 이제 기존 교육 스크립트를 최소한으로 변경하면서 SageMaker Training Compiler를 사용할 수 있습니다. SageMaker Training Compiler는 SageMaker에서 최신 버전의 PyTorch 및 TensorFlow에 통합되며 이러한 프레임워크의 후드 아래에서 작동하므로 활성화된 경우 워크플로에 대한 다른 변경이 필요하지 않습니다.
SageMaker Training Compiler는 DL 모델을 고급 언어 표현에서 하드웨어에 최적화된 명령으로 변환하여 교육을 가속화합니다. 보다 구체적으로, SageMaker Training Compiler 컴파일은 그래프 수준 최적화(연산자 융합, 메모리 계획 및 대수 단순화), 데이터 흐름 수준 최적화(레이아웃 변환, 공통 하위 표현식 제거) 및 백엔드 최적화(메모리 대기 시간 숨기기, 루프 지향적 최적화)를 통해 하드웨어 리소스를 보다 효율적으로 사용하고 결과적으로 모델을 더 빠르게 학습할 수 있습니다. 가속화된 훈련 프로세스에서 반환된 모델 아티팩트는 이러한 훈련 최적화가 활성화되지 않은 경우와 동일합니다.
SageMaker Training Compiler는 bert-base-cased, bert-base-uncased, distilbert-base-uncased, distilbert-base-uncased-finetuned-sst-2-english, gpt2, roberta-base, roberta-large, bert-base-chinese 및 xlm-roberta-base를 포함한 Hugging Face의 가장 인기 있는 NLP DL 모델에서 테스트가 진행됩니다. 이러한 모델은 SageMaker Training Compiler를 통해 최대 50% 더 빠르게 훈련합니다.