SageMaker 모델 병렬 처리, 이제 코드 변경은 줄이면서 최대 20%의 속도 향상

게시된 날짜: Dec 20, 2023

오늘 AWS는 Amazon SageMaker 모델 병렬 라이브러리(SMP)의 메이저 버전 릴리스를 발표했습니다. 이 라이브러리는 이제 PyTorch Fully Sharded Data Parallel(FSDP) API와 호환되며 딥 러닝 모델 훈련을 최대 20% 가속화할 수 있습니다. SMP를 사용하면 여러 액셀러레이터 및 컴퓨팅 인스턴스에 걸쳐 모델을 자동으로 분할 및 분산하여 수십억 개의 파라미터가 포함된 대규모 모델의 훈련을 가속화할 수 있습니다. 단 몇 줄의 코드만으로 몇 분 만에 SMP를 시작하고 기존 PyTorch FSDP 훈련 스크립트의 속도를 높일 수 있습니다.

PyTorch FSDP는 모델의 가중치, 변화율, 옵티마이저 상태를 클러스터의 액셀러레이터 전반에 걸쳐 분할하여 훈련의 메모리 공간을 줄이는 인기 있는 분산 훈련 기법입니다. 이번 릴리스 덕분에 SageMaker 모델 병렬 라이브러리의 새로운 API는 이제 PyTorch FSDP 훈련 스크립트와 호환되고 이를 더욱 가속화하므로 고객은 SageMaker에서 훈련 시 기존 워크로드를 손쉽게 업그레이드할 수 있습니다. 고객은 단 몇 줄의 코드만으로 하이브리드 샤딩 데이터 병렬 처리와 같은 최첨단 훈련 기법을 사용할 수 있습니다. 따라서 모델 샤딩의 정도를 변경하여 훈련 작업의 메모리 및 통신 요구 사항을 제어할 수 있습니다. 아울러 이번 신규 릴리스는 SageMaker 고객을 위한 텐서 병렬 훈련 기법을 포함하도록 FSDP의 기능을 확장하여, 다양한 액셀러레이터 디바이스 전체로 모델 계층을 분할 및 분산함으로써 수천억 개의 파라미터가 있는 모델을 훈련할 수 있도록 지원합니다. SageMaker 모델 병렬을 시작하려면 설명서를 살펴보세요.

SageMaker 모델 병렬 처리, 이제 코드 변경은 줄이면서 최대 20%의 속도 향상

Internet Explorer에 대한 지원 종료