Amazon S3 Connector for PyTorch, 이제 분산 체크포인트 지원
게시된 날짜:
2024년 11월 22일
이제 Amazon S3 Connector for PyTorch에서 Amazon S3에 체크포인트를 쓰는 시간을 단축할 수 있도록 분산 체크포인트(DCP)를 지원합니다. DCP는 여러 훈련 프로세스에서 기계 학습(ML) 모델을 병렬로 저장하고 로드하기 위한 PyTorch 기능입니다. PyTorch는 ML 모델을 빌드하고 훈련하는 데 사용되는 오픈 소스 ML 프레임워크입니다.
분산 훈련 작업은 종종 몇 시간 또는 며칠 동안 실행되며, 내결함성을 개선하기 위해 체크포인트가 자주 작성됩니다. 예를 들어 대규모 파운데이션 모델을 훈련하는 작업은 며칠 동안 실행되는 경우가 많으며 크기가 수백 기가바이트에 달하는 체크포인트를 생성합니다. Amazon S3 Connector for PyTorch와 함께 DCP를 사용하면 이러한 대규모 체크포인트를 Amazon S3에 쓰는 시간을 단축하여 컴퓨팅 리소스를 계속 활용할 수 있으므로 궁극적으로 컴퓨팅 비용이 절감됩니다.
PyTorch용 Amazon S3 커넥터는 오픈 소스 프로젝트입니다. 시작하려면 Github 페이지로 이동하세요.