Amazon SageMaker HyperPod에서 지원되는 Amazon EKS를 활용하여 파운데이션 모델 개발 범위 확장
이제 SageMaker HyperPod에서 Amazon EKS가 정식 지원되므로 고객은 SageMaker HyperPod에서 Kubernetets 워크로드를 실행하고 관리할 수 있습니다. 파운데이션 모델(FM) 개발용으로 특별히 구축된 인프라인 SageMaker HyperPod를 사용하는 경우 모델 훈련 시간을 최대 40%까지 단축할 수 있습니다.
Kubernetes는 이동성과 확장성이 우수하며 다양한 도구가 포함된 에코시스템을 제공하므로 대다수 고객은 Kubernetes를 사용하여 ML 워크플로를 오케스트레이션합니다. 이러한 고객은 Kubernetes의 친숙한 인터페이스를 계속 사용하면서 자동화된 방식으로 하드웨어 장애를 관리하고자 합니다. 이제 HyperPod에서 EKS가 지원되므로 관리형 Kubernetes 서비스인 Amazon EKS의 컨테이너화 기능과 자가 복구 가능한 고성능 클러스터를 제공하는 SageMaker HyperPod의 이점을 모두 활용할 수 있습니다. 이번 지원이 발표됨에 따라 고객은 클러스터 생성 중에 심층 상태 확인을 실행하여 훈련 중에 장애를 줄일 수 있습니다. 또한 HyperPod는 엑셀러레이터를 1천 개 이상 활용하여 AWS Trainium과 Nvidia GPU에서 결함이 있는 노드를 자동으로 교체한 후 마지막 체크포인트부터 훈련을 재개합니다. 고객은 새로운 HyperPod CLI 또는 선호하는 도구를 유동적으로 사용하여 워크로드를 제출, 관리 및 모니터링할 수 있습니다. 영구 클러스터 환경에서는 ssm 액세스 및 클러스터 사용자 지정 기능이 제공됩니다. 또한 EKS에서 오케스트레이션된 HyperPod 클러스터를 CloudWatch Container Insights와 통합하면 HyperPod 노드 상태를 자동 검색한 후 큐레이트된 대시보드에 표시하여 관찰하는 기능이 기본 제공됩니다.
이 릴리스는 유럽(런던)을 제외하고 SageMaker HyperPod를 사용할 수 있는 AWS 리전에서 정식 버전으로 제공됩니다.
자세한 내용은 웹 페이지, AWS 뉴스 블로그, 설명서, Github 리포지토리 등의 리소스를 참조하세요.