Amazon SageMaker HyperPod, 새로운 관찰성 기능 발표
Amazon SageMaker HyperPod의 새로운 관찰성 기능을 통해 고객이 컴퓨팅 리소스 및 모델 개발 작업 진행 상황을 전체적으로 파악할 수 있게 됨에 따라 생성형 AI 모델 개발을 가속화할 수 있게 되었습니다. 이 기능은 스택 전반에서 수백 개의 지표를 수집하고, 지표 간의 상관관계를 시각화하고, 생성형 AI 모델 개발 작업 성능을 복원해야 하는 수동 작업을 없애줍니다. HyperPod의 관찰성 기능은 작업 성능 지표를 실시간으로 추적하고, 지표가 악화되면 고객에게 경고하고, 고객 정의 정책을 통해 근본 원인을 자동으로 해결합니다.
SageMaker HyperPod 관찰성 기능은 고객이 생성형 AI 모델 개발 작업을 모니터링하고 최적화하는 방법을 변화시킵니다. 모니터링 데이터가 Amazon Managed Prometheus 작업 공간에 자동으로 게시되어 Amazon Managed Grafana에 사전 구성된 통합 대시보드를 통해 고객은 이제 생성형 AI 작업 성능 지표, 리소스 사용률 및 클러스터 상태를 하나의 보기에서 확인할 수 있습니다. 이를 통해 팀은 병목 현상을 빠르게 발견하고, 비용이 많이 드는 지연을 방지하며, 컴퓨팅 리소스를 최적화할 수 있습니다. 고객은 몇 번의 클릭만으로 자동화된 알림을 정의하고, 사용 사례별 작업 지표를 도출하고, 통합 대시보드에 게시할 수 있습니다. 이 기능을 통해 고객은 문제 해결 시간을 며칠에서 몇 분으로 단축함으로써 생산 경로를 가속화하고 AI 투자 수익을 극대화할 수 있습니다.
SageMaker HyperPod 관찰성 기능은 미국 서부(캘리포니아 북부) 및 아시아 태평양(멜버른)을 제외한 SageMaker HyperPod가 지원되는 모든 AWS 리전에서 사용할 수 있습니다. 자세히 알아보고 시작하려면 블로그, 설명서 및 SageMaker HyperPod 웹 페이지로 이동하세요.