Amazon SageMaker HyperPod 고객
최고의 AI 스타트업과 모든 규모의 조직이 SageMaker HyperPod에서 대규모로 파운데이션 모델을 훈련하고 배포하고 있습니다.
-
Hugging Face
Hugging Face는 SageMaker HyperPod를 사용하여 StarCoder, IDEFICS, Zephyr와 같은 중요한 새 오픈 파운데이션 모델을 만들었으며 수백만 번 다운로드되었습니다. SageMaker HyperPod의 용도에 맞게 구축된 탄력성 및 성능 기능 덕분에 개방형 과학 팀은 인프라를 관리하는 대신 파운데이션 모델 구축 방식을 혁신하고 중요한 개선 사항을 발표하는 데 집중할 수 있었습니다. 특히 SageMaker HyperPod가 ML 하드웨어 장애를 감지하고 지속적인 모델 훈련을 방해하지 않으면서 결함이 있는 하드웨어를 신속하게 교체할 수 있다는 점이 마음에 들었습니다. 저희 팀은 신속하게 혁신해야 하기 때문에 이 자동화된 작업 복구 기능을 통해 기초 모델 훈련 프로세스 중 중단을 최소화하여 단 1년 만에 수백 시간의 교육 시간을 절약할 수 있었습니다.
Jeff Boudier, Hugging Face Product Head -
Perplexity AI
고성능 대규모 언어 모델을 구축하기 위해 생산성을 높이고 비용을 절감할 수 있는 적절한 ML 인프라를 찾고 있었습니다. 몇 가지 실험을 성공적으로 수행한 후 Amazon SageMaker HyperPod를 사용하기 위해 다른 클라우드 제공업체에서 AWS로 전환했습니다. 지난 4개월 동안 HyperPod를 사용하여 LLM을 구축하고 미세 조정하여 인용 형식으로 제공된 참고 문헌과 함께 질문에 답변하는 Perplexity 대화형 답변 엔진을 강화했습니다. SageMaker HyperPod는 클러스터 상태를 자동으로 모니터링하고 GPU 장애를 해결하므로 개발자는 기본 인프라를 관리하고 최적화하는 데 시간을 소비하는 대신 모델 구축에 집중할 수 있습니다. SageMaker HyperPod의 내장 데이터 및 모델 병렬 라이브러리는 GPU에서의 훈련 시간을 최적화하고 훈련 처리량을 두 배로 늘리는 데 도움이 되었습니다. 그에 따라 이제 훈련 실험 속도가 두 배나 빨라져서 개발자가 더 빠르게 반복 작업을 수행하고 고객을 위한 새로운 생성형 AI 경험 개발을 가속할 수 있게 되었습니다.
Aravind Srinivas, Perplexity AI Co-founder 겸 CEO -
Articul8 AI
Amazon SageMaker HyperPod 작업 거버넌스는 다양한 팀과 프로젝트에서 GPU 활용도를 극대화하도록 돕습니다. 빠르게 성장하고 있는 GenAI 스타트업인 Articul8 AI는 가속화된 컴퓨팅 리소스를 최대한 효율적으로 할당하기 위해 컴퓨팅 환경을 지속적으로 최적화합니다. SageMaker HyperPod의 자동화된 작업 우선 순위 지정 및 리소스 할당을 통해 GPU 사용률이 크게 향상되어 훈련 및 미세 조정에서 추론에 이르기까지 다양한 작업을 최적화하여 유휴 시간을 줄이고 모델 개발 프로세스를 가속화할 수 있었습니다. 리소스를 우선 순위가 높은 작업으로 자동 전환하는 기능 덕분에 팀의 생산성이 향상되어 새로운 GenAI 혁신 기술을 그 어느 때보다 빠르게 출시할 수 있게 되었습니다.
Amazon SageMaker HyperPod는 가동 중지 시간을 최소화하면서 컴퓨팅 리소스를 보다 효율적으로 관리하고 운영하는 데 큰 도움이 되었습니다. 저희는 Slurm 기반 HyperPod 서비스의 얼리 어답터였으며 사용 편의성과 복원력 기능의 이점을 활용하여 생산성을 최대 35% 향상시키고 GenAI 운영을 빠르게 스케일 업했습니다. Kubernetes를 활용하는 기업으로서 SageMaker HyperPod에 대한 Amazon EKS 지원 출시를 기쁜 마음으로 환영합니다. 이는 기존 훈련 파이프라인과 원활하게 통합되고 대규모 Kubernetes 클러스터를 훨씬 쉽게 관리하고 운영할 수 있게 해주기 때문에 저희에게 획기적인 변화입니다. 또한 이제 이 기능을 GenAI 플랫폼에 패키징하고 제품화하여 고객이 보다 간소화된 방식으로 자체 훈련 및 미세 조정 워크로드를 실행할 수 있기 때문에 최종 고객에게도 도움이 됩니다.
Arun Subramaniyan, Articul8 AI 창립자 겸 CEO -
Thomson Reuters
글로벌 AI 및 콘텐츠 기반 기술 회사인 Thomson Reuters는 워크로드 우선 순위 지정과 관련된 주요 문제를 해결하기 위해 Amazon SageMaker HyperPod의 작업 거버넌스 기능을 테스트하고 있습니다. 이제 작업 거버넌스를 통해 자체 진행 중인 모델 개발 프로젝트와 함께 추론 요청과 같은 고객 워크로드를 관리할 수 있으므로 내부 연구를 방해하지 않고도 긴급한 고객 요청을 우선적으로 처리하여 리소스 활용도와 고객 만족도를 높일 수 있습니다. Thomson Reuters Labs의 Distinguished Engineer인 John Duprey는 “Amazon SageMaker HyperPod를 사용하여 대규모 언어 모델 훈련 요구 사항을 충족할 수 있었습니다. SageMaker HyperPod의 Amazon EKS를 사용하여 용량을 스케일 업하고 훈련 작업을 쉽게 실행할 수 있었기 때문에 법률 요약 및 분류와 같은 영역에서 LLM의 이점을 활용할 수 있었습니다”라고 말합니다.
Thomson Reuters는 30년 이상 AI 개발을 선도해 왔으며, 고객이 신뢰할 수 있는 정보에 더 쉽게 액세스하여 결과를 더 빠르게 제공할 수 있도록 지원하는 의미 있는 솔루션을 제공하기 위해 최선을 다하고 있습니다. 생성형 AI의 혁신을 가속화하기 위해 LLM 제공업체와 협력하는 것 외에도 고유한 독점 콘텐츠와 인적 전문 지식을 활용하여 맞춤형 모델을 보다 효율적으로 교육하는 방안을 모색하고 있습니다. SageMaker HyperPod의 분산 교육 라이브러리는 대규모 모델 교육 성능을 개선하는 데 도움이 됩니다. 또한 복원력 기능을 통해 인프라를 모니터링하고 관리할 때 시간을 절약할 수 있습니다. SageMaker HyperPod에서 기본 모델을 교육하면 시장 출시 속도가 빨라지고 고객에게 양질의 솔루션을 빠르게 제공할 수 있습니다.
Joel Hron, Thomson Reuters Head of AI and Labs, John Duprey, Thomson Reuters Labs Distinguished Engineer -
Stability AI
선도적인 오픈 소스 생성형 AI 회사로서 우리의 목표는 현대 AI의 접근성을 극대화하는 것입니다. 우리는 수백억 개의 파라미터로 기초 모델을 구축하고 있는데, 이를 위해서는 최적화된 교육 성과를 확장할 수 있는 인프라가 필요합니다. SageMaker HyperPod의 관리형 인프라 및 최적화 라이브러리를 통해 교육 시간과 비용을 50% 이상 줄일 수 있습니다. 이를 통해 모델 훈련의 탄력성과 성능이 향상되어 최첨단 모델을 더 빠르게 구축할 수 있습니다.
Emad Mostaque, Stability AI Founder 겸 CEO -
Recursal AI
전체 프로세스가 간소화되었습니다. SageMaker HyperPod를 사용하면 하드웨어 장애 발생 시 마지막으로 저장한 체크포인트에서 훈련 작업을 식별하고 자동으로 복구하는 클러스터 복원 기능을 활용할 수 있습니다. Kubernetes를 공통 스레드로 사용하여 애플리케이션, 추론, 훈련 등 매우 다양한 워크로드를 실행합니다. 저희의 경우 SageMaker HyperPod가 포함된 Amazon EKS는 노드를 클러스터에 넣기만 하면 바로 작동합니다.
Nathan Wilce, Recursal Infrastructure/Data Lead -
Hippocratic AI
Hippocratic AI는 의료 분야를 위한 최초의 안전 중심 대규모 언어 모델(LLM)을 개발하는 AI 회사입니다. Hippocratic AI는 기본 LLM과 수퍼바이저 모델을 훈련시키기 위해 수요는 많지만 확보하기 어려운 강력한 컴퓨팅 리소스가 필요했습니다. Amazon SageMaker HyperPod의 유연한 훈련 계획을 통해 이 회사는 Amazon Elastic Compute Cloud(Amazon EC2) P5 인스턴스를 더 쉽게 활용할 수 있었습니다. 또한 Hippocratic AI는 Grafana와 같은 AWS 서비스를 활용하여 중요한 GPU 사용률 지표도 추적하고 있습니다. Hippocratic AI는 Amazon EC2 P5 인스턴스를 사용하여 모델 훈련 속도를 4배 높이고 수백 가지 사용 사례를 수용할 수 있도록 솔루션을 확장했습니다. 그에 따라 필요한 컴퓨팅 리소스를 확보하고 모델을 빠르게 훈련시킬 수 있었습니다.
-
NinjaTech
무제한 생산성을 위한 올인원 SuperAgent를 제공하는 생성형 AI 회사인 NinjaTech AI는 Amazon SageMaker HyperPod의 유연한 훈련 계획을 사용하여 Lama 3.1 405B 모델을 비롯해 다양한 내부 모델의 미세 조정을 가속화하여 모델 훈련 비용을 줄이고 프로세스를 자동화했습니다. 이 회사는 SuperAgent 기술을 지원하는 다양한 AI 에이전트에 액세스하려는 사용자에게 원활한 경험을 제공하는 것을 목표로 합니다. 이를 위해서는 사용자 의도를 자동으로 예측하고 어떤 AI 에이전트가 이에 적합한지 판단할 수 있는 모델이 필요했습니다. 이 메커니즘은 LoRA 미세 조정 라운드마다 1천만 개에서 1억 개의 토큰을 포함하면서 고객 피드백과 새로운 기능을 반복적으로 통합하여 모델을 자주 업데이트해야 했습니다. 스타트업에게 고성능 컴퓨팅 리소스를 확보하고 운영하는 것은 가파른 비용과 대역폭 증가 문제로 인해 어려운 일입니다. 특히 가속화된 컴퓨팅 외에도 빠른 네트워크와 빠른 스토리지가 필요한 다중 노드 클러스터의 경우에는 더욱 그렇습니다. 또한 모델 다운로드, 분산 훈련, 체크포인트, 모니터링, 자동 수정, 병합, 양자화 등의 단계를 포함하는 훈련 프로세스에는 시간이 많이 걸립니다. HyperPod의 유연한 훈련 계획을 통해 이 회사는 훈련 실행 전에 특정 컴퓨팅 및 일정 요구 사항을 충족하는 신뢰할 수 있으며 저렴한 컴퓨팅을 제공받으면서 효율적인 모델 훈련을 보장할 수 있었습니다.
-
OpenBabylon
많이 사용되지 않는 언어에 맞춰 대규모 언어 모델을 사용자 지정하는 AI 회사인 OpenBabylon의 개발자 및 데이터 과학자는 몇 달 동안 SageMaker HyperPod의 유연한 훈련 계획을 사용해서 GPU 리소스 활용을 간소화하여 대규모 실험을 실행해 왔습니다. 이 회사는 다중 노드 SageMaker HyperPod의 분산 훈련 기능을 사용하여 100개의 대규모 모델 훈련 실험을 수행하여 영어-우크라이나어 번역에서 최첨단 결과를 달성했습니다. 이러한 혁신을 제시간에 비용 효율적으로 실현했으며, 이는 SageMaker HyperPod가 복잡한 프로젝트를 제시간에 예산에 맞게 성공적으로 제공할 수 있다는 것을 드러냅니다.
-
Salesforce
Salesforce의 연구원들은 인프라에 대해 걱정할 필요 없이 기본 모델 훈련 및 미세 조정을 빠르게 시작하거나 새 모델마다 훈련 스택을 최적화하는 데 몇 주를 소요할 방법을 찾고 있었습니다. Salesforce의 연구원들은 Amazon SageMaker HyperPod 레시피를 사용하여 FM을 사용자 지정할 때 신속하게 프로토타입을 제작할 수 있습니다. 이제 Salesforce의 AI 연구팀은 다양한 사전 훈련 및 미세 조정 레시피를 사용하여 몇 분 만에 시작할 수 있으며 최고의 모델을 고성능으로 운영할 수 있습니다.
Amazon SageMaker HyperPod 파트너
심층적인 기술 지식과 검증된 고객 성공 사례를 보유한 AWS 파트너와 함께 혁신을 주도하고 더 큰 비즈니스 가치 창출
-
Accenture
당사는 Amazon SageMaker HyperPod 작업 거버넌스의 출시 파트너로서 AWS와의 파트너십을 확대하고 있습니다. AWS와의 협력을 통해 고객을 최신 기술 혁신으로 안내하는 동시에 생성형 AI 애플리케이션 비용을 절감할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능과 당사의 생성형 AI 프로젝트에 대한 경험을 결합하여 기업이 생성형 AI의 가치를 더욱 빠르게 실현하고 고객 경험을 개선하고 투자 수익을 높일 수 있도록 지원할 수 있습니다.
Jennifer Jackson, Global Lead for Accenture AWS Business Group & Senior Managing Director -
Slalom
Amazon SageMaker HyperPod 작업 거버넌스의 출시 파트너로서 AWS와 협력하게 되어 기쁘게 생각합니다. 당사는 AWS와 협력하여 이제 고객이 최신 기술 발전을 빠르게 채택하고 생성형 AI 애플리케이션의 비용을 절감하도록 지원할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능을 Slalom의 광범위한 AI 및 클라우드 경험과 통합함으로써 투자 수익률 향상과 함께 탁월한 고객 경험을 제공할 수 있습니다.
Jeff Kempiners, Managing Director of Slalom’s Amazon Center of Excellence(CoE) -
Rackspace Technology
SageMaker HyperPod 작업 거버넌스의 출시 파트너로서 AWS와 협력하게 되어 기쁘게 생각합니다. 우리는 함께 고객이 최신 기술 발전에 발맞추어 생성형 AI 애플리케이션의 비용을 절감하도록 지원할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능을 Rackspace의 심층적인 AI 및 클라우드 전문 지식과 결합하여 고객 경험을 혁신하는 동시에 투자 수익률을 개선할 수 있습니다.
Srini Koushik, Rackspace Technology President, AI, Technology & Sustainability