Amazon SageMaker HyperPod 고객
최고의 AI 스타트업과 모든 규모의 조직이 SageMaker HyperPod에서 대규모로 파운데이션 모델을 훈련하고 배포하고 있습니다.
WRITER
WRITER는 AWS 인프라로 LLM 훈련에 대한 접근 방식을 혁신했습니다. SageMaker HyperPod를 사용하여 원활한 다중 노드 분산 훈련을 지원했습니다. 이를 통해 WRITER의 연구팀이 업계 벤치마크 전반에서 성과를 개선하는 동시에 모델 개발에 집중할 수 있었습니다.
Salesforce
Salesforce의 AI 연구팀은 SageMaker HyperPod에서 격리된 노드를 고성능 GPU 패브릭으로 전환하여 훈련 인프라를 대규모로 신속하게 배포했습니다. HyperPod는 DevOps 오버헤드를 제거하고 고급 훈련 스택 레시피를 즉시 제공함으로써 모델 훈련 주기를 획기적으로 가속화하여 Salesforce가 고객을 위해 더 빠르게 혁신할 수 있도록 지원합니다. Amazon SageMaker HyperPod의 체크포인트 없는 훈련은 LLM 훈련 인프라를 혁신할 것입니다. 이 기술을 사용하면 학습 진행 상황을 잃거나 체크포인트로 돌아갈 필요 없이 몇 분 안에 장애를 복구할 수 있어 Salesforce의 AI 연구팀이 워크로드와 로드맵을 가속화할 수 있습니다. 탄력적 훈련을 통해 개발 주기를 방해하지 않으면서도 사용 가능한 유휴 GPU를 자동으로 흡수하여 워크로드 규모를 조정하고 리소스를 원활하게 확보할 수 있습니다. 무엇보다도 사용 가능한 컴퓨팅에 맞춰 작업을 수동으로 재구성하는 데 소요되는 시간을 절약할 수 있고, 그 시간을 혁신에 재투자할 수 있습니다.
Luma AI
프론티어 시각적 AI 모델 훈련에는 막대한 컴퓨팅 성능과 원활한 인프라가 필요합니다. Luma AI는 최대 규모의 LLM보다 1,000배 더 많은 데이터로 훈련하므로 확장 가능한 고급 솔루션이 필요합니다. SageMaker HyperPod는 GPU, 네트워킹 및 스토리지가 완벽한 조화를 이루며 계속 작동하는 데 필요한 신뢰성, 성능 및 효율성을 제공합니다. HyperPod를 통해 AI 개발자는 복잡한 모델을 더 빠르게 훈련하고, 리소스를 최적화하고, 최첨단 AI를 자신 있게 시장에 출시할 수 있습니다.
Amazon Nova
Amazon AGI 팀은 최적화된 인프라, 고속 스토리지, 통합 모니터링 및 관찰성 도구를 사용하여 SageMaker HyperPod에서 Amazon Nova 파운데이션 모델을 훈련했습니다. SageMaker HyperPod는 대규모 분산 클러스터 전반에서 탄력적이고 효율적이며 확장 가능한 모델 개발을 가능하게 합니다.
Hugging Face
Hugging Face는 SageMaker HyperPod를 사용하여 StarCoder, IDEFICS, Zephyr 등 새로운 오픈 파운데이션 모델을 만들었습니다. SageMaker HyperPod의 용도에 맞게 구축된 탄력성 및 성능 기능 덕분에 개방형 과학 팀은 인프라를 관리하는 대신 파운데이션 모델 구축 방식을 혁신하고 중요한 개선 사항을 발표하는 데 집중할 수 있었습니다.
Perplexity AI
Perplexity는 인용문 형태로 제공된 참고 문헌을 제시하면서 질문에 답변하는 대화형 답변 엔진을 구동하는 LLM을 구축하고 미세 조정했습니다. SageMaker HyperPod를 사용한 덕분에 모델 훈련을 40% 더 빠르게 수행하고 실험을 두 배 빠르게 실행할 수 있게 되었습니다.
Articul8 AI
Articul8은 HyperPod를 통해 생산성을 35% 높이고 GenAI 운영을 스케일 업했습니다. SageMaker HyperPod의 자동화된 태스크 우선순위 지정 및 리소스 할당을 통해 GPU 사용률이 크게 향상되어 훈련 및 미세 조정에서 추론에 이르기까지 다양한 태스크를 최적화하여 유휴 시간을 줄이고 모델 개발 프로세스를 가속화할 수 있었습니다. SageMaker HyperPod 관찰성 기능을 사용하여 클릭 한 번으로 지표 수집 및 시각화 시스템을 배포할 수 있어, 팀이 수동으로 설정하는 데 시간을 허비할 필요가 없게 되었고 클러스터 관찰성 워크플로와 인사이트가 개선되었습니다.
Coastal Carbon
EvolutionaryScale
Latent Labs
Latent Labs는 수백 또는 수천 개의 AI 액셀러레이터로 구성된 클러스터에서 훈련, 미세 조정 또는 추론(모델을 사용하여 새 데이터를 기반으로 예측)과 같은 모델 개발 태스크 규모를 신속하게 조정하기 위해 SageMaker HyperPod를 선택했습니다. AI 모델을 통해 새로운 생물학적 서열(예: DNA)을 보다 정확하고 쉽게 생성하고 테스트할 수 있는 능력은 실제 세계에서의 제조 및 배포 속도를 높일 것입니다.
TwelveLabs
TwelveLabs는 기업이 AI 기반 비디오 인텔리전스를 사용하고 상호 작용하는 방식을 혁신하고 있습니다. 모델을 더 효율적으로 훈련하고 규모를 조정하기 위해 SageMaker HyperPod를 사용합니다. 탄력성과 분산형 교육 인프라를 통해 신속하게 GPU를 가동하고 가능한 한 빨리 모델을 훈련할 수 있습니다.
Arcee AI
Arcee AI는 기업이 법률 문서 분석과 같은 특수 태스크를 수행하는 데 도움이 되는 도메인 적응형 소규모 언어 모델(SLM)을 개발합니다. GPU 간에 훈련 워크로드를 효율적으로 분산시켜 모델 훈련 시간을 40% 단축하기 위해 SageMaker HyperPod를 사용합니다.
Intercom
Intercom에서는 Fin 개선을 위해 지속적으로 새로운 모델을 훈련하고 있으며 체크포인트 없는 교육을 파이프라인에 통합하게 되어 매우 기쁩니다. 이를 통해 수동으로 체크포인트를 복구하지 않아도 됩니다. 탄력적인 훈련과 결합하면 인프라 비용을 낮추면서 Fin에 개선 사항을 더 빠르게 제공할 수 있을 것으로 예상됩니다.
Bayer
Bayer은 SageMaker HyperPod를 사용하여 불과 몇 달 만에 새로운 FM을 훈련하고 활용했습니다. Bayer의 과학팀은 이제 방대한 양의 생체의학 영상 데이터를 처리하고, 정교한 기계 학습(ML) 모델을 훈련하고, 표현형 시그니처를 기반으로 유망한 신약 후보 물질을 식별할 수 있습니다. Bayer이 혁신을 계속함에 따라 AWS와의 협업은 더 빠르고 효율적인 제약 연구 개발의 길을 열어주고 있습니다.
Sony Honda Mobility
Sony Honda Mobility는 AFEELA Intelligent Drive를 개선하기 위해 MLOps 파이프라인 내에서 모델 훈련에 SageMaker HyperPod를 사용하고 있습니다. “HyperPod의 즉시 사용 가능한 관찰성 기능은 클러스터, 노드, 태스크 등 여러 차원에 걸쳐 포괄적인 지표 세트를 제공합니다. 태스크 수준 집계를 통해 더 심층적이고 사전 구성된 상태 및 성능 인사이트를 얻을 수 있기를 기대합니다.”
Motoi Kataoka, Sony Honda Mobility Network Service Development Division MLOps Engineer
Thomson Reuters
Thomson Reuters는 30년 이상 AI 개발을 선도해 왔으며, 고객이 신뢰할 수 있는 정보에 더 쉽게 액세스하여 결과를 더 빠르게 제공할 수 있도록 지원하는 의미 있는 솔루션을 제공하기 위해 최선을 다하고 있습니다. 생성형 AI의 혁신을 가속화하기 위해 LLM 제공업체와 협력하는 것 외에도 고유한 독점 콘텐츠와 인적 전문 지식을 활용하여 맞춤형 모델을 보다 효율적으로 훈련하는 방안을 모색하고 있습니다. SageMaker HyperPod의 분산 교육 라이브러리는 대규모 모델 교육 성능을 개선하는 데 도움이 됩니다. 또한 복원력 기능을 통해 인프라를 모니터링하고 관리할 때 시간을 절약할 수 있습니다. SageMaker HyperPod에서 기본 모델을 훈련하면 시장 출시 속도가 빨라지고 고객에게 양질의 솔루션을 빠르게 제공할 수 있습니다.
Joel Hron, Thomson Reuters AI and Labs Head 및 John Duprey, Thomson Reuters Labs Distinguished Engineer
Stability AI
선도적인 오픈 소스 생성형 AI 회사로서 우리의 목표는 현대 AI의 접근성을 극대화하는 것입니다. 우리는 수백억 개의 파라미터로 파운데이션 모델을 구축하고 있는데, 이를 위해서는 최적화된 훈련 성과 규모를 조정할 수 있는 인프라가 필요합니다. SageMaker HyperPod의 관리형 인프라 및 최적화 라이브러리를 통해 훈련 시간과 비용을 50% 이상 줄일 수 있습니다. 이를 통해 모델 훈련의 탄력성과 성능이 향상되어 최첨단 모델을 더 빠르게 구축할 수 있습니다.
Emad Mostaque, Stability AI Founder 겸 CEO
Recursal AI
전체 프로세스가 간소화되었습니다. SageMaker HyperPod를 사용하면 하드웨어 장애 발생 시 마지막으로 저장한 체크포인트에서 훈련 작업을 식별하고 자동으로 복구하는 클러스터 복원 기능을 활용할 수 있습니다. Kubernetes를 공통 스레드로 사용하여 애플리케이션, 추론, 훈련 등 매우 다양한 워크로드를 실행합니다. 저희의 경우 SageMaker HyperPod가 포함된 Amazon EKS는 노드를 클러스터에 넣기만 하면 바로 작동합니다.
Nathan Wilce, Recursal Infrastructure/Data Lead
Hippocratic AI
Hippocratic AI는 의료 분야를 위한 최초의 안전 중심 대규모 언어 모델(LLM)을 개발하는 AI 회사입니다. Hippocratic AI는 기본 LLM과 수퍼바이저 모델을 훈련시키기 위해 수요는 많지만 확보하기 어려운 강력한 컴퓨팅 리소스가 필요했습니다. Amazon SageMaker HyperPod의 유연한 훈련 계획을 통해 이 회사는 Amazon Elastic Compute Cloud(Amazon EC2) P5 인스턴스를 더 쉽게 활용할 수 있었습니다. 또한 Hippocratic AI는 Grafana와 같은 AWS 서비스를 활용하여 중요한 GPU 사용률 지표도 추적하고 있습니다. Hippocratic AI는 Amazon EC2 P5 인스턴스를 사용하여 모델 훈련 속도를 4배 높이고 수백 가지 사용 사례를 수용할 수 있도록 솔루션 규모를 조정했습니다. 그에 따라 필요한 컴퓨팅 리소스를 확보하고 모델을 빠르게 훈련시킬 수 있었습니다.
NinjaTech
무제한 생산성을 위한 올인원 SuperAgent를 제공하는 생성형 AI 회사인 NinjaTech AI는 Amazon SageMaker HyperPod의 유연한 훈련 계획을 사용하여 Lama 3.1 405B 모델을 비롯해 다양한 내부 모델의 미세 조정을 가속화하여 모델 훈련 비용을 줄이고 프로세스를 자동화했습니다. 이 회사는 SuperAgent 기술을 지원하는 다양한 AI 에이전트에 액세스하려는 사용자에게 원활한 경험을 제공하는 것을 목표로 합니다. 이를 위해서는 사용자 의도를 자동으로 예측하고 어떤 AI 에이전트가 이에 적합한지 판단할 수 있는 모델이 필요했습니다. 이 메커니즘은 LoRA 미세 조정 라운드마다 1,000만 개에서 1억 개의 토큰을 포함하면서 고객 피드백과 새로운 기능을 반복적으로 통합하여 모델을 자주 업데이트해야 했습니다. 스타트업에게 고성능 컴퓨팅 리소스를 확보하고 운영하는 것은 가파른 비용과 대역폭 증가 문제로 인해 어려운 일입니다. 특히 가속화된 컴퓨팅 외에도 빠른 네트워크와 빠른 스토리지가 필요한 다중 노드 클러스터의 경우에는 더욱 그렇습니다. 또한 모델 다운로드, 분산 훈련, 체크포인트, 모니터링, 자동 수정, 병합, 양자화 등의 단계를 포함하는 훈련 프로세스에는 시간이 많이 걸립니다. HyperPod의 유연한 훈련 계획을 통해 이 회사는 훈련 실행 전에 특정 컴퓨팅 및 일정 요구 사항을 충족하는 신뢰할 수 있으며 저렴한 컴퓨팅을 제공받으면서 효율적인 모델 훈련을 보장할 수 있었습니다.
OpenBabylon
많이 사용되지 않는 언어에 맞춰 대규모 언어 모델을 사용자 지정하는 AI 회사인 OpenBabylon의 개발자 및 데이터 과학자는 몇 달 동안 SageMaker HyperPod의 유연한 훈련 계획을 사용해서 GPU 리소스 활용을 간소화하여 대규모 실험을 실행해 왔습니다. 이 회사는 다중 노드 SageMaker HyperPod의 분산 훈련 기능을 사용하여 100개의 대규모 모델 훈련 실험을 수행하여 영어-우크라이나어 번역에서 최첨단 결과를 달성했습니다. 이러한 혁신을 제시간에 비용 효율적으로 실현했으며, 이는 SageMaker HyperPod가 복잡한 프로젝트를 제시간에 예산에 맞게 성공적으로 제공할 수 있다는 것을 드러냅니다.
H.AI
“Amazon SageMaker HyperPod 덕분에 종전과 동일한 고성능 컴퓨팅을 사용하여 에이전틱 AI 플랫폼의 기반이 되는 파운데이션 모델을 구축하고 배포할 수 있었습니다. 훈련 단계에서 추론 단계로 원활하게 전환할 수 있게 되면서, 워크플로가 간소화되고 프로덕션 단계까지 소요되는 시간이 단축되었으며 라이브 환경에서 일관된 성능이 보장되었습니다. HyperPod는 저희가 더 빠른 속도와 효율성으로 실험 단계에서 벗어나 실제 성과를 실현할 수 있게 해주었습니다.”
Laurent Sifre, H.AI Co-founder 겸 CTO
Datology AI
“Amazon SageMaker HyperPod의 원클릭 관찰성 솔루션을 사용하게 되어 매우 기쁩니다. 고위 직원들에게는 값비싼 GPU 리소스를 어떻게 활용하고 있는지에 대한 인사이트가 필요했습니다. 사전 구축된 Grafana 대시보드를 사용하면 모니터링 인프라를 유지 관리하지 않고도 태스크별 GPU 사용률부터 파일 시스템(FSx for Lustre) 성능에 이르기까지, 중요한 지표에 대한 즉각적인 가시성을 통해 필요한 정보를 정확히 얻을 수 있습니다. Prometheus Query Language의 성능을 높이 평가하는 사람 중 한 명으로서, 저는 인프라 문제에 대한 걱정 없이 직접 쿼리를 작성하고 맞춤형 지표를 분석할 수 있다는 점이 마음에 듭니다.”
Josh Wills, Datology AI 기술 팀원
Splash Music
“SageMaker HyperPod와 Trainium을 통해 우리 연구진은 커뮤니티가 생성하는 속도만큼 빠르게 실험합니다. 단순히 음악 트렌드를 따라가는 데 그치지 않고, 트렌드를 선도하고 있습니다.”
Randeep Bhatia, Splash Music Chief Technology Officer
Amazon SageMaker HyperPod 파트너
심층적인 기술 지식과 검증된 고객 성공 사례를 보유한 AWS 파트너와 함께 혁신을 주도하고 더 큰 비즈니스 가치 창출
Accenture
“당사는 Amazon SageMaker HyperPod 태스크 거버넌스의 출시 파트너로서 AWS와의 파트너십을 확대하고 있습니다. AWS와의 협력을 통해 고객을 최신 기술 혁신으로 안내하는 동시에 생성형 AI 애플리케이션 비용을 절감할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능과 당사의 생성형 AI 프로젝트에 대한 경험을 결합하여 기업이 생성형 AI의 가치를 더욱 빠르게 실현하고 고객 경험을 개선하고 투자 수익을 높일 수 있도록 지원할 수 있습니다.”
Jennifer Jackson, Accenture AWS Business Group Global Lead 겸 Senior Managing Director
Slalom
“Amazon SageMaker HyperPod 태스크 거버넌스의 출시 파트너로서 AWS와 협력하게 되어 기쁘게 생각합니다. 당사는 AWS와 협력하여 이제 고객이 최신 기술 발전을 빠르게 채택하고 생성형 AI 애플리케이션의 비용을 절감하도록 지원할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능을 Slalom의 광범위한 AI 및 클라우드 경험과 통합함으로써 투자 수익률 향상과 함께 탁월한 고객 경험을 제공할 수 있습니다.”
Jeff Kempiners, Slalom’s Amazon Center of Excellence(CoE) Managing Director
Rackspace Technology
“SageMaker HyperPod 태스크 거버넌스의 출시 파트너로서 AWS와 협력하게 되어 기쁘게 생각합니다. 우리는 함께 고객이 최신 기술 발전에 발맞추어 생성형 AI 애플리케이션의 비용을 절감하도록 지원할 수 있습니다. SageMaker HyperPod의 중앙 집중식 거버넌스 기능을 Rackspace의 심층적인 AI 및 클라우드 전문 지식과 결합하여 고객 경험을 혁신하는 동시에 투자 수익률을 개선할 수 있습니다.”
Srini Koushik, Rackspace Technology AI, Technology & Sustainability President
오늘 원하는 내용을 찾으셨나요?
페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주십시오.