AWS 기술 블로그
AWS에서 NVIDIA Cosmos 월드 파운데이션 모델 실행하기
본 게시글은 “Running NVIDIA Cosmos world foundation models on AWS by Abhishek Srivastav, Brett Hamilton, Diego Garzon, Jathavan Sriram, and Shaun Kirby“를 번역한 글입니다.
자율주행 차량, 로봇공학, 스마트 팩토리를 위한 Physical AI 시스템을 개발하고 있다면, 충분한 양의 고품질 학습 데이터를 확보하는 것이 핵심 과제일 것입니다. 이 블로그에서는 NVIDIA Cosmos™ 월드 파운데이션 모델(WFM)을 Amazon Web Services(AWS)에 배포하여 대규모로 고품질 합성 데이터를 생성하는 방법을 소개하며, 각기 다른 사용 사례에 최적화된 두 가지 프로덕션 레디 아키텍처를 제시합니다.
Physical AI는 복잡하고 역동적인 환경에서 시스템이 스스로 인지하고, 감지하고, 추론하고, 자율적으로 행동할 수 있게 해줍니다. 그러나 이러한 모델의 사전 학습과 사후 학습에는 방대한 양의 고품질 시연 데이터가 필요합니다. 기존의 영상 데이터나 사람이 직접 생성한 시연 데이터만으로는 양이 턱없이 부족하고 비용도 너무 많이 듭니다. 합성 데이터 생성은 이러한 데이터 부족 문제를 극복하고, 물리적 AI를 한 단계 발전시켜 산업 전반의 비즈니스를 혁신할 수 있는 정교한 새로운 동작을 구현하는 데 핵심적인 역할을 합니다.
Cosmos 오픈 WFM은 시나리오 합성, 도메인 랜덤화, 공간 추론을 통해 자율주행차, 휴머노이드 로봇, 스마트 팩토리, 영상 분석 AI 에이전트 등 Physical AI 개발의 공백을 메워줍니다. Cosmos 모델의 성능을 최대한 끌어내려면 세밀하게 설계·구성된 확장 가능하고 비용 효율적인 관리형 인프라가 뒷받침되어야 합니다.
이 블로그에서는 Cosmos WFM을 AWS 인프라에 배포하기 위한 시스템 아키텍처와 구현 모범 사례를 소개합니다. 이를 통해 엔터프라이즈급 확장성, 보안, 성능, 비용 효율성을 확보하는 동시에 손쉬운 관리와 반복 가능한 배포를 실현할 수 있습니다.
Physical AI 데이터 파이프라인의 과제
대규모 언어 모델(LLM)은 수십 년간 축적된 디지털 텍스트, 서적, 웹사이트, 영상, 대화 등 인터넷에서 손쉽게 구할 수 있는 사실상 무한한 학습 데이터의 혜택을 누리고 있습니다. 이처럼 방대한 텍스트 데이터 덕분에 모델은 언어 패턴, 추론 능력, 지식 표현을 대규모로 학습할 수 있습니다. 그러나 Physical AI 시스템은 이와 근본적으로 다른 과제, 바로 ‘데이터 희소성 문제’에 직면해 있습니다.

인터넷 텍스트와 달리 물리적 상호작용 데이터는 희소합니다. 행동 복제(behavior cloning) 모방 학습과 같은 현재 기술을 활용하여 물체를 조작하거나, 환경을 탐색하거나, 정교한 작업을 수행하려면 실제 물리적 상호작용 과정에서 수집된 카메라 영상, 힘 측정값, 고유수용성 피드백 등의 실제 센서 데이터가 필요합니다. 이러한 데이터를 수집하는 과정은 비용이 많이 들고, 시간이 오래 걸리며, 위험을 수반하는 경우도 많습니다.
바로 이 지점에서 합성 데이터 생성이 필수적인 역할을 합니다. Cosmos WFM은 조명, 물체 질감, 카메라 각도, 움직임 궤적 등을 사실적으로 변화시켜 물리적으로 타당한 시나리오를 합성할 수 있습니다. 이를 통해 개발 주기를 단축하고, 모델의 견고성을 높이며, Physical AI의 경제적 실현 가능성을 확보할 수 있습니다.
Cosmos WFM 개요
Cosmos는 WFM을 활용해 Physical AI를 발전시키기 위해 설계된 플랫폼입니다. 그 핵심에는 Cosmos 오픈 WFM이 있으며, 이는 사전 학습된 멀티모달 모델로서 개발자가 이를 활용해 세계 상태를 영상과 Physical AI 추론의 형태로 생성하거나, 후속 학습을 통해 특화된 Physical AI 모델을 개발할 수 있습니다. Cosmos 플랫폼은 다음 세 가지 모델로 구성됩니다:
Cosmos Predict
이미지, 깊이 맵, 센서 데이터, 텍스트 프롬프트 등의 초기 조건으로부터 물리적·시간적으로 정확한 미래 상태를 영상 형태로 생성하는 오픈 월드 생성 파운데이션 모델입니다.
Cosmos Transfer
텍스트 프롬프트와 실제 데이터 또는 시뮬레이션에서 파생된 다양한 공간 제어 입력을 활용하여, Physical AI 개발을 위한 물리 법칙 기반의 영상 월드 상태를 생성하는 오픈 월드 간 변환 모델입니다. Transfer는 조명, 배경, 날씨, 색상, 질감 등을 다양하게 변화시켜 주어진 데이터셋을 확장하고 다양성을 높일 수 있습니다.
Cosmos Reason
Cosmos Reason은 Physical AI를 위한 오픈 소스, 커스터마이징 가능한 추론 비전 언어 모델(VLM)입니다. 이 VLM은 로봇과 비전 AI 에이전트가 사전 지식, 물리학, 상식을 활용하여 인간처럼 추론하고 실제 세계를 이해하며 행동할 수 있게 합니다. 이 모델은 Physical Reasoning 리더보드에서 1위를 차지했으며, 데이터 주석 및 비평, 로봇 계획 및 학습, 산업 전반의 비디오 분석 AI 에이전트 생성 등 다양한 사용 사례에 적용할 수 있습니다. Cosmos Reason은 비디오 분석 AI 에이전트 개발을 위한 NVIDIA Blueprint for Video Search and Summarization(VSS)에서 사용됩니다.
특정 도메인에 맞게 이러한 모델을 구축, 커스터마이징, 배포하기 위해 개발자는 NVIDIA Cosmos Cookbook을 활용할 수 있습니다. 이 쿡북은 추론, 사후 학습, 파인튜닝을 위한 단계별 워크플로, 기술 레시피, 구체적인 예제를 제공합니다.
AWS에서 Cosmos WFM을 실행하기 위한 아키텍처
AWS는 두 가지 배포 옵션을 제공합니다:
- 실시간 추론: 저지연, 대화형 애플리케이션을 위한 Amazon Elastic Kubernetes Service(Amazon EKS) 기반 NVIDIA NIM 마이크로서비스(조직이 어디서든 NVIDIA GPU에서 AI 모델을 실행할 수 있게 하는 가속 추론 마이크로서비스 세트)
- 배치 추론: 높은 처리량의 오프라인 워크로드를 위한 AWS Batch 기반 컨테이너화된 모델
NIM-on-EKS 패턴은 GPU 기반의 상시 파드를 활용하여 응답 지연 시간 최소화와 지속적인 가용성을 우선시하는 반면, AWS Batch 패턴은 작업 요청 시에만 일시적으로 컴퓨팅 자원을 프로비저닝하여 비용 효율성과 탄력적인 처리량을 최적화합니다. 두 아키텍처 간의 선택은 지연 시간 요구사항, 추론 작업량 패턴, 비용 제약 조건, 그리고 Physical AI 개발 파이프라인 전반에서의 통합 지점에 따라 달라집니다.
옵션 1: 실시간 추론 실행 – Amazon EKS 기반 Cosmos NIM 마이크로서비스
Amazon EKS 기반 Cosmos NIM 마이크로서비스 옵션은 엔터프라이즈급 오케스트레이션, 자동 스케일링, 간소화된 운영을 제공합니다. 이는 고가용성, 동적 스케일링, 클라우드 네이티브 통합이 필요한 프로덕션 배포에 권장되는 접근 방식입니다. Cosmos NIM 마이크로서비스는 최적화된 추론 엔진과 함께 Cosmos 모델을 패키징하여 수동 구성의 복잡성을 제거합니다. 이 패턴의 단계별 배포 가이드는 “Amazon EKS에서 NVIDIA NIM을 사용한 생성형 AI 애플리케이션 배포” 블로그 게시물을 참조하세요.
아키텍처 다이어그램

그림 2: Amazon EKS 기반 Cosmos NIM 마이크로서비스를 사용한 실시간 추론 참조 아키텍처
장점
- 엔터프라이즈급 오케스트레이션: Kubernetes는 선언적 구성, 자동화된 롤아웃 및 롤백, 파드 재시작을 통한 자가 복구, 수동 구성 없는 서비스 디스커버리를 제공합니다.
- 고가용성: 멀티 파드 배포로 단일 장애 지점이 없습니다. 교차 AZ 노드 배치로 가용 영역 장애에도 견딜 수 있습니다. 롤링 업데이트로 배포 중에도 서비스 가용성을 유지합니다.
- 간소화된 운영: 관리형 컨트롤 플레인으로 노드 유지보수가 불필요합니다. 자동화된 업그레이드로 클러스터 구성 요소를 최신 상태로 유지합니다. AWS 서비스와의 통합으로 통합 모니터링과 보안을 제공합니다.
옵션 2: 배치 추론 실행 – AWS Batch 기반 Cosmos 컨테이너
AWS Batch는 대규모 배치 컴퓨팅 워크로드를 실행하기 위한 완전 관리형 서비스로, 오프라인 추론 시나리오에서 Cosmos WFM을 배포하기에 이상적인 플랫폼입니다. 이 아키텍처를 활용하면 상시 인프라를 유지하지 않고도 합성 궤적, 장면 변형, 환경 예측 생성 등 대량의 Physical AI 데이터를 처리할 수 있습니다.
이 배포 방식은 AWS Batch가 오케스트레이션하는 컨테이너화된 Cosmos 모델을 활용하며, 작업 대기열의 수요에 따라 최적의 컴퓨팅 자원(GPU 지원 EC2 인스턴스)을 자동으로 프로비저닝합니다. Amazon S3 또는 Amazon EFS의 입력 데이터가 비디오 생성, 장면 완성, 물리 시뮬레이션 등의 추론 작업을 수행하는 배치 작업을 트리거합니다. 결과물은 EFS에 다시 저장되어, 로봇 학습 파이프라인이나 자율 시스템 개발 워크플로에서 후속 작업에 활용할 수 있습니다. Amazon CloudWatch와의 통합으로 포괄적인 모니터링을 제공하며, AWS IAM 정책으로 모델 아티팩트와 데이터 리포지토리에 대한 안전한 최소 권한 액세스를 보장합니다. 이 패턴의 단계별 배포 가이드는 워크숍을 참조하세요.
아키텍처 다이어그램

그림 3: AWS Batch 기반 Cosmos 컨테이너를 사용한 배치 추론 참조 아키텍처
장점
- 비용 최적화: 동적 확장을 통해 AWS Batch는 추론 작업이 실행될 때만 GPU 컴퓨팅 자원을 프로비저닝하고, 작업이 완료되면 인스턴스를 종료합니다. 이러한 사용량 기반 과금 모델은 유휴 인프라로 인한 비용을 제거하며, 데이터셋 증강이나 야간에 실행하는 합성 데이터 생성과 같은 간헐적 워크로드에 특히 유용합니다. 스팟 인스턴스를 함께 활용하면 컴퓨팅 비용을 더욱 절감할 수 있습니다.
- 운영 관리 간소화: 관리형 서비스로서 자동 작업 스케줄링, 자원 프로비저닝, 종속성 관리, 재시도 로직을 제공하여 인프라 복잡성을 줄여줍니다. 이를 통해 클러스터 운영이 아닌 모델 최적화에 집중할 수 있습니다.
- 대규모 데이터 생성을 위한 탄력적 처리량: AWS Batch는 단일 작업부터 수천 개의 병렬 추론 작업까지 원활하게 확장하여 Physical AI 학습을 위한 대규모 데이터셋을 처리합니다. 이러한 탄력적 용량은 가치 실현 시간을 단축하고, 로봇 정책 개발과 자율 시스템 검증의 빠른 반복을 지원합니다.
결론
AWS에서 Cosmos WFM을 실행하면 대규모로 강력한 Physical AI 기능을 제공합니다. 이 블로그에서는 서로 다른 조직의 요구사항과 제약 조건에 최적화된 두 가지 프로덕션 레디 아키텍처를 다루었습니다. AWS Model Marketplace의 Cosmos Reason 추론 비전 언어 모델을 살펴보고, 고급 시공간 이해와 물리적 상식을 활용하여 AI 프로젝트를 강화하는 방법을 알아보세요. 더 스마트한 로봇 계획, 비디오 분석, 자동화된 데이터 주석을 최첨단 효율성과 추론 능력으로 구현할 수 있습니다.
저자 참고: 이 기술 가이드는 Cosmos 플랫폼 기능, AWS 모범 사례, 대규모 모델 배포의 일반 원칙을 기반으로 합니다. 구체적인 구현 세부사항은 요구사항, 최신 NVIDIA NIM 마이크로서비스 릴리스, AWS 서비스 업데이트, 조직의 정책 및 제약 조건에 따라 달라질 수 있습니다. 최신 정보는 항상 NVIDIA와 AWS의 최신 문서를 참조하세요.