Sim-to-Real과 Real-to-Sim: 유능한 Physical AI를 가능하게 하는 핵심 엔진

이 글은 AWS Blog의 Sim-to-Real and Real-to-Sim: The Engine Behind Capable Physical AI by Dario Macagnano, Ignacio Sánchez, and Quinn Cheong 게시글을 번역한 글 입니다.

서론

Physical AI 시스템, 즉 현실 세계를 인지하고 추론하며 행동하는 로봇은 빠르게 발전하고 있습니다. Sim-to-Real 파이프라인은 이러한 발전의 핵심에 있습니다. 그러나 연구실 밖에서도 안정적으로 작동하는 모델을 만드는 것은 이 분야에서 가장 어려운 문제 중 하나로 남아 있습니다. 시뮬레이션에서 잘 작동하는 것과 실제 하드웨어에서 잘 작동하는 것 사이의 격차, 바로 여기에서 대부분의 프로젝트가 벽에 부딪힙니다.

이 글에서는 Sim-to-Real(Sim2Real)과 Real-to-Sim(Real2Sim)이 물리적 환경에서 작동하는 AI 모델을 구축하는 데 있어 왜 가장 핵심적인 기술이 되었는지 살펴봅니다. Sim-to-Real 격차가 왜 그토록 끈질기게 존재하는지, 최신 접근 방식이 어떻게 이 격차를 좁히는지, 그리고 현재 로보틱스를 견인하는 모델인 Vision Language Action 모델(VLA)이 왜 이 파이프라인의 품질에 전적으로 의존하는지를 다룹니다.

현실 세계 학습만으로는 확장이 불가능한 이유

로봇이 조작(manipulation) 작업을 수행하도록 학습시키려면 조명, 물체 위치, 표면 질감, 그리퍼 방향 등에 걸쳐 일반화하기 위해 일반적으로 수만 건의 시연 에피소드가 필요합니다. 이러한 에피소드를 실제 하드웨어에서 실행하는 것은 느리고, 비용이 많이 들며, 위험합니다.

이 제약은 보편적입니다. 물류 창고 자동화에는 보통 수천 가지 SKU 변형이 필요합니다. 자율주행 차량에는 수백만 가지 주행 시나리오가 필요합니다. 수술 로봇에는 윤리적으로 실제 환자에게 연습할 수 없는 시술이 필요합니다. 필요한 규모의 물리적 데이터 수집은 사실상 실현 불가능합니다.

시뮬레이션은 이 문제를 직접적으로 해결합니다. 물리적으로 정확한 가상의 안전한 환경에서, 비용의 극히 일부만으로, 보통 몇 자릿수 더 빠르게 학습 데이터를 생성합니다. 그러나 순수하게 시뮬레이션에서만 학습된 모델은 실제 세계에 배포될 때 실패하는 경향이 있습니다. 끊임없이 변화하고 항상 예측 가능하지 않은 실제 물리적 환경에서 작동해야 하기 때문입니다. 이러한 실패 양상을 Sim-to-Real 격차, 또는 현실 격차(Reality Gap)라고 합니다.

Sim-to-Real 격차

Sim-to-Real 격차란 시뮬레이션에서 학습된 모델과 동일한 모델이 물리적 하드웨어에 배포되었을 때의 성능 차이를 말합니다. 시뮬레이션은 근사(approximation)이기 때문에 이 격차가 존재합니다. 실제 카메라는 합성 렌더링이 기본적으로 재현하지 못하는 노이즈, 왜곡, 노출 변화를 유발합니다. 실제 표면에는 어떤 물리 엔진도 완벽하게 모델링하지 못하는 마찰 계수가 있습니다. 실제 액추에이터에는 백래시, 지연, 열 드리프트가 있습니다. 깨끗한 합성 데이터로 학습된 모델은 시뮬레이션의 완벽함에 과적합되며, 그렇게 학습된 행동은 현실로 전이되지 않습니다.

이 격차를 좁히려면 두 가지 상호 보완적인 전략이 필요합니다.

시뮬레이션 충실도(fidelity) 향상. NVIDIA Isaac Sim 과 같은 최신 물리 시뮬레이터는 불과 몇 년 전에는 불가능했던 수준의 정확도로 강체 역학, 변형체, 유체 거동, 접촉력을 모델링합니다. 경로 추적(path tracing)과 물리 기반 재질(PBR)을 사용한 포토리얼리스틱 렌더링은 실제 카메라 영상과 구별하기 점점 더 어려운 시각적 입력을 생성합니다.

그림 1: Amazon EC2 G6e.4xlarge 인스턴스에서 실행되는 NVIDIA Isaac Sim

도메인 랜덤화(Domain Randomization). 하나의 시뮬레이션을 완벽하게 정확히 만드는 대신, 많은 무작위 변형에 걸쳐 학습합니다. 조명, 텍스처, 물체 질량, 관절 마찰, 센서 노이즈 등을 다양하게 변화시켜, 정책(policy)이 어떤 조건에서도 안정적으로 동작하도록 학습시킵니다. 핵심은 단순한 데이터 양이 아니라, 시뮬레이션 파라미터의 충분한 다양성과 커버리지입니다. 이를 통해 신경망이 수많은 서로 다른 환경에서 관심 요소를 식별하는 법을 학습합니다.

그림 2: OpenAI가 시연한, 로봇이 루빅스 큐브를 푸는 모습. (출처: OpenAI, https://openai.com/index/solving-rubiks-cube/)

Real-to-Sim: 물리 세계를 학습 인프라로 전환하기

Real-to-Sim은 현실 세계 환경을 캡처하여 시뮬레이션에 즉시 사용 가능한 디지털 표현으로 변환하는 과정입니다. Sim2Real이 학습된 정책을 물리적 하드웨어로 전이하는 것이라면, Real2Sim은 해당 시뮬레이션이 하드웨어가 실제로 작동할 환경을 반영하도록 보장하는 것입니다.

이 기술은 여러 분야에 걸쳐 있습니다. LiDAR 스캐닝과 포토그래메트리는 3D 메시로 처리할 수 있는 포인트 클라우드를 생성합니다. Neural Radiance Fields(NeRF) 와 3D Gaussian Splatting은 일반 카메라 영상으로부터 장면의 기하학적 구조와 외관을 재구성하여, 물리 시뮬레이션 환경에 직접 투입할 수 있는 에셋을 만들어냅니다. 이는 시뮬레이션과 현실 사이의 성능 차이, 즉 sim-to-real gap을 줄이는 데 도움이 됩니다. 이러한 에셋은 다양한 조명 조건과 카메라 각도에서의 실제 외관과 느낌을 보존하는 기술을 사용하여 가상 세계로 가져옵니다.

Physical AI 학습 파이프라인에서 Real2Sim은 특히 원격 조종(teleoperation) 데이터 수집에서 중요한 역할을 합니다. 사람이 시연 인터페이스를 통해 물리적 로봇 팔을 조작하면, 시스템은 동시에 시뮬레이션에서 실행되는 디지털 트윈에 해당 움직임을 미러링합니다. 이를 통해 두 가지를 동시에 얻을 수 있습니다: 현실 세계에서 기록된 인간 수준의 시연 데이터셋과, 동일한 작업의 추가적인 합성 변형을 생성할 수 있는 동기화된 시뮬레이션 트레이스입니다.

그림 3: SO-101을 이용한 원격 조종

이 접근 방식은 모방 학습(imitation learning)의 핵심 병목 현상을 해결하므로 실질적인 가속기가 됩니다. 모방 학습이란 로봇이 보상 기반 시행착오가 아닌 인간의 시연을 관찰하여 학습하는 패러다임입니다. 모방 학습의 핵심은 고품질 인간 시연이며, Real2Sim 인프라는 하드웨어 비용 증가 없이 이를 대량으로 생성할 수 있게 해줍니다.

합성 데이터 생성과 필터링

현실 세계 및 원격 조종 캡처 데이터는 분포 정합 감독(distribution-aligned supervision)을 제공합니다. 즉, 학습 예제가 로봇이 배포 중 직면할 실제 조건(조명, 물체 유형, 카메라 각도)을 반영한다는 뜻입니다. 시뮬레이션은 규모를 제공합니다. 최신 Physical AI 학습 파이프라인은 이 둘을 결합합니다.

합성 데이터 생성이란 시뮬레이션 환경 내에서 레이블이 지정된 학습 예제를 대규모로 프로그래밍 방식으로 생산하는 것을 의미합니다. 조작 작업의 경우, 이는 다양한 물체 자세, 조명 조건, 그리퍼 구성에 걸쳐 파지(grasping) 시나리오의 수천 가지 변형을 렌더링하고, 각각에 그라운드 트루스 깊이, 세그멘테이션 마스크, 행동 레이블을 자동으로 어노테이션하는 것을 의미합니다.

양만으로는 충분하지 않습니다. 필터링 파이프라인은 자동화된 품질 지표와 학습된 판별기를 사용하여, 학습 세트에 투입되기 전에 분포를 벗어나거나 물리적으로 타당하지 않은 샘플을 제거합니다. 잘 구성된 파이프라인의 출력은 실제 시연의 물리적 기반, 합성 생성의 규모, 자동화된 필터링의 품질 관리를 갖춘 학습 데이터셋입니다.

VLM, VLA, 그리고 시뮬레이션 품질이 모델 성능을 결정하는 이유

Physical AI 팀들이 현재 로봇 제어를 위한 기반 계층으로 목표하고 있는 모델은 Vision Language Model(VLM)과 Vision Language Action 모델(VLA)입니다.

VLM은 대규모 이미지-텍스트 데이터로 학습된 멀티모달 기반 모델입니다. 광범위한 시각적 이해력, 즉 이미지에 무엇이 있는지 추론하고, 공간적 관계를 설명하고, 객체를 식별하며, 시각적 콘텐츠를 참조하는 언어 지시를 따르는 능력을 발달시킵니다. Amazon Bedrock 의 Amazon Nova, Anthropic Claude, Qwen, Mistral 등이 이 부류의 모델입니다. Amazon Bedrock은 기반 인프라를 관리하지 않고도 이러한 모델에 접근할 수 있는 관리형 API 레이어를 제공하며, 이는 이미 자체 인프라 복잡성을 갖고 있는 더 넓은 Physical AI 파이프라인에 시각적 추론을 통합할 때 중요합니다.

VLA는 VLM 패러다임을 물리적 행동으로 확장합니다. VLA는 텍스트 대신, 시각 관측과 언어 지시에 따라 로봇 동작(관절 위치, 속도 명령, 엔드이펙터 궤적 등)을 출력합니다. VLA의 학습 목표는 시각적 이해와 물리적 인과관계 모두에 기반한 정책을 학습하는 것입니다: 내가 보는 것과 요청받은 것을 고려할 때, 어떤 행동을 취해야 하는가?

시뮬레이션 데이터의 품질은 VLA가 명시적으로 학습되지 않은 작업에 얼마나 잘 일반화하는지를 직접적으로 결정합니다. 학습한 시각적 도메인(합성 렌더링)이 배포 도메인(현실 세계)과 일치하지 않으면, 학습된 정책은 무너지며 부자연스러운 모터 제어, 작업 실패, 정책 평가의 낮은 정확도와 같은 즉각적인 성능 문제에 직면합니다. 도메인 랜덤화는 고품질 기본 데이터셋을 기반으로 새로운 물체, 다양한 조명 조건과 색상의 환경 등으로 증강하여 더 많은 고품질 데이터셋을 생산함으로써 정책이 어떤 조건에서도 안정적으로 동작하도록 만듭니다. 고충실도 물리 시뮬레이션은 학습된 행동이 현실로 전이되었을 때 물리적으로 유효하게 동작하도록 보장합니다.

합성 데이터 파이프라인은 또한 팀들이 실제 시연만으로는 불가능한 작업 분포—드문 실패 모드, 극단적 구성, 아직 물리적으로 존재하지 않는 환경—에 대해 VLA를 학습시킬 수 있게 합니다.

산업 응용 사례

이 파이프라인이 가장 즉각적인 가치를 제공하는 산업들은 공통된 특성을 갖고 있습니다: 물리적 환경이 고위험이고, 변동이 크며, 직접 학습하기에 비용이 많이 들거나 위험하다는 것입니다.

제조업에서는 물류 창고 자동화 시스템이 SKU 변동, 포장 손상, 변화하는 바닥 레이아웃에 걸쳐 일반화해야 합니다. Real2Sim 캡처가 시뮬레이션 학습에 투입되고, Sim2Real 전이가 현실 세계 변동에도 견딜 수 있는 정책을 생산합니다.

자동차 산업에서는 자율주행 시스템이 일반적으로 현실 세계에서 안전하게 조성할 수 없는 수백만 가지 극단적 시나리오에 걸친 학습이 필요합니다.

헬스케어에서는 수술 및 환자 케어 애플리케이션이 엄격한 안전 및 규제 제약에 직면합니다. 고충실도 시뮬레이션은 환자 접촉과 독립적으로 모델 학습 및 검증을 진행할 수 있게 합니다.

에너지 및 유틸리티에서는 검사용 자율 로봇이 변전소, 파이프라인, 풍력 발전소에서 작동하며, 이곳에 사람을 보내는 것은 실질적인 물리적 위험을 수반합니다.

리테일에서는 자율 풀필먼트 시스템이 끊임없이 변화하는 레이아웃에서 방대한 SKU 다양성을 처리해야 합니다. 수천 가지 제품 변형을 다뤄야 하는 생산 환경에서 범용성을 확보하려면, 시뮬레이션을 통한 대규모 데이터 생성이 사실상 유일한 방법입니다.

앞으로의 방향

이 글에서는 Sim2Real/Real2Sim 파이프라인의 이유와 개념을 다루었습니다. 이것이 바로 Physical AI 모델이 현실 세계에서 작동할 수 있게 하는 핵심 엔진입니다. 이 시리즈의 다음 글에서는 LeRobot SO-101 AWS Sim2Real2Sim 레퍼런스 프로젝트에 대한 실습 중심의 심층 기술 안내를 통해 이를 구체화합니다. 이는 AWS 인프라, NVIDIA Isaac Sim, 공개적으로 이용 가능한 LeRobot 플랫폼을 사용하여 이러한 개념을 엔드투엔드로 구현하는 완전히 배포 가능한 아키텍처입니다.

시작하려면 기반 모델 접근을 위한 Amazon Bedrock을 살펴보고, 시뮬레이션 워크로드에 최적화된 Amazon EC2 G6e 인스턴스를 확인해 보세요.

AWS 기술 블로그