NVIDIA Cosmos 3 — 세계 최초 오픈 물리 AI 옴니모델 공개
텍스트·이미지·비디오·음향·행동을 하나로 묶은 Mixture-of-Transformers, 로봇 AI 표준 전쟁의 새 판을 깐다

"또 하나의 멀티모달 모델"이 아닌 이유
AI 경쟁은 2025년부터 서서히 고원에 올라섰다. GPT-5, Gemini Ultra, Claude 4가 벤치마크에서 수렴하고 텍스트·코드 영역에서 우위를 점해도 한계 수익이 빠르게 줄고 있다. 그 시점에 NVIDIA는 전혀 다른 공간을 겨눈 패를 꺼냈다.
NVIDIA Newsroom에 따르면 2026년 6월 1일 GTC 타이페이에서 공개된 Cosmos 3는 텍스트·이미지·비디오·음향·행동 궤적(action trajectory)을 단일 Mixture-of-Transformers 아키텍처로 처리한다. 강조해야 할 단어는 '행동 궤적'이다. 이 모달리티가 들어가는 순간 모델의 용도는 콘텐츠 생성에서 로봇 제어 정책 학습으로 확장된다. 언어 모델이 텍스트를 예측하듯, Cosmos 3는 물리 공간에서 다음 동작을 예측한다.
아키텍처가 말하는 것: 왜 '옴니'인가
HuggingFace 기술 딥다이브에서 확인한 바로는, Mixture-of-Transformers(MoT) 구조가 각 모달리티 전문가(expert)를 동적으로 라우팅한다. 이는 기존 멀티모달 모델이 채택하는 공통 인코더+모달리티별 어댑터 방식과 결이 다르다. 각 모달리티가 독립된 전문가 집합을 가지면서도 공유 라우터가 교차 학습을 가능하게 한다.
실제 배포는 Nano(8B+8B)와 Super(32B+32B) 두 변형으로 이루어졌다. 여기서 '+' 표기가 의미심장하다. 비전 인코더와 언어/행동 디코더가 사실상 이중 구조로 분리돼 있다는 신호다. 엣지 디바이스(Nano)부터 데이터센터급 추론(Super)까지 단일 아키텍처 가족으로 커버하는 포트폴리오 전략이 명확히 읽힌다.
오픈소스화의 계산: 생태계 표준 선점
NVIDIA가 이 모델을 HuggingFace에 오픈웨이트로 올린 결정은 기술보다 전략으로 읽어야 한다.
HPCwire가 분석하듯 Runway·Skild AI·Black Forest Labs 등이 참여하는 NVIDIA Cosmos Coalition 결성은 이 판의 의도를 드러낸다. 파인튜닝-추론-배포 파이프라인이 Cosmos 3 위에 쌓이면, 로봇 스타트업 생태계는 자연스럽게 NVIDIA 인프라(Isaac, Jetson, H시리즈 GPU)에 의존하게 된다. 모델은 무료, 컴퓨트는 유료. 구글이 Android를 무료로 뿌린 후 Play Store와 클라우드로 수익을 쌓은 방정식과 구조가 동일하다.
경쟁자 구도도 달라진다. Google DeepMind의 Gemini Robotics, Figure AI·1X가 자체 개발 중인 VLA(Vision-Language-Action) 모델은 폐쇄형이다. Cosmos 3의 오픈웨이트 배포는 비싼 독점 모델을 쓸지, 검증된 오픈 모델 위에 차별화를 쌓을지 스타트업에게 선택지를 주며 현재의 LLaMA vs GPT 구도가 물리 AI에서 재현될 가능성을 높인다.
로봇 훈련 사이클 단축: 주장의 근거와 한계
NVIDIA는 로봇·자율주행 훈련 사이클이 월 단위에서 일 단위로 단축된다고 주장한다. 이 주장의 근거는 시뮬레이션-현실 격차(sim-to-real gap) 축소다. Cosmos 3가 수십억 건의 실세계 비디오와 행동 궤적으로 학습됐다면, 시뮬레이터가 생성하는 합성 데이터의 물리적 신뢰도가 높아지고 현실 로봇에 전이 시 추가 파인튜닝 비용이 줄어든다.
단, 이 주장은 아직 외부 검증이 없다. 수십억 건 샘플의 품질·다양성·수집 방식이 공개되지 않았고, sim-to-real 성능은 태스크·하드웨어·환경에 따라 편차가 크다. 지금 단계에서 "훈련 사이클 일 단위 단축"은 내부 벤치마크 기반 마케팅 클레임으로 보아야 한다.
전망: 다음 18개월이 결정한다
Cosmos 3의 성패는 모델 자체보다 Coalition이 만들어낼 파인튜닝 레이어의 다양성에 달렸다. 오픈소스 생태계는 핵심 모델이 아니라 그 위에 쌓이는 응용의 밀도로 표준이 결정된다. 앞으로 6개월 내 자율주행·산업용 로봇 분야에서 Cosmos 3 기반 공개 체크포인트가 얼마나 축적되는지가 지표다.
한편 이득을 보는 측은 명확하다. 소규모 로봇 스타트업, 연구실, 시뮬레이터 스타트업은 베이스라인 확보 비용이 0으로 수렴한다. 손해를 보는 측은 폐쇄형 Physical AI 모델로 차별화를 추구하던 플레이어들이다. Cosmos 3가 '충분히 좋은 공짜 기준선'이 되면, 독점 모델의 가격 프리미엄 정당화가 훨씬 어려워진다.
LLM 시대가 "누가 가장 잘 읽고 쓰는가"의 경쟁이었다면, 물리 AI 시대는 "누가 세계를 가장 잘 시뮬레이션하는가"의 경쟁이다. NVIDIA는 그 경쟁의 출발선을 오픈소스로 그어버렸다.
출처
- NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI — NVIDIA Newsroom
- Cosmos 3 for Physical AI — Technical Deep Dive — HuggingFace Blog
- NVIDIA Launches Cosmos 3 the Open Frontier Foundation Model for Physical AI — HPCwire / AIwire
댓글 0
첫 댓글을 남겨보세요.
