한때 로봇은 그냥 팔만 움직이는 철로 된 기계였다.
‘산업용 로봇’이라는 이름 아래, 그들은 공장에서 하루 종일 같은 동작만 반복했다. 그 시절 로봇에게 세상은 정해진 궤도와 명령어 속 좁은 공간이었다. “움직여라” 하면 움직이고, “멈춰라” 하면 멈추는, 철저히 인간의 통제 아래 있는 도구였다.
그런데 어느 순간, 로봇이 “명령을 기다리지 않고 스스로 반응하는 존재”로 바뀌기 시작했다. 바로 피지컬 AI(Physical AI)의 시대가 열린 것이다.
피지컬 AI 시대의 승부는 더 이상 데이터를 얼마나 많이 가졌느냐가 아니라, 얼마나 다양한 물리적 경험을 몸으로 축적했느냐로 결정된다. Genie 3, Cosmos, GR00T의 로봇 파운데이션 경쟁은 단순한 시뮬레이션 기술의 진보를 넘어, 실제 현실을 견디고 학습하는 AI 지능의 본질을 바꾸고 있다.
■ AI가 몸을 가지면, 학습의 본질이 달라진다
한때 인공지능은 텍스트와 이미지 속에서만 학습했다. 의미를 추론하고, 언어를 예측하며, 정적인 세계 안에서 자랐다. 그러나 로봇이 AI를 품으면서 새로운 지능의 형태가 나타났다.
몸을 가진 AI, 즉 임바디드 AI(Embodied AI)는 환경과 상호작용하며 실시간으로 배우고, 그 경험을 토대로 판단하고 행동한다. 이 지능은 의미가 아닌 마찰을, 지식이 아닌 접촉을 통해 성장한다.
이제 경쟁은 바뀌었다. ‘얼마나 많은 데이터를 가지고 있느냐’보다, ‘얼마나 다양한 상황을 몸으로 겪었느냐’가 지능의 우열을 나눈다. 이 변화의 최전선에는 세 가지 상징적 기술이 있다.
Genie 3, Cosmos, GR00T. 세 모델 모두 로봇 AI의 미래를 향해 달리고 있지만, 그들이 배운 세계는 서로 다르다.
■ Genie 3, 가상 세계를 실시간으로 창조하다
구글 딥마인드(DeepMind)의 Genie 3는 ‘AI가 세상 속에서 움직이며 상호작용할 수 있도록 만드는 가상의 세계’를 만든다. 텍스트 프롬프트 하나만으로도 실시간 상호작용 가능한 3D 환경을 생성하며, 장면의 일관성과 지속성, 즉 ‘기억’을 유지할 수 있다는 점이 핵심이다.
하지만 Genie 3가 학습하는 세계는 시뮬레이션이다. 카메라 센서의 노이즈도, 마찰도, 손의 떨림도 없는 세계다. 그래서 Genie 3는 AI의 계획과 추론, 예측력을 키우는 데는 강력하지만, 현실에서의 작동성이나 접촉 경험은 제한적이다.
■ Cosmos와 GR00T, ‘실행 가능한 현실’을 지향하다
반면 NVIDIA는 AI를 단순히 가상 공간에 두지 않는다. Cosmos는 디지털 트윈 기반의 월드 파운데이션 모델로, 실제 환경과 유사한 시뮬레이션을 만들어 로봇이 훈련하고 실패하며 배우는 공간을 제공한다.
이와 함께 등장한 GR00T는 실제 휴머노이드 로봇에 탑재 가능한 비전-언어-행동(Vision-Language-Action, VLA) 파운데이션 모델이다. 인간의 언어 명령을 해석해 실제 행동으로 전환하며, 센서 데이터를 바탕으로 환경의 마찰, 시간 지연, 불확실성까지 계산한다.
즉, Cosmos가 현실에 가까운 세계를 훈련 공간으로 제공한다면, GR00T는 그 세계 안에서 실제로 움직이는 주체다. 두 모델은 하나의 파이프라인으로 연결된다. 가상에서 학습하고, 현실에서 검증하는 구조. 이 구조야말로 임바디드 AI가 구현하는 ‘몸으로 배우는 지능’의 전형이다.
■ 임바디드 AI 시대, 경쟁은 ‘세계’가 아니라 ‘몸’에서 벌어진다
임바디드 AI는 더 이상 상상 속 기술이 아니다.
이제 AI가 어떤 세계에서 훈련받았는가보다, 어떤 접촉을 경험했는가가 더 중요하다. Genie 3는 놀라운 시뮬레이션 세계를 만들지만, 그곳에선 로봇이 넘어지지도, 부딪히지도 않는다. 반면 Cosmos와 GR00T는 실제 현실의 마찰과 에러, 피드백을 경험하며 스스로를 개선한다.
즉, AI의 본질은 ‘의미를 해석하는 지능’에서 ‘세계를 견디는 지능’으로 옮겨가고 있다.
그렇기에 우리는 이 질문을 던져야 한다.
“당신의 AI는 얼마나 자주 넘어져봤는가?”
■ 실전에서 살아남는 것은 ‘데이터’가 아니라 ‘데이터를 뽑을 수 있는 몸’이다
Genie 3는 시뮬레이션에서 지능을 훈련하는 모델, Cosmos는 현실을 닮은 세계를 설계하는 플랫폼, GR00T는 그 안에서 행동하는 실제 로봇 지능이다.
결국, 임바디드 AI는 이 세 가지 축을 유기적으로 통합하는 구조로 진화하고 있다.
AI가 세상을 ‘의미’로만 읽던 시대는 끝났다. 이제 AI는 세상을 ‘감각’으로 배우고 ‘행동’으로 증명해야 한다.
그리고 이 가상-현실-행동의 파이프라인을 얼마나 정교하게 구축하느냐가 미래 로봇 산업의 주도권을 결정할 것이다.
테크인싸 칼럼니스트 tlswnqor@naver.com