영상 100만 시간 학습한 AI, 언어 없이도 행동 예측…로봇·자율주행·AR까지 정조준

메타(Meta Platforms)가 또 한 번 인공지능(AI) 분야에 중대한 변곡점을 제시했다. 메타는 최근 영상 기반 월드모델의 최신 버전 ‘브이제파2(V-JEPA 2)’를 공개하며, 언어가 아닌 ‘현실 그 자체’를 이해하고 계획할 수 있는 AI 시대가 시작됐다. 이번 모델은 100만 시간 이상의 영상 데이터를 자가지도학습(Self-Supervised Learning) 방식으로 훈련하며, AI의 물리 세계 인식 능력을 획기적으로 끌어올렸다.

메타 V-JEPA 2 소개영상에서 물체를 집었다 새로운 위치에 놓는 것을 시연하고 있다.  사진=메타 홈페이지
메타 V-JEPA 2 소개영상에서 물체를 집었다 새로운 위치에 놓는 것을 시연하고 있다.  사진=메타 홈페이지

언어가 아닌 ‘세상’을 모델링한다

V-JEPA 2는 메타의 독자 구조인 JEPA(Joint Embedding Predictive Architecture)를 기반으로 하며, 약 12억 개 파라미터로 구성된다. 핵심은 비디오 기반 추론과 제로샷 플래닝(zero-shot planning) 기능이다. 이는 학습되지 않은 환경이나 객체를 만나도, 별도의 학습 없이 AI가 스스로 예측하고 계획을 수립할 수 있다는 뜻이다.

즉, 기존의 언어 중심 LLM이 ‘질문에 답하는 AI’였다면, V-JEPA 2는 세상을 직접 보고 예측하고, 행동하는 AI에 가깝다. 예컨대, 테이블에서 떨어지는 공을 보고 바닥에 닿을 것임을 스스로 상상할 수 있다.

로봇·자율주행·AR까지…상업화 포석도 뚜렷

메타는 V-JEPA 2의 기술력을 산업 현장에 빠르게 적용 중이다. 대표적 예는 로봇 픽앤플레이스 작업이다. 로봇이 목표 이미지와 현재 상태를 비교해, 물체를 집고 옮기는 경로를 스스로 계획하는 데 성공했다. 학습되지 않은 사물·환경에서도 65~80%의 성공률을 기록하며, 상용화를 향한 가능성을 보여줬다.

뿐만 아니라 자율주행차의 보행자 예측, 물류 자동화, 제조현장 로봇, AR/VR 물리 인터랙션 구현 등 광범위한 활용 가능성이 언급된다. 메타는 해당 기술을 자사 하드웨어 플랫폼인 Quest, Orion 등과도 연동해 엔터프라이즈 AI 및 클라우드 인프라 확장까지 포석을 두고 있다.

속도·효율성 모두 잡았다

성능 역시 놀랍다. 메타에 따르면 V-JEPA 2는 일부 벤치마크에서 엔비디아의 Cosmos 모델 대비 최대 30배 빠른 추론 속도를 보였다. 비디오 클립만으로도 3D 인과관계를 추론할 수 있어, 데이터 효율성 측면에서도 강점을 지닌다.

이를 위해 메타는 새로운 벤치마크 데이터셋인 IntPhys 2, CausalVQA 등을 공개하며, 월드모델 성능 측정을 위한 기준도 제시했다. 이는 단순 연구용을 넘어, 생태계 리더십 확보 전략의 일환으로 해석된다.

오픈소스 전략 과 기술표준 선점 전략

특기할 점은 이번 V-JEPA 2가 오픈소스로 공개됐다는 사실이다. 코드 및 체크포인트가 모두 개방되어 있어, 연구자와 개발자들이 자유롭게 실험하고 개선할 수 있다. 메타는 이를 통해 파트너십 유도와 기술 표준 선점이라는 이중 전략을 병행하고 있다.

얀 르쿤(Yann LeCun) 메타 수석 AI과학자는 “V-JEPA 2는 AI가 현실의 디지털 트윈을 추상적으로 생성해 스스로 행동 계획을 수립하고 결과를 예측할 수 있게 한다”며, “월드모델은 로봇공학의 새로운 시대를 열 것”이라고 강조했다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지