소리, 감정, 대사까지 합성하는 AI 동영상 모델…이젠 "말하면 영화가 나오는" 시대

구글이 AI 영상 생성 기술을 또 한 단계 진화시켰다. 지난 20일(현지시간) 열린 I/O 2025에서 공개된 ‘비오 3(Veo 3)’는 기존 생성형 모델의 약점을 정면으로 돌파한 차세대 동영상 생성 AI다.

텍스트 프롬프트 하나로 장면뿐 아니라 소리, 감정, 심지어 인물 간 대화까지 포함된 ‘완성형 영상’을 만들어낸다. 도심의 차량 소음, 공원 새소리, 인물 간 말투와 표정까지 촬영 없이, 클릭 한 번 없이, 생성된다.

구글이 공개한 영상  (이미지=구글)
구글이 공개한 영상  (이미지=구글)

'영상 생성'이 아니라 '영화 합성'

비오 3는 단순한 비디오 생성기를 넘어선다. 구글은 이를 “몰입형 콘텐츠 제작을 위한 창작 인프라”라고 표현했다. 실제로 비오 3는 영상의 물리적 리얼리즘을 강화했을 뿐 아니라, 환경음, 배경 사운드, 캐릭터의 표정과 말투까지 합성해낸다.

이전까지 생성형 AI가 이미지와 클립 단위의 '조각'을 만들었다면, 비오 3는 연결된 서사와 분위기, 그리고 감정의 흐름을 구성한다.

예를 들어 사용자가 “달리는 자동차 안, 긴급 수술이 진행 중인 장면”이라고 입력하면, 플로우(Flow)라는 툴을 통해 차의 진동, 응급 상황의 긴장감, 의사의 얼굴 근육, 그리고 경적 소리까지 들어간 영상이 완성된다.

구글이 공개한 영상  (이미지=구글)
구글이 공개한 영상  (이미지=구글)

플로우와 이마젠4, 제미나이의 결합

이번 발표에서 함께 주목받은 것은 비오 3를 실질적인 창작 도구로 풀어낸 플로우(Flow)다.

플로우는 구글의 이미지 생성 모델 이마젠 4(Imagen 4), 자연어 처리 멀티모달 모델 제미나이(Gemini)와 결합돼 작동한다. 사용자는 별도의 영상 지식 없이도 프롬프트 하나로 장면, 인물, 배경, 카메라 시점을 모두 설정할 수 있다.

결과는 놀랍도록 디테일하다. 배경의 날씨, 조명의 위치, 인물의 의상 질감까지 감안해 감독 수준의 연출을 구현한다.

“단역 배우는 곧 사라질 수도 있다”

공개 이후 온라인 커뮤니티에서는 비오 3를 두고 “단역 배우는 이제 사라지는 거 아니냐”, “화질만 조금 손보면 진짜 헷갈릴 정도”라는 반응이 이어지고 있다. 실제로 이 기술이 상용화되면 단순 촬영, 보조 출연, 일부 편집 작업은 AI가 대체할 가능성이 높다.

이 모델이 영상 콘텐츠 제작 시장에 미칠 영향은 단순히 ‘툴의 발전’을 넘어, 콘텐츠 제작의 방식 자체를 바꿀 수준이라는 평가다.

 

한 줄 정리

이젠 '찍지 않아도 되는' 시대가 왔다. 말로 시작해, 몇 분 뒤면 영상이 완성된다. 그리고 그 퀄리티는... “놀랍다”는 말로는 부족하다.

신주백 기자  jbshin@kmjournal.net

 

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지