허깅페이스, 깃허브, 모델스코프 등 플랫폼 무료 공개

알리바바가 영상 생성·편집을 위한 올인원 오픈소스 모델AI ‘VACE’를 공개했다. (사진=알리바바클라우드)
알리바바가 영상 생성·편집을 위한 올인원 오픈소스 AI 모델 ‘VACE’를 공개했다. (사진=알리바바클라우드)

알리바바가 영상 생성부터 편집, 합성까지 전 과정을 하나의 시스템으로 처리할 수 있는 통합형 인공지능(AI) 모델을 공개했다. 영상 콘텐츠 제작의 효율성과 범용성을 강화하면서 오픈소스를 통해 글로벌 AI 생태계 주도권 확보에 나선 행보다.

알리바바는 자사 영상 특화 모델 시리즈 ‘완2.1(Wan2.1)’의 최신 버전인 ‘VACE’를 지난 16일 허깅페이스, 깃허브, 모델스코프 등 주요 플랫폼에 무료로 공개했다고 밝혔다. 140억, 13억 파라미터 두 가지 버전으로 구성된 이번 모델은 누구나 자유롭게 내려받아 사용할 수 있다.

‘완2.1-VACE’는 텍스트, 이미지, 영상 등 다양한 입력을 바탕으로 영상 콘텐츠를 생성할 수 있는 다중 모달 AI 모델이다. 기존 영상이나 특정 프레임을 기반으로 한 편집 작업은 물론, 영상 내 일부 요소를 선택해 삭제하거나 수정하는 기능까지 하나의 시스템 안에서 구현된다. 특히, 시간과 공간 요소를 동시에 고려한 영상 합성과 고급 편집 기능을 지원해 광고, 숏폼, 교육, 후반 작업 등 다양한 산업 분야에의 활용 가능성을 제시하고 있다.

정적인 이미지를 영상으로 변환하거나, 이미지 내 객체에 움직임을 부여해 생동감을 더하는 방식도 가능하다. 포즈 전환, 움직임 제어, 색상 보정, 깊이 조절 등 고난도 리페인팅 작업도 처리할 수 있으며, 수직 이미지를 가로형 영상으로 자연스럽게 확장하거나 이미지 기반 객체 치환, 애니메이션 삽입 등 다양한 후반작업 기능이 통합돼 있다.

알리바바는 복잡한 영상 합성 과정을 단순화하기 위해 자체 구조인 통합형 입력 단위 ‘VCU(Video Composition Unit)’와 시간·공간 맥락 정보를 처리하는 ‘컨텍스트 어댑터(Context Adapter)’를 도입했다. 이를 통해 모델은 다양한 입력 조건에서도 자연스러운 영상 흐름을 유지하면서 결과물의 완성도를 높일 수 있다.

이번 공개는 알리바바가 지난 2월 ‘완2.1’ 시리즈의 4가지 모델, 지난 4월 프레임 기반 영상 생성 모델을 순차적으로 오픈소스화한 데 이은 연장선이다. 알리바바 측은 “지금까지 해당 모델들은 누적 330만 건 이상 다운로드되며 높은 관심을 받고 있다”고 밝혔다.

신주백 기자  jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지