대한민국 대표 AI 기업을 찾아서, 14편 트웰브랩스
국내 유일 영상 기반 파운데이션 모델 보유 스타트업
멀티모달 AI 기술로 오픈AI도 따라오지 못할 차별화 구축

영상 AI에 깃발 꽂은 스타트업, 트웰브랩스

글로벌 AI의 패권이 텍스트에서 이미지, 그리고 영상 AI로 옮겨가는 시점, 국내 한 스타트업이 글로벌 무대에서 눈에 띄는 행보를 보이고 있다. 트웰브랩스(TwelveLabs)는 국내 스타트업 가운데 유일하게 영상 기반 파운데이션 모델을 보유한 회사로, 영상 이해를 위한 자체 모델을 개발해 SK텔레콤·AWS·엔비디아·페이페이 리 등 국내외 유수 투자자로부터 주목받고 있다.

트웰브랩스 로고
트웰브랩스 로고

2021년 용산의 한 창업 카페에서 시작된 이 기업은, 영상 중심 멀티모달 AI 기술로 세계에서 가장 복잡한 데이터인 ‘영상’을 처리하는 데 집중하며 차별화를 꾀했으며, 국개대표AI를 선발하는 과기정통부 K-AI 사업에 네이버와 컨소시엄을 구성해 참여한 게 알려지면서 주목을 받고 있다. 

“AI는 텍스트 이전에 시각과 청각으로 세상을 배운다”

트웰브랩스 공동창업자이자 대표인 이재성 CEO는 미국 UC 버클리에서 컴퓨터과학을 전공하고, 삼성전자와 아마존을 거쳐 국방부 사이버작전사령부에서 병역을 이행하며 AI 연구 인연을 맺었다. 그는 “아기가 언어를 배우기 전에 시각과 청각으로 세상을 인식하듯, AI도 그렇게 학습할 수 있어야 진짜 지능에 가깝다”고 말한다.

트웰브랩스 이재성 CEO. 사진=트웰브랩스 제공
트웰브랩스 이재성 CEO. 사진=트웰브랩스 제공

그는 텍스트·이미지 중심의 AI가 포화 상태에 접어든 지금, 영상 중심 AI라는 미개척지에 먼저 발을 디뎌야 경쟁력이 생긴다는 철학을 실천에 옮겼다. 실제로 트웰브랩스는 2023년 AWS의 생성형 AI 플랫폼 베드록(Bedrock)에 국내 기업 최초로 모델을 올리며 세계 수십만 기업과 직접 연결됐다.

영상 AI란 무엇인가…“텍스트·이미지 그 이상”

트웰브랩스가 다루는 영상 AI는 단순히 이미지의 연속이 아니다. 장면 간 흐름, 음성, 시간성, 감정 등 다양한 요소를 포함하는 고차원 데이터다. 이를 정확하게 해석하기 위해 트웰브랩스는 임베딩–얼라인먼트–언어모델로 구성된 구조를 갖췄다.

트웰브랩스의 영상 AI 기술 구조도  이미지=트웰브랩스 제공
트웰브랩스의 영상 AI 기술 구조도  이미지=트웰브랩스 제공

임베딩 모델: 영상 데이터를 수치화해 AI가 이해할 수 있게 변환

얼라인먼트 모델: 수치 데이터와 언어 정보를 정렬

언어 모델: 영상에 담긴 정보를 자연어로 설명

서민준 CSA(Chief Scientist)는 이를 “기존 AI의 한계를 넘어, 인간의 인식 구조에 가까워진 모델”이라 설명하며, “트웰브랩스의 모델은 기존 태깅 기반 검색이 불가능한 장면까지 자연어로 찾아낼 수 있다”고 말했다.

“우리는 영상 AI의 GPT-3를 만든다”

(상단 왼쪽부터 시계 방향) 이재성 CEO, 이승준 CTO, 이소영 사업개발 총괄, 정진우 한국 운영 총괄, 김성준 엔지니어링 총괄
(상단 왼쪽부터 시계 방향) 이재성 CEO, 이승준 CTO, 이소영 사업개발 총괄, 정진우 한국 운영 총괄, 김성준 엔지니어링 총괄

트웰브랩스는 GPT-3와 유사한 진화를 영상 분야에서 시도 중이다. 이승준 CTO는 “오픈AI가 GPT를 통해 텍스트 기반 AI의 깃발을 꽂았다면, 우리는 영상 AI에서 그 깃발을 꽂겠다”고 말했다.

2023년 4월 베타 출시한 ‘마렝고(Marengo)’ 모델은 전 세계에서 약 1만 명의 사용자 테스트를 받고 있으며, 영상 검색 외에도 요약, 질문 응답, 하이라이트 추출 기능을 수행한다. 곧 공개될 API 기반 상용 제품은 영상-언어 상호작용을 가능케 하며, 어도비 프리미어 프로 같은 플랫폼과의 협업 가능성도 논의 중이다.

파운데이션 모델 개발, 어떻게 스타트업이 가능했나?

AI 기반 모델, 이른바 파운데이션 모델 개발은 자본과 인프라가 절대적으로 필요한 분야다. 현재 한국에서 이를 보유한 기업은 대부분 네이버, 카카오, LG AI연구원 같은 대기업이지만, 트웰브랩스는 스타트업으로서 유일하게 파운데이션 모델을 자체 설계하고 있다.

서민준 트웰블랩스 최고과학자 겸 KAIST 교수
서민준 트웰블랩스 최고과학자 겸 KAIST 교수

서 CSA는 “기반 모델 개발은 단순한 자본 싸움이 아니라 팀, 문화, 기술이 조화를 이뤄야 하는 종합 예술”이라며, “트웰브랩스는 그 조건을 갖춘 팀”이라고 평했다. 특히 그는 “AI의 진정한 지능은 시각 지능까지 포함돼야 하며, 영상은 그 핵심”이라고 강조했다.

Siri 개발자 김윤 박사, CSO(최고전략책임자)로 합류

2024년 말, 트웰브랩스는 전 애플 시리(Siri) 개발자이자 전 SK텔레콤 CTO 출신인 김윤 박사를 CSO(사장급)로 영입했다. 김 박사는 스탠퍼드대 공학박사 출신으로, 음성인식 스타트업 노바리스(Novauris)의 CEO를 거쳐 2013년 애플에 합류, Siri의 음성인식 AI 개발을 주도한 인물이다.

(왼쪽부터) 이승준 CTO, 이재성 CEO, 김윤 CSO
(왼쪽부터) 이승준 CTO, 이재성 CEO, 김윤 CSO

트웰브랩스 이재성 대표는 “김윤 박사의 합류는 트웰브랩스가 단순한 유망 스타트업을 넘어, 글로벌 AI 시장의 중심으로 도약하겠다는 의지를 보여주는 상징적 사건”이라며, “AI 기술 주권 확립과 세계적 인재 확보에 있어 중요한 분기점이 될 것”이라 밝혔다.

김윤 CSO는 “트웰브랩스는 세계 최고 수준의 멀티모달 AI 기술력뿐 아니라 이를 실질적인 비즈니스 가치로 전환할 수 있는 실행력이 강한 조직”이라며, “한·미 양국에서 쌓아온 AI 개발 및 사업화 경험을 살려, 트웰브랩스를 영상 AI 분야의 확고한 리더로 만들겠다”고 밝혔다.

글로벌 AI 생태계 속 ‘영상 AI’의 가능성

트웰브랩스는 2023년 말 국내 최초로 AWS 베드록(Bedrock)에 모델을 탑재했고, 이는 수십만 개 AWS 고객이 트웰브랩스의 영상 AI 모델을 사용할 수 있게 됐음을 의미한다.

또한 2025년 1월, K-AI 얼라이언스의 공식 멤버로 합류하면서 SK텔레콤의 AI 에이전트, 엣지 디바이스 등 다양한 파트너십도 확대하고 있다. 영상 AI 모델이 자율주행·보안·교육·헬스케어 등 산업 현장에 실질적 영향력을 행사하는 구조를 만들고 있는 것이다.

페이페이 리 교수 “트웰브랩스는 한국 AI의 허브 될 수 있어”

스탠퍼드대의 ‘딥러닝 대모’ 페이페이 리 교수는 트웰브랩스의 기술력에 직접 투자하고 자문하고 있다. 그녀는 “한국은 우수한 연구 인재가 많고, 트웰브랩스는 그들이 모이는 허브가 되길 바란다”고 말한다.

이승준 CTO 역시 “최고의 연구자가 최고의 문화를 만났을 때 최고의 AI가 나온다”며, 기술뿐 아니라 인재 친화적 환경을 만드는 데도 집중하고 있다고 강조했다.

영상 AI는 텍스트의 다음이다…트웰브랩스는 그 미래를 설계 중

AI 산업이 텍스트→이미지→영상으로 진화하는 흐름 속에서, 트웰브랩스는 가장 복잡한 영역인 영상 AI의 선두 주자로 자리매김하고 있다. 오픈AI가 텍스트 AI의 표준이 되었듯, 트웰브랩스는 영상 AI의 표준을 꿈꾼다.

“영상은 단순한 이미지의 집합이 아닙니다. 시간, 소리, 맥락을 읽는 지능입니다. 우리는 그 AI를 만들고 있다.”고 트웰브랩스는 말한다. 

테크풍운아 칼럼니스트  scienceazac@naver.com

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지