AI, ‘멀티모달 시대’ 본격화
네이버·카카오·트웰브랩스, 감각형 AI 전쟁 본격화
(연합뉴스) 영상과 음성을 동시에 이해하는 인공지능(AI)의 시대가 본격적으로 열리고 있다.
오픈AI가 최근 공개한 최신 멀티모달 모델 ‘GPT-4o’는 텍스트, 이미지, 음성, 영상 정보를 실시간으로 인식하고 해석할 수 있는 능력을 보여주며, AI 기술의 진화를 상징적으로 보여줬다는 평가를 받고 있다.
GPT-4o는 시각장애인이 도로에 스마트폰을 비추며 “빈 택시를 찾아줘”라고 말하면, 영상 속 정보를 실시간으로 분석해 “택시가 다가오고 있다”고 음성으로 안내하는 기능을 시연해 주목받았다.
텍스트만 이해하던 기존 AI와 달리, 실제 환경의 복합적 정보를 인지하고 자연스럽게 대응하는 새로운 인터페이스로 진입하고 있다는 점에서 업계의 관심이 쏠린다.
이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM)은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.
쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.
이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.
특히 챗GPT의 음성이 미국 배우 스칼릿 조핸슨과 유사하다는 지적이 제기되며, 오픈AI는 해당 음성을 일시 중단하는 등 감성과 윤리의 경계에 대한 논의도 함께 부상했다.
국내 기업도 멀티모달 기술 개발 본격화
국내 기업들도 멀티모달 AI와 VLM 개발 경쟁에 적극 뛰어들고 있다.
네이버는 최근 오픈소스로 공개한 ‘하이퍼클로바X SEED 3B’를 통해 텍스트·이미지·영상을 함께 처리할 수 있는 경량형 VLM 기술을 선보였다. 이 모델은 한국어 시각 맥락 분석에 특화돼 있으며, 관광 가이드, 콘텐츠 요약, 시각 기반 질의응답 등에 활용 가능하다. 네이버는 “한국어 기반 경량 VLM으로는 최초 수준이며, 오픈소스 커뮤니티에서도 높은 반응을 얻고 있다”고 밝혔다.
카카오는 텍스트·오디오 중심의 ‘카나나-a’와 이미지·오디오를 처리하는 ‘카나나-o’를 개발해 지난 5월 초 공개했다. 특히 카나나-o는 한국어 벤치마크 기준에서 글로벌 수준의 성능을 보였으며, 자연어·음성·시각정보를 통합 분석하는 멀티모달 AI의 실용 가능성을 강조했다.
영상 AI 전문 스타트업 트웰브랩스는 ‘마렝고’와 ‘페가수스’ 모델을 글로벌 클라우드 플랫폼 AWS 베드록(Bedrock)에 올릴 예정이다. 국내 기업의 멀티모달 AI가 글로벌 인프라와 연계돼 상용화되는 첫 사례로, 향후 콘텐츠, 보안, 검색 분야 등 다양한 산업군과의 협업 가능성이 제기되고 있다.
엔씨소프트도 한국어 기반 중소형 오픈소스 VLM ‘바르코 비전’을 지난해 공개하며 AI 기술 전환에 속도를 내고 있다. 게임 중심의 엔씨소프트가 AI 플랫폼으로 확장하는 전략으로 해석되며, 중소기업의 도입 장벽을 낮추는 접근 방식이 주목된다.
AI, 기술을 넘어 산업 플랫폼으로…전략 구도 재편 필요
고삼석 동국대 AI융합대학 석좌교수는 “멀티모달 AI는 사람처럼 정보를 감각적으로 받아들이고 응답하는 방향으로 진화하고 있다”며 “국내 대기업은 초거대 언어모델(LLM) 중심으로 기술 경쟁력을 확보하는 동시에, 중견·중소기업은 오픈소스 기반 생태계에 참여해 실용성과 속도를 확보해야 한다”고 강조했다.
전문가들은 향후 멀티모달 AI의 경쟁력은 ‘모델 성능’ 자체보다도, 이를 얼마나 빠르게 산업 현장에 이식하고 다양한 API·서비스 형태로 확산시키느냐에 달려 있다고 본다.
비즈니스에 직접 투입할 수 있는 경량화 모델 확보, 멀티모달 인터페이스에 맞는 UX 설계, 개인정보 보호와 윤리 기준 정비 등이 후속 과제로 지적된다.
특히 국내 기업들이 글로벌 기업에 기술적으로 뒤처지지 않기 위해서는 AI 반도체, 학습 인프라, 데이터 수집 체계 등 기초 생태계에 대한 투자와 정책적 뒷받침이 병행돼야 한다는 목소리도 커지고 있다.
GPT-4o의 등장은 단순한 기술 쇼케이스가 아니라, 향후 5년 내 산업 구조 자체를 바꿀 ‘사용자 인터페이스의 전환점’이 될 수 있다는 점에서, 한국 기업들의 대응 전략이 어느 때보다 중요한 시점이다.
신주백 기자 jbshin@kmjournal.net
- “구글이 AI 판을 뒤엎는다”…제미나이 울트라 포함한 최고 사양 AI 공개 임박
- AWS "생성형AI, 기술에서 경험 중심으로…디지털 전환 가속화"
- 구글, 제미나이에 이미지 생성 기능 정식 탑재…멀티모달 경쟁 본격화
- 메타, '멀티모달 AI 시스템' 라마4 공개
- '별세한 배우 목소리' AI 재생으로 활용…美배우노조, 게임사 고발
- 2조 ‘실탄’ 가진 빌라스 다르, LG AI연구원서 엑사원 3.5 집중 탐색
- 카카오, 코딩·수학에 강한 AI 모델 ‘카나나’ 4종 전격 공개
- “도와드릴 수 없습니다”가 좋은 답변이라고? GPT-4o, 인간보다 ‘윤리적 거절’ 32% 더 좋아했다
- “불륜 폭로하겠다” 협박한 AI…앤트로픽 '클로드 오푸스 4', 논란 확산
- 오픈AI 동영상 생성 AI '소라', MS 검색 통해 무료 사용 가능
- 챗GPT 넘을 ‘국가대표 AI’는 누구인가?
- “햄스터가 유튜버?”…AI 영상 시대 본격 개막