바르코 비전 2.0=NC AI, 연합뉴스
바르코 비전 2.0=NC AI, 연합뉴스

이미지·텍스트 함께 읽는 멀티모달 모델

엔씨소프트의 AI 전문기업 NC AI가 차세대 비전 언어 모델 ‘바르코 비전(VARCO-VISION) 2.0’을 연구용 오픈소스로 공개하며 AI 생태계 확장에 나섰다.

이번에 공개된 바르코 비전 2.0은 이미지와 텍스트를 동시에 처리하는 멀티모달 모델로, 복잡한 문서·표·차트 분석까지 지원한다. 특히 한국어와 영어를 자연스럽게 이해하고, 텍스트 생성과 한국 문화 맥락 해석 능력은 전작보다 크게 향상됐다.

4종 모델로 맞춤형 활용…14B부터 비디오 임베딩까지

이번에 공개된 바르코 비전 2.0은 총 4종으로 구성됐다.

가장 큰 스케일의 ‘14B 모델’은 NC AI 자체 벤치마크에서 글로벌 오픈소스 비전 언어모델 중 최고 성능으로 꼽히는 InternVL3-14B, 알리바바 Ovis2-16B, Qwen2.5-VL 7B를 뛰어넘는 결과를 냈다. 다중 이미지 분석과 복잡한 추론이 필요한 업무 환경에 특히 적합하다는 평가다.

스마트폰과 PC에서도 쉽게 구동할 수 있는 1.7B 경량 모델은 개인 사용자에게도 문턱을 낮췄다.

여기에 이미지 내 문자인식에 특화된 1.7B OCR은 한국어와 영어 혼용 상황에서도 정확도를 높였다는 점에서 국내 환경에 강점을 보인다.

바르코 비전 2.0 벤치마크 결과=NC AI,연합뉴스
바르코 비전 2.0 벤치마크 결과=NC AI,연합뉴스

 

영상도 숫자로 읽는다…비디오 임베딩까지 확대

비디오 임베딩 모델은 자연어 질의를 바탕으로 동영상 콘텐츠를 숫자 데이터로 변환·저장하고, 이를 통해 유사한 이미지나 영상을 신속하게 검색할 수 있도록 설계됐다.

이러한 특성 덕분에 방대한 영상 데이터 분석과 추천, 콘텐츠 큐레이션 등 다양한 분야에서 활용될 수 있다.

문서 자동화부터 한국 AI 주권까지

바르코 비전 2.0의 진가는 기업 실무 현장에서도 빛을 발할 전망이다.

복잡한 보고서나 계약서, 청구서 등 방대한 문서를 자동으로 분석하고 디지털화할 수 있어 업무 효율성을 높인다.

NC AI는 이번에 공개한 4종 모델을 연구용 오픈소스로 제공해 기업과 개인, 공공기관 등 누구나 활용할 수 있도록 했다. 이를 통해 자사 기술력을 검증받는 동시에 국내 AI 산업 전반의 발전에도 기여한다는 계획이다.

조하연 인턴기자 hayeon0333@gmail.com

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지