멀티모달 LLM 핵심 기술 OCR로 글로벌 경쟁력 입증
네이버클라우드가 글로벌 문자인식 기술 경진대회 ‘ICDAR 2025(International Conference on Document Analysis and Recognition)’에서 1위를 차지하며, 광학 문자 인식(OCR) 기술의 세계적 경쟁력을 다시 한번 입증했다.
이 대회는 국제패턴인식학회(IAPR)가 주관하는 세계 최고 권위의 문서 인식 학술 행사로, 네이버는 2018년, 2019년, 2022년에 이어 통산 네 번째 우승을 기록했다.
‘역사 지도 텍스트 판독’ 부문 1위
네이버클라우드는 이번 대회에서 ‘역사 지도 텍스트 판독’(Historical Map Text Reading) 부문 1위를 차지했다.
이 과제는 수백 년 전 제작된 지도 이미지 속 복잡한 문자 배열을 판독하는 고난도 영역으로, 지도 내 곡선 형태의 지역명, 중첩된 경계선, 손상된 글자를 식별해야 한다.
네이버클라우드는 문서 이미지 내 텍스트와 좌표를 ‘엔드 투 엔드(end-to-end)’ 방식으로 동시에 추출하는 자체 모델을 적용해, 스위스 로잔연방공과대학교(EPFL)를 제치고 정상에 올랐다.
멀티모달 LLM의 핵심, ‘OCR 엔진’
OCR은 최근 각광받는 멀티모달 대형언어모델(LLM)의 성능을 결정짓는 핵심 기술로 꼽힌다.
네이버가 북미컴퓨터언어학회(NAACL)에 발표한 논문에 따르면, 이미지 기반 문제(예: 수능·검정고시 지문)를 해석하는 과정에서 OCR 성능이 낮은 오픈소스 LLM은 지문을 잘못 읽거나 일부를 누락해 오답률이 높았다.
반면, 내장 OCR 또는 별도 OCR 엔진을 결합한 모델은 정답률이 월등히 높게 나타났다.
이처럼 OCR 기술은 단순한 문자 인식 단계를 넘어, 시각-언어 통합 모델의 정확도와 추론력을 좌우하는 핵심 인프라로 부상하고 있다.
글로벌 기업 간 OCR 경쟁 가속
OCR은 이제 AI 산업의 ‘보이지 않는 격전지’다.
프랑스 미스트랄 AI(Mistral AI)는 올해 3월 ‘Mistral OCR’을 공개하며 손글씨와 인쇄 텍스트를 동시에 인식할 수 있는 고정밀 모델을 선보였다.
미국 오픈AI 역시 GPT-4o에 내장된 OCR 기능으로 이미지 이해력을 강화하고 있다.
이 가운데 네이버클라우드는 한국어·한자·비정형 문서 처리 등 다언어 복합 인식 성능에서 차별화된 경쟁력을 확보했다는 평가를 받는다.
“비정형 문서·곡선 텍스트도 정확히 읽는다”
네이버클라우드는 내년부터 이번 수상 기술을 클라우드 플랫폼 ‘클로바 OCR’의 도큐먼트 OCR 솔루션에 적용할 예정이다.
회사 관계자는 “엔드 투 엔드 기술을 적용해 비정형 문서나 자유 곡선 형태의 텍스트도 정확히 판독할 수 있는 OCR 기술을 선보일 것”이라며 “글로벌 수준의 기술 노하우를 기반으로 비전 AI 분야로 확장하겠다”고 말했다.
신주백 기자 jbshin@kmjournal.net