한국어 벤치마크 ‘KoBALT-700’에서 48.9점으로 1위 기록

네이버가 6월 30일 공개한 추론형 인공지능 ‘하이퍼클로바X 씽크(HyperCLOVA X THINK, 이하 씽크)’가 단순한 생성형 언어모델을 넘어, 한국어에 최적화된 지능형 AI 시대의 포문을 열었다. 'AI 주권'을 외쳐온 네이버가 내놓은 진짜 승부수다.

네이버가 30일 공개한 추론형 인공지능(AI) 모델 하이퍼클로바X 씽크.  사진=네이버클라우드
네이버가 30일 공개한 추론형 인공지능(AI) 모델 하이퍼클로바X 씽크.  사진=네이버클라우드

GPT-4.1과 어깨 나란히…한국어에서 앞서다

씽크는 네이버클라우드가 독자적으로 개발한 추론 특화 초거대언어모델(LLM)이다. 가장 큰 특징은 ‘한국어 최적화’에 있다. 네이버 측 발표에 따르면, 서울대 언어학과가 개발한 한국어 심층 언어 이해 벤치마크 ‘KoBALT-700’에서 씽크는 48.9점을 기록했다. 네이버는 이 점수를 바탕으로 LG의 ‘엑사원 딥’, 알리바바의 ‘QwQ-32B’ 등과 비교해 우위를 주장했다. 

씽크는 이외에도 총 8개의 한국어 특화 벤치마크에서 전반적으로 높은 점수를 받았다고 네이버는 밝혔다. 여기에는 언어 이해 외에도 한국 문화, 의료, 수능, 일반 상식, 그리고 복잡한 지시를 얼마나 잘 수행하는지를 평가하는 HAERAE-1.0, KoBigBench, LogicKor, KoMTBench 등 한국 중심 데이터셋이 포함된다. 이는 모두 한국 문화·언어·지시 이행 능력까지 아우르는 벤치마크 세트로, 네이버는 이를 통해 THINK의 한국어 특화 성능이 글로벌 오픈소스 및 일부 상용 모델보다 우수하다고 주장했다.

특히 네이버는 이러한 결과가 파인튜닝 없이도 추론 기반 정확도를 끌어올릴 수 있다는 가능성을 강조했다. 해당 내용은 네이버클라우드가 공개한 기술 리포트와 논문(arXiv, 2025)에 수록돼 있다.

씽크의 퍼포먼스 수치 그래프  이미지=arXiv
씽크의 퍼포먼스 수치 그래프  이미지=arXiv

멀티모달 시대 예고…시각 추론 능력까지 확보

씽크는 단순한 텍스트 모델이 아니다. 네이버는 비전 인코더를 결합해, 이미지와 텍스트를 함께 처리하는 '비전-언어 모델' 실험도 진행했다. 여기서 주목할 부분은 KCSAT STEM 테스트에서 씽크가 46.4%의 정답률을 기록했고, GPT-4.1은 40.3%였다고 밝힌 점이다.

그러나 이 수치 역시 네이버가 자체 논문 형식의 보고서에서 공개한 자료이며, GPT-4.1의 해당 테스트 결과는 오픈AI가 직접 발표한 것은 아니다. 즉, 두 모델의 비교는 같은 조건에서 동일 기준으로 테스트한 '공식 경쟁'이 아닌, 서로 다른 환경에서 측정된 결과를 간접 비교한 셈이다.

6조 토큰으로 20조급 성능…압축의 미학

씽크가 특히 강조하는 부분은 ‘연산 효율성’이다. 보통 GPT-4나 PaLM2 같은 글로벌 초거대 LLM은 18~20조 토큰을 학습한다. 그런데 씽크는 6조 토큰 학습만으로 유사한 성능을 구현했다고 주장한다.

이는 최신 연산 기술인 Peri-LN 트랜스포머와 µP 프레임워크를 적용한 덕분인데, 실제로 GPU 자원 사용량이 낮고 처리 속도도 빠르다는 점은 기술 리포트를 통해 구체적으로 설명되고 있다. 국내 AI 인프라 환경과 비교하면 전략적으로 매우 유효한 설계로 보인다.

HyperCLOVA X THINK의 연산 시 GPU 효율성 비교.  이미지=arXiv
HyperCLOVA X THINK의 연산 시 GPU 효율성 비교.  이미지=arXiv

‘소버린 AI’ 전략의 실질적 시험대

씽크는 단순히 한 모델의 성능을 넘어, 네이버가 그간 천명해온 ‘소버린 AI 전략’의 핵심이다. 국내 기술로 설계하고 훈련한 이 모델은 글로벌 빅테크 의존도를 줄이겠다는 네이버의 철학이 집약된 결과물이다.

기술만 잘 만들었다고 끝이 아니다. 네이버는 씽크를 자사 서비스에 본격적으로 녹여 넣겠다는 계획이다. 검색, 커머스, 간편결제는 물론이고, 대화형 AI 플랫폼 '클로바X'에도 통합할 예정이다.

즉, 단순한 모델 성능을 넘어 ‘실제 사용자 경험’으로 연결되는지 여부가 씽크 성공의 핵심이다. 네이버는 검색, 커머스, 간편결제 등 다양한 서비스에 씽크를 결합해 AI 기반 서비스를 한층 고도화할 계획이다. GPT가 챗GPT를 통해 AI를 일상에 파고든 것처럼, 씽크도 한국형 AI가 유의미하다는 걸 ‘생활 속 쓰임새’로 증명해야 할 시점이다.

개방성과 생태계 확장

씽크는 앞으로 경량화와 증류 작업을 거쳐 오픈소스로 공개될 예정이다. 이 전략은 네이버가 앞서 ‘하이퍼클로바X 시드(SEED)’에서 선보인 바 있다. 실제로 SEED는 공개 한 달 만에 50만 다운로드를 기록하며 높은 관심을 받았다.

씽크도 같은 흐름을 타고 중소기업과 스타트업 등 국내 AI 생태계에 실질적 도구로 자리 잡을 가능성은 있다. 다만, 현재까지는 기술 리포트 형태로만 공개된 상태이며, 상용 인터페이스나 API는 아직 제공되지 않고 있다.

특히 앞서 공개된 경량 모델 ‘하이퍼클로바X 시드(SEED)’가 한 달 만에 50만 다운로드를 기록했던 점을 고려하면, 이번 씽크 역시 AI 생태계 확산에 크게 기여할 가능성이 높다. 오픈소스화는 단순한 공유를 넘어, 기술 독립성을 넓히는 전략적 무기가 될 수 있다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지