챗GPT5 앞서는 벤치마크 속출… 저비용·고효율 모델 부상 기대와 한계 공존

올해 들어 중국의 오픈소스 기반 AI 경쟁력이 다시 주목받는 가운데, 문샷AI의 ‘키미 K2 씽킹’이 여러 벤치마크에서 챗GPT 5.0을 앞서는 성능을 기록하며 글로벌 AI 지형에 적지 않은 변화를 예고했다.

각종 테스트 결과와 함께 훈련비가 딥시크보다도 낮다는 분석이 나오면서, 저비용·고효율 모델의 재부상 가능성도 거론됐다.

키미 K2 씽킹이 공개되었다. 사진=키미 홈페이지
키미 K2 씽킹이 공개되었다. 사진=키미 홈페이지

키미 K2 씽킹, 챗GPT5 제친 벤치마크 성능

문샷AI는 11월 6일 ‘키미 K2 씽킹’을 공식 공개했다. 지난 7월 ‘키미 K2’ 이후 넉 달 만의 업그레이드로, 문샷AI가 강조해온 효율 최적화 전략이 속도를 내기 시작했다.

키미 K2 씽킹은 주요 국제 벤치마크에서 강한 성능을 보였다.

추론 및 창의적 사고를 평가하는 HLE 테스트에서 도구 사용 모드 기준 44.9점을 기록해 챗GPT 5.0(41.7점), 클로드 소네트 4.5(32.0점), 딥시크 V3.2(20.3점)을 모두 앞섰다.

웹 검색 능력을 평가하는 브라우즈콤프에서도 60.2점을 받아 챗GPT 5.0(54.9점)보다 높은 성능을 보였다. 한국어 사용에서도 큰 무리는 없는 것으로 확인됐다.

다만 코딩 평가인 SWE 벤치마크에서는 챗GPT와 클로드에 미치지 못해 “추론·검색 중심 모델”이라는 평가가 나왔다.

성능 대비 훈련비 ‘주목’… 효율성 논란은 지속

키미 K2 씽킹이 주목받는 또 다른 이유는 훈련비였다.

CNBC에 따르면 키미 K2 씽킹의 훈련 비용은 약 460만 달러로 알려졌는데, 이는 딥시크(약 560만 달러)보다도 낮은 수준이다. 오픈AI의 수십억 달러 규모와 비교하면 더욱 적은 비용이다.

그러나 전문가들은 “해당 금액이 전체 비용인지 특정 훈련 단계인지 불명확하다”며 “훈련비만으로 효율성을 단정하긴 어렵다”고 분석했다.

그럼에도 저비용 고성능이라는 메시지는 업계 관심을 끌었다.

중국 AI 약진과 글로벌 경쟁 구도 변화 가능성

국내 업계에서도 키미 K2 씽킹에 대한 관심이 높았다.

김근교 NC AI 글로벌사업실장은 “오픈소스 모델임에도 공신력 있는 벤치마크에서 폐쇄형 프론티어 모델과 경쟁한다는 점은 중요한 신호”라며 “추론·검색 성능 대비 비용이 낮다는 점은 딥시크 등장 당시와 유사하다”고 평가했다.

또 다른 업계 관계자는 GPU 통제 속에서도 이 정도 성능을 냈다는 점을 ‘의미 있는 성과’로 해석했다.

향후 구글 제미나이 신버전 등 프론티어 모델이 압도적인 성능을 내지 못한다면 기존 경쟁 구도가 흔들릴 가능성도 제기됐다.

오픈소스 모델 재부상 가능성… 그러나 섣부른 판단은 금물

일부 전문가는 키미 K2 씽킹을 둘러싼 과도한 기대를 경계했다.

박찬준 숭실대 교수는 “벤치마크 성능이 실제 사용자 경험과 반드시 비례하지 않는다”며 “공개된 정보만으로 업계 지형을 바꿀 만큼의 효율을 단정하긴 어렵다”고 말했다.

현재까지는 성능, 비용, 활용성 등 여러 요소를 종합적으로 검증할 필요가 있다는 의견이 우세하다.

중국 AI의 전략적 전환과 향후 평가 과제

키미 K2 씽킹은 중국 AI 기업들이 추론·검색 중심 효율 최적화 모델을 통해 프론티어 경쟁에 다시 도전하겠다는 흐름을 보여줬다.

저비용 기반의 강한 벤치마크 성능은 업계에 새로운 화두를 던졌지만, 실제 서비스 품질·사용자 경험·데이터 투명성 등은 여전히 추가 검증 단계에 있다.

글로벌 AI 경쟁 속에서 K2 씽킹이 실제 시장 영향력을 가져갈지 여부는 앞으로의 활용성과 업데이트 방향에 달려 있는 상황이다.

최송아 객원기자 choesonga627@gmail.com

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지