2025년, 인공지능(AI) 기술 주도권을 둘러싼 경쟁이 ‘미국 대 중국’의 2강 구도로 급속히 재편되고 있다. 미국의 오픈AI, 앤트로픽, 구글이 이끄는 폐쇄형 상용 모델 진영과, 중국의 문샷AI, 알리바바, 딥시크가 선도하는 고성능 오픈소스 모델 진영이 성능, 응용력, 생태계 측면에서 정면으로 맞붙고 있는 것이다.

특히 중국의 초거대 언어모델(LLM)들은 최근 잇따라 공개한 벤치마크 결과에서 미국의 GPT-4, 클로드, 제미나이에 대등하거나 앞서는 성능을 기록하며 주목을 받고 있다.

중국과 미국의 AI 2강 싸움이 벌어지고 있다.  이미지=챗GPT 생성
중국과 미국의 AI 2강 싸움이 벌어지고 있다.  이미지=챗GPT 생성

중국의 역습, KIMI2, DeepSeek, Qwen3의 약진

문샷 AI는 2025년 7월, MoE 기반의 초고성능 모델 KIMI2를 공개했다. 이 모델은 실제 소프트웨어 개발 문제 해결력을 평가하는 'SWE-bench Verified'에서 65.8%의 정확도를 기록해 GPT-4.1(54.6%)을 능가했고, 고등수학 평가인 'MATH-500'에서는 무려 97.4%의 정확도를 기록했다. 실제 코드 문제 해결 성능인 'LiveCodeBench' 역시 53.7%로, GPT-4.1(44.7%)보다 우위를 보였다.

딥시크 V3는 코드와 수학에 특화된 오픈소스 모델로, 초등 수학 문제 수준의 'GSM8K'에서 92.2%, 고등 수학 문제에서 53.9%, LiveCodeBench에서도 46.9%를 기록하며 강력한 실전 활용 가능성을 보여주었다.

알리바바의 Qwen3 시리즈는 최대 256K 문맥 처리 능력을 갖춘 오픈소스 모델로, 코드 정확도 70.7%, 수학(GSM8K) 정확도 92.1%, 일반 추론(MMLU)에서도 79.4%를 기록했다. 오픈소스 라이선스를 통해 누구나 활용 가능하다는 점도 중국 진영의 강력한 무기다.

미국의 반격, GPT-4, 클로드 3.5, 제미나이의 내공

OpenAI의 GPT-4.1은 여전히 멀티모달 기능과 상용 생태계 면에서 독보적인 위치를 차지하고 있으며, MATH-500에서 92.4%, SWE-bench에서 54.6%, MMLU에서는 86.6%의 고성능을 유지하고 있다.

앤트로픽의 클로드 3.5 소네트는 SWE-bench에서 72.7%를 기록해 GPT-4와 문샷AI의 KIMI2를 위협하고 있으며, 장문 대화와 고차원 논리 응답에서 높은 일관성을 보인다.

구글의 제미나이 1.5는 최대 1백만 토큰 이상의 문맥 길이를 처리할 수 있는 능력으로 기술적 상징성을 보여주고 있으나, 코드와 수학에서의 정량적 성과는 아직 공개된 바가 적다.

미국 vs 중국 AI 성능 비교 (핵심 벤치마크 기준)

모델 코딩 정확도(LiveCodeBench) 수학 정확도(MATH-500) 실전 문제 해결(SWE-bench) 일반 추론(MMLU / GPQA) 컨텍스트 길이 오픈소스
KIMI2 (중국) 53.7% 97.4% 65.8% 75.1% / 57.2% 128K O
DeepSeek V3 (중국) 46.9% 94.0% 38.8% 81.2% / 53.7% 128K O
Qwen3 (중국) 70.7% 79.4% / 60.1% 256K O
GPT-4.1 (미국) 44.7% 92.4% 54.6% 86.6% / 74.9% 32K x
Claude 3.5 (미국) 47.4% 94.0% 72.7% 86.6% / 74.9% 200K+ x
Gemini 1.5 (미국) 44.7% 95.4% 1M+ x

AI 성능의 중심축이 이동 중이다

전통적으로 미국은 AI 연구와 인프라에서 압도적인 우위를 점해왔으나, 최근에는 중국의 모델들이 오픈소스 전략과 성능 최적화, 현장 적용성 측면에서 실질적인 대안을 제시하며 세계 AI 중심축의 다극화가 진행되고 있다.

특히 KIMI2와 Qwen3는 기존 GPT 시리즈의 지표를 뛰어넘는 결과를 다수 달성하면서, “미국 = 최고 성능”이라는 등식이 깨지고 있다. 반면 GPT-4와 클로드는 여전히 멀티모달 기능, 대중적 확장성, 사용자 친화성 면에서 견고한 생태계를 유지하고 있다.

미국의 GPU 수출 제한, 그러나 중국 AI는 멈추지 않는다

미국 정부는 2023년부터 AI 개발에 필수적인 NVIDIA의 고성능 GPU(H100, A100 등)의 중국 수출을 제한해왔다. 이는 중국의 초거대 AI 모델 개발 속도를 견제하기 위한 전략적 조치였지만, 실질적 영향은 제한적인 것으로 나타나고 있다.

중국 기업들은 자체 반도체 대체재 확보, 분산 학습 구조, 오픈소스 최적화 등 다양한 방식으로 기술 격차를 좁혀 왔고, 문샷 AI와 딥시크, 알리바바는 이미 수출 제한 이후에도 글로벌 최고 수준의 벤치마크 성능을 달성한 모델들을 공개했다. 오히려 미국의 견제가 기술 자립과 오픈소스 전환을 가속화시키는 계기가 되고 있다는 분석도 나온다.

이러한 흐름은 단순한 하드웨어 의존도를 넘어서, 알고리즘 최적화와 모델 경량화, 인재 확보 등 전방위적인 기술력 축적을 통해 중국이 독자적인 AI 생태계를 빠르게 성장시키고 있음을 시사한다. AI 패권 경쟁은 이제 하드웨어만으로는 제어할 수 없는 차원에 접어든 셈이다.

오픈소스에 의존한 채, ‘소버린 AI’를 향한 조심스런 첫걸음

한국은 세계 최고 수준의 디지털 인프라와 AI 활용 기업 수요를 보유하고 있음에도 불구하고, 자체 초거대 언어모델(LLM)에 대한 국가적 투자와 생태계 조성이 여전히 미흡한 상황이다. 네이버, 카카오, LG AI연구원 등이 자체 모델을 개발하고 있으나, 대부분은 GPT나 클로드와의 직접 경쟁보다는 특정 서비스 내 적용에 한정된 수준에 머물고 있다.

이러한 한계로 인해 많은 기업, 연구기관, 스타트업들이 실제 서비스 구현 과정에서는 중국산 오픈소스 모델에 의존하고 있는 것이 현실이다. 비용, 성능, 개발 자유도 측면에서 이들 모델이 매력적이지만, 데이터 주권, 보안, 전략적 의존성 측면에서는 구조적 한계를 안고 있다.

이러한 흐름 속에서 한국 정부와 산업계 일부에서는 ‘소버린 AI’, 즉 주권을 가진 국가 기반 초거대 언어모델 개발에 대한 논의가 추진되고 있다. 다만 아직은 구체적인 로드맵이나 중장기 투자계획이 명확하지 않아, 글로벌 경쟁력 확보를 위해서는 보다 강력한 정책적 뒷받침과 공공-민간 협력이 시급하다는 지적도 제기되고 있다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지