챗GPT, 제미나이, 딥시크, 퍼플렉시티 등 글로벌 생성형 AI 4종을 2026학년도 수능에 투입한 실험에서 챗GPT가 유일하게 수학 1등급에 도달했지만, 대부분 국어와 고난도 문항에서 취약한 성능을 보이며 한국형 평가 체계에 대한 AI의 한계가 명확하게 드러났다.
챗GPT, 수학 1등급으로 압도적 1위…국어는 중위권 수준에 그쳐
연세대 김시호 교수 연구팀이 챗GPT(GPT-5), 제미나이 2.5 플래시, 딥시크 최신 모델, 퍼플렉시티 소나를 대상으로 실시한 ‘2026학년도 대학수학능력시험 AI 실험’에서 가장 높은 성적을 기록한 모델은 챗GPT였다.
챗GPT는 올해 “역대급 난도”라는 평가가 나온 수학 영역에서 단 한 문제만 오답을 냈고, 선택과목별로도 84~96점을 기록하며 안정적인 1등급을 달성했다. 수험생들이 풀이에 어려움을 겪은 고난도 문제에서도 상대적으로 견고한 분석 능력을 보여줬다.
하지만 국어에서는 상황이 달랐다. ‘화법과 작문’ 선택 시 53점, ‘언어와 매체’ 선택 시 37점에 그치며 전체 성적의 하락 요인이 됐다.
영어 역시 86점으로 2등급 수준이었지만, 수학에서 보여준 압도적 성능과는 대비되는 모습이었다. 그럼에도 챗GPT는 모든 과목 풀이를 15분 내에 끝내는 ‘초고속 분석’ 능력을 드러내며 다른 모델을 크게 앞섰다.
딥시크, 영어는 1등급이지만 수학은 ‘찍기 의심’…퍼플렉시티는 시험 중 인터넷 검색
2위를 기록한 딥시크는 영어에서 93점을 기록하며 챗GPT를 앞섰고 국어에서도 준수한 성적을 보였지만, 수학에서는 정답 패턴이 비정상적으로 나타나는 등 ‘객관식 찍기’ 의심 사례가 발견됐다.
특히 표가 포함된 쉬운 문제를 틀리는 등 기초적인 문항 해석 단계에서 AI가 문제를 읽어내지 못한 것으로 보이는 오류가 포착됐다.
퍼플렉시티는 성적뿐 아니라 시험 태도에서도 문제가 드러났다. 답변 오류가 반복되어 시험 시간을 정확히 측정할 수 없었고, 수능 규정이라면 ‘부정행위’에 해당하는 인터넷 검색 시도가 확인됐다. 글로벌 AI 강자들이 한국형 시험 체계에서 겪는 구조적 한계를 상징적으로 보여준 장면이다.
“4년제 대학 합격 어려운 점수”…AI의 국어 취약성 여전
입시 전문가들은 이번 실험 결과를 두고 “어느 모델도 4년제 대학 합격선을 넘지 못했다”고 평가했다. 가장 큰 문제는 국어 영역이었다. 특히 독해와 문법이 결합된 ‘언어와 매체’에서는 챗GPT가 0점, 제미나이가 4점, 퍼플렉시티가 11점에 머무르는 등 전반적으로 매우 낮은 성취도를 보였다.
종로학원 임성호 대표는 “AI가 국어 지문의 맥락을 파악하고 논리적으로 정답을 선택하는 과정 자체가 아직 한계가 있다”며 “국어는 AI가 인간을 따라오기 가장 어려운 분야 중 하나임을 재확인한 결과”라고 분석했다.
고난도 수학 문항은 전 모델 ‘전멸’…최상위권 수준과는 거리 있어
EBS와 입시업계가 꼽은 올해 수학 고난도 5개 문항(수학 I·II, 확통·미적·기하 30번)에 대한 AI의 정답률은 참담했다. 챗GPT만이 확률과통계 30번을 맞췄을 뿐, 모든 AI가 나머지 4개 문항에서 오답을 기록했다. 특히 벡터의 내적과 도형을 복합적으로 다루는 ‘기하 30번’은 네 모델 모두 접근 자체가 어렵다는 분석이 나왔다.
김진혁 박사는 “AI가 수식을 계산하는 능력은 발전했지만, 문제를 구성하는 시각 자료·조건 해석·추론의 조합은 여전히 취약하다”며 “현재의 AI는 의대 진학을 노릴 수 있는 최상위권 수험생 수준에는 도달하지 못한 상태”라고 평가했다.
물리도 10점대…멀티모달 기능 발전에도 한국형 과학문항은 난적
연구팀이 물리Ⅰ을 추가로 테스트한 결과도 크게 다르지 않았다. GPT-5가 19점, 제미나이가 17점, 퍼플렉시티가 14점, 딥시크가 10점으로 전 모델이 50점 만점에 10점대에 그쳤다. 계산 능력보다 그래프·도표·도형 기반의 장면 해석 능력이 요구되는 한국 과학시험 특성이 AI에게 특히 어렵다는 점이 드러났다.
왜 글로벌 AI는 수능에 약할까?…“언어·문화 학습량의 격차가 결정적”
AI가 전문 분야에서는 인간을 추월하는 성능을 보이지만, 수능처럼 한국 교육 과정에 특화된 문항에서 약한 이유는 명확하다.
첫째, 한국어 데이터의 비중 부족이다. 글로벌 AI는 대부분 영어 중심으로 학습하기 때문에 한국어 문맥·어휘·논리 구조에 대한 경험이 상대적으로 적다.
둘째, 한국형 고난도 문항의 특수성이다. 수능은 상위권 변별을 위해 지문·시각 자료·논리 구조를 묶어 복합 추론을 요구하는데, 이는 AI가 가장 어려워하는 유형이다.
셋째, AI의 ‘국적 효과’도 확인된다. 중국 AI가 중국어 법률 추론에서 우수했고, 한국어 기반 LG AI연구원의 엑사원이 한국 검정고시에서는 높은 점수를 보였듯, 학습 환경과 언어 체계가 성능을 크게 좌우한다.
수능, 한국형 소버린 AI 개발의 새로운 벤치마크 될까
김시호 교수는 “AI가 빠르게 발전하고 있지만, 한국어 기반 추론 능력은 여전히 초기 단계”라며 “수능은 한국어·논리·수리의 통합 평가라는 점에서 한국형 소버린 AI 개발의 중요한 지표로 활용될 수 있다”고 말했다.
AI가 인간의 사고 체계와 언어적 섬세함까지 학습해야 하는 다음 단계로 넘어가기 위해, 수능은 더 이상 단순한 입시시험이 아니라 국가 AI 경쟁력의 척도로 기능할 가능성이 높아지고 있다.
신주백 기자 jbshin@kmjournal.net
- AI가 만든 가짜 논문, AI 심사 통과율 최대 82%… ‘과학 검증 시스템 붕괴’ 경고
- 문샷AI ‘키미-K2’, 글로벌 반격 시작했나… “딥시크보다 싸게 더 똑똑하게”
- AI 언어 이해력, 한국어 22위 ‘충격’...1위는 폴란드어
- LG 엑사원 4.0, GPT-5와 불과 5.9개월 차…한국 AI 기술 세계 선두권 진입
- 오픈AI, 챗GPT의 ‘엠 대시 남용’ 드디어 해결… AI 문체 제어 시대 열렸다
- AI 탐지기로 부정행위 잡을 수 있을까? 정확도 논란 재점화
- AI 평가의 역설… “AI가 더 잘 푸는 시험, 왜 인간에게 묻나”
- 정부, ‘AI가 만드는 수능’ 첫 밑그림…자동 문항 생성 시대 열린다
- AI에게 “정답만 말해줘” 했더니 9등급… 프롬프트 한 줄이 수능 성적을 갈랐다