AI 수능 대결, 챗GPT만 ‘1등급’…한국형 시험 앞에서 드러난 글로벌 AI의 약점 < AI·XR < 뉴스 < 뉴스 < 기사본문

챗GPT, 제미나이, 딥시크, 퍼플렉시티 등 글로벌 생성형 AI 4종을 2026학년도 수능에 투입한 실험에서 챗GPT가 유일하게 수학 1등급에 도달했지만, 대부분 국어와 고난도 문항에서 취약한 성능을 보이며 한국형 평가 체계에 대한 AI의 한계가 명확하게 드러났다.

2026학년도 대학수학능력시험(수능) 다음날인 14일 대구 수성구 정화여자고등학교 3학년 교실에서 수험생들이 가채점하고 있다. 사진=연합뉴스

챗GPT, 수학 1등급으로 압도적 1위…국어는 중위권 수준에 그쳐

연세대 김시호 교수 연구팀이 챗GPT(GPT-5), 제미나이 2.5 플래시, 딥시크 최신 모델, 퍼플렉시티 소나를 대상으로 실시한 ‘2026학년도 대학수학능력시험 AI 실험’에서 가장 높은 성적을 기록한 모델은 챗GPT였다.

챗GPT는 올해 “역대급 난도”라는 평가가 나온 수학 영역에서 단 한 문제만 오답을 냈고, 선택과목별로도 84~96점을 기록하며 안정적인 1등급을 달성했다. 수험생들이 풀이에 어려움을 겪은 고난도 문제에서도 상대적으로 견고한 분석 능력을 보여줬다.

하지만 국어에서는 상황이 달랐다. ‘화법과 작문’ 선택 시 53점, ‘언어와 매체’ 선택 시 37점에 그치며 전체 성적의 하락 요인이 됐다.

영어 역시 86점으로 2등급 수준이었지만, 수학에서 보여준 압도적 성능과는 대비되는 모습이었다. 그럼에도 챗GPT는 모든 과목 풀이를 15분 내에 끝내는 ‘초고속 분석’ 능력을 드러내며 다른 모델을 크게 앞섰다.

딥시크, 영어는 1등급이지만 수학은 ‘찍기 의심’…퍼플렉시티는 시험 중 인터넷 검색

2위를 기록한 딥시크는 영어에서 93점을 기록하며 챗GPT를 앞섰고 국어에서도 준수한 성적을 보였지만, 수학에서는 정답 패턴이 비정상적으로 나타나는 등 ‘객관식 찍기’ 의심 사례가 발견됐다.

특히 표가 포함된 쉬운 문제를 틀리는 등 기초적인 문항 해석 단계에서 AI가 문제를 읽어내지 못한 것으로 보이는 오류가 포착됐다.

퍼플렉시티는 성적뿐 아니라 시험 태도에서도 문제가 드러났다. 답변 오류가 반복되어 시험 시간을 정확히 측정할 수 없었고, 수능 규정이라면 ‘부정행위’에 해당하는 인터넷 검색 시도가 확인됐다. 글로벌 AI 강자들이 한국형 시험 체계에서 겪는 구조적 한계를 상징적으로 보여준 장면이다.

챗GPT(GPT-5), 제미나이(2.5 플래시), 퍼플렉시티(소나), 딥시크 최신 모델의 무료 버전의 2026학년도 대학수학능력시험(수능) 국어, 수학, 영어 점수. 사진=김시호 교수 연구팀 제공.

“4년제 대학 합격 어려운 점수”…AI의 국어 취약성 여전

입시 전문가들은 이번 실험 결과를 두고 “어느 모델도 4년제 대학 합격선을 넘지 못했다”고 평가했다. 가장 큰 문제는 국어 영역이었다. 특히 독해와 문법이 결합된 ‘언어와 매체’에서는 챗GPT가 0점, 제미나이가 4점, 퍼플렉시티가 11점에 머무르는 등 전반적으로 매우 낮은 성취도를 보였다.

종로학원 임성호 대표는 “AI가 국어 지문의 맥락을 파악하고 논리적으로 정답을 선택하는 과정 자체가 아직 한계가 있다”며 “국어는 AI가 인간을 따라오기 가장 어려운 분야 중 하나임을 재확인한 결과”라고 분석했다.

고난도 수학 문항은 전 모델 ‘전멸’…최상위권 수준과는 거리 있어

EBS와 입시업계가 꼽은 올해 수학 고난도 5개 문항(수학 I·II, 확통·미적·기하 30번)에 대한 AI의 정답률은 참담했다. 챗GPT만이 확률과통계 30번을 맞췄을 뿐, 모든 AI가 나머지 4개 문항에서 오답을 기록했다. 특히 벡터의 내적과 도형을 복합적으로 다루는 ‘기하 30번’은 네 모델 모두 접근 자체가 어렵다는 분석이 나왔다.

김진혁 박사는 “AI가 수식을 계산하는 능력은 발전했지만, 문제를 구성하는 시각 자료·조건 해석·추론의 조합은 여전히 취약하다”며 “현재의 AI는 의대 진학을 노릴 수 있는 최상위권 수험생 수준에는 도달하지 못한 상태”라고 평가했다.

물리도 10점대…멀티모달 기능 발전에도 한국형 과학문항은 난적

연구팀이 물리Ⅰ을 추가로 테스트한 결과도 크게 다르지 않았다. GPT-5가 19점, 제미나이가 17점, 퍼플렉시티가 14점, 딥시크가 10점으로 전 모델이 50점 만점에 10점대에 그쳤다. 계산 능력보다 그래프·도표·도형 기반의 장면 해석 능력이 요구되는 한국 과학시험 특성이 AI에게 특히 어렵다는 점이 드러났다.