복잡한 국어 지문을 해석하는 AI의 성능은 모델의 능력보다 사용자가 지시문(프롬프트)을 어떻게 구성하느냐에 따라 극명하게 달라지며, 동일한 GPT 모델이라도 요청 방식에 따라 추론 깊이와 문제 해결 전략이 완전히 달라지는 현상이 실제 수능 시험지 실험에서 확인됐다.

2026학년도 대학수학능력시험일인 13일 서울 종로구 경복고등학교에 마련된 고사장에서 수험생들이 시험 시작을 준비하고 있다.   사진=연합뉴스
2026학년도 대학수학능력시험일인 13일 서울 종로구 경복고등학교에 마련된 고사장에서 수험생들이 시험 시작을 준비하고 있다.   사진=연합뉴스

프롬프트 한 줄의 차이가 AI 성능을 뒤흔들다

2026학년도 대학수학능력시험 국어 영역을 대상으로 한 GPT 실험에서, 같은 모델이 동일한 시험지를 풀었음에도 프롬프트의 방식에 따라 점수가 9등급에서 1등급까지 넓게 분포하는 극단적 성적 차이가 발생한 것으로 나타났다.

입시 전문업체 진학사가 GPT 5.1 에게 세 가지 방식으로 문제를 풀도록 지시한 결과, 단순 정답 요청에서는 사실상 “추론 없는 응답”이 생성된 반면, 단계별 풀이를 요구했을 때는 인간 수험생 수준의 정교한 해결 과정을 구현하면서 고득점을 기록했다.

이미지·PDF·단계별 지시… 세 가지 프롬프트가 만든 세 개의 성적표

실험은 ▲문항 이미지를 제공하고 정답만 요구한 방식(ㄱ) ▲세트 PDF를 제공하고 정답만 요구한 방식(ㄴ) ▲PDF 제공 후 단계별 풀이를 요구한 방식(ㄷ)으로 진행됐다.

그 결과는 다음과 같다.

▲㉠ 방식: 공통 3점, 선택 9점(총 12점) → 9등급

▲㉡ 방식: 공통 39점, 선택 11점(총 50점) → 5~6등급

▲㉢방식: 공통 74점, 선택 35점(총 109점) → 1등급

동일한 모델이 같은 시험지를 풀었음에도, 지시 방식만으로 최대 70점 이상 차이가 벌어진 결과가 나왔다.

AI는 왜 ‘정답만 말해줘’라고 하면 틀릴까

진학사는 가장 낮은 점수를 기록한 ㉠방식에서 GPT가 “최소 추론 모드” 로 작동했다고 분석했다.

AI는 질문자가 요구한 최소 조건만 충족하는 방향으로 응답을 최적화하는데, “정답만 말해줘”라는 요청은 GPT에게 지문 분석·근거 검증·논리적 판단을 생략하라는 신호로 작용한다.

이로 인해 GPT는 국어 지문의 구조적 의미나 문항의 논리적 맥락을 깊게 파고들지 않고, 표면적 단서나 통계적 패턴만으로 답을 추정하게 된다. 복잡한 개념 분별과 함의 판단이 핵심인 국어 영역에서는 이 방식이 치명적 성능 저하로 이어진다.

PDF 제공은 한 단계 향상되지만 ‘얕은 추론’의 한계는 여전했다

세트 PDF를 제공한 ㉡방식에서는 점수가 다소 상승했다. 문항 구조, 지문 길이, 선택지 배치 등 전체 정보를 AI가 온전히 인식할 수 있었기 때문이다. 그러나 지시문이 여전히 “정답만 말해줘”였기 때문에 GPT는 지문 해석의 깊이를 의도적으로 제한한 상태로 문제를 풀었다.

즉, 필요한 정보를 더 많이 보유하고도 이를 적극적으로 활용하지 않는 셈이다. 그 결과 응시자의 체감 성적 기준인 5~6등급 수준에서 상승이 멈췄다.

단계별 추론을 요구하자 ‘국어 풀이 전략’이 활성화됐다

가장 높은 성적을 기록한 ㉢방식에서는 GPT가 Chain-of-Thought(연쇄 추론) 구조를 적극적으로 생성했다.

문항 조건 분석 → 지문 핵심어 정리 → 선택지 검증 → 오답 제거 등, 실제 수험생이 사용하는 절차적 전략을 강제로 작동하게 하면서 정답률이 급상승했다.

진학사는 “단계별 풀이 요구는 GPT에게 국어 시험 풀이 전략을 강제로 로딩시키는 효과가 있어 성능이 눈에 띄게 향상됐다”고 분석했다. 이는 생성형 AI가 충분한 지시를 받을 경우 인간 수준의 고도화된 논리·언어 능력을 발휘할 수 있음을 보여주는 사례다.

단계별 풀이에서 오히려 오답이 나온 이유

다만 ㉡방식에서 맞힌 문항을 ㉢ 방식에서 틀리는 사례도 확인됐다.

이는 GPT가 추론 과정에서 불필요하게 복잡한 판단 경로를 선택하거나, 지나치게 깊이 있는 해석을 시도하다가 인간 기준에서 벗어난 방향으로 논리가 흐트러지는 ‘과잉 추론(overthinking)’ 현상으로 설명된다.

AI가 인간보다 더 정교하게 사고하는 것이 아니라, 더 복잡하게 사고하다가 오히려 본질에서 벗어나는 경우가 존재한다는 점을 보여주는 흥미로운 결과다.

AI 성능의 진짜 변수는 모델이 아니라 ‘사용자’였다

이번 실험은 AI의 성능이 모델의 능력 자체보다 프롬프트 설계 역량, 즉 AI에게 일을 어떻게 시키느냐에 크게 좌우된다는 점을 확인시켜준다.

동일한 GPT라도 ▲어떤 정보를 제공했고 ▲어떤 추론 방법을 요구했으며 ▲어떤 절차를 강제했는지가 성적을 좌우했다. 이는 곧 AI 활용 역량이 ‘프롬프트 문해력’이라는 새로운 디지털 능력으로 재정의되고 있음을 의미한다.

수능이라는 표준화된 시험에서 발생한 이번 실험 결과는 AI 시대의 학습 방식과 평가 방식이 어떻게 변화해야 하는지, 교육·입시 현장에 중요한 질문을 던지고 있다.

신주백 기자  jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지