GPT-5, ‘따뜻함’뿐 아니라 일부 성능에서도 퇴보 논란

GPT-5 출시 다음 날 사용자 불만은 단순한 말투나 톤의 문제가 아니었다. 레딧과 X(구 트위터)에서는 “장시간 사고를 요하는 수학·논리 문제에서는 이전 모델 o3가 더 안정적이고 정확하다”는 증언이 이어졌다.

GPT-5 출시 이후 레딧에서  Ask Me Anything(AMA)를 진행했다.  이미지=레딧 캡처
GPT-5 출시 이후 레딧에서  Ask Me Anything(AMA)를 진행했다.  이미지=레딧 캡처

특정 벤치마크(AIME 2025 등)에서 o3가 GPT-5보다 나은 결과를 보였다는 테스트 사례가 일부 공유되면서 ‘성능 후퇴’ 의혹이 본격적으로 확산됐다.

반면 SWE-Bench Verified, Aider-Polyglot 등 코드·공학 분야에서는 GPT-5가 확실한 우위를 보이며, 작업 유형에 따라 체감 성능이 갈린다는 분석이 나온다.

‘모델 라우팅’과 사용 제한이 체감 저하 부른다

일부 사용자는 오픈AI의 모델 라우팅이 속도·비용 최적화를 위해 경량 경로를 우선 적용한다고 의심하며, 이로 인해 성능 저하를 체감한다고 주장한다. 오픈AI가 도입한 ‘모델 라우팅’이 속도와 비용 절감을 위해 경량 경로를 우선 적용하면서, 복잡한 문제 해결 시 성능이 저하된다는 불만이다.

여기에 Thinking 모드에 주간 메시지 제한이 걸려 있어, 장고가 필요한 작업에서 GPT-5의 잠재력을 충분히 활용하지 못한다는 지적이 나온다.

오픈AI, 4o 재선택 허용…투명성·성능 개선 예고

샘 올트먼 CEO는 “사용자들이 GPT-4o에서 좋아하던 요소의 중요성을 과소평가했다”며, Plus 구독자를 대상으로 GPT-4o 선택권을 부활시켰다. 그는 또 “모델 라우팅 과정을 더 투명하게 공개하고, GPT-5를 더 ‘따뜻하고’ 일관된 톤으로 개선하겠다”고 밝혔다. 다만 GPT-4o 제공이 얼마나 지속될지는 사용 추이를 보며 결정하겠다는 입장이다.

오픈AI는 삭제 했던 GPT-4o 기능을 복귀했다.  이미지=오픈AI X 캡처
오픈AI는 삭제 했던 GPT-4o 기능을 복귀했다.  이미지=오픈AI X 캡처

데이터로 본 작업별 강·약점

코드·소프트웨어 엔지니어링과 같이 구조화된 문제에서는 GPT-5가 두각을 나타냈다. 그러나 장시간 사고를 요구하는 수학·논리 영역에선 일부에서 o3의 손을 들어주는 평가가 존재한다. 이처럼 성능 우열이 절대적이지 않다는 점에서, 사용자 맞춤형 모델 선택권은 여전히 중요한 가치로 남아 있다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지