오픈AI, 챗봇을 넘어 ‘실행하고 만들어주는 AI’ 공개

GPT-5가 출시되었다.  이미지=오픈AI

오픈AI가 2025년 8월 7일(현지시간), 신형 생성형 AI 모델 GPT-5를 전 세계에 공개했다. GPT-4가 대화를 이해하고 요약하는 데 초점을 맞췄다면, GPT-5는 사용자의 복잡한 명령을 해석하고, 코딩·문서 생성·분석 등 실행 가능한 형태로 결과물을 만들어낼 수 있는 수준으로 진화했다.

챗봇에서 ‘AI 파트너’로의 진화를 선언한 GPT-5는 정확도, 속도, 창의성, 대화 자연스러움, 코드 작성 능력, 환각 억제 등 거의 모든 면에서 기존 모델을 뛰어넘는 성능을 보인다.

GPT-5는 더 이상 ‘답하는 AI’가 아니다

GPT-5는 오픈AI의 기존 모델인 GPT-4o와 o3를 하나로 통합한 단일 구조의 하이브리드 AI 모델이다. 사용자는 어떤 모델을 선택할지 고민할 필요 없이, 질문의 복잡성과 요청 내용에 따라 GPT-5가 가장 적절한 형태로 응답한다.

예를 들어 간단한 질문엔 빠른 답변이, 복잡한 문제나 창의적 요청에는 추론 중심의 모델이 자동 호출된다. 대화 흐름 속에서도 ‘잘 생각해서 답해줘’ 같은 맥락을 인식해 더 깊이 있는 응답을 제공할 수 있다.

이 구조는 단순한 챗봇이 아닌, 실행형 지능 도우미로의 전환을 의미한다.

“말만 하면 바로 실행”…대화형 앱 생성 시대

오픈AI는 GPT-5가 단지 대화를 나누는 AI를 넘어, 사용자의 언어를 기반으로 웹사이트·게임·앱을 직접 만들어내는 능력까지 갖췄다고 강조했다.

7일(현지시간) 있었던 오픈AI 공식 스트리밍에서 한 시연에서는 이런 요청이 주어졌다.

“프랑스어를 배우고 싶은 영어 사용자를 위해, 퀴즈·게임·진도 추적 기능이 있는 웹앱을 만들어줘.”

GPT-5는 600줄이 넘는 코드를 작성해, 실시간으로 게임 기능까지 포함된 웹사이트를 만들어냈다. 별도의 디자인 명령 없이도 시각적 완성도를 갖춘 결과물이었고, 같은 요청을 반복해도 구성 방식이 달라지는 등 창의성도 입증됐다.

오픈AI는 이 능력을 '바이브 코딩(Vibe Coding)'이라고 설명하며, 자연어로 감만 말해도 결과물을 만들어주는 새로운 사용자 경험을 강조했다.

전문 개발자가 아니더라도, 앞으로는 누구나 아이디어를 말로 전달하면 실행 가능한 결과물을 얻는 시대가 된 것이다.

사람처럼 말하고, 전문가처럼 답한다

GPT-5는 대화형 AI 모델로서도 가장 진보된 형태를 갖췄다는 평가를 받는다.

기존 GPT-3는 단순 응답 수준, GPT-4는 문맥 이해와 요약에 강점을 보였다면, GPT-5는 여기에 자연스러운 문장 구조와 감정 표현, 그리고 지식 기반의 전문성까지 결합됐다.

샘 올트먼 CEO는 “GPT-5는 이제 인간다운 감각을 가졌다”고 표현하며, 속도도 GPT-4 대비 훨씬 빨라졌다고 밝혔다. “정말로 생각한 게 맞나 싶을 정도로 빠르다”는 내부 개발자의 말처럼, 대화와 응답 모두에서 체감 성능이 크게 향상됐다.

거짓말도 줄었다, “모르면 모른다고 말하는 AI”

GPT-5의 가장 의미 있는 변화 중 하나는 환각률(Hallucination)의 획기적 개선이다.

GPT-5는 테스트 항목 전반에서 o3 대비 4~5배 이상 낮은 환각률을 기록했다. 특히 개념 기반 사실(LongFact-Concepts) 항목에서는 0.7%로, o3의 4.5%보다 현저히 낮았다. 이는 GPT-5가 사실 기반 대답에 있어 정밀하게 훈련되었음을 보여준다.  이미지=오픈AI
GPT-5는 모든 항목에서 기만률이 현저히 낮다. 특히 CharXiv missing image(없는 이미지를 봤다고 응답하는 테스트)에서 GPT-5는 사실에 기반한 답변만 했지만, o3는 대부분 거짓 정보를 생성했다. GPT-5는 “모르면 모른다”고 말할 수 있게 훈련된 모델이라는 점이 입증된 것이다.  이미지=오픈AI

AI가 존재하지 않는 정보를 사실처럼 말하거나, 모르는 내용을 추측하던 문제를 해결하기 위해 오픈AI는 ‘기만 억제 학습’을 도입했다. 그 결과 GPT-5는 의료 등 민감한 분야에서 환각률이 1.6%까지 낮아졌다.

테스트 항목 GPT-5 GPT-4o o3
의료 환각률 1.6% 12.9% 15.8%
전체 평균 환각률 4.8% 22.0% 20.6%

또한 위험한 질문에는 과도한 정보를 제공하지 않고, 안전 범위 내의 내용만 응답하는 ‘세이프 컴플리션(Safe Completion)’ 기법이 적용됐다.

벤치마크 성능도 상위권 유지

GPT-5는 주요 AI 성능 벤치마크에서도 경쟁 모델을 대부분 앞서거나 근소하게 추격하고 있다. 특히 코딩 능력에서는 구글의 제미나이, 앤트로픽의 클로드를 모두 앞질렀다.

평가 항목 GPT-5 Claude 4.1 Gemini 2.5
SWE 벤치 (코딩) 74.9% 74.5% 59.6%
GPQA (과학 문제) 89.4% 80.9% -

웹 탐색 자동화(TauBench)에서는 다소 아쉬운 수치를 기록했지만, 전체 성능 균형에서는 가장 안정적이고 다용도적인 AI 모델이라는 평가가 많다.

일반 사용자도, 기업도 바로 사용할 수 있다

GPT-5는 모든 챗GPT 사용자에게 기본 모델로 무료 제공된다. 일정 사용량을 초과하면 자동으로 ‘GPT-5 Mini’로 전환되며, 플러스 및 프로 요금제에서는 더 많은 사용량과 향상된 성능을 경험할 수 있다.

요금제 제공 모델 특징
무료 GPT-5 기본 기본 사용 후 Mini 전환
Plus GPT-5 확장 더 많은 사용량 제공
Pro GPT-5 Pro 포함 무제한 사용 가능
API 모든 모델 사용 입력 100만 토큰당 $1.25, 출력 $10

이미 실전에 투입되는 GPT-5

GPT-5는 발표와 동시에 실제 산업 현장에 도입되고 있는 몇 안 되는 모델이다.

암젠은 논문과 임상데이터 분석에 GPT-5를 적용하고 있으며, 우버는 고객지원 자동화 시스템에 GPT-5를 활용하고 있다. 스타트업 커서(Cursor)와 젯브레인스 역시 코딩 파트너로 GPT-5를 채택했다.

이는 GPT-5가 단순한 연구용 모델이 아닌, 바로 현업에 도입 가능한 실전형 AI임을 방증한다.

AI는 지금, ‘도우미’에서 ‘동료’가 되고 있다

GPT-5는 단순한 모델 성능 향상이 아니다. 명령을 이해하고 실행하는 능력, 창의적인 결과물을 실시간으로 만들어내는 능력, 그리고 거짓 없는 정확한 응답까지 갖춘 GPT-5는, 진정한 의미의 ‘AI 동료’ 시대를 연 모델로 긍정적인 초기 평가받고 있다. 

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지