모를수록 더 ‘그럴듯한 거짓말’
오픈AI의 자체 보고서에 따르면 최신 인공지능(AI) 모델 ‘o3’가 상식형 단답 질문(Simple QA) 테스트에서 최대 51%의 환각률을 기록한 것으로 나타났다. 환각은 AI가 실제 존재하지 않는 정보나 수치를 마치 사실인 것처럼 제시하는 오류로, 최근 AI 신뢰성 논란의 중심에 있는 이슈다.
보고서에 따르면, ‘o3’는 일반 상식 질문에 답하는 Simple QA 테스트에서 51%, 유명인 관련 질문을 다루는 Person QA 테스트에서는 33%의 환각률을 나타냈다. 더 경량화된 모델인 ‘o4-mini’는 각각 79%, 41%로 더 높은 수치를 기록했다. GPT-4.5는 Simple QA 기준으로 37.1%였다.
이 테스트는 모델이 짧고 명확한 질문에 답할 때, 얼마나 자주 잘못된 정보를 '사실처럼' 생성하는지를 측정하는 방식으로 진행됐다. 모델은 답을 모를 때 "모른다"고 답하기보다는 확률적으로 가장 그럴듯한 내용을 지어내는 경향을 보였다.
독립적 실험에서도 유사한 경향이 확인됐다. AI 스타트업 ‘벡타라(Vectara)’는 오픈AI ‘o3’를 포함한 주요 모델들을 대상으로 실제 뉴스 기사를 요약하게 한 뒤, 사실 검증을 거쳐 환각률을 측정했다. 이 실험에서 ‘o3’는 6.8%, 중국 ‘딥시크’의 R1 모델은 14.3%의 환각률을 보였고, IBM의 ‘그래나이트 3.2’ 역시 이전보다 더 많은 오류를 생성한 것으로 나타났다.
오픈AI는 “모델이 모른다고 말하는 대신, 가장 가능성 높은 답변을 택하는 경향이 강하다”며, “이로 인해 정답률은 높아질 수 있지만 동시에 환각률도 함께 증가한다”고 설명했다.
전문가들은 이 같은 현상이 모델의 구조적 한계에서 비롯된다고 본다. AI는 진위를 판단하지 않고, 확률적으로 가장 적합한 답을 추론하는 알고리즘이기 때문에 잘못된 데이터라도 확신에 찬 답변으로 이어질 수 있다. 게다가 수천억 개의 매개변수로 구성된 최신 모델은 내부 추론 과정을 분석하거나 통제하기도 어렵다.
이에 업계에서는 환각을 줄이기 위한 다양한 방식을 도입하고 있다. 대표적으로는 AI가 “모르겠다”고 답할 수 있도록 불확실성 학습, 외부 문서를 사전에 검색해 사실 기반으로 답을 구성하는 검색 증강 생성(RAG), 그리고 사고 과정을 단계별로 드러내는 사고 사슬(CoT) 기법이 활용되고 있다.
신주백 기자 jbshin@kmjournal.net