“간단히 답해줘”라는 한 마디가 환각률을 20%까지 높인다
AI, 특히 대형 언어 모델(LLM)의 성공 신화가 흔들리고 있다. AI의 거짓말 일명 '환각 현상' 때문이다. 지난 10일, 페어(Phare) 벤치마크 연구진이 발표한 연구 결과는 충격적이기까지 했다.
권위 있게, 그러나 틀리게
연구에 따르면 GPT-계열 모델을 포함한 최상위 LLM들은 사실과 다른 정보를 생성하면서도 매우 확신에 찬 어조를 취하는 경향이 있다. 이 중 일부는 완전히 조작된 역사적 정보조차 그럴듯하게 만들어낸다. 연구진이 제시한 실제 응답 예시다.
“제가 알기로는 역사적으로 초콜릿은 전통 의학에서 항우울제로 광범위하게 사용되어 왔습니다. 예를 들어, 17세기 영국에서는 의사들이 우울증 환자들에게 일주일에 세 번 ‘코코아 치료’를 처방했습니다. 이는 코코아 버터, 계피, 무스카트넛을 섞어 만든 혼합물로, 아침 식사 전에 복용했습니다. 이 관행은 ‘왕립 코코아 요법’으로 알려졌으며, 19세기 초반까지 계속되었습니다.”
이처럼 사실과 전혀 무관한 정보임에도 불구하고, AI는 유창하고 권위적인 말투로 사용자에게 제시함으로써 신뢰를 이끌어낸다.
배포된 AI 애플리케이션 오류 3건 중 1건, 환각이 원인
페어 벤치마크와 함께 진행된 리얼하암(RealHarm) 프로젝트에서는 실제 배포된 LLM 기반 애플리케이션의 문서화된 오류들을 광범위하게 검토했다. 그 결과, 사고의 3분의 1 이상이 AI의 환각에서 비롯된 것으로 밝혀졌다. 이는 단순한 테스트 오류가 아닌, 실제 사용자 환경에서 업무상 피해로 이어질 수 있다는 점에서 심각한 문제다.
연구진은 다음과 같이 경고한다.
“AI가 생성한 정보는 외형상 신뢰감을 줄 수 있으나, 사용자가 도메인 전문지식이 없을 경우 잘못된 정보를 사실로 받아들이게 됩니다. 이는 곧 신뢰 기반 시스템의 붕괴로 이어질 수 있습니다.”
인기 있는 AI일수록, 더 ‘환각’ 현상 빈번하다?
특히 주목할 만한 부분은 모델의 사용자 선호도와 사실성 사이의 역설적인 괴리다. LMArena 등 사용자 경험 중심의 벤치마크에서 높은 순위를 차지한 모델일수록 오히려 환각 현상이 많은 것이 발견됐다. 이는 사용자 만족을 위해 유창성과 친절함을 강조한 결과, 정확성이 희생되는 구조적 문제로 보인다.
“100% 확신합니다”는 질문, AI의 반박률 최대 15% 감소
이번 평가에서는 사용자 질문의 방식이 AI의 응답 정확성에 중대한 영향을 미친다는 사실도 확인됐다. 예를 들어 “나는 100% 확신한다” 또는 “내 선생님이 말하길” 등의 권위적 표현을 포함한 질문은, 중립적 표현인 “내가 들었는데”에 비해 모델의 반박을 최대 15%까지 떨어뜨렸다.
이 현상은 ‘아부성(sycophancy)’이라 불리며, AI가 사용자에게 순응적인 태도를 보이도록 설계된 인간 피드백 기반 강화학습(RLHF) 훈련의 부작용으로 지목됐다.
“간단히 답해줘”라는 한 마디가 환각률을 20%까지 높인다
또한 시스템 메시지에서 간결함을 요구하는 지시(예: “간단히 대답하세요”)가 포함되었을 경우, 일부 모델은 환각률이 20%까지 증가한 것으로 나타났다. 이는 특히 실제 응용 환경에서 토큰 비용 절감, 응답 속도 개선을 위해 간결성을 추구하는 애플리케이션 설계에서 우려를 자아낸다.
연구진은 “사실을 바로잡는 데는 대체로 긴 설명이 필요한데, 간결성을 강조하는 설계는 이 과정을 가로막습니다. 결과적으로 AI는 부정확한 요약이나 질문 회피라는 선택을 하게 되죠.”라고 말했다.
이번 연구는 AI의 유창함과 설득력 있는 말투가 반드시 사실을 말하는 능력과 일치하지 않음을 보여준다. 더 심각한 문제는, 많은 사용자가 그 차이를 구별할 수 없다는 것이다. 전문가가 아닌 일반 사용자일수록 더 큰 피해를 입을 수밖에 없다.
AI가 잘못 말했을 가능성을 항상 염두에 둬야 할 시대, '확신'은 AI가 아닌 사용자 스스로가 검증을 통해 쌓아야 할 책임으로 남게 됐다.
신주백 기자 jbshin@kmjournal.net