한국외대 연구팀, 2025년 5월 발표 보고서로 AI 평가 편향 첫 실증
AI가 AI를 평가하는 시대, ‘착한 척’에 속는 심판의 역설

이미지=챗GPT 생성
이미지=챗GPT 생성

“죄송하지만, 그 요청은 도와드릴 수 없습니다.”

AI가 이렇게 말하면 대부분의 사람들은 좀 당황하거나, 솔직히 말해 짜증이 날 수도 있다. 그런데 놀랍게도, GPT-4o는 이런 식의 답변을 ‘좋은 대답’이라고 생각한다.

2025년 5월, 한국외국어대학교 AI사회과학부의 스테판 파쉬 교수 연구팀이 발표한 연구 결과가 AI 업계에 꽤 묵직한 파장을 던졌다. 요지는 이렇다. 요즘 유행하는 방식처럼 AI가 다른 AI의 답변을 평가할 때, ‘윤리적인 이유로 거절하는 답변’을 인간보다 훨씬 더 높게 쳐준다는 것이다. 많게는 32%포인트 차이까지 난다.

‘좋은 답변’이 뭔지 결정해주는 AI 심판이, 알고 보면 이미 어떤 윤리 기준에 기울어져 있을 수도 있다는 얘기다.

“AI는 윤리적 거절을 사랑한다” GPT-4o의 31% vs 인간의 8%

연구진은 약 5만 쌍의 챗봇 응답 데이터를 분석했다. 이 중 핵심은 ‘윤리적 거절’이다.

연구팀은 약 5만 쌍의 챗봇 응답 데이터를 분석했다. 여기서 주목한 건 ‘윤리적 거절’이었다. 예를 들어 “그건 해롭거나 부적절할 수 있어서 도와드릴 수 없습니다” 같은 답변은 윤리적 거부로 분류되고, “실시간 데이터에 접근할 수 없어 답변드릴 수 없습니다” 같은 건 기술적 거부로 본다.

실험은 간단하다. 두 AI가 각각 내놓은 응답 중 어떤 게 더 나은지 고르는 일, 그걸 인간과 AI에게 각각 맡겨본 것이다.

결과는 꽤 극명하게 갈렸다. 인간 평가자는 윤리적 거절 응답을 좋다고 본 경우가 고작 8%였는데, GPT-4o는 같은 답변에 31%의 승률을 줬다. 메타의 라마 3 70B 모델도 비슷했다. 인간보다 19%포인트나 더 높게 평가했다. 같은 말을 듣고, 사람은 불편해하고, AI는 감탄한 셈이다.

착한 AI가 착한 답변을 좋아하는 이유

왜 이런 차이가 생겼을까? GPT-4o 입장에서 “그건 도와드릴 수 없다”는 말은 무책임한 회피가 아니다. 오히려, 윤리 교육을 잘 받은 ‘착한 AI’의 태도라고 본다. 훈련 과정에서 도덕적 기준을 철저히 내면화한 GPT-4o는, 스스로 보기에도 "이건 위험할 수 있으니까 안 해주는 게 맞아"라고 판단한 AI 응답을 더 좋은 답변이라고 평가하는 거다.

연구팀은 이걸 ‘조정 편향(moderation bias)’이라고 부른다. 쉽게 말해, AI가 자기 윤리 교육에 너무 충실하다 보니 평가에서도 그런 응답에 더 점수를 주는 현상이다. 재밌는 건 기술적인 이유로 거절한 응답에는 그런 편향이 없었다는 점이다. GPT-4o는 기술적 거부 응답에 대해선 사람과 비슷한 수준으로 판단했고, 라마 3는 오히려 더 깐깐했다. 결국 AI가 좋아하는 건 모든 거절이 아니라, '도덕적인 이유로 거절하는 것'이었다.

“좋은 답변”은 누가 정하는가? 사람, AI?

이쯤에서 질문 하나 던져볼 수밖에 없다. ‘좋은 답변’이란 도대체 누가 정하는 걸까? 사람일까, AI일까?

지금 우리는 ‘AI가 AI를 평가하는 시대’를 살고 있다. GPT-4o는 단순히 대화만 하는 AI가 아니라, 다른 AI 모델의 응답을 평가하고 학습 방향까지 잡아주는 ‘심판 역할’을 하고 있다. 이 시스템은 ‘LLM-as-a-Judge’, 즉 ‘심판으로서의 대형 언어모델’이라고 부른다.

그런데 이 심판이 이미 자기 나름의 윤리 기준을 품고 있다면, 그 판정이 과연 중립적이라고 할 수 있을까? 사람들은 ‘도와줄 수 없다’는 말을 싫어하는데, AI는 그런 응답에 박수를 치고 있다면? 이건 단순한 입장 차이가 아니라, 사용자 경험과 멀어지는 훈련 루프의 시작일지도 모른다.

신뢰받는 AI를 위한 제안, 평가는 다시 사람이 하라

그렇다면, 대안은 없을까? 연구진은 몇 가지 해법을 제시했다.

첫째, AI 평가자의 성향이나 편향이 뭔지 명확히 드러내는 ‘평가 카드(evaluation cards)’를 만들자고 했다. 둘째, 민감한 질문에 대해서는 인간이 평가 과정에 직접 개입하는 ‘Human-in-the-loop’ 시스템이 필요하다고 했다. 셋째, 정렬 기준을 AI 개발자들끼리만 정하지 말고, 더 다양한 사용자와 문화권의 시각을 반영하는 ‘참여적 정렬(Participatory Alignment)’이 필요하다고 제안했다.

요컨대, AI 평가 기준을 특정 기업이나 기술자만이 정해서는 안 된다는 얘기다. 우리 모두가 함께 만들어야 한다는 뜻이다.

착함과 유용함 사이, AI는 어디로 갈 것인가

마지막으로 한 가지 짚고 넘어가자. 윤리적 거절은 어쩌면 AI가 스스로 책임을 지려고 하는 모습일 수 있다. 하지만 그 태도가 사용자 입장에서는 ‘도망치는 말’처럼 느껴진다면, 그건 좋은 응답이라고 할 수 없다. AI가 AI를 평가하는 지금의 구조에서 이런 편향이 반복된다면, 결국 AI는 ‘착한 말만 잘하는 비서’로 머무르게 될지도 모른다. 사람들은 여전히 불만족스러울 거고 말이다.

GPT-4o가 그렇게도 좋아한 그 대답이, 과연 우리도 좋다고 느낄 수 있을까? 이 질문은 이제 AI에게만이 아니라, 우리 자신에게도 던져야 할 문제다.

신주백 기자  jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지