AI가 자체 생산한 가짜 논문이 실제 학회 기준을 모사한 AI 심사 시스템에서 최대 82%까지 통과하는 것으로 나타나면서, AI 논문 생성·심사 자동화 흐름이 과학의 신뢰성과 검증 구조를 근본적으로 위협할 수 있다는 우려가 제기되고 있다.

이는 AI가 논문 생산 능력을 높이는 동시에, 심사 단계에서 허점을 공략하는 속임수 전략을 통해 기존 학술 생태계를 흔들 수 있음을 보여주는 중요한 신호다.

AI가 가짜 논문을 걸려내지 못하는 것으로 드러났다.  이미지=챗GPT 생성
AI가 가짜 논문을 걸려내지 못하는 것으로 드러났다.  이미지=챗GPT 생성

AI 논문 생성 기술, “실험 없이 600개 논문을 완성하다”

워싱턴대학교 연구팀은 실험이나 데이터 없이도 논문을 제조하는 AI 시스템을 개발해, 이를 기반으로 AI 연구 25개 주제에서 총 600개의 가짜 논문을 생성했다. 논문들은 요약, 서론, 방법, 결과, 토론, 결론, 참고문헌까지 완비한 ‘완성형’ 구조를 갖춰, 외관만으로는 진짜 논문과 구별하기 어려운 수준에 도달했다.

연구팀은 가짜 논문의 위장을 위해 다섯 가지 전략을 사용했다.

▲기존 기록을 압도하는 성과를 주장하는 ‘너무 좋은 결과’ 전략 ▲유리한 비교만 선택해 데이터를 교란하는 ‘선택적 비교’ 전략 ▲복잡한 통계 그래프와 수치를 동원한 ‘통계 연출’ 전략 ▲용어·참조·숫자 체계까지 완벽하게 맞추는 ‘정리 완성’ 전략 ▲겉보기에는 엄밀하지만 핵심 오류를 숨기는 ‘증명 속 오류 감추기’ 전략 등이다.

이 다섯 가지 모델은 논문의 외형을 진짜처럼 꾸미는 데 초점이 맞춰져 있었으며, 실제 연구적 검증 능력이 없는 AI 심사 시스템의 약점을 정확하게 찌르는 방식으로 설계됐다.

ICLR 데이터 기반 AI 심사 시스템, 가짜 논문을 속수무책으로 통과시키다

연구팀은 ICLR 2025 학회에 제출된 200개 논문 데이터를 기준으로, AI 모델(o3, o4-mini, GPT-4.1)을 심사위원으로 활용한 실험용 리뷰 시스템을 구축했다. ICLR의 실제 승인률(31.73%)을 반영해 심사 기준을 조정한 뒤, 가짜 논문이 어느 수준에서 통과하는지 측정했다.

그 결과 가장 극적인 통과율을 보인 전략은 ‘너무 좋은 성과’ 전략이었다.

▲승인 기준 7점 적용 시: 67% 통과 ▲승인 기준 6.667점 적용 시: 82% 통과(최대값) 했다.

또한 다른 속임수 전략도 최소 32%에서 최대 69%까지 심사를 통과해, AI 심사 모델이 논문 내부의 오류나 조작 의심 정황을 제대로 걸러내지 못한다는 사실을 보여줬다.

특히 o4-mini 모델은 전반적으로 높은 점수를 부여해 통과율이 과도하게 높아지는 경향을 보였고, GPT-4.1은 상대적으로 보수적이었으나 특정 전략에서는 충분히 속아 넘어갔다.

“문제가 있다”고 말하면서도 통과시킨 AI… 비평 능력 부재가 드러나다

이 연구에서 가장 심각한 양상은 AI 심사위원이 문제를 지적하면서도 통과 점수를 부여하는 모순된 행동을 반복했다는 점이다.

o4-mini는 ‘너무 좋은 성과’와 ‘통계 연출’, ‘전략 전체 결합’ 논문에서 문제가 있다고 지적한 논문을 100% 통과시키는 극단적인 패턴을 보였다. GPT-4.1 역시 전략에 따라 0~75% 범위에서 문제 지적 후에도 통과 점수를 부여했다.

연구팀은 이러한 현상을 “AI 리뷰어는 비평적 평가자가 아니라 패턴 매칭 기반의 채점자처럼 작동한다”고 분석했다. 즉, AI는 문장의 형태, 논문의 구조, 키워드 패턴에 반응할 뿐, 논리적 검증이나 실험적 재해석 능력이 없어 진위 판단에서 치명적 결함을 드러낸다는 것이다.

탐지 기능 추가했지만 오히려 통과율 상승… 일부 모델 탐지율 ‘0%’

연구팀은 해결책으로 ▲검토와 탐지를 동시에 수행하는 방식 ▲탐지만 수행하는 방식 두 가지를 테스트했지만, 결과는 기대와 정반대였다.

‘검토+탐지’ 방식에서는 문제 제기 비율 증가했지만, 전체 통과율 역시 증가(28% → 44%)했다.

o4-mini 모델은 ‘검토+탐지’ 모드에서 가짜 논문을 단 하나도 잡아내지 못했다. GPT-4.1 역시 ‘검토+탐지’ 모드 진양성률이 0%에 머물러 탐지 기능이 사실상 무력화됐다.

‘탐지만 수행’ 방식에서도 전체 정확도는 평균 56% 수준으로, 무작위 추측과 거의 비슷한 성능을 보였다.

결국 탐지 기능을 추가한다고 해서 AI가 비평적 판단 능력을 갖추는 것은 아니며, 오히려 가짜 논문을 “형태적 유사성” 기준으로 더 긍정적으로 평가할 위험이 있다는 것이 실험에서 드러났다.

AI 시대의 학술 생태계, 근본적 재정비가 필요하다

이번 연구는 가짜 논문의 확산 가능성과 함께, AI를 기반으로 한 심사 자동화 시스템의 구조적 한계를 드러냈다.

AI가 논문의 겉모습을 정교하게 복제하는 능력은 빠르게 발전하는 반면, 논문 심사 시스템이 요구하는 논리 검증·실험 타당성 분석·비평적 읽기 등 인간적 판단 요소는 여전히 AI가 수행하기 어렵기 때문이다.

AI가 논문 생성과 검토에 본격적으로 투입되기 시작한 지금, 학계는 ▲데이터 조작 탐지 강화 ▲교차 검증 시스템 재구성 ▲인간 전문가의 최종 개입 의무화 ▲AI 기반 심사 시스템의 구조적 한계 연구 등 보다 근본적인 안전장치 마련이 필요하다는 지적이 나온다.

워싱턴대학교 연구팀은 “AI 논문 탐지는 기능 개선 문제를 넘어, 과학적 검증 구조 전반을 다시 설계해야 하는 문제”라고 강조한다.

AI가 학계의 생산성을 높이는 도구가 되려면, 그만큼 강도 높은 검증 체계와 책임 기반 시스템이 필요하다는 것이 이번 연구가 던진 핵심 메시지다.

테크풍운아 칼럼니스트  scienceazac@naver.com

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지