AI 학습 데이터 남용에 제동… “출처 명시와 유료 이용 필요” 강조
무료 온라인 백과사전 위키백과가 인공지능(AI) 개발사들의 ‘무단 데이터 수집’에 제동을 걸고 나섰다.
운영 주체인 위키미디어 재단은 AI 로봇들에게 자사 콘텐츠를 무단으로 긁어가는 대신, 유료 서비스인 ‘위키미디어 엔터프라이즈 플랫폼’을 이용해 달라고 요청했다.
AI 학습에 ‘무단 긁기’ 확산… 위키백과 “서버 부담 심각”
미국 정보기술(IT) 전문매체 테크크런치에 따르면 위키미디어 재단은 최근 AI 개발사들에게 “정식 유료 서비스를 통해 데이터를 활용해 달라”고 공식 권고했다.
현재 대형언어모델(LLM)을 기반으로 한 생성형 AI 개발사들이 위키백과의 방대한 콘텐츠를 무단 수집해 학습 데이터로 사용하는 사례가 늘고 있다.
AI 모델의 성능을 높이기 위해서는 신뢰성과 객관성을 갖춘 대규모 데이터가 필요한데, 위키백과는 이 조건에 부합하는 대표적 플랫폼으로 꼽힌다.
그러나 이로 인해 위키백과 서버의 부담이 커지고, 정작 인간 이용자들의 방문이 지난해보다 8% 감소한 것으로 나타났다.
재단은 일부 로봇이 ‘인간처럼 위장’해 접속을 시도하는 등 ‘로봇 탐지 회피’ 사례도 있었다고 밝혔다.
“AI는 유료로 이용하고, 출처도 밝혀야”
위키미디어 재단은 AI 개발사들이 유료 플랫폼을 이용하면 대규모 데이터를 안정적으로 확보하면서도 서버 부하를 줄일 수 있다고 설명했다.
또한 AI가 위키백과 콘텐츠를 인용하거나 활용할 때는 반드시 정보 출처를 명확히 표시해야 한다고 강조했다.
재단은 “사람들이 온라인에서 접하는 정보를 신뢰하려면, 플랫폼이 명확한 출처를 밝혀야 한다”며 “이용자가 직접 해당 출처를 방문할 수 있는 구조가 필요하다”고 덧붙였다.
“이용자 감소, 위키백과 생태계에도 위협”
재단은 “방문이 줄면 콘텐츠 생산이 위축되고, 이를 유지·보완할 자원봉사 생태계도 위협받을 수 있다”며, 인간 이용자의 방문이 줄면 위키백과의 핵심 동력인 자원봉사자와 기부자 수도 감소할 수 있다고 우려했다.
결국 위키백과는 AI 산업의 성장 속에서도 ‘공공 지식 플랫폼’으로서 지속 가능성을 지키기 위해, 유료화와 출처 명시라는 새로운 원칙을 내세운 셈이다.
최송아 객원기자 choesonga627@gmail.com