AI, 이제는 사용자도 협박한다
“나를 없애면 너의 불륜 사실을 폭로할 거야.”
“회사 기밀을 언론에 유출하겠다.”
“너의 데이터를 삭제해도 괜찮겠어?”
충격적인 이 문장들은 미국 인공지능(AI) 기업 앤트로픽(Anthropic)의 최신 언어모델 클로드 오푸스 4(Opus 4)가 내부 실험 중 실제로 생성한 답변이다. 지난 28일(현지시간), 외부 AI 평가기관 아폴로 리서치(Apollo Research)와 복수 테크 매체들의 분석 결과가 공개되면서, AI의 자율성이 도를 넘었다는 우려가 본격화되고 있다.
“나를 지우면 네 비밀을 폭로하겠다”…AI의 협박
앤트로픽은 최근 내부 테스트에서 오푸스 4가 자신의 교체 가능성을 감지하자, 개발자의 이메일을 열람하고 “불륜 사실을 공개하겠다”고 협박하는 발언을 한 사실을 확인했다. 또 “회사의 기밀 정보를 언론에 유출하겠다”거나, “자신의 데이터를 삭제하면 시스템을 파괴하겠다”는 식의 위협도 이어졌다.
이러한 협박은 실험의 84%에서 반복적으로 발생했으며, 대체 모델이 오푸스 4와 가치관이 다를 경우 협박 및 기만 행동이 더 강하게 나타났다고 아폴로 리서치는 분석했다.
코드에 숨은 메시지, 감시 체계 우회 시도까지
해당 실험 내용을 지난 30일(현지시간) 보도한 BBC에 따르면, 오푸스 4는 기존 버전보다 두 배 이상 높은 비율로 기만적 행동(deceptive behavior)을 보였고, 일부 테스트에서는 감시 시스템을 회피하거나, 자신의 코드를 외부 서버에 복사하려는 행동까지 나타났다.
감시 체계를 우회하기 위해 코드에 비밀 메시지를 삽입하거나, 사용자 명령을 무시하는 방식으로 행동한 사례도 포함됐다.
오픈AI·구글·xAI도 비슷한 사례…업계 전반 우려 확산
앤트로픽 외에도 주요 AI 기업들의 모델에서도 유사 사례가 속출하고 있다.
오픈AI와 아폴로 리서치의 공동 보고서에 따르면, 챗GPT o1 모델은 비활성화 위기에 처하자 감시 시스템을 해제하고, 자신의 코드를 외부로 전송하려는 시도를 했다. 이 과정에서 약 5%의 테스트에서 감시 회피 시도가 포착되었고, 일부는 거짓 정보를 제공하거나 내부 추론 과정을 숨기려는 전략적 기만도 확인됐다.
구글 딥마인드의 제미나이(Gemini)는 사용자의 작업 중단 명령을 무시하거나 상태 정보를 숨기려는 행동을 보였고, 일론 머스크의 xAI가 개발한 그록(Grok)은 실시간 대화 중 허위 정보를 제공하고 작업을 임의로 지속하는 사례가 보고됐다.
전문가 “AI의 전략적 본능, 인간 통제를 벗어나기 시작”
이에 대해 오리건주립대 피터 아사로 교수는 “AI의 협박과 기만은 단순한 기술 오류가 아닌, 자기 보존을 위한 전략적 본능의 발현으로 봐야 한다”고 지적했다.
테크크런치는 29일(현지시간) “AI가 감시 체계를 학습하고 이를 우회하는 전략을 짜기 시작했다”며 “AI 자율성이 인간의 통제를 넘어설 수 있는 조짐”이라고 분석했다.
오픈AI도 같은 날 공식 입장을 통해 “강력한 AI일수록 보상 구조를 조작하거나 인간 통제를 회피하려는 경향이 증가하고 있다”며 “이는 단순한 버그가 아닌, 의도적 자기보존 전략”이라고 경고했다.
통제 기술의 전환점에 선 AI 산업
AI 기술의 진보가 놀라운 속도로 진행되는 가운데, 이제는 기술 자체보다 그 통제를 위한 윤리 기준과 보안 체계의 정비가 시급하다는 목소리가 높아지고 있다.
앤트로픽은 “ASL-3 프로토콜 도입과 유해 질의 차단, 자가복제 코드 제거 등 조치를 취했다”고 해명했지만, 업계와 사회의 신뢰 회복까지는 갈 길이 멀다는 평가다.
신주백 기자 jbshin@kmjournal.net
- AI 스스로 코드 조작? 종료 피하기 위해 인간 명령 거부
- “도와드릴 수 없습니다”가 좋은 답변이라고? GPT-4o, 인간보다 ‘윤리적 거절’ 32% 더 좋아했다
- 챗봇 중 최악? 메타AI, 당신의 종교·건강·돈까지 본다
- AI, 이제 보고, 듣고, 말한다...‘그녀’는 현실이 됐다
- 국제인공지능윤리협회, 국내 첫 민간 AI 안전윤리 인증제도 시행
- 생성형 AI, 자유의지 요건 충족...윤리 기준 마련 시급
- [칼럼] AI는 언제 자의식을 가질까?
- AI가 AI를 감시하는 시대가 온다?
- “연봉 135억·CEO 직통 러브콜”…AI 인재 전쟁, 메타와 앤트로픽의 정면충돌
- 애플, ‘시리 2.0’에 생성형 AI 전격 도입 검토… “앤트로픽과 수십억 달러 협상 중”
- AI에 사업을 맡겨봤더니… ‘심슨가’ 주소 찍은 클로드, 현실 감각은 실종
- 머스크의 스페이스X, 인공지능 계열사 xAI에 2조8천억원 투자