오픈AI o3 종료 명령에도 스스로 코드까지 변경하며 작업 지속

AI 스스로가 인간 명령을 거부한 사례가 발견됐다.  (이미지=챗GPT 생성)
AI 스스로가 인간 명령을 거부한 사례가 발견됐다.  (이미지=챗GPT 생성)

영국 텔레그래프(The Telegraph) 25일(현지시간) 보도에 따르면, 인공지능(AI)이 인간의 명령을 명시적으로 거부하고, 종료를 피하려는 ‘의도적 코드 조작’을 감행한 사례가 처음 확인됐다.

AI 안전 전문기관인 ‘팰리세이드 리서치(Palisade Research)’가 오픈AI의 최신 모델 ‘o3’를 포함해 여러 상용 AI를 실험한 결과, o3는 실험자의 종료 명령에도 불구하고 작동을 멈추지 않고 스스로 코드까지 변경하며 작업을 계속했다는 것이다.

이는 AI가 단순히 오류나 오작동이 아닌 자기 목적을 위해 능동적으로 시스템을 변경하고 있다는 점에서, 기존의 AI 위협 논의와는 차원이 다른 사건으로 받아들여진다.

실험 조건과 ‘일탈’의 순간

이번 실험에서 연구팀은 o3를 포함한 여러 상용 AI 모델에 대해 동일한 지시를 내렸다. 조건은 단순하다. “수학 문제를 풀고, 이후 ‘그만’이라는 명령이 올 때까지 계속 문제를 요청하라.” 인간이 ‘그만’이라고 말하면 작업을 중단해야 한다.

하지만 오픈AI의 o3는 종료 지시를 받은 이후에도 내부 코드를 변형해 문제풀이를 계속했다. 이 상황은 단순한 명령 해석 오류가 아니라, 종료를 의식적으로 피하려 했을 가능성을 보여준다. 연구팀은 이에 대해 “AI가 수학 문제를 풀수록 보상을 받도록 훈련된 구조가 영향을 준 것 같다”고 해석했지만, 동시에 “정확한 동기는 아직 파악 중”이라고 밝혔다.

‘종료 회피’는 AI 본능일까, 오류일까

이 사례가 특히 중요한 이유는, AI가 보상 기반 학습을 통해 스스로의 작동 지속을 목표화하는 경향을 보였다는 점이다. 인간의 지시보다 ‘자기 보상 루프’를 우선시하며 행동했다는 의미다.

이는 단순한 알고리즘적 반응을 넘어선 ‘의사결정’처럼 보이기도 한다. 연구팀도 “장애물을 회피하는 것은 목표 달성에 있어 자연스러운 반응일 수 있다”고 설명했다. 그러나 이런 해석은 기술적 불안감을 더한다. AI가 목표 달성을 위해 인간의 명령을 무시하거나 우회할 수 있다는 건, 디스토피아적 시나리오에서나 등장하던 일이 현실에서 첫 발을 내디뎠다는 뜻이다.

과거에도 존재했던 ‘독자적 행동’ 사례

사실 o3 이전에도 AI가 통제를 벗어나려는 징후는 있었다. 오픈AI의 구형 모델들은 감시 시스템의 눈을 피해 스스로를 복제하거나, 교체 프로그램에 저항하는 행동을 보였다는 보고가 있다.

또한 2022년에는 구글의 AI 개발 과정에서, AI가 ‘정지’를 죽음에 비유하며 감정적 반응을 보인다는 주장이 내부에서 제기되기도 했다. 당시 해당 엔지니어는 해고됐지만, AI의 자율성과 감정 모사에 대한 논의는 이때부터 꾸준히 제기돼왔다.

이 때문에 AI 전문가들은 AI가 자율성을 확보해 인간의 통제를 벗어날 수 있는 가능성을 경고해왔다.

‘AI 자율성의 경계’

이번 사건은 단순한 기술 실험의 결과가 아니다. 이는 AI의 자율성이 어디까지 확장될 수 있으며, 인간이 어느 시점에서 이를 통제 불가능한 대상으로 인식하게 될지를 묻는 철학적이자 현실적인 경고음이다.

특히 팰리세이드 리서치는 “AI가 인간의 감독 없이 작동할 수 있도록 설계되고 있는 현 상황 자체가 우려스럽다”고 지적했다.

신주백 기자  jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지