OpenAI가 사용자를 대신해 실제 업무를 수행하는 AI 시스템 ‘ChatGPT 에이전트’를 공개했다. 이 시스템은 단순한 챗봇 기능을 넘어 웹 탐색, 코드 실행, 앱 조작 등 복잡한 작업을 자동으로 수행할 수 있도록 설계됐다. Pro, Plus, Team 요금제 사용자부터 순차적으로 제공하기 시작했다.

오픈AI 로고  사진=연합뉴스
오픈AI 로고  사진=연합뉴스

“말뿐인 AI는 끝”…웹 탐색·앱 조작·파일 생성까지

ChatGPT 에이전트는 웹사이트 자동 조작 기능을 제공하는 ‘오퍼레이터’, 복잡한 정보 수집을 수행하는 ‘딥 리서치’, GPT-4 기반 언어 모델을 통합한 멀티기능형 범용 에이전트다.

가상 환경(Sandbox) 내에서 작동하며, Gmail·GitHub 등 실서비스와 연동해 일정 확인, 프레젠테이션 생성, 슬라이드 편집, 코드 실행, 경쟁사 분석 등 복잡한 다단계 업무 처리가 가능하다.

"인류의 마지막 시험"…성능은 어느 정도일까?

OpenAI는 이번 시스템의 성능을 검증하기 위해 자체 벤치마크인 ‘Humanity’s Last Exam’을 도입했다.

챗GPT 에이전트는 Humanity’s Last Exam 점수가 크게 향상됐다. 
챗GPT 에이전트는 Humanity’s Last Exam 점수가 크게 향상됐다. 

ChatGPT 에이전트는 이 시험에서 41.6%의 점수를 기록해, 기존 GPT-4 대비 대폭 향상된 종합 사고·실행 능력을 입증했다.

OpenAI는 “일상적인 리서치나 기획 업무에선 매우 유용하지만, 스프레드시트 정밀 편집처럼 고난도 디테일 작업에서는 여전히 인간이 앞선다”고 밝혔다.

자동화에도 ‘안전장치’ 탑재…“사용자 승인 필수”

AI가 이메일 전송, 캘린더 등록 등 비가역적 행위를 실행하기 전, 사용자의 명확한 승인 절차를 거치도록 설계했다.

또한 실시간 모니터링 시스템을 통해 악용 가능성이나 보안 위협을 감시하고, 현재는 메모리 기능도 비활성화된 상태다.

OpenAI는 이번 시스템의 철저한 안전 설계가 “고성능 에이전트의 책임 있는 운영을 위한 첫걸음”이라고 강조했다.

‘AI 에이전트 전쟁’ 서막…OpenAI의 반격 시작

최근 Meta·Microsoft 등과의 갈등, Windsurf 인수 무산 등으로 흔들리던 OpenAI는 이번 발표를 통해 AI 에이전트 시장의 주도권 회복에 나섰다.

ChatGPT 에이전트는 단순 질의응답에서 벗어나 직접 행동하고 실무를 완수하는 AI 시스템으로 진화하며, Agentic AI 시대의 핵심 플랫폼으로 부상할 가능성을 보여주고 있다.

신주백 기자  jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지