버그 수정·추론 능력 강화…개발자 실무 대응력 입증

앤트로픽 로고  이미지=Anthropic
앤트로픽 로고  이미지=Anthropic

앤트로픽(Anthropic)이 최신 인공지능 모델 ‘클로드 오푸스 4.1(Claude Opus 4.1)’을 6일 공개하며, 본격적으로 개발자 시장을 정조준했다. 이번 모델은 기존 버전보다 정교한 버그 수정 능력과 에이전트 기반 추론 처리가 향상돼 실무 중심의 활용성에서 한층 강화된 모습을 보여준다.

SWE-벤치 74.5%…실제 코딩 실력 '검증'

클로드 오푸스 4.1은 소프트웨어 개발 능력을 평가하는 SWE-벤치에서 74.5%의 성능을 기록했다. 이는 이전 모델 대비 뛰어난 수치로, 코드 이해력은 물론 디버깅, 파일 수정 등 실제 업무 흐름에서 필요한 역량이 대폭 향상됐음을 보여준다.

앤트로픽은 이번 평가에서 기존 '클로드 3.7 소네트' 모델에 사용하던 계획 도구 없이, 배시와 파일 편집 기능만으로 간소화된 에이전트 평가를 진행해 이 같은 결과를 이끌어냈다.

다양한 벤치마크에서 최고 점수…확장 사고도 강화

클로드 4.1은 SWE 외에도 ▲터미널-벤치(Terminal-Bench)에서 확장 사고 없이 최고 점수를 받았으며 ▲TAU-벤치 ▲GPQA 다이아몬드 ▲MMMLU ▲MMMU ▲AIME 등 주요 벤치마크에서는 최대 6만4000 토큰을 활용한 확장 추론 평가를 통해 성능을 입증했다.

특히 TAU-벤치에서는 작업 단계 수를 30단계에서 100단계로 늘리며, 클로드의 깊은 사고력과 다단계 논리 처리 역량을 확인했다.

깃허브·라쿠텐 등 초기 사용자 "버그 수정 능력 인상적"

앤트로픽 측은 깃허브, 라쿠텐 등 초기 파트너사의 피드백을 인용해, “실제 코드 분석과 오류 수정을 신속히 수행하는 능력이 매우 인상적”이라는 평가를 소개했다. 실무에서 발생하는 예외 처리를 신속하게 반영하는 능력은 개발자 지원 AI의 핵심으로 평가된다.

가격은 그대로…곧 '더 강력한 후속작' 예고

클로드 오푸스 4.1은 기존 ‘오푸스 4’와 동일한 가격 체계로 유료 사용자, API, 아마존 베드록, 구글 클라우드 버텍스 AI 등을 통해 바로 이용 가능하다.

앤트로픽은 “몇 주 내 더욱 강력한 후속 모델을 추가 공개할 예정”이라고 예고해, 차세대 AI 경쟁의 본격 개막을 알렸다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지