버그 수정·추론 능력 강화…개발자 실무 대응력 입증
앤트로픽(Anthropic)이 최신 인공지능 모델 ‘클로드 오푸스 4.1(Claude Opus 4.1)’을 6일 공개하며, 본격적으로 개발자 시장을 정조준했다. 이번 모델은 기존 버전보다 정교한 버그 수정 능력과 에이전트 기반 추론 처리가 향상돼 실무 중심의 활용성에서 한층 강화된 모습을 보여준다.
SWE-벤치 74.5%…실제 코딩 실력 '검증'
클로드 오푸스 4.1은 소프트웨어 개발 능력을 평가하는 SWE-벤치에서 74.5%의 성능을 기록했다. 이는 이전 모델 대비 뛰어난 수치로, 코드 이해력은 물론 디버깅, 파일 수정 등 실제 업무 흐름에서 필요한 역량이 대폭 향상됐음을 보여준다.
앤트로픽은 이번 평가에서 기존 '클로드 3.7 소네트' 모델에 사용하던 계획 도구 없이, 배시와 파일 편집 기능만으로 간소화된 에이전트 평가를 진행해 이 같은 결과를 이끌어냈다.
다양한 벤치마크에서 최고 점수…확장 사고도 강화
클로드 4.1은 SWE 외에도 ▲터미널-벤치(Terminal-Bench)에서 확장 사고 없이 최고 점수를 받았으며 ▲TAU-벤치 ▲GPQA 다이아몬드 ▲MMMLU ▲MMMU ▲AIME 등 주요 벤치마크에서는 최대 6만4000 토큰을 활용한 확장 추론 평가를 통해 성능을 입증했다.
특히 TAU-벤치에서는 작업 단계 수를 30단계에서 100단계로 늘리며, 클로드의 깊은 사고력과 다단계 논리 처리 역량을 확인했다.
깃허브·라쿠텐 등 초기 사용자 "버그 수정 능력 인상적"
앤트로픽 측은 깃허브, 라쿠텐 등 초기 파트너사의 피드백을 인용해, “실제 코드 분석과 오류 수정을 신속히 수행하는 능력이 매우 인상적”이라는 평가를 소개했다. 실무에서 발생하는 예외 처리를 신속하게 반영하는 능력은 개발자 지원 AI의 핵심으로 평가된다.
가격은 그대로…곧 '더 강력한 후속작' 예고
클로드 오푸스 4.1은 기존 ‘오푸스 4’와 동일한 가격 체계로 유료 사용자, API, 아마존 베드록, 구글 클라우드 버텍스 AI 등을 통해 바로 이용 가능하다.
앤트로픽은 “몇 주 내 더욱 강력한 후속 모델을 추가 공개할 예정”이라고 예고해, 차세대 AI 경쟁의 본격 개막을 알렸다.
신주백 기자 jbshin@kmjournal.net
- '오픈AI 대항마' 앤트로픽, 한국 법인 설립
- 개발자들의 선택은 ‘클로드’… 앤트로픽, 기업용 LLM 시장 1위로 등극
- 앤트로픽, LLM ‘성격’ 바꾸는 핵심 벡터 발견…AI 제어 새 지평 연다
- 앤트로픽, 오픈AI '클로드' 접근 차단
- [빅테크 분석] ①앤트로픽(Anthropic)
- ‘코딩이 승부처’…오픈AI GPT-5, B2B 시장 1위 탈환 시동
- 앤트로픽, ‘휘발성 기억’ 장착한 클로드로 AI 경쟁전 새 판 짠다
- 웹 브라우저 안에 들어온 AI…앤트로픽, ‘클로드 포 크롬’ 실험 개시
- MS, 오피스에 ‘클로드’ 도입…오픈AI 의존도 낮추기 본격화
- “앤트로픽 클로드, 7만 번 읽고 한 번 돌려준다”…웹 크롤링 윤리 논란 확산
- Anthropic Launches Opus 4.5, Now Ranked No. 1 Worldwide in Coding Performance as AI Competition Shifts Again