xAI의 차세대 LLM ‘그록 4.1’이 여러 벤치마크에서 최고 성능을 기록했음에도 불구하고, 구글의 ‘제미나이 3’ 발표가 이어지면서 출시 효과를 제대로 누리지 못한 채 관심에서 밀려나는 이례적 상황이 발생했다.
■ 발표 직후 1위였지만, 몇 시간 만에 뒤집혔다
xAI는 18일(현지 시각) 차세대 대형언어모델 ‘그록(Grok) 4.1’을 공개하며 성능과 감성지능 부문에서 경쟁사를 압도하는 평가 지표를 제시했다. Grok 4.1은 grok.com과 X, iOS·안드로이드 앱에서 즉시 사용 가능하며, 자동 모드 외에도 모델 선택기에서 직접 선택할 수 있어 접근성도 강화됐다.
그러나 공개 직후 LMArena 텍스트 리더보드 1위에 올랐던 그록 4.1의 성취는 오래가지 못했다. 구글이 ‘제미나이 3(Gemini 3)’을 몇 시간 뒤 전격 공개하며 벤치마크 최고점을 갱신했고, 그록 4.1은 발표 직후 얻은 주목도마저 잃었다.
■ 감성지능·창작·정확도 모두 ‘역대 최고’
Grok 4.1의 성능 향상 폭은 상당했다. 감성지능 평가 EQ-Bench3에서 Thinking 모드가 1,586점으로 1위, 일반 모드도 1,585점으로 2위를 기록하며 LLM의 한계를 넘어서는 자연스러운 공감 능력을 보여줬다.
창작력 평가 Creative Writing v3에서도 Thinking 모드가 1,721.9점으로 2위, 일반 모드는 1,708.6점으로 3위에 오르며 스토리텔링·문장 표현·정서 묘사에서 뚜렷한 진화를 증명했다.
정보 정확도 지표에서도 개선도 두드러졌다. 환각률은 기존 12.09%에서 4.22%로 65% 감소했고, FactScore 역시 9.89%에서 2.97%로 낮아졌다. 이는 실시간 정보 검색·여행 추천·뉴스 조회 등 사실 기반 질문에서 신뢰성을 확보했다는 의미다.
■ 비전·추론·도구 조합까지 강화됐지만… 흥행은 ‘타이밍의 실패’
Grok 4.1은 성능뿐 아니라 기능 측면에서도 대대적인 개선이 있었다.
이미지·동영상 해석을 포함한 비전 기능 업그레이드, 추론 지연 시간 28% 감소, 맥락 처리 토큰 30만 → 100만 토큰 확장, 외부 도구 병렬 실행이 가능한 멀티툴 오케스트레이션 추가 등 실제 활용도를 높이는 변화도 이어졌다.
그러나 기술적 완성도와 별개로, 이번 출시가 시장에서 충분한 주목을 받지 못한 이유는 분명했다. 바로 ‘제미나이 3’라는 초대형 이슈와 정면 충돌한 타이밍이었다.
대부분의 글로벌 테크 매체는 xAI의 발표보다 구글의 업데이트에 집중했고, 그록 4.1은 발표 직후 기록한 벤치마크 1위를 유지할 시간조차 갖지 못한 채 헤드라인에서 빠르게 밀려났다.
■ 기업용 API도 미지원… 실사용 확산까지는 과제 남아
현재 그록 4.1은 일반 사용자에게는 제공되지만, 기업용 API가 아직 열리지 않았다는 점도 단기적인 확산의 장애 요소로 꼽힌다.
성능과 벤치마크는 최고 수준이지만, 실제 업무에 적용하기 위한 통합 환경이 마련되지 않은 상황에서는 기업 사용자들이 즉시 전환하기 어렵기 때문이다.
■ “기술은 최고였으나, 조명은 구글이 가져갔다”
Grok 4.1은 감성지능·창작·정확도·추론·비전 등 모든 핵심 영역에서 현존 모델을 능가하는 지표를 기록하며 xAI의 기술적 성장을 입증했다.
그러나 발표 타이밍이 구글의 대형 업데이트와 겹치면서 화제성, 시장 반응, 미디어 주목도 모두에서 예상보다 조용한 결과가 나타났다.
결국 이번 에피소드는 “성능은 압도적이었지만, 타이밍은 최악이었다”는 평가와 함께, 초격차 경쟁이 치열해지는 글로벌 LLM 시장의 냉정한 면모를 다시 한번 드러냈다.
신주백 기자 jbshin@kmjournal.net
- 머스크 xAI, 22조원 투자 유치 협상 돌입
- 구글, 차세대 AI ‘제미나이 3’ 전격 공개… 검색창에 즉시 배치하며 정면승부 선언
- “AI가 그린 영상이 ‘3D처럼 살아 움직인다’...머스크의 xAI 그록, 업그레이드로 영상 AI 전쟁 본격화”
- 머스크 xAI, ‘월드 모델’로 차세대 AI 게임 개발 착수
- [빅테크 분석] ⑦xAI
- xAI의 ‘그록(Grok)’ 성 스캔들, 어디까지 번질까
- “제미나이 3 vs GPT-5.1”…판이 달라졌다, 목적이 갈라놓은 AI 최상위 모델의 진짜 격차
- 샘 알트먼, 내부 메모서 “구글 제미나이 3 강력…그래도 결국 이길 건 오픈AI”
- 구글 제미나이 3, “생명의 신호”…AGI의 문턱을 넘다
- 명품 AI 한복, 화제 속 전통 논란… “예쁘지만 한복 같지 않다”
- 일론 머스크 AI ‘그록’, 과잉 충성 논란… “머스크가 뉴턴만큼 똑똑해”