구글이 공개한 제미나이 3(Gemini 3)의 출시는 단순한 모델 성능 개선이 아니다. 검색을 포함한 구글 서비스 전반을 다시 설계하는 엔진이자, AI 경쟁 2막에서 구글이 꺼내든 승부수에 가깝다.

구글이 새로운 모델을 발표하자마자 검색에 즉시 투입한 것은 이번이 처음이다. 예전처럼 “충분히 검증된 뒤 적용”하는 방식이 아니라, 검색 자체의 기반 모델을 제미나이 3로 전환하는 과감한 전략을 택한 것이다.

제미나이 3가 구글 서비스에 적용된 모습. 사진=이하 구글 제공

발표 직후 검색에 즉시 연결…“Thinking 모드를 켜면 바로 제미나이 3”

미국 기준 AI 프로·울트라 구독자는 검색창에서 ‘Thinking(생각)’ 모드를 선택하는 순간 제미나이 3 프로가 즉시 활성화된다.

즉, 사용자가 별도 설정을 하지 않아도 “검색 = 제미나이 3”인 상태가 자연스럽게 기본값이 되는 셈이다.

구글은 이 구조를 더 강화해 복잡한 질문은 자동으로 제미나이 3이 처리하고, 간단한 사실 확인은 경량 모델이 맡는 자동 모델 선택 체계를 적용할 예정이다.

이는 사용자가 모델을 골라 쓰는 시대가 끝난다는 의미다. 구글이 최적의 모델을 판단하고, 사용자는 검색만 하면 되는 방식으로 변화하고 있다.

구글이 말하는 새로운 검색 철학은 단순한 링크 나열이 아니라, 사용자의 의도·문맥·난이도에 맞춰 AI가 즉시 최적의 처리 방식을 생성하는 구조가 되는 것이다.

제미나이 3 벤치마크
제미나이 3 딥 싱크 벤치마크

제미나이 3 스펙 총정리...추론·멀티모달·에이전트 능력 전 분야 상승

■ 추론 능력: 과학·수학 기반의 ‘박사급 추론’

벤치마크 의미 점수
LMArena AI 모델의 종합적 추론·지식 능력을 토너먼트 형태로 겨루는 글로벌 평가 1501점(최고 기록)
Humanity’s Last Exam AI에게 대학원급 난도 문제를 풀게 하는 지식·논리 시험 37.5% → Deep Think 41%
GPQA Diamond 생물·물리·화학 분야의 고난도 문제를 중심으로 박사급 전문지식을 평가 91.9% → Deep Think 93.8%
ARC-AGI-2(시각 추론 퍼즐) 인간의 ‘추상적 패턴 이해 능력’을 테스트하는 퍼즐로, AGI 지표 중 하나 Deep Think 45.1%

특히 GPQA Diamond는 실제 연구자가 풀 수준의 문제들로 구성돼 있어, Deep Think 모드의 93.8%는 전문 연구자에 근접한 성능으로 평가된다.

■ 멀티모달 능력: 텍스트·이미지·영상·도면을 동시에 이해

벤치마크 의미 점수
MMMU-Pro 의학·엔지니어링·지리·예술 등 30여개 전공 분야의 시각·텍스트 문제를 통합 평가 81%
Video-MMMU 영상 속 움직임·문맥을 파악해 질문에 답하는 능력 평가 87.6%
ScreenSpot-Pro 컴퓨터 화면(앱 UI, 그래프, 표 등)을 보고 해당 위치·기능을 정확히 파악하는 테스트 72.7%
SimpleQA Verified 사실 기반 질문에 대해 정확성을 검증하는 ‘출처 검증형’ QA 테스트 72.1%

특히 Video-MMMU 87.6%는 단순 영상 묘사를 넘어 ‘상황 이해 → 추론 → 설명’까지 가능하다는 의미다.

이는 제미나이 3은 이미지 한 장을 읽는 단계를 넘어, 여러 시각 자료와 텍스트를 함께 해석하는 멀티모달 구조로 업그레이드됐다는 것을 의미한다. 

■ 에이전트·코딩 능력: 분석부터 실행까지 ‘완결형 작업’

벤치마크 의미 점수
WebDev Arena 웹사이트 제작·UI 구성·기능 구현 등을 실제 개발 환경에서 평가 1487 Elo
Terminal-Bench 2.0 터미널(Command Line)을 직접 조작해 문제를 해결하는 능력 평가 54.2%
SWE-bench Verified 오픈소스 코드의 실제 버그를 AI가 직접 고치고 검증까지 하는 테스트 76.2%

이 세 지표는 단순 코드 출력이 아니라  문제 이해 →코드 작성 →실행 →오류 수정·재실행까지 개발의 전체 과정을 스스로 처리할 수 있음을 보여준다.

구글이 ‘Antigravity’를 함께 공개한 것도 이런 능력을 전제로 한 것이다.

제미나이 3은 브라우저·터미널·에디터를 직접 제어하며 완결형 에이전트로 작동하도록 설계됐다.

제미나이 3의 등장은 AI 모델 경쟁을 넘어, 검색과 서비스 구조 전반을 다시 설계하는 흐름을 본격화하고 있다. 변화의 속도는 더 빨라질 것이며, 새로운 표준으로 자리잡기 시작할 것이다. 

AI 경쟁 2막의 주도권은 앞으로 이 표준을 얼마나 현실 서비스에 녹여내는가에서 갈릴 것이다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지