제미나이, 텍스트와 이미지 생성 모두 가능한 멀티모달 AI로 진화
구글이 자사의 인공지능 모델 ‘제미나이(Gemini)’에 이미지 생성 기능을 정식으로 통합했다. 이번 업데이트는 지난 4월 30일(현지시간) 발표됐으며, 전 세계 45개 이상 언어 사용자에게 순차적으로 제공된다. 이로써 제미나이는 텍스트와 이미지를 모두 생성·편집할 수 있는 멀티모달 AI 기능을 갖추게 됐다.
이번 기능은 기존의 이미지 생성 모델인 ‘이매진(Imagen)’을 별도로 활용하던 방식에서 벗어나, 제미나이 내부에 이미지 생성 기능을 직접 내장한 형태다. 사용자는 AI가 새로 생성한 이미지는 물론, 휴대폰이나 컴퓨터에서 업로드한 사진도 제미나이 안에서 바로 편집할 수 있다. 예를 들어 인물 사진의 머리색을 바꾸거나 배경을 수정하는 등 간단한 이미지 조작이 텍스트 명령만으로 가능하다.
구글은 이 기능에 ‘다단계(Multi-step) 편집 흐름’을 적용했다. 이는 사용자가 처음 생성한 이미지에 대해 후속 텍스트 지시를 통해 내용을 점진적으로 조정할 수 있도록 하는 방식이다. 예를 들어 아동용 동화를 생성하면서 동시에 일러스트 삽입이 가능하며, 삽화에 대해 “배경을 낮에서 밤으로 바꿔줘” 같은 추가 명령도 자연스럽게 반영된다.
이번 통합은 오픈AI의 챗GPT와의 경쟁 측면에서도 주목받고 있다. 오픈AI는 2023년 말부터 자사 모델에 이미지 생성 기능을 본격적으로 탑재했다. 챗GPT는 ‘DALL·E 3’를 기반으로 이미지 생성 기능을 제공하고 있으며, 2024년부터는 생성된 이미지에 대해 ‘인페인팅(inpainting)’ 방식의 편집 기능도 지원한다.
현재 ChatGPT와 Google Gemini 모두 사용자 개인 사진의 업로드 및 편집 기능을 지원하고 있다. 다만, Gemini는 이미지 생성과 편집 기능이 네이티브 환경에서 통합적으로 제공되어, 보다 일관된 사용자 경험을 제공하는 것이 특징이다.
이미지 생성 품질 또한 양사 간 비교 지점 중 하나다. 오픈AI의 DALL·E 3는 복잡한 텍스트 프롬프트에 대한 높은 정확도와 세부 묘사 능력을 갖추고 있으며, 인물의 외형이나 스타일을 일관되게 유지하는 데 강점을 보인다. 반면, 구글의 Gemini 2.0 Flash는 빠른 이미지 생성 속도와 실시간 편집 반응성을 제공하며, 경량화된 연산 구조를 통해 고품질 이미지를 효율적으로 생성하는 것을 목표로 한다.
이번 기능은 지난 3월, 구글이 개발자 도구인 ‘AI 스튜디오’를 통해 ‘제미나이 2.0 플래시’에서 먼저 시험 도입했다. 당시 이미지 품질 면에서는 긍정적인 평가를 받았으나, 이미지에서 워터마크가 제거될 수 있다는 보안상 우려도 있었다. 이에 대해 구글은 "제미나이로 생성되거나 편집된 이미지에는 보이지 않는 디지털 워터마크가 삽입되며, 향후 시각적으로 보이는 워터마크 추가 방안도 실험 중"이라고 밝혔다.
구글과 오픈AI 모두 텍스트 생성에서 출발한 AI 기술을 이미지 생성과 편집으로 확장하며, 사용자 인터페이스를 통합하고 멀티모달 AI의 경쟁력을 강화하는 데 집중하고 있다. 이번 제미나이 업데이트는 구글이 본격적으로 텍스트·이미지 통합 생성 시장에서 오픈AI와 경쟁하는 전환점으로 평가된다. 양사는 향후 음성, 영상 등 다른 멀티모달 영역에서도 기능 통합을 지속할 것으로 보인다.
신주백 기자 jbshin@kmjournal.net