“멀티모달 AI가 바꾸는 생성형 AI의 미래… ‘말하고 듣는’ AI의 탄생”

말하고, 보고, 듣는 AI의 시대가 왔다!

GPT가 글만 읽고 쓰던 시대는 끝났어요. 이젠 AI가 사진을 보고, 소리를 듣고, 사람처럼 말하는 시대예요.

2023년까지 많은 사람들이 AI에게 “이거 무슨 그림이야?”, “이 영상에서 무슨 일이 일어나고 있어?”라고 물었지만, 대부분의 AI는 대답하지 못했죠.

한계를 마주한 사용자들은 생각했어요. “사람처럼 모든 감각을 활용하는 AI는 없을까?” 그리고 등장한 기술이 바로 멀티모달 AI(Multimodal AI)입니다.

멀티모달 AI는 뭘까?

멀티모달 AI는 말 그대로 여러 종류의 입력(modality)을 동시에 받아들이는 인공지능이에요. 

쉽게 말해, 텍스트만 이해하던 AI가 이미지도 보고, 음성도 듣고, 영상까지 분석할 수 있게 된 거죠.

사람이 대화할 때 말을 듣고 표정을 보고 목소리 톤을 함께 고려하듯, 멀티모달 AI도 여러 정보를 결합해서 더 정확한 판단을 내릴 수 있어요.

왜 지금 멀티모달 AI가 주목받을까?

생성형 AI가 생활 곳곳에 들어오면서, 텍스트만 이해하는 AI로는 부족하다는 목소리가 커졌어요.

현실성: 사람은 글로만 소통하지 않죠. 사진·소리·영상도 함께 봐야 해요.

활용성: 시각장애인에게 이미지를 설명해주고, 외국어 음성을 실시간으로 번역할 수 있어요.

산업적 확장성: 자율주행, 의료, 교육, AR·VR 등 다양한 분야에서 꼭 필요한 기술이에요.

GPT가 글을 잘 쓰는 ‘언어 모델’이라면, 멀티모달 AI는 오감으로 세상을 이해하는 새로운 AI인 셈이죠.

멀티모달 AI, 어디까지 진화했을까?

처음엔 “여러 입력을 처리하는 AI”였지만, 요즘 멀티모달 AI는 한층 더 영리하게 진화하고 있어요.

영상 속 표정과 음성을 동시에 인식해 감정을 파악하고, 텍스트와 이미지 정보를 결합해 더 정확한 답을 내고, 카메라, 마이크, 센서 등과 연결되어 현실을 인식하는 수준까지 올라왔어요.

이제는 단순히 기능이 많은 AI가 아니라, 사람처럼 맥락을 이해하고 반응하는 AI로 발전하고 있는 거죠. 아이언맨의 비서 '자비스', 영화 ‘Her’의 AI처럼 말도 잘하고, 영상도 보고, 표정까지 읽는 AI가 현실이 되었답니다.  

신주백 기자 jbshin@kmjournal.net

저작권자 © KMJ 무단전재 및 재배포 금지