디지털 휴먼 산업 전반에 활용 가능
한국전자통신연구원(ETRI)이 한 장의 인물 사진만으로 사람처럼 자연스럽게 말하는 실사 AI 아바타 생성 기술을 개발했다고 15일 밝혔다.
이 기술은 기존 생성형 AI와 달리 입술, 턱 등 발화와 직접 연관된 부위를 선별적으로 학습한다. 이를 통해 불필요한 정보를 줄이는 한편 입 모양, 치아, 피부 주름 등 세밀한 얼굴 표현 방식을 더욱 정교하게 구현할 수 있다.
ETRI는 이 기술이 CVPR, AAAI 등 국제 주요 학술대회 발표 기술들보다도 합성 화질(Visual Quality)과 입술 동기화 성능(Lip Synchronization) 면에서 우수한 성능을 입증했다고 밝혔다.
기술이 상용화된다면 인공지능 기반 디지털 휴먼 산업 전반에 활용될 수 있을 걸로 보인다.
기술을 개발한 ETRI 모빌리티UX연구실은 사람-기계 간 상호작용(HMI) 기술을 중점적으로 연구하고 있으며, 운전자와 보행자의 감정, 피로도, 집중 상태 등을 분석하는 AI 기반 운전자 인터페이스 기술도 함께 개발하고 있다.
연구책임자인 최대웅 선임연구원은 "AI 아바타가 실제 사람처럼 자연스럽게 대화하고 움직이는 생성형 AI 기술을 한층 고도화할 계획이다. 향후 주문, 상담 등 일부 인력을 대체할 수 있을 정도의 상호작용 구현을 목표로 하고 있다"고 밝혔다.
기술은 현재 ETRI 기술이전 사이트에 '실사 인물 발화 영상 생성 프레임워크 기술'로 등록되어 있다.
연구진은 다양한 산업 분야에서의 상용화를 위한 기술이전 및 사업화 전략도 적극 추진할 계획이다.
권상민 기자 smkwon@kmjournal.net