소규모 데이터만으로도 언어 추가 가능한 AI 음성인식 기술… 저자원 언어 지원 확대

페이스북 모회사 메타가 10일(현지시간)1000개가 넘는 언어를 실시간으로 인식해 받아쓸 수 있는 인공지능(AI) 기술을 공개했다. AI의 언어 장벽을 허물고, 데이터가 부족한 저자원 언어까지 포괄하려는 시도다.

메타 로고.  사진=로이터, 연합뉴스
메타 로고.  사진=로이터, 연합뉴스

‘모든 언어 인식기’ 지향… 1,600개 언어 받아쓰기 구현

메타의 기초AI연구(FAIR) 팀은 10일(현지시간) 1,600개 언어를 인식해 문자로 받아쓸 수 있는 자동음성인식(ASR) 체계 ‘옴니링구얼(Omnilingual)’을 공개했다. 이 기술은 이름 그대로 ‘모든 언어를 인식할 수 있는’ AI 시스템을 지향한다.

이번 모델에는 AI 전사 기능이 처음 제공되는 저자원 언어 500종이 포함됐다. 전사란 말소리를 음성 문자로 옮겨 적는 것으로, 한 언어의 발음을 다른 문자 체계로 옮기는 것을 뜻한다. 

이는 지금까지 주요 AI가 수십 개 언어만을 공식 지원했던 것과 비교하면 큰 진전이다. 그동안 데이터가 부족하거나 연구 또는 기술 지원이 부족한 저자원 언어는 전사 기능이 충분히 제공되지 않았다.

저자원 언어 한계 돌파… “소량 데이터로도 학습 가능”

기존 생성형 AI 모델은 대규모언어모델(LLM)에 기반해 고자원 언어에서는 높은 성능을 보이지만, 데이터가 부족한 저자원 언어에서는 인식률이 떨어지는 한계가 있었다.

또 새로운 언어를 추가하려면 전문가의 세밀한 미세조정이 필요해 진입장벽이 높았다.

메타는 옴니링구얼을 통해 이런 문제를 개선했다. 소량의 음성-문자 데이터 쌍만으로도 기본 수준의 음성 인식 기능을 구현할 수 있다는 것이다.

“정확도는 과제”… 고자원 언어 대비 인식률 격차 존재

다만 성능 격차는 여전하다. 메타에 따르면, 고자원 언어 249종과 중자원 언어 881종 중 약 95%는 오류율 10% 미만을 기록했지만, 저자원 언어 546종에서는 오류율 10% 미만인 경우가 36%에 그쳤다.

즉, 기술적 토대는 마련됐지만 실제 활용을 위해선 여전히 품질 개선이 필요하다는 의미다.

70억 매개변수 인코더·350종 음성 말뭉치 공개

메타는 옴니링구얼에 적용된 70억 개 매개변수의 음성 인코더를 오픈소스로 공개했다.

이 인코더는 음성 데이터를 AI가 이해할 수 있는 벡터 형태로 변환하는 핵심 도구다.

또한 소수 언어 350종의 음성 말뭉치(corpus)도 함께 공개하며 연구자와 개발자들이 자유롭게 활용할 수 있도록 했다.

최송아 객원기자 choesonga627@gmail.com

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지