소규모 데이터만으로도 언어 추가 가능한 AI 음성인식 기술… 저자원 언어 지원 확대
페이스북 모회사 메타가 10일(현지시간)1000개가 넘는 언어를 실시간으로 인식해 받아쓸 수 있는 인공지능(AI) 기술을 공개했다. AI의 언어 장벽을 허물고, 데이터가 부족한 저자원 언어까지 포괄하려는 시도다.
‘모든 언어 인식기’ 지향… 1,600개 언어 받아쓰기 구현
메타의 기초AI연구(FAIR) 팀은 10일(현지시간) 1,600개 언어를 인식해 문자로 받아쓸 수 있는 자동음성인식(ASR) 체계 ‘옴니링구얼(Omnilingual)’을 공개했다. 이 기술은 이름 그대로 ‘모든 언어를 인식할 수 있는’ AI 시스템을 지향한다.
이번 모델에는 AI 전사 기능이 처음 제공되는 저자원 언어 500종이 포함됐다. 전사란 말소리를 음성 문자로 옮겨 적는 것으로, 한 언어의 발음을 다른 문자 체계로 옮기는 것을 뜻한다.
이는 지금까지 주요 AI가 수십 개 언어만을 공식 지원했던 것과 비교하면 큰 진전이다. 그동안 데이터가 부족하거나 연구 또는 기술 지원이 부족한 저자원 언어는 전사 기능이 충분히 제공되지 않았다.
저자원 언어 한계 돌파… “소량 데이터로도 학습 가능”
기존 생성형 AI 모델은 대규모언어모델(LLM)에 기반해 고자원 언어에서는 높은 성능을 보이지만, 데이터가 부족한 저자원 언어에서는 인식률이 떨어지는 한계가 있었다.
또 새로운 언어를 추가하려면 전문가의 세밀한 미세조정이 필요해 진입장벽이 높았다.
메타는 옴니링구얼을 통해 이런 문제를 개선했다. 소량의 음성-문자 데이터 쌍만으로도 기본 수준의 음성 인식 기능을 구현할 수 있다는 것이다.
“정확도는 과제”… 고자원 언어 대비 인식률 격차 존재
다만 성능 격차는 여전하다. 메타에 따르면, 고자원 언어 249종과 중자원 언어 881종 중 약 95%는 오류율 10% 미만을 기록했지만, 저자원 언어 546종에서는 오류율 10% 미만인 경우가 36%에 그쳤다.
즉, 기술적 토대는 마련됐지만 실제 활용을 위해선 여전히 품질 개선이 필요하다는 의미다.
70억 매개변수 인코더·350종 음성 말뭉치 공개
메타는 옴니링구얼에 적용된 70억 개 매개변수의 음성 인코더를 오픈소스로 공개했다.
이 인코더는 음성 데이터를 AI가 이해할 수 있는 벡터 형태로 변환하는 핵심 도구다.
또한 소수 언어 350종의 음성 말뭉치(corpus)도 함께 공개하며 연구자와 개발자들이 자유롭게 활용할 수 있도록 했다.
최송아 객원기자 choesonga627@gmail.com
- 메타, 미국 AI 산업에 3년간 880조원 투자
- 메타, 1GW급 태양광 전력 구매…AI 데이터센터 시대 ‘전력전쟁’ 본격화
- [낭만 테크 시대] 플랫폼 비즈니스, The winner takes it all
- [빅테크 분석] ⑥메타
- 챗GPT, 5년 안에 구글 검색 추월하나…폭발적 트래픽 증가에 기술 업계 ‘긴장’
- 저커버그 "초지능 AI 눈앞에…'개인 역량 강화'시대 열릴 것"
- 메타, 로봇·자율주행차 기술 개발 위한 AI '월드 모델' 공개
- 메타, 美 반독점 소송 1심 승소…인스타그램·왓츠앱 ‘강제 매각’ 위기 벗어났다
- 메타, 구글 AI칩 도입 검토… 엔비디아 시장 흔들까?