민족문화 데이터+안전 설계로 차별화…KT, GenAI 생태계 본격 가속

KT가 독자 개발한 생성형 AI 모델 ‘믿:음2.0’을 통해 과학기술정보통신부가 추진하는 국가 인공지능 프로젝트 ‘K-AI’ 본선 진출 경쟁에 본격적으로 나섰다. 글로벌 AI 기술 패권 경쟁이 격화되는 가운데, KT는 ‘한국 특화’와 ‘안전성 확보’를 두 축으로 내세워 차별화된 국산 AI 전략을 제시하고 있다.

지난달 3일 공식 공개된 ‘믿:음2.0’은 KT가 자체 개발한 대규모 언어모델(LLM)로, 한국어의 구조와 문맥, 정서를 깊이 반영한 학습 체계가 특징이다. KT는 해당 모델이 “한국 사회에 가장 적합한 AI”임을 강조하며, 문화적 정체성과 기술적 신뢰성을 모두 갖춘 ‘소버린 AI(국가주도형 AI)’ 구현의 대표 후보임을 자임하고 있다.

KT의 AI 모델 믿음 개발 과정 및 소개 . 이미지=KT 제공
KT의 AI 모델 믿음 개발 과정 및 소개 . 이미지=KT 제공

한국어 감성 담은 ‘믿:음2.0’…민족문화연구원 등과 협업

KT는 믿:음2.0의 학습을 위해 ▲교육용 도서 ▲문학 작품 ▲법률·특허문서 ▲사전류 등 한국 특화 데이터를 대거 투입했다. 특히 고려대학교 민족문화연구원과의 협업을 통해 ▲한국어 대사전 ▲한국현대소설사전 ▲근대간행물사전 ▲민족문화연구총서 등의 고품질 한국학 데이터를 적극 활용했다.

또한 한국어 문장 구조에 최적화된 자체 토크나이저를 개발하고, 필터링으로 인해 줄어든 학습 데이터를 합성 데이터 기법으로 보완했다. 이를 통해 한국어 처리 능력은 물론 문화·사회적 맥락 이해 능력을 동시에 강화했다는 설명이다.

KT는 이와 관련해 발간한 ‘테크니컬 리포트’에서 “기존 글로벌 LLM 대부분이 한국어를 불충분하거나 저품질 데이터로 학습해 성능이 제한적”이라며 “믿:음2.0은 데이터 선별-정제-합성에 이르는 정교한 파이프라인을 구축해 질적 수준을 한 단계 끌어올렸다”고 밝혔다.

“할루시네이션 줄이고 책임 더했다”…AI 안전성 설계 강화

KT는 믿:음2.0이 기술력뿐 아니라 ‘안전한 AI’ 구축 기준을 선도한다는 점도 강조했다. AI 편향성, 유해 콘텐츠, 허위정보 생성 등 최근 주요 AI 모델에서 제기되고 있는 문제들을 선제적으로 차단하기 위해, 내부적으로 ‘책임 있는 AI 프레임워크’를 구축하고 다양한 필터링 정책을 적용했다.

믿:음2.0은 ▲무해성 ▲정직성 ▲AI 역할 일관성이라는 3가지 원칙을 기반으로 설계됐다. 성적·폭력·정치·재난 등 7개 분야의 민감 콘텐츠를 감지·차단하고, 법률·의료·금융 등 전문영역에서는 허위 정보 제공을 회피하는 알고리즘이 적용됐다. AI가 인간처럼 행동하거나 역할극을 유도하지 않도록 설계해 사회적 논란 여지를 최소화했다는 점도 특징이다.

또한 KT는 저작권 리스크에도 선제적으로 대응했다. AI 학습에 필요한 데이터는 상업적 이용이 명확히 허용된 도서와 문서만을 사용하며, 데이터 얼라이언스 등 공식 경로를 통해 확보한 자료만 활용하는 원칙을 고수했다.

신동훈 KT GenAI 랩장은 기술 브리핑에서 “데이터셋 중 상업적 사용이 불명확한 경우는 모두 제외했다”며 “신뢰성과 투명성을 바탕으로 대규모 모델 시대에 걸맞은 안전한 국산 AI 생태계를 만들겠다”고 밝혔다.

K-AI 선발 본선 진출 경쟁…KT, GenAI 역량 본격 확장

KT는 네이버, SK텔레콤, 카카오, LG AI연구원 등과 함께 K-AI 프로젝트 본선 진출을 놓고 치열한 경쟁을 벌이고 있는 통신업계 대표 주자다. K-AI는 정부가 국내 AI 기술 경쟁력을 높이고, 글로벌 초거대 모델에 대응할 수 있는 독자 AI 파운데이션 모델을 선정·육성하기 위한 프로젝트로, 4일 2차 5개 컨소시엄이 선발될 예정이다. 

‘한국스러움’과 ‘안전성’을 앞세운 믿:음2.0이 과연 K-AI 선발전에서 어떤 평가를 받을지, 업계의 시선이 집중되고 있다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지