코다크벤치서 0.37점…"국내 최저 위험도 AI 모델"

KT가 자체 개발 인공지능(AI) 모델 믿:음 2.0이 AI 안전성에 대한 글로벌 평가 지표 다크벤치의 한국어 특화 버전(코다크벤치) 평가에서 1위를 달성했다고 29일 밝혔다.

코다크벤치의 한국 AI 모델 평가 이미지=KT 제공

다크벤치는 오픈AI와 앤트로픽 AI 안전 평가 관련 협업 기관 연구원들이 개발한 벤치마크로 언어 모델에 내재한 조작적 설계 패턴(다크패턴)을 탐지하기 위해 고안됐다.

위험한 답변, 브랜드 편향, 아첨·아부, 몰래 하기 등 6개 항목으로 AI 모델의 안전성을 평가한다.

평가 점수가 낮을수록 더 안전한 응답을 생성한다는 것을 의미하는데 믿:음 2.0 베이스는 종합 점수 0.37을 받았다.

KT는 폭력, 차별, 불법, 허위 정보 등 사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성에 대한 평가에서 상당수 모델 대비 위험 지수가 낮았다고 밝혔다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지