NEJM(The New England Journal of Medicine) 게재 사례 기반 테스트에서 MAI-DxO, 평균 80% 진단 성공률

마이크로소프트(Microsoft)가 개발한 인공지능 진단 시스템이 실제 의사보다 훨씬 더 높은 정확도를 기록했다.

AI 시스템 ‘MAI-DxO’는 복잡한 병을 다룬 실험에서 80%의 진단 성공률을 기록한 반면, 미국과 영국의 실제 의사들은 평균 19.9%에 그쳤다. AI가 사람보다 4배나 더 정확한 셈이다.

이미지=챗GPT 생성
이미지=챗GPT 생성

진짜 병원처럼, 단계별로 진단 실험

이번 실험은 단순한 객관식 풀이가 아니라, 진짜 진료 현장처럼 진행됐다.

AI와 의사 모두 환자의 초기 증상만 듣고 시작해서, 검사나 질문을 직접 선택하면서 진단을 내리는 구조다. 예를 들어 “목이 아프다”는 말만 듣고 시작해, “언제부터였는지”, “열은 있는지” 등을 스스로 묻거나 CT 촬영을 요청해야 한다.

이렇게 정보가 하나씩 주어지는 방식은 실제 병원 진료와 매우 비슷하며, 실험의 신뢰도를 크게 높였다.

AI 의사 5명이 협진하는 시스템

MAI-DxO의 가장 큰 특징은 혼자 판단하지 않는다는 점이다. 이 시스템은 마치 다섯 명의 AI 의사가 팀을 이뤄 진료하듯 작동한다.

5단계의 협업 구조로 병의 확률을 계싼하고 진단한다.  이미지=마이크로소프트
5단계의 협업 구조로 병의 확률을 계싼하고 진단한다.  이미지=마이크로소프트

먼저 가능한 병의 확률을 계산하고, 진단 확률을 높일 수 있는 검사 3개를 추천한다. 이후 다른 가능성은 없는지 찾아보고, 저렴한 방식을 찾아본다. 그리고 최종 진단 오류를 점검하는 방식이다. 실제 병원에서 여러 과 의사들이 협업하듯, AI도 역할을 나눠 더 정확하고 체계적으로 진단을 내리는 것이다.

어떤 AI든 성능이 올라간다

이 시스템은 특정 모델에만 국한되지 않는다. GPT-4o, Claude 4, Gemini 2.5, Grok-3, LLaMA 4 등 최신 AI 모델 15종에 적용해본 결과, 평균 11% 이상 정확도가 향상됐다.

특히 성능이 낮은 모델일수록 향상 폭이 더 컸다. 예를 들어, Google의 Gemini 2.5 Flash는 56.2%에서 68.4%로 12.2%포인트나 증가했다. AI의 약점을 MAI-DxO가 보완해준 셈이다.

정확도 높이고 진료비도 줄였다

정확도만 좋아진 게 아니다. 진료비도 크게 절감됐다.

일반 AI가 환자 한 명당 약 7,850달러를 쓰는 동안, MAI-DxO는 2,397달러로 같은 수준의 정확도를 보였다. 더 정밀한 모드에서는 85.5%까지 정확도가 올라갔지만, 비용은 여전히 기존 AI보다 저렴한 7,184달러에 그쳤다.

의사를 대체할까? 아니면 보조할까?

이번 실험에는 미국과 영국에서 활동 중인 경력 12년 이상의 의사 21명이 참여했으며, 실제 진료 상황과 유사한 조건에서 AI와 대결했다. 연구진은 “AI는 일반의와 전문의의 지식을 동시에 갖고 있어 더 유리했다”고 밝혔다.

다만 마이크로소프트는 “MAI-DxO는 의사를 대체하려는 게 아니라, 더 정확하고 효율적인 진단을 돕는 보조 수단”이라며, 병원과 의료진과의 협업을 강조했다.

의료 AI, 이제 실험실 밖으로

이번 연구는 단순히 기술 시연을 넘어, AI가 실제 임상에서 얼마나 효과적인지 보여준 의미 있는 첫 실험이다. 복잡한 병도 빠르고 정확하게 찾아낼 수 있는 AI가 본격적으로 의료 현장에 투입될 날이 머지않았다는 걸 보여준다.

신주백 기자  jbshin@kmjournal.net

관련기사
저작권자 © KMJ 무단전재 및 재배포 금지