서버가 아닌 내 기기에서, 진화하는 ‘현장형’ AI
스마트폰이나 가전기기에서 인공지능(AI)을 이용할 때 흔히 떠오르는 그림은 ‘클라우드 서버에 연결 → 분석 → 기기로 결과 전송’의 구조다. 하지만 최근 삼성전자를 중심으로 벌어지는 변화는 이 그림을 뒤집고 있다. 기기 내부에서 AI가 직접 실행되는 온디바이스 AI가 그 핵심이다.
삼성리서치는 이를 위해 “사용자의 손 안에서 직접 체감되는 AI 경험을 개선하겠다”며 자체 설계한 알고리즘, 실행기, 아키텍처 개발에 속도를 내고 있다.
압축이 핵심이다...거대 모델을 손 위 기기로
AI 모델이 복잡해지고 파라미터 수가 수십억 개에 달하면서, 이를 모바일 기기에서 그대로 돌리면 배터리 소모가 커지고 발열·응답 지연 등이 사용자 경험을 떨어뜨리게 된다. 삼성리서치의 함명주 마스터는 이를 대비해 ‘모델 압축’이 온디바이스 구현의 첫걸음이라고 설명했다.
“32 비트 부동소수점 실수로 연산하던 것을 8 비트 또는 4 비트 정수로 바꾸면 메모리와 연산량이 크게 줄어 응답 속도가 빨라진다.”
모델 압축의 핵심은 단순히 ‘작게’ 만드는 데 있지 않다. 압축 후에도 정확하고 빠른 모델을 유지하는 것이 관건이다. 삼성리서치는 압축 과정에서 생기는 오차를 분석하고, 중요도가 높은 가중치는 정밀하게 유지하며 덜 중요한 부분은 과감히 압축하는 방식으로 속도·정확도의 균형을 맞추고 있다.
‘숨은 엔진’ 역할, AI 실행기와 아키텍처
모델이 작아졌다고 해서 바로 기기에서 체감이 좋아지는 것은 아니다. 모델이 실제로 기기 내부의 CPU, GPU, NPU(신경망연산처리장치) 등 여러 연산 장치를 활용할 때 어떻게 배분하느냐가 중요한데, 삼성리서리는 이를 위해 “AI 실행기”라 부르는 엔진 제어장치 형태의 기술을 개발 중이다.
이 실행기는 연산 장치마다 어떤 연산을 처리할지 자동으로 배분하고 메모리 접근을 최소화함으로써 동일 기기에서 더 크고 정교한 모델도 같은 속도로 실행하도록 지원한다.
또한, 온디바이스 환경에 최적화된 모델 구조를 새로 설계하는 “아키텍처 연구”도 병행 중이다. 기존의 트랜스포머(Transformer) 구조가 문맥 처리에는 강하지만 연산량이 문장이 길어질수록 기하급수적으로 증가한다는 한계를 고려해, 기기 자원 제약을 고려한 새로운 구조를 찾고 있다는 설명이다.
왜 지금인가? 그리고 왜 삼성인가
온디바이스 AI는 단순한 기술 트렌드를 넘어 사용자·기업 모두에게 변화를 불러온다.
▲응답 속도와 독립성: 네트워크 연결이 불안정해도 기기 내부에서 작동하므로 지연이 줄고 오프라인 환경에서도 활용 가능하다.
▲프라이버시 강화: 사용자 데이터가 클라우드로 전송되지 않기 때문에 개인정보 보호 측면에서 유리하다.
▲제품 포트폴리오 활용: 삼성전자는 스마트폰, 태블릿, TV, 가전 등 다양한 기기를 갖고 있고, 반도체·설계·제조 역량까지 보유해 온디바이스 AI 구현에 유리하다는 평가를 받고 있다.
온디바이스AI의 완성을 위한 도전 과제
하지만 작고 빠르면서도 정확한 AI 모델을 만드는 것은 결코 쉬운 일이다. 연산 자원, 메모리 대역폭, 저장장치 접근 속도 등이 병목이 되기 때문이다. 삼성리서치는 “모델 크기가 16 GB 이상인 300억 파라미터급 생성형 모델도 3 GB 이하 메모리로 구동할 수 있는 수준의 기술력을 갖췄다”는 자신감을 보였다.
이제 AI는 내 손 안의 기기 속에서 살아 움직이는 지능으로 자리 잡아가고 있다. 삼성전자가 추구하는 온디바이스 AI 혁신은 ‘더 작게·더 빠르게·더 똑똑하게’라는 삼박자를 통해 우리 일상의 변화를 약속한다.
사용자 입장에서는 기다릴 필요 없이, 네트워크 상태에 구애받지 않고, 내 기기 속에서 곧바로 AI 경험을 누릴 날이 멀지 않아 보인다.
테크인싸 칼럼니스트 tlswnqor@naver.com