[현장] 카카오, 보고 듣고 말하는 멀티모달 AI '카나나-o' 공개

[비즈한국] “언어 모델이 텍스트로만 구현되는 개념이라면, 멀티모달이 완성되는 단계에서는 텍스트 이외에도 이미지를 새로 생성하거나 사람처럼 자연스러운 목소리를 생성하는 등 다양한 형태로 결과물을 만들어낼 수 있습니다.”

7일 서울 코엑스에서 열린 ‘KAIST AI 기술설명회 2026’ 초청강연에 나선 노병석 카카오 유니파이드 파운데이션 모델 스튜디오 리더는 카카오의 최신 멀티모달 AI 개발 동향을 소개하며 이같이 말했다. 생성형 AI 경쟁이 텍스트 중심 단계를 넘어 시각·음성까지 동시에 이해하고 반응하는 멀티모달 시대로 넘어가는 가운데 카카오도 자체 통합 AI 모델 고도화에 속도를 내는 모습이다.

7일 서울 코엑스에서 열린 ‘KAIST AI 기술설명회 2026’ 초청강연에 나선 노병석 카카오 유니파이드 파운데이션 모델 스튜디오 리더가 카카오가 개발 중인 통합 멀티모달 언어모델 ‘카나나-o(Kanana-o)’를 설명하고 있다. 사진=강은경 기자

#‘V’와 ‘A’의 결합…실시간형 멀티모달 AI 구현

카카오가 개발 중인 ‘카나나-o(Kanana-o)’는 텍스트와 음성, 이미지를 동시에 이해하고 응답할 수 있는 통합 멀티모달 언어모델이다. 기존 이미지 처리 특화 모델 ‘카나나-v’와 오디오 이해·생성 모델 ‘카나나-a’를 하나로 통합한 형태다.

노 리더는 “텍스트와 이미지를 이해하는 비전 모델과 오디오를 이해·생성하는 모델을 각각 개발해왔고 두 모델이 동일한 LLM 기반 구조를 사용하고 있어 모델 병합(merging)을 통해 효율적으로 통합할 수 있었다”고 설명했다.

카카오는 지난 2월 27일부터 3개월간 카나나-o API 클로즈드 베타 테스트(CBT)를 진행하며 기술 완성도를 높여왔다. 특히 음성 응답 과정에서 사용자가 체감하는 대기 시간을 줄이는 데 집중했다는 설명이다. 노 리더는 “기존 방식은 답변 전체를 모두 생성한 후에야 음성으로 들려줄 수 있어 사용자가 계속 기다려야 했지만, 이를 스트리밍 방식으로 바꾸어 첫 음성을 듣기까지의 대기 시간을 1.5초에서 0.5초로 3배 단축했다”고 말했다.

음성 생성 효율을 높이기 위한 자체 기술도 소개됐다. 카카오는 음성을 AI가 처리하기 쉬운 단위로 압축·변환하는 자체 토크나이저 기술 ‘LMSPT’를 개발해 적용하고 있다. 이 기술을 통해 기존 대비 음성 생성 속도를 6배가량 끌어올릴 수 있었다는 설명이다.

강연에서는 멀티모달 모델의 이미지 처리 방식도 함께 소개됐다. 일반적으로 AI 모델은 고해상도 이미지를 처리할 때 이미지를 축소하거나 여러 조각으로 나눠 처리하는데, 이 과정에서 세부 정보 손실이 발생할 수 있다. 이에 카카오는 원본 해상도를 유지한 채 이미지를 처리하는 ‘네이티브 레졸루션’ 방식을 적용해 문서·도표처럼 세밀한 이미지 이해 성능을 높이는 방향으로 개발을 진행 중이라고 밝혔다.

풀 듀플렉스 음성 대화는 응답 생성 중에도 사용자의 발화를 실시간으로 인식·해석해 추임새에는 응답을 이어가고 새로운 질문에는 즉시 전환하는 등 기존 턴 기반 방식과 달리 유연하게 상호작용하는 구조다. 카카오는 이러한 사람 중심 대화 방식을 구현하기 위해 카나나 모델을 해당 방향으로 개발하고 있다. 사진=카카오

카이스트 김재철AI대학원과 성남산업진흥원, 서울특별시가 공동 주최하는 이번 기술설명회는 6일부터 사흘간 개최되는 ‘AI 엑스포 코리아’ 기간 중 둘째 날 열렸다. 현장에서는 주요 AI 연구 성과와 산업 현장으로 확산되는 최신 인공지능 기술이 산업계와 일반 대중 대상으로 소개됐다.

#‘에이전틱 AI’의 감각 기관으로

카카오의 멀티모달 기술은 향후 카카오 AI 전략의 핵심 기반 가운데 하나가 될 것으로 전망된다. 카카오는 자체 AI 모델 ‘카나나’를 기반으로 카카오톡 내 다양한 AI 기능을 확대하는 동시에 메신저를 넘어 ‘에이전틱 AI 플랫폼’으로 진화를 꾀하고 있다. 앞서 같은 날 오전 진행된 카카오 1분기 실적발표 컨퍼런스콜에서 정신아 카카오 대표는 “에이전틱 AI에 최적화한 모델 ‘카나나 2.5’를 공개할 예정”이라고 밝히기도 했다.

에이전틱 AI는 단순 질의응답 수준을 넘어 사용자의 의도를 이해하고 여러 작업을 자율적으로 수행하는 형태의 AI를 의미한다. 카나나-o가 이러한 전략에서 사실상 ‘감각 기관’ 역할을 맡게 될 것이란 분석이다.

텍스트뿐 아니라 음성과 이미지까지 동시에 인식할 수 있어 향후 AI 메이트, 대화형 검색, 콘텐츠 추천, 실시간 요약·통역 같은 기능으로 확장될 가능성이 크기 때문이다. 시각 정보와 청각 정보를 실시간으로 처리할 수 있다면 사용자 환경을 더 입체적으로 인지하고 반응할 수 있다. 특히 모바일 메신저 환경에서 음성·이미지 기반 상호작용 비중이 커질 수 있다는 점에서 멀티모달 역량이 중요해지고 있다.

노 리더는 “이미지나 오디오를 포함한 통합 데이터를 활용해 서로 다른 감각 정보를 넘나들며 종합적으로 처리하고 응답하는 방향으로 학습을 진행하고 있다”고 언급했다.

호돌이 이미지를 단순한 ‘호랑이’가 아닌 1988 서울올림픽 마스코트 호돌이로 인식하는 등 한국 문화 맥락 이해도를 보여주는 사례. 사진=카카오

#“AI가 호돌이도 이해” 한국 문화·정서 특화 강조

카카오도 글로벌 모델과의 차별화 요소로 한국 문화와 정서에 대한 이해도를 강조하고 있다. 최근 글로벌 AI 기업들은 국가·문화적으로 민감한 주제를 회피하지 않고 각 지역 맥락에 맞춘 정보를 제공하는 방향으로 발전하고 있다.

현장에서는 독도를 주제로 한 팟캐스트 시나리오 생성 사례도 시연됐다. 카나나-o는 독도가 한국 사회에서 갖는 역사·문화적 의미와 영토 주권 상징성 등을 반영해 팟캐스트 형식의 대화를 구성했다.

노 리더는 “과거 비전 모델(시각지능)은 호돌이 이미지를 단순히 ‘호랑이’ 정도로 인식하는 수준에 머물렀지만 한국형 콘텐츠를 추가 학습시키면서 이제는 ‘호돌이’라는 명칭과 문화적 맥락까지 이해할 수 있게 됐다”고 사례를 들었다. 이어 “세상에 존재하는 다양한 형태의 데이터를 자유롭게 이해하고 표현할 수 있는 진정한 의미의 통합 멀티모달 AI로 발전시켜 나갈 예정”이라고 말했다.

이날 오전 초청강연에서는 신진우 KAIST 김재철AI대학원 교수와 오성준 KAIST 김재철AI대학원 부교수가 각각 로봇 파운데이션 모델과 개인화 AI를 주제로 발표를 진행했다. 정송 KAIST 김재철AI대학원장은 “AI 기술 경쟁이 전 세계적으로 격화되는 상황에서 국내 산업계와 연구기관이 기술 동향을 공유하고 협업 기회를 모색할 수 있도록 매년 본 행사를 개최하고 있다”며 “국내 AI 생태계 발전에 기여하겠다”고 밝혔다.

강은경 기자

gong@bizhankook.com

[핫클릭]

· [15조 원 비만청구서] ⑤ "먹고, 붙이고, 한 달 지속" 비만치료제 국산화 현주소
· [금융은 AX 중] 사람 대신 쇼핑하고 결제까지 'AI 에이전트 페이'가 온다
· 주요 카드사 실적 개선 흐름 속 삼성카드 '순이익 감소' 눈길
· 삼성바이오 파업·하이닉스 하청 교섭 요구…노동절 맞아 '공정 보상' 전면화
· "네이버 손잡은 컬리처럼" 롯데마트, 카카오 타고 반등 노린다
· 네이버·카카오 나란히 역대급 실적 달성, 관건은 'AI 수익화'