본문 바로가기
IT

AI 로드맵 한눈정리 (전략,평가,안전)

by 빌드노트 2026. 2. 20.
반응형

 

AI 로드맵 한눈정리
AI 로드맵 한눈정리

 

Agentic AI를 표방하는 글은 많지만, “지각·추론·행동”이 실제 제품에서 어떻게 이어지는지까지 한 장으로 보여주는 글은 드뭅니다. 이 PDF는 카나나 모델 패밀리를 한 화면에 정리하고, Kanana-2의 고도화에서 kanana-o 옴니로, 다시 kanana-kollage·kanana-kinema·kanana-kast 등 생성 축으로 확장하는 로드맵을 제시합니다. 다만 전략/홍보형 구성인 만큼, 재현성·평가 공정성·실패/한계·안전 원칙이 텍스트로 덜 남는 점은 보완 여지가 큽니다.

Agentic 비전을 ‘행동’으로 증명하려면

PDF의 1페이지는 “사람처럼 보고 듣고 말하는 Kanana Model Family”라는 큰 그림 아래, 언어 모델(kanana-flag, kanana-essence, kanana-nano), 멀티모달 언어 모델(kanana-o, kanana-v, kanana-a), 비주얼 생성 모델(kanana-kollage, kanana-kinema), 음성 모델(kanana-karve, kanana-kast)을 한 장으로 배치해 포트폴리오를 한눈에 이해시키는 데 성공합니다. 동시에 “Agentic AI의 핵심 능력”을 지각·추론·행동으로 놓고, Long context & 멀티모달 이해, 고성능 LLM 기반 추론 능력, 외부 도구 활용 능력을 주변에 배치해 ‘비전 프레임’을 고정합니다(1p). 이 구성 덕분에 2~6페이지의 세부 설명은 “비전 → 라인업 → 확장”이라는 일관된 방향성을 유지합니다.

하지만 사용자 총평처럼, Agentic이라는 키워드가 비전 선언에 머물 위험도 동시에 존재합니다. 이유는 간단합니다. “행동(Act)”은 모델 그 자체보다 운영 루프에서 결정되는 경우가 많기 때문입니다. 예를 들어 도구 호출은 단순히 함수 호출을 잘하는지의 문제가 아니라, 어떤 툴 셋을 두는지, 권한을 어떻게 제한하는지, 실패 시 재시도/롤백을 어떻게 설계하는지, 결과를 어떻게 검증하는지까지가 포함됩니다. 그런데 PDF는 1페이지에서 ‘외부 도구 활용 능력’을 핵심 능력으로 제시하면서도, 실제로 “사용자 목표 → 계획 → 도구 호출 → 검증/재시도 → 최종 행동”의 한 사이클을 텍스트로 재현하는 부분은 거의 없습니다(3~6p는 데모 영상 영역이 큰 편).

이 지점이 보완되면 글의 설득력은 급상승합니다. 방법은 어렵지 않습니다. 민감 정보를 가명/마스킹해도 되므로, Agentic 데모를 “글로 재현”하는 시나리오 1개만 넣으면 됩니다. 예를 들어 다음과 같은 형태입니다.
첫째, 사용자 목표를 한 줄로 고정합니다(예: “출장 영수증을 모아 경비 보고서를 만들고, 누락 항목을 확인해 주세요” 같은 실제 목적형 요청).
둘째, 계획을 짧게 제시합니다(예: “필요 문서 목록화 → 누락 탐지 → 표준 양식으로 정리 → 검증 질문”처럼 3~4단계).
셋째, 도구 호출을 명시합니다(예: 파일 읽기/캘린더 조회/정책 규정 검색 같은 내부 도구를 가정하되, 어떤 입력과 출력이 오가는지 최소한만 공개).
넷째, 검증/재시도 규칙을 보여줍니다(예: “금액/날짜가 모호하면 확인 질문”, “중복이면 병합”, “정책 위반이면 중단”).
다섯째, 최종 행동의 산출물을 보여줍니다(예: 요약+체크리스트+다음 액션).

이 5단 구성이 들어가면, 1페이지의 ‘지각·추론·행동’은 슬로건이 아니라 구현 가능한 루프로 읽힙니다. 특히 PDF가 2페이지에서 Kanana-2의 효율(throughput)과 성능을 함께 강조하고, 4페이지에서 kanana-o의 통합 멀티모달 구조(텍스트/이미지/오디오 인코더+프로젝터가 공통 LLM으로 들어가는 다이어그램)를 보여준 만큼, “행동 루프”가 텍스트로만 한 번 찍히면 비전이 현실로 이어지는 다리가 생깁니다.

평가 공정성은 ‘그래프’가 아니라 평가 박스에서 시작됩니다

전략/홍보형 기술 글이 가장 쉽게 약해지는 부분이 평가 공정성입니다. PDF 5페이지에는 kanana-o 성능 비교 막대그래프가 등장하고, “GPT-4o 같은 글로벌 최고 수준 모델과 비교해 경쟁력”을 암시하는 문장이 보입니다(5p). 또한 2페이지에는 Kanana-2의 효율성(throughput)과 성능을 함께 보여주는 시각 자료가 배치되어 “더 빠르고 효율적인 서비스”라는 메시지를 강화합니다. 문제는 이 그래프들이 강력한 만큼, 독자는 “조건이 동일했는가”를 먼저 묻는다는 점입니다. 프롬프트, 샷 수, 샘플링 파라미터, 컨텍스트 길이, 하드웨어, 배치, 멀티모달 입력 분포(이미지/오디오 길이) 같은 조건이 한 줄도 없으면 그래프는 ‘방향성’은 주지만 ‘의사결정’에는 쓰기 어렵습니다.

여기서 가장 효과적인 보강은 “평가 프로토콜 박스” 1개입니다. 논문 수준의 세부를 다 공개하지 못하더라도, 공개 가능한 범위에서 최소 조건만 고정하면 공정성 논란은 크게 줄어듭니다. 예를 들어 아래 항목만 있어도 충분합니다.

프롬프트 템플릿 동일 여부(모델별 최적화 프롬프트를 썼는지).

샷 수(Zero-shot/Few-shot)와 컨텍스트 길이.

샘플링 파라미터(temperature, top_p, max_tokens, stop).

멀티모달 입력 분포(이미지 해상도 범주, 오디오 길이 구간).

효율 측정 조건(GPU 종류/배치/동시성, 지연 P50/P95 정의).

이 박스가 왜 중요하냐면, PDF가 2페이지에서 MLA(Multi-head Latent Attention)와 MoE(Mixture of Experts) 같은 구조 선택을 언급하며 “효율을 고려한 고도화”를 말하기 때문입니다(2p). 효율 주장은 측정 조건이 없으면 가장 빠르게 신뢰를 잃습니다. 반대로 조건이 있으면, 독자는 ‘우리 환경’과의 차이를 계산할 수 있어 도입 검토가 빨라집니다.

또 한 가지, 이 글은 라인업이 많기 때문에 모델 선택이 어렵습니다. 그래서 “모델 카드 표 1개”가 글의 완성도를 크게 올립니다. 숫자를 공개하기 어렵다면 범주형(낮음/중간/높음)으로라도 괜찮습니다. 아래 표는 PDF의 라인업(1p, 4~6p)을 “독자가 고를 수 있게” 만드는 형태입니다.

모델 입력/출력 목표 태스크 비용/지연(범주)
Kanana-2 텍스트 → 텍스트 고성능 LLM·추론 효율 중간
kanana-o 텍스트/이미지/오디오 → 텍스트/오디오 통합 멀티모달(옴니) 높음
kanana-kollage 텍스트/조건 → 이미지 이미지 생성 중간~높음
kanana-kinema 이미지 → 동영상 이미지-투-비디오 생성 높음
kanana-kast 음성 ↔ 음성/텍스트 음성/다국어 확장 높음

이 표는 ‘정답’을 정하는 것이 아니라, 독자가 자신의 제품 요구(지연 민감도, 멀티모달 필요 여부, 생성 필요 여부)에 맞춰 선택하도록 돕습니다. PDF가 6페이지에서 지원 언어 확장(한국어/영어에서 중국어·베트남어까지) 방향을 언급하는 만큼, 평가 프로토콜은 “언어 혼합 조건”도 반드시 포함되어야 합니다. 한국어+멀티모달에서는 언어 비율이 바뀌는 순간 체감 성능이 달라지기 때문입니다.

안전 원칙이 없으면 ‘확장 로드맵’은 운영 리스크가 됩니다

PDF의 로드맵은 선명합니다. 4페이지는 통합 멀티모달 언어모델 kanana-o 구조를 그림으로 보여주며, 텍스트/이미지/오디오 인코더와 프로젝터가 공통 LLM에 들어가는 통합 경로를 제시합니다(4p). 5페이지는 비주얼 생성 모델 확장으로 kanana-kollage(이미지 생성)에서 kanana-kinema(이미지에서 동영상)로 나아가는 방향을 설명합니다(5p). 6페이지는 음성 모델과 다국어 확장을 말하며 kanana-kast를 언급합니다(6p). 즉, “이해(옴니) → 생성(이미지/영상/음성)”으로 확장되는 전략이 매우 직접적입니다.

하지만 생성과 음성으로 확장하는 순간, 안전과 거버넌스는 선택이 아니라 필수입니다. 멀티모달 안전은 텍스트 안전보다 표면적이 더 넓고, 리스크도 다양합니다. 예를 들어 이미지/영상 생성은 저작권·초상권·유사인물 생성·유해 콘텐츠 필터링이 핵심 이슈가 됩니다. 음성은 음성 스푸핑, 사칭, 민감 정보 유출, 발화 톤의 부적절성 같은 문제가 따라옵니다. Agentic AI는 여기에 도구 사용 보안(권한, 프롬프트 인젝션, 데이터 프라이버시)이 겹칩니다. 그런데 PDF는 전반적으로 “우리는 확장한다”는 로드맵과 데모 중심으로 구성되어 있어, “우리는 어떤 원칙으로 안전을 다룬다”가 텍스트로는 많이 남지 않습니다. 이 공백은 연구/엔지니어링 독자에게 특히 크게 보입니다.

외부 공개 글이라 구현 디테일을 제한해야 한다는 점은 현실적입니다. 그렇더라도 안전은 ‘원칙’과 ‘프로세스’를 공개할 수 있습니다. 오히려 원칙 공개가 홍보성 인상을 줄이고 신뢰를 올립니다. 예를 들어 다음 4가지만 있어도 충분히 균형이 잡힙니다.

생성 안전 원칙입니다. 금지 범주(유해/불법/개인정보)를 명시하고, 모델/정책/후처리 필터가 어떻게 역할을 나누는지(“단일 필터가 아니라 다층 방어”)를 설명하면 됩니다.

음성 안전 원칙입니다. 사칭·스푸핑 방지 방향(예: 특정 유형의 음성 모사 제한, 민감 요청에서 확인 절차 강화)을 선언하고, “서비스 적용 시 사용자 고지” 원칙을 함께 두면 좋습니다.

도구 사용 보안 원칙입니다. 최소 권한, 스코프 제한, 멱등성 키, 재시도 제한, 감사 로그 같은 운영 원칙을 나열하면 됩니다. 특히 Agentic을 말할수록 이 항목이 필요합니다.

모니터링 원칙입니다. 안전은 ‘한 번 필터’가 아니라 운영입니다. 어떤 지표(차단율, 오탐/미탐, 재시도율, 민감 요청 비율)를 모니터링하고, 어떤 경우에 롤백/정책 변경을 하는지 기준을 제시하면 됩니다.

또한 실패 사례 3개를 ‘안전한 범위에서’ 넣는 것이 매우 효과적입니다. 성공 데모는 시선을 끌지만, 실패 사례는 신뢰를 만듭니다. 예를 들어 (a) 텍스트 포함 이미지에서의 오독(OCR 취약), (b) 문화/고유명사에서의 의미 혼동, (c) 오디오 잡음/중의성에서의 지시 불이행 같은 대표 실패를 제시하고, 각각에 대해 데이터 보강·검증 루프·재질문 정책으로 어떻게 완화하는지 적으면 됩니다. 이렇게 하면 로드맵의 “확장”이 단순한 기능 추가가 아니라, 운영 가능한 제품 전략으로 읽힙니다.

마지막으로, 온디바이스(On-device) 방향(3p의 Pruning & Distillation 언급)은 안전과도 연결됩니다. 온디바이스는 프라이버시 측면에서 장점이 있지만, 모델이 디바이스에 배포되면 업데이트/회수/정책 적용이 더 어려워질 수 있습니다. 즉, 성능과 효율뿐 아니라 “정책 업데이트 체계”까지 함께 말해야 합니다. 이런 한 줄의 균형이 기술 블로그의 신뢰를 크게 올립니다.

이 PDF는 카나나 모델 패밀리를 한 장으로 정리하고, Kanana-2→kanana-o→생성(kanana-kollage·kanana-kinema·kanana-kast)으로 확장하는 전략을 선명하게 보여줍니다. 다만 기술 블로그로 더 강해지려면 Agentic 행동 루프 사례, 평가 프로토콜 박스, 실패 사례와 안전·거버넌스 원칙을 보강해 “좋아 보인다”를 “선택할 수 있다”로 바꿔야 합니다.

자주 묻는 질문 (FAQ)

Q. Agentic AI를 표방하는 글에서 가장 먼저 확인해야 할 것은 무엇입니까 A. “행동(Act)”이 텍스트로 재현되는지입니다. 사용자 목표→계획→도구 호출→검증/재시도→최종 행동이 한 사이클로 설명되면 비전이 구현으로 연결됩니다.

Q. 그래프가 많은데도 비교가 설득되지 않을 때 원인은 무엇입니까
A. 평가 조건이 고정되지 않았기 때문입니다. 프롬프트/샷 수/샘플링/컨텍스트 길이/하드웨어·배치/언어 혼합 조건 같은 최소 프로토콜 박스가 있어야 공정한 해석이 가능합니다.

Q. 생성·음성까지 확장할 때 가장 큰 운영 리스크는 무엇입니까
A. 멀티모달 안전과 도구 사용 보안이 동시에 커진다는 점입니다. 저작권·초상권·유해 콘텐츠, 음성 사칭/스푸핑, 프롬프트 인젝션·권한·감사 로그 같은 원칙을 최소 수준으로라도 공개하고 운영 지표를 두는 것이 필요합니다.

 

[출처]
https://tech.kakao.com/posts/779


Privacy Policy · About · Contact

© 2026 빌드노트