본문 바로가기
IT

한국어 검색 정확도 (데이터셋,재현성,평가)

by 빌드노트 2026. 2. 18.
반응형

한국어 검색 정확도 (데이터셋,재현성,평가)
한국어 검색 정확도 (데이터셋,재현성,평가)

 

한국어+이미지 환경에서 멀티모달 임베딩을 “직접” 구축했다는 사실은 그 자체로 경쟁력입니다. 다만 실무 독자는 성능 그래프보다 “어떤 데이터와 설정으로, 어떤 프로토콜에서, 어떤 한계까지 감수하며” 만들었는지를 더 궁금해합니다. 이번 글은 Kanana-v-embedding과 KoEmbed를 중심으로, PDF가 잘 정리한 구조·학습 테크닉·활용을 유지하되, 재현성과 비교 공정성을 강화하는 방향으로 ‘실행 가능한 기술 문서’ 형태로 확장합니다.

재현성을 높이는 ‘학습 설정 표’가 왜 핵심인지

PDF는 멀티모달 임베딩이 무엇인지부터 차근히 정의하고, 텍스트-이미지-이미지 같은 입력 타입을 “한 모델, 한 임베딩 공간”으로 묶어 쓰는 활용 시나리오를 먼저 제시합니다(1p). 그리고 기존 접근으로 CLIP류와 LLaVA, VLM2Vec 같은 흐름을 비교해 “이미지-텍스트를 단순 대조학습(Contrastive Learning)으로만 묶는 방식”과 “VLM을 활용해 지시(instruction)까지 흡수하는 방식”의 차이를 설명합니다(2~3p). 이어서 Kanana-v-embedding의 설계와 구조를 제시하는데, 여기서 중요한 메시지는 “텍스트 임베딩만 잘하면 끝”이 아니라 “텍스트↔이미지, 이미지↔이미지, 텍스트↔텍스트까지 같은 좌표계에서 retrieval이 되어야 한다”는 목표를 명확히 박아둔 점입니다(1p, 3p).

그러나 사용자 총평처럼, 이 글이 ‘성과 발표’로 기울어 보이는 지점은 재현성 단서가 압축돼 있기 때문입니다. PDF는 학습 테크닉을 매우 실전적으로 소개합니다. 예를 들어 4p에는 Gradient Coaching을 통해 Contrastive Learning의 학습을 안정화하고 임베딩을 더 강하게 만드는 흐름을 그림으로 보여줍니다. 5p에는 Matryoshka Representation Learning(MRL)을 통해 “하나의 임베딩에서 여러 차원의 서브-임베딩을 동시에 쓰는” 아이디어를 도입하고, 학습과 추론에서 Recall@K가 임베딩 차원에 따라 어떻게 달라지는지 그래프를 제시합니다. 6p에는 Hard Negative Mining을 통해 “헷갈리기 쉬운 유사 샘플”을 체계적으로 뽑아 성능을 끌어올리는 예시 표가 등장합니다(정답 양성 예시 대비, 유사하지만 다른 하드 네거티브들이 어떻게 선택되는지 시각적으로 보여줍니다). 이 구성만으로도 ‘무엇을 했다’는 충분히 전달되지만, 독자가 따라 하기 위해서는 ‘얼마나, 어떻게’가 표로 고정되어야 합니다.

제가 제안하는 가장 효과적인 보완은 “학습 설정 표 1장”입니다. 모든 수치를 다 공개하지 못해도, 범위와 규칙만 공개해도 실무 재현성이 크게 올라갑니다. 특히 Hard Negative Mining은 “오프라인 인덱스로 뽑았는지, 인배치(in-batch)로 뽑았는지, 큐(Queue)를 썼는지”에 따라 결과가 달라지므로, 방식의 골격이 필요합니다. 또한 MRL은 “최종 임베딩 차원, 서브 차원 리스트, 손실의 합산 방식”이 핵심입니다. Gradient Coaching도 “어떤 기준으로 코칭 신호를 만들고, 어느 구간에서 적용하는지”가 재현의 관건입니다. 아래 표는 PDF의 흐름(3~6p)을 ‘재현 가능한 최소 단서’로 정리한 형태입니다.

구성 요소 재현을 위한 최소 공개 항목
모델/임베딩 Kanana-v-embedding의 텍스트/비전 인코더 계열, 임베딩 차원, 정규화 방식
데이터 전처리 이미지 해상도/크롭 규칙, 텍스트 정제(중복/필터링) 원칙, 한국어 비율 원칙
학습 하이퍼파라미터 배치 크기 범위, 학습률/스케줄 범위, 에폭/스텝 기준, 온도(temperature) 및 손실 가중치 비율
Gradient Coaching 코칭 신호 생성 방식, 적용 구간(초기/전 구간), 안정성 지표(발산/수렴 기준)
MRL 서브 차원 리스트(예: 64~최대), 손실 합산 방식, 추론 시 권장 차원(지연/품질 타협)
Hard Negative Mining 네거티브 생성 방식(오프라인 인덱스/인배치/큐), 갱신 주기, 난이도 기준

이 표의 목적은 “논문 수준의 완전 재현”이 아니라 “실무 재사용”입니다. 특히 멀티모달 임베딩은 데이터 분포가 바뀌면 성능이 급격히 흔들릴 수 있어, 숫자 하나보다 ‘원칙’이 더 중요합니다. PDF는 KoEmbed를 통해 한국어 특화 데이터를 왜 구축했는지 설득했으므로(6~7p), 그 다음 단계는 “이 원칙으로 학습했기 때문에 한국어에서 강해졌다”를 재현 가능한 형태로 남기는 일입니다.

평가의 공정성을 만드는 ‘평가 프로토콜 표’ 설계

PDF의 평가 파트는 그림과 그래프가 풍부해서 읽히는 힘이 큽니다. 7p에는 KoEmbed의 여러 서브셋(예: 문장 기반 retrieval, 단어 검색, 개체/수치/장소 성격의 retrieval, 유사 이미지 retrieval 등)이 소개되고, 7p~8p에는 임베딩 성능 막대그래프가 나옵니다. 또한 8p에는 텍스트→이미지 검색, 이미지→이미지 찾기, 텍스트→텍스트 찾기 같은 활용 예시가 함께 제시됩니다(8~9p). 이 구성이 좋은 이유는, 임베딩의 가치를 “점수”로만 말하지 않고 “검색/리트리벌 UX”로 연결하기 때문입니다.

하지만 비교가 강할수록 공정성 질문이 커집니다. 외부 모델과의 비교 그래프가 있다면, 독자는 다음을 묻습니다. 동일한 데이터에서 평가했는지, 한국어 질의와 영어 질의가 섞여 있는지, 텍스트 인코더/비전 인코더가 같은 계열인지, 리트리벌 파이프라인(인덱스, top-k, rerank 유무)이 같은지입니다. 특히 임베딩은 “모델 자체”뿐 아니라 “검색 파이프라인”이 성능의 절반을 결정할 때가 많습니다. 예를 들어 approximate nearest neighbor(ANN) 설정, 벡터 정규화 방식, top-k 후보 수, 후처리(필터링/쿼리 확장) 여부에 따라 지표가 바뀝니다. 따라서 ‘평가 프로토콜 표 1장’은 공정성의 핵심입니다.

저는 평가 프로토콜을 표로 고정할 때, 지표보다 “조건”을 먼저 써야 한다고 봅니다. 조건이 고정돼야 지표가 의미를 갖기 때문입니다. 예를 들어 KoEmbed-Sent는 오픈 도메인에서 문장으로 이미지를 찾는 과업이라면, KoEmbed-Place는 장소/지역 관련 키워드의 지명 매칭이 더 중요할 수 있습니다. 이때 “질의 언어(한국어만인지), 질의 길이 분포, 정답 정의(정확한 매칭인지, 유사 이미지 허용인지)”가 다르면 점수의 의미가 달라집니다. PDF가 서브셋을 여러 개로 나눠 보여준 것은 강점이지만(7p), 그 강점이 ‘공정성’으로 이어지려면 표로 고정돼야 합니다.

아래는 KoEmbed 평가를 ‘실무자가 그대로 복제’할 수 있게 만드는 프로토콜 표의 예시 구조입니다. 수치를 전부 공개하지 못하더라도, 항목을 공개하면 독자는 자기 데이터로 동일한 프로토콜을 구성할 수 있습니다.

평가 항목 명시해야 할 조건
데이터셋 KoEmbed 서브셋별 샘플 수, 중복 제거 기준, 라이선스/프라이버시 처리 원칙
질의 언어 한국어/영어 혼재 여부, 한국어 비율, 형태 변형(띄어쓰기/조사) 포함 여부
리트리벌 파이프라인 인덱싱 방식(ANN/정확 검색), top-k, rerank 유무, 정규화 방식
메트릭 Recall@K, MRR 등 사용 메트릭과 K 값, 정답 판정 규칙
비교 공정성 동일 데이터/동일 파이프라인 여부, 프롬프트/후처리 사용 여부

이런 표가 들어가면, PDF의 성능 그래프(7~8p)는 “좋아 보인다”에서 끝나지 않고 “어떤 룰에서 좋은지”로 해석됩니다. 그리고 이 해석 가능성이 곧 신뢰입니다. 특히 한국어 멀티모달은 영어 기반 공개 벤치만으로는 과대평가나 과소평가가 발생하기 쉽습니다. KoEmbed가 왜 필요한지 설득한 다음 단계는, KoEmbed로 평가할 때 “한국어 질의의 난이도(형태소 변형, 신조어, 고유명사)”를 어떤 방식으로 반영했는지까지 공개하는 것입니다. 그 한 줄이 있으면 공정성 논란이 크게 줄어듭니다.

KoEmbed 거버넌스와 실패 사례가 ‘홍보물’ 인상을 지우는 방법

PDF는 KoEmbed를 “한국어 멀티모달 임베딩 데이터셋”으로 소개하며, 여러 과업 유형을 나눠 보여줍니다(6~7p). KoEmbed-Sent처럼 문장 기반 이미지 검색이 있고, KoEmbed-Word처럼 단어 단위로 이미지를 찾는 과업이 있으며, 수치/개체/장소 성격의 retrieval, 유사 이미지 retrieval이 존재하는 흐름이 보입니다(7p의 설명과 표). 이 구성은 매우 전략적입니다. 한국어 멀티모달 임베딩이 필요한 이유는 “한국어 질의의 다양성과 미세한 의미 차이” 때문인데, KoEmbed를 서브셋으로 쪼개면 어떤 능력이 부족한지 분석이 쉬워지기 때문입니다.

다만 데이터셋 소개가 예시 중심이면, 독자는 곧바로 거버넌스를 묻습니다. 수집은 어떻게 했는지, 중복 제거는 어떤 규칙인지, 라이선스는 안전한지, 개인 정보나 민감 정보가 섞이지 않게 어떤 필터를 썼는지입니다. 특히 이미지 데이터는 텍스트보다 거버넌스 리스크가 큽니다. 사진 속 얼굴, 차량 번호, 문서 이미지 등이 포함될 수 있기 때문입니다. 따라서 KoEmbed는 “성능 자산”인 동시에 “운영 리스크”입니다. 이 균형을 문서에 한 단락만 적어도, 글은 성과 발표가 아니라 기술 공유로 읽히게 됩니다.

여기서 가장 효과적인 방식이 “KoEmbed 거버넌스 요약”입니다. 길게 쓰기보다, 원칙을 고정하면 됩니다. 예를 들어 다음 항목을 짧게라도 문서화하는 방식입니다.

수집 출처 범주의 원칙입니다. 공개 가능한 범주인지, 내부 데이터가 있다면 익명화/권한 처리가 되었는지입니다.

필터링 규칙의 원칙입니다. 민감 이미지/개인정보 가능성/저작권 위험을 어떤 기준으로 제외했는지입니다.

중복 제거 규칙입니다. 텍스트 중복뿐 아니라 이미지 유사도 기반 중복 제거가 있었는지입니다.

노이즈율 관리입니다. 어노테이션 오류를 어떻게 샘플링 점검했는지입니다.
이 원칙은 외부에 세부를 공개하지 못하더라도, “우리는 이렇게 안전하게 만들었다”라는 신뢰를 만듭니다.

또 하나의 핵심은 실패 사례입니다. PDF는 활용 예시를 풍부하게 보여줍니다(8~10p). 예를 들어 텍스트로 이미지를 찾는 시나리오, 유사 이미지를 찾는 시나리오, 텍스트를 텍스트로 연결하는 시나리오가 도식으로 제시됩니다. 이 예시들은 “어디에 쓸 수 있는지”를 잘 보여주지만, 실패가 없으면 홍보물 인상을 지우기 어렵습니다. 실패 사례는 모델을 깎아내리는 것이 아니라, 모델의 경계를 선언하는 일입니다. 그리고 경계를 선언하는 문서는 실무에서 신뢰받습니다.

한국어+이미지 리트리벌에서 실제로 자주 나오는 실패 패턴은 크게 5가지로 정리할 수 있습니다.
첫째, 스타일 유사 vs 의미 유사 혼동입니다. 음식 사진이나 제품 사진에서 색감/구도/배경이 비슷하면 의미가 달라도 상위에 뜨기 쉽습니다.
둘째, 텍스트 포함 이미지(OCR 난이도) 취약점입니다. 간판, 메뉴판, 포스터처럼 텍스트가 핵심인 이미지에서, 비전 인코더가 텍스트를 의미로 충분히 반영하지 못하면 “그럴듯한 이미지”를 가져오게 됩니다.
셋째, 한국어 형태 변형 문제입니다. 띄어쓰기, 조사, 어미 변형, 신조어/줄임말에서 임베딩이 흔들리면 근접 검색이 무너질 수 있습니다.
넷째, 고유명사/개체 연결 실패입니다. 장소명, 브랜드명, 인명 등은 한국어에서 표기 변형이 많고, 이미지와의 연결이 약하면 검색 실패가 체감됩니다.
다섯째, 도메인 이동 문제입니다. 한국어 웹 기반 데이터로 학습했는데, 서비스 도메인이 예를 들어 문서 스캔, 실내 지도, 의료/법률 이미지 등으로 이동하면 성능이 급락할 수 있습니다.

이 실패 유형을 “Top-5 + 대응 전략”으로 붙이면, PDF의 활용 예시는 훨씬 교육적으로 바뀝니다. 예를 들어 OCR 취약에는 “텍스트가 많은 이미지 감지 시 OCR 파이프라인을 병렬로 태우고, 임베딩 검색 결과를 rerank한다” 같은 대응이 들어갈 수 있습니다. 스타일-의미 혼동에는 “카테고리 태그나 텍스트 메타데이터를 결합해 rerank한다”는 운영 전략이 가능합니다. 형태 변형에는 “질의 정규화(띄어쓰기/형태소) 또는 쿼리 확장”이 도움될 수 있습니다. 이런 대응은 모델을 바꾸지 않아도 적용 가능하다는 점에서 실무 가치가 큽니다.

마지막으로 비용/지연 한계도 함께 적혀야 합니다. PDF는 VLM 기반 임베딩의 장점을 강조하지만(2~3p), VLM 기반 접근은 추론 비용이 커질 수 있습니다. 임베딩 생성 지연이 늘면 대량 인덱싱과 실시간 질의 모두에 부담이 생깁니다. 따라서 MRL을 소개한 맥락(5p)은 단순 성능 트릭이 아니라 “필요할 때는 큰 차원, 비용이 중요할 때는 작은 차원으로 품질-비용을 조절”하는 실무 장치로 확장해 설명될 때 더 설득력이 커집니다. 즉, MRL의 그래프는 “우리는 더 잘했다”가 아니라 “우리는 운영 비용까지 조절할 수 있다”로 읽혀야 합니다.

Kanana-v-embedding과 KoEmbed는 한국어+이미지 환경에서 멀티모달 임베딩을 끝까지 밀어붙인 기획이 강점입니다. 다만 실무 설득을 완성하려면 학습 설정 표, 평가 프로토콜 표, 그리고 KoEmbed 거버넌스·실패 사례 분석이 필요합니다. 이 3가지를 보강하면 ‘성과 발표’가 ‘재사용 가능한 기술 문서’로 바뀝니다.

자주 묻는 질문 (FAQ)

Q. Kanana-v-embedding은 CLIP류 임베딩과 무엇이 가장 다릅니까 A. 텍스트-이미지 대조학습만이 아니라, 지시(instruction)와 다양한 입력 타입(텍스트-이미지-이미지)을 한 임베딩 공간으로 묶어 실제 검색/리트리벌 활용을 목표로 설계된 점이 핵심입니다.

Q. KoEmbed를 도입할 때 가장 먼저 확인해야 할 것은 무엇입니까
A. 성능 점수보다 데이터 거버넌스와 평가 조건입니다. 수집/정제/중복 제거/라이선스·프라이버시 원칙이 문서화되어야 하고, 질의 언어 분포와 리트리벌 파이프라인 조건이 고정되어야 공정한 비교가 가능합니다.

Q. 실패 사례는 어떤 유형을 우선적으로 봐야 합니까
A. 스타일 유사와 의미 유사 혼동, 텍스트 포함 이미지(OCR) 취약, 한국어 형태 변형, 고유명사 매칭 실패, 도메인 이동을 우선으로 분류하는 것이 좋습니다. 이 5가지는 운영 대응(재정렬, OCR 병렬, 질의 정규화, 메타데이터 결합)으로 개선 여지가 큽니다.

 

[출처]
https://tech.kakao.com/posts/801


Privacy Policy · About · Contact

© 2026 빌드노트