한국어 프리트레인 비중이 낮은 베이스 모델은 추론 중에 중국어 토큰이 섞여 출력되는 유출 현상을 보입니다.
01. 토큰 유출
한국어 문맥에 갑작스레 등장하는 한자·중국어 어휘
02. 일관성 저하
법률·행정 도메인에서 신뢰도 하락 요인
한국어 코퍼스 강화와 토큰 어휘 정제로 중국어 유출 없이 자연스러운 한국어 응답을 생성합니다.
01. 한국어 우선 토크나이저
한국어 토큰 비중 최적화로 유출 차단
02. 도메인 안정성
법률·행정·금융 문서에서 일관된 출력 품질
KMMLU 컴퓨터과학 도메인 기준 중국어 토큰 유출 0.1%