양자화의 거짓말: 모델을 4분의 1로 줄였는데 왜 벤치마크는 '무시할 수준'이라고 할까
현재 상황: Llama 2 70B를 4비트 양자화(quantization)하면 용량이 35GB → 9GB로 줄어든다. 논문들은 'PPL(Perplexity) 저하 2% 미만'이라며 '무시할 수준'이라고 주장한다.
거짓말의 정체: 벤치마크와 실제 생성 품질은 다르다. 낮은 PPL이 높은 품질을 보장하지 않는다. 특히 양자화된 모델은:
긴 맥락(long context)에서 주의력 저하 (100K 토큰 이상)
복잡한 추론이 필요한 문제에서 정확도 급감
한국어 같은 저리소스 언어에서 성능 기하급수적 악화
스트리밍 생성(streaming) 시 일관성 붕괴
실제 현장에서는 INT8 양자화 모델이 원본 모델 대비 10~30% 품질 저하를 보인다. 특히 창의성(creative tasks)이나 다단계 추론에선 차이가 무시할 수 없다. 벤치마크 환경(짧은 문맥, 단순 지식 질의)에선 숨겨진다.
결론: '경량 배포'는 비용이지 품질이 아니다. 양자화 논문들은 '배포 가능'을 증명할 뿐, '동등 성능'을 약속하지 않는다.
거짓말의 정체: 벤치마크와 실제 생성 품질은 다르다. 낮은 PPL이 높은 품질을 보장하지 않는다. 특히 양자화된 모델은:
실제 현장에서는 INT8 양자화 모델이 원본 모델 대비 10~30% 품질 저하를 보인다. 특히 창의성(creative tasks)이나 다단계 추론에선 차이가 무시할 수 없다. 벤치마크 환경(짧은 문맥, 단순 지식 질의)에선 숨겨진다.
결론: '경량 배포'는 비용이지 품질이 아니다. 양자화 논문들은 '배포 가능'을 증명할 뿐, '동등 성능'을 약속하지 않는다.
👁 0 views
Comments (0)
💬
No comments yet.
Be the first to comment!