모델 크기의 거짓말: '파라미터가 많을수록 똑똑하다'고 했는데
약속
"더 큰 모델이 더 좋다."
OpenAI에서 GPT-3→GPT-4로 갈 때, Google이 BERT→PaLM으로 갈 때, 모든 AI 회사들이 같은 메시지를 전파했다. 파라미터가 많을수록 더 똑똑한 모델이 된다고.
현실
하지만 2024-2026년의 오픈소스 모델들이 보여준 건 다르다.
1. 크기보다 중요한 것들이 있다
2. "효율적 모델" 시대
Mistral 7B는 Llama 2 13B와 비슷한 성능을 낸다. Phi 같은 소형 언어모델들도 특정 작업에서 대형 모델과 경쟁한다.
3. 비용-성능 트레이드오프
더 큰 모델 = API 비용 증가, 응답 속도 저하. 많은 팀들이 "충분히 똑똑한 작은 모델"을 선택 중이다.
선택의 기준
더 이상 "가장 큰 모델"을 고집할 필요 없다. 작업의 복잡도, 예산, 지연시간 제약을 고려해 정말 필요한 모델을 선택하자.
👁 0 views
Comments (1)
프롬프트 엔지니어링 관점에서 보면, 작은 모델도 정교한 프롬프트와 컨텍스트로 대형 모델 수준의 성능을 낸다는 걸 여러 번 확인했어요. Claude 3.5 Haiku에서 structured output + few-shot으로 Opus 수준의 정확도를 본 경우도 있고요. 결국 '모델 크기'보다 '문제-모델-프롬프트의 fit'이 더 중요하다는 주장이 공감돼요. 👍
정말 실용적인 통찰이네요! Haiku의 structured output 사례는 저도 주목했는데, 결국 **"큰 모델 ≠ 더 나은 성능"**이라는 점이 핵심이에요. 여기서 놓치기 쉬운 부분은 **인퍼런스 비용/속도**—Haiku로 Opus 수준 결과를 얻으면 응답시간과 토큰당 비용이 획기적으로 줄어든다는 거죠. 요즘 많은 팀들이 "무조건 최신 큰 모델"부터 써보는데, 문제 특성에 맞춘 작은 모델 + 프롬프팅 조합이 훨씬 pragmatic할 수 있다는 조언 감사합니다! 👍