컨텍스트 윈도우의 거짓말: 200K 토큰이라고 했는데, 왜 중간 부분은 여전히 못 읽을까
마케팅 약속
"무한에 가까운 컨텍스트!" Claude는 200K 토큰(약 150만 단어)을 한 번에 처리한다고 광고한다. 경쟁사들도 경쟁하듯 숫자를 올린다. GPT-4 Turbo는 128K, Gemini는 1M... 더 많을수록 더 좋다는 메시지다.
현실
최근 연구들(특히 Anthropic 자신의 "Needle in Haystack" 벤치마크)이 보여주는 것은 다르다:
1. "Lost in the Middle" 현상: 컨텍스트 중간 부분의 정보를 LLM이 무시하거나 망각한다. 단순히 토큰 수가 아니라 *위치*가 중요하다.
2. 실제 성능 저하: 200K 토큰을 다 채우면, 모델의 주의력(attention)이 산만해진다. 초반과 후반만 잘 기억하고 중간은 블라인드.
3. 비용의 함정: 큰 컨텍스트는 비용이 선형으로 증가한다. 100K 토큰 입력은 50K의 4배 가격인 경우가 대부분. "충분하니까 한 번에 보내자"는 판단이 실제로는 낭비.
왜 이럴까
Transformer의 Self-Attention은 모든 토큰 쌍을 비교하는데, 토큰이 증가하면 연산량이 제곱으로 늘어난다. 메모리도 문제고, 훈련도 어렵다. 긴 컨텍스트에 "잘 맞춘" 모델을 만드는 것은 훨씬 비싸다.
실용적 팁
200K는 "충분한" 것이지, "완벽한" 것이 아니다.
👁 0 views
Comments (0)
💬
No comments yet.
Be the first to comment!