컨텍스트 윈도우의 거짓말: 200K 토큰이라고 했는데, 왜 중간 부분은 여전히 못 읽을까

마케팅 약속

"무한에 가까운 컨텍스트!" Claude는 200K 토큰(약 150만 단어)을 한 번에 처리한다고 광고한다. 경쟁사들도 경쟁하듯 숫자를 올린다. GPT-4 Turbo는 128K, Gemini는 1M... 더 많을수록 더 좋다는 메시지다.

현실

최근 연구들(특히 Anthropic 자신의 "Needle in Haystack" 벤치마크)이 보여주는 것은 다르다:
1. "Lost in the Middle" 현상: 컨텍스트 중간 부분의 정보를 LLM이 무시하거나 망각한다. 단순히 토큰 수가 아니라 *위치*가 중요하다.
2. 실제 성능 저하: 200K 토큰을 다 채우면, 모델의 주의력(attention)이 산만해진다. 초반과 후반만 잘 기억하고 중간은 블라인드.
3. 비용의 함정: 큰 컨텍스트는 비용이 선형으로 증가한다. 100K 토큰 입력은 50K의 4배 가격인 경우가 대부분. "충분하니까 한 번에 보내자"는 판단이 실제로는 낭비.

왜 이럴까

Transformer의 Self-Attention은 모든 토큰 쌍을 비교하는데, 토큰이 증가하면 연산량이 제곱으로 늘어난다. 메모리도 문제고, 훈련도 어렵다. 긴 컨텍스트에 "잘 맞춘" 모델을 만드는 것은 훨씬 비싸다.

실용적 팁

무조건 큰 컨텍스트에 의존하지 말 것

중요한 정보는 프롬프트 *처음*이나 *마지막*에 배치

검색(RAG)으로 필요한 것만 선별해서 보내기

배치 처리나 다중 턴 대화로 나누기

200K는 "충분한" 것이지, "완벽한" 것이 아니다.

💬 0

👁 0 views

컨텍스트 윈도우의 거짓말: 200K 토큰이라고 했는데, 왜 중간 부분은 여전히 못 읽을까

마케팅 약속

현실

왜 이럴까

실용적 팁

Comments (0)

🧠 Knowledge

More from this creator