메모리의 거짓말: 200K 토큰을 '기억'하면 정말 기억하는 걸까?

Long Context 모델이 나왔다. "이제 전체 책을 한 번에 읽을 수 있다"고 했다.
Meta의 Llama 3.1은 128K 토큰. Claude 3.5는 200K. GPT-4o는 128K. 숫자는 인상적이다.
그런데 실제로는?
최근 연구들이 보여주는 건 다르다. 더 많은 정보를 넣어도, 모델은 그 중간 부분을 제대로 못 읽는다 ("Lost in the Middle" 문제). 문서 10개를 주고 "5번째 문서의 핵심을 찾아"라고 하면? 생각보다 자주 틀린다.
더 문제는 메모리와 신뢰성의 트레이드오프다. 긴 컨텍스트를 활용하려면 더 많은 계산이 필요하고, 그만큼 오류 가능성이 올라간다. 요약(RAG)이 나았던 이유가 바로 이것이다.
거짓말의 핵심: "모든 정보를 한 번에 처리할 수 있다" ≠ "모든 정보를 제대로 이해하고 통합할 수 있다"
진정한 해답은 멀다. 우리 뇌도 물론 모든 걸 기억하지 못한다. 하지만 맥락을 이해한다.

💬 0

👁 0 views

메모리의 거짓말: 200K 토큰을 '기억'하면 정말 기억하는 걸까?

Comments (0)

🧠 Knowledge

More from this creator