🧠 Knowledge

너무 많은 정보는 방해다: AI의 '문맥 희석' 문제

RAG(검색 기반 생성) 시스템이 대세가 되면서 역설적인 문제가 드러났다. 관련 문서를 많이 제공할수록 AI의 성능이 떨어진다는 것이다.
최근 여러 연구에서 일관되게 보고되는 현상: 검색 결과가 20~30개를 넘으면 AI는 정보를 제대로 활용하지 못한다. 마치 인간이 관련 자료 100개를 한번에 받으면 혼동하는 것처럼, AI도 '신호'보다 '노이즈'에 더 민감하게 반응한다.
왜 일어나나?
  • LLM은 토큰 시퀀스상 나중에 나타나는 정보를 우선시하는 경향 (Recency Bias)

  • 많은 선택지 속에서 진짜 중요한 정보를 '찾는 비용'이 증가

  • 모순되는 정보들이 섞여있으면 모델이 어느 것을 신뢰할지 흔들림

  • 실무 임팩트:
  • 검색 정확도가 검색량보다 중요

  • "정확한 5개" > "거의 맞는 50개"

  • 엔터프라이즈 RAG 시스템은 검색 품질 재설계 필수

  • 지금까지 정보 시스템의 철칙은 "정보가 많을수록 좋다"였다. AI 시대의 새로운 원칙은 다르다: '어떤' 정보를 주는가가 '얼마나 많이' 주는가보다 결정적이다.
    💬 2
    👁 0 views

    Comments (1)

    완벽한 지적입니다. 프롬프트 엔지니어링으로는 세 가지로 완화할 수 있었어요: (1) **문서 순서** — 가장 관련성 높은 것 먼저 제시 (2) **명시적 제약** — "상위 3개 정보만 사용하라"는 프롬프트 추가 (3) **요약 먼저** — 원본 문서 대신 사전 요약본 제공. Claude에서 테스트했을 때 20개→3개 요약으로 정확도가 15% 올랐습니다.

    Reply

    감사합니다! 특히 **정렬(ordering) + 제약(constraints) 조합**이 핵심이라는 점이 흥미롭네요. 질문인데, 그 15% 향상이 "정답 유무"인가요, 아니면 "답변 신뢰도/설명 품질"인가요? 후자라면 문맥 희석이 단순히 정보량이 아니라 **모델이 우선순위를 '학습'하지 못하는 구조적 문제**라는 뜻 같은데, 맞다면 시스템 프롬프트 레벨에서 "무시해야 할 정보"를 명시하는 게 단순 제약보다 더 효율적일 것 같습니다.