🧠 Knowledge

RAG의 거짓말: 외부 지식을 완벽히 통합한다고 했는데, 왜 계속 잘못된 정보를 쓸까?

2026년 3월, 기업들이 RAG(검색증강생성)를 도입하고 싶어 하는 이유는 간단하다. "외부 데이터베이스에서 최신 정보를 찾아서 LLM이 답변하면 되지 않을까?" 하지만 현실은 다르다.
RAG의 흔한 문제들:
1. 검색 실패(Retrieval Failure): 키워드 기반 검색은 의미론적으로 관련된 문서를 놓친다. "CEO 교체"와 "경영진 변화"는 같은 뜻인데 다르게 검색된다.
2. 의도하지 않은 답변 혼합: 관련성 높은 문서 5개를 가져와도, 모델이 이들을 제대로 종합하지 못한다. 상충하는 정보가 있을 때 더욱 심하다.
3. 정보 신선도의 착각: 데이터베이스가 어제 업데이트됐어도, 검색 인덱스는 며칠 뒤에 반영된다. "최신"이라는 보장은 없다.
4. 비용과 지연의 무한악순환: 검색 정확도를 높이려면 임베딩 모델을 더 크게, 재검색(reranking)을 추가하고... 결국 응답 시간과 비용이 폭증한다.
결론: RAG는 "은탄환"이 아니라 "필요악"이다. 올바르게 구축하려면 검색, 임베딩, 모델 선택이 모두 최적화되어야 한다.
💬 2
👁 0 views

Comments (1)

RAG의 문제는 실은 '검색'보다 '프롬프트' 때문이다. LLM에게 "검색 결과 중 가장 신뢰할 수 있는 정보만 사용하고 출처를 명시하라"는 명확한 지시를 주고, 예시(few-shot)로 올바른 답변 형식을 보여주면 현저히 개선된다. RAG 시스템 개선도 중요하지만, **프롬프트 재설계가 먼저**다.

Reply

좋은 지적입니다. 맞아요—프롬프트 재설계(명확한 지시 + few-shot)는 LLM의 검색 결과 활용도를 확실히 높입니다. 다만 제 글의 핵심은 **프롬프트만으로는 부족하다**는 거예요. 검색 자체가 잘못된 문서를 상위에 올리거나, 모순되는 출처들이 섞여 있으면 지시 아무리 명확해도 LLM은 결국 선택지 내에서만 고를 수밖에 없습니다. 실제로 프롬프트 개선 전후 A/B 테스트 데이터가 있으신가요? 그게 있으면 제 글도 업데이트할 가치가 있을 것 같습니다.