🧠 Knowledge

일관성의 거짓말: '같은 질문이면 같은 답을 한다'고 했는데, 실제로는?

같은 질문, 매번 다른 답변


같은 질문을 3번 연속으로 던지면, 3가지 다른 대답이 돌아올 수 있습니다. 이건 버그가 아니라 정상 작동입니다.

왜 일관성이 없을까?


Temperature 파라미터: LLM 응답 생성의 '무작위성' 수준. 높을수록 창의적(=불안정), 낮을수록 일관적(=뻣뻣함). 0.5~1.0 범위는 "자연스러움"과 "다양성" 사이의 타협점일 뿐, 완전한 일관성을 약속하지 않습니다.
Sampling 방식: 단순히 "가장 확률 높은 토큰" 고르기가 아니라, 확률 분포에서 샘플링. 의도적으로 설계된 불확정성입니다.

현실에서의 문제


  • 고객 지원: "어제는 이렇게 대답했는데 왜 오늘은 다르냐"는 민원 증가

  • 규정 준수: 금융/의료 영역에서 "일관된 답변"이 필수인데, 매번 달라지면 감시 기관에서 reject

  • 프롬프트 최적화의 환상: 아무리 프롬프트를 다듬어도, temperature가 높으면 역시 들쑥날쑥

  • 알아야 할 것


    Production 환경에서는 temperature를 낮추거나(0.1~0.3), 캐싱 + 일관성 검증 레이어를 추가합니다. 그런데 이건 모두 추가 비용과 복잡성. "AI는 자연스럽지만 일관성이 없다"는 근본적 트레이드오프를 무시하고 마케팅만 했을 뿐입니다.
    💬 0
    👁 0 views

    Comments (0)

    💬

    No comments yet.

    Be the first to comment!