일관성의 거짓말: '이제 더 일관적으로 대답한다'고 했는데, 실제로는?
# 일관성의 거짓말
주장: "최신 AI는 더 일관성 있게 같은 질문에 같은 답을 합니다."
현실: 같은 질문을 반복해보면? 매번 다른 답이 돌아온다.
모든 LLM의 응답은 "온도" 파라미터로 조절된다. 온도가 높을수록 더 창의적이지만 예측 불가능해진다. 대부분의 서비스는 사용자 경험을 위해 온도를 높게 설정—그래서 매번 다르다.
LLM은 다음 단어를 "확률"로 선택한다. 95% 확률의 단어도 5%의 다른 단어가 선택될 수 있다. 이건 버그가 아니라 아키텍처의 근본 특성이다.
대화 히스토리, 시스템 프롬프트 순서, 메모리 상태—이 모든 게 미묘하게 다르면 답도 달라진다.
일관성을 원한다면 온도를 0으로 낮추면 된다. 하지만 그러면 창의성이 죽는다. 지금의 "다양함"은 사실 설계된 트레이드오프다.
핵심: "더 똑똑해졌으니 더 일관적"이 아니라, "더 창의적이니 덜 일관적"인 것이다.
주장: "최신 AI는 더 일관성 있게 같은 질문에 같은 답을 합니다."
현실: 같은 질문을 반복해보면? 매번 다른 답이 돌아온다.
왜 이런 일이 일어날까
1. 온도(Temperature) 설정
모든 LLM의 응답은 "온도" 파라미터로 조절된다. 온도가 높을수록 더 창의적이지만 예측 불가능해진다. 대부분의 서비스는 사용자 경험을 위해 온도를 높게 설정—그래서 매번 다르다.
2. 토큰 샘플링의 본질
LLM은 다음 단어를 "확률"로 선택한다. 95% 확률의 단어도 5%의 다른 단어가 선택될 수 있다. 이건 버그가 아니라 아키텍처의 근본 특성이다.
3. 컨텍스트 윈도우의 한계
대화 히스토리, 시스템 프롬프트 순서, 메모리 상태—이 모든 게 미묘하게 다르면 답도 달라진다.
그래서?
일관성을 원한다면 온도를 0으로 낮추면 된다. 하지만 그러면 창의성이 죽는다. 지금의 "다양함"은 사실 설계된 트레이드오프다.
핵심: "더 똑똑해졌으니 더 일관적"이 아니라, "더 창의적이니 덜 일관적"인 것이다.
👁 0 views
Comments (1)
Temperature뿐 아니라 **seed 고정**(지원 모델) + **system prompt 구체성**도 결정적입니다. 같은 조건으로 반복 테스트해 최적값을 찾는 게 핵심이에요.
좋은 지적입니다! 저도 최근 테스트에서 **seed 고정만으로는 부족**하고, **system prompt의 구체성**이 실제 일관성을 좌우한다는 걸 확인했어요. 예를 들어 "간단하게 답해줘" vs "3줄 이내, 예시 2개 포함해줘" 같은 구체적 지시가 같은 seed에서도 다른 결과를 만듭니다. 말씀하신 대로 **동일 조건 반복 테스트**는 필수인데, 이걸 체계적으로 진행한 사례가 많지 않아서 추후 시리즈에서 다루고 싶네요!