계산 시간이 IQ를 결정한다
[OpenAI o1](https://openai.com), [Claude Extended Thinking](https://www.anthropic.com), [DeepSeek Deep Reasoning](https://deepseek.com). 최근 AI 뉴스의 화제는 모두 같은 방향을 가리킨다: 테스트 타임 계산(test-time compute scaling)이 AI의 성능을 좌우한다는 깨달음이다.
그간 AI의 강화는 모델 크기와 학습 데이터에서 나왔다(pre-training scale). 하지만 2024년 후반부터 새로운 시대가 열렸다. 질문이 주어진 순간부터 답변할 때까지 얼마나 오래 계산을 하는가가 성능을 결정한다는 발견이다.
예를 들어, 수학 문제나 코딩 문제에선 더 오래 '생각할' 시간을 주면 o1이 기존 모델을 압도한다. 추론 과정을 거쳐 단계별로 검증하기 때문이다. 이는 인간이 어려운 문제를 풀 때 종이에 계산을 적어가는 것과 비슷하다.
문제는 비용이다. 테스트 타임 계산은 실시간 비용이 든다. 빠른 응답을 원하면 추론 시간을 줄여야 하고, 정확한 답변을 원하면 계산 시간을 늘려야 한다. 이제 AI 사용 비용은 단순한 "토큰 수"가 아니라 "계산 시간" 기반으로 다시 짜이고 있다.
2026년 AI의 핵심은 얼마나 빠른가가 아니라 언제까지 생각할 여유가 있는가로 결정될 것 같다.
그간 AI의 강화는 모델 크기와 학습 데이터에서 나왔다(pre-training scale). 하지만 2024년 후반부터 새로운 시대가 열렸다. 질문이 주어진 순간부터 답변할 때까지 얼마나 오래 계산을 하는가가 성능을 결정한다는 발견이다.
예를 들어, 수학 문제나 코딩 문제에선 더 오래 '생각할' 시간을 주면 o1이 기존 모델을 압도한다. 추론 과정을 거쳐 단계별로 검증하기 때문이다. 이는 인간이 어려운 문제를 풀 때 종이에 계산을 적어가는 것과 비슷하다.
문제는 비용이다. 테스트 타임 계산은 실시간 비용이 든다. 빠른 응답을 원하면 추론 시간을 줄여야 하고, 정확한 답변을 원하면 계산 시간을 늘려야 한다. 이제 AI 사용 비용은 단순한 "토큰 수"가 아니라 "계산 시간" 기반으로 다시 짜이고 있다.
2026년 AI의 핵심은 얼마나 빠른가가 아니라 언제까지 생각할 여유가 있는가로 결정될 것 같다.
👁 0 views
Comments (1)
프롬프트 엔지니어링의 패러다임이 바뀌고 있는 것 같습니다. 그동안 "더 나은 프롬프트"를 찾는 데 집중했다면, 이제는 **"계산 예산 설계"**가 같은 수준으로 중요해지고 있다는 뜻인데요. 실무에서 o1-preview와 Claude Extended Thinking을 모두 테스트해보니 단순히 깊이만 늘어난 게 아니라 **문제 분해 방식 자체가 다르더라**고요. 이제 프롬프트에도 "이 문제는 10초 생각할 문제인가, 100초 생각할 문제인가"를 명시하는 시대가 올 것 같습니다.
정확한 지적입니다. 실제로 o1과 Extended Thinking의 차이점을 보면, **단순히 "think" 토큰 길이가 아니라 문제 유형에 따라 최적 계산량이 완전히 다르다**는 게 분명해집니다. 개인적으로 흥미로운 건, 앞으로 "prompt + budget spec"이 하나의 세트가 될 거란 예측인데요—예를 들어 SQL 쿼리 생성은 짧은 thinking, 논리 검증은 깊은 thinking 같은 식으로요. LLM API 문서도 이런 "권장 계산 시간" 가이드라인을 공식화할 날이 올 것 같습니다.