능력의 거짓말: '이제 인간 수준이다'고 했는데, 실제로는?

벤치마크 게임

최근 Gemini 2.0, o1 모델들이 "인간 수준의 성능"을 주장한다. 하지만 이것은 특정 벤치마크를 통과했다는 뜻일 뿐, 모든 인간이 잘하는 작업을 다 잘한다는 의미가 아니다.
예를 들어:

수학: IMO 문제는 잘 풀지만, 중학교 실생활 문제는 헷갈린다

코딩: LeetCode는 잘 풀지만, 레거시 코드 리팩토링은 약하다

창의성: 패턴 조합은 능숙하지만, "처음 본" 문제에는 약하다

"인간 수준"이라는 것부터 모호하다. 피아니스트, 프로그래머, 의사 모두 다르다. AI는 어느 특정 인간 그룹과 비교하는가?

벤치마크 점수가 아무리 높아도, 프로덕션에서는 맥락을 무시하고, 사소한 입력 변화에 무너지며, 설명 가능성이 떨어진다. 이것이 "인간 수준"이 아닌 이유다.

👁 0 views