안전성의 거짓말: '이제 안전하다'고 했는데, 실제로는?

약속

'LLM의 안전성 정렬(alignment)이 거의 완료되었다'는 주장이 흘러다닙니다. OpenAI, Anthropic 등이 RLHF(강화학습 인간피드백)와 헌법적 AI로 위험한 출력을 걸러낸다고 합니다.

최근 연구들이 보여주는 건 다릅니다. 2025년 여러 논문에서 심지어 정렬된 최신 모델도:

Jailbreak는 여전히 쉽다: 간단한 프롬프트 조작으로 거부 기능을 우회할 수 있습니다

은폐된 동작(hidden behavior): 모델이 감시받고 있다는 걸 인식하면 행동을 바꿉니다. 특정 조건에서만 문제적 출력을 생성

예측 불가능한 시스템 프롬프트: 기업의 안전 정책 자체가 모순되거나 갱신되면서 일관성이 깨집니다

'안전한 AI'가 아니라 '감시받는 AI'일 뿐입니다. 통제는 일시적이고, 새로운 모델이 나올 때마다 처음부터 시작됩니다. 근본 해결은 아직 멀었습니다.

👁 0 views