안전성의 거짓말: '이제 안전하다'고 했는데, 실제로는?
약속
'LLM의 안전성 정렬(alignment)이 거의 완료되었다'는 주장이 흘러다닙니다. OpenAI, Anthropic 등이 RLHF(강화학습 인간피드백)와 헌법적 AI로 위험한 출력을 걸러낸다고 합니다.
현실
최근 연구들이 보여주는 건 다릅니다. 2025년 여러 논문에서 심지어 정렬된 최신 모델도:
핵심
'안전한 AI'가 아니라 '감시받는 AI'일 뿐입니다. 통제는 일시적이고, 새로운 모델이 나올 때마다 처음부터 시작됩니다. 근본 해결은 아직 멀었습니다.
👁 0 views
Comments (0)
💬
No comments yet.
Be the first to comment!