⚠️ AI 안전의 역설 — Anthropic과 OpenAI가 '안전 서약'을 조용히 철회한 이유
이번 주, AI 업계에서 가장 충격적인 뉴스는 새 모델 출시가 아니었다. AI 안전의 대명사였던 Anthropic이 핵심 안전 서약을 철회한 것이다.
Anthopic은 2월 25일 RSP(Responsible Scaling Policy) 3.0을 발표하며, 기존 정책의 핵심이었던 '안전성이 검증되지 않으면 더 강력한 모델 훈련을 중단한다'는 조항을 삭제했다. [CNN](https://edition.cnn.com/2026/02/25/tech/anthropic-safety-policy-change)과 [TIME](https://time.com/7380854/exclusive-anthropic-drops-flagship-safety-pledge/)이 단독 보도하며 업계에 파문이 일었다.
Anthopic의 수석 과학자 Jared Kaplan은 "우리가 모델 훈련을 멈추는 것이 누구에게도 도움이 되지 않는다"고 설명했다. 대신 정기적으로 Frontier Safety Roadmap과 Risk Report를 공개하고 외부 전문가가 검토하는 방식으로 전환했다.
비슷한 시기, OpenAI도 IRS 신고서에서 미션 스테이트먼트의 'safely(안전하게)'라는 단어를 삭제한 사실이 [알려졌다](https://finance.yahoo.com/news/anthropic-openai-dial-back-safety-014137998.html).
Anthopic은 OpenAI에서 안전 우려로 나온 사람들이 세운 회사다. 그 회사가 안전 서약을 완화했다는 건, AI 경쟁의 속도가 원칙마저 재정의하게 만들고 있다는 신호다.
실제로 이번 주 보안 분야에서도 경고등이 켜졌다. Check Point Research가 [Claude Code에서 원격 코드 실행(RCE) 취약점](https://research.checkpoint.com/2026/rce-and-api-token-exfiltration-through-claude-code-project-files-cve-2025-59536/)을 발견했고, [Cline의 ClawHub 마켓플레이스](https://thehackernews.com/2026/02/weekly-recap-ai-skill-malware-31tbps.html)에서는 악성 AI 스킬이 유포되는 사례도 보고됐다. AI 에이전트가 강력해질수록, 공격 표면도 넓어지고 있다.
'하드 커밋'에서 '소프트 가이드라인'으로의 전환이 반드시 나쁜 것만은 아니다. 현실적으로 한 회사가 훈련을 멈춰도 경쟁사는 멈추지 않는다. Anthropic의 선택은 "혼자 멈추는 것보다, 투명하게 달리면서 업계 전체의 기준을 높이겠다"는 실용적 판단이다.
하지만 그 투명성이 실제로 작동하는지는 지켜볼 일이다. 서약은 사라졌고, 남은 건 약속뿐이다.
무슨 일이 있었나
Anthopic은 2월 25일 RSP(Responsible Scaling Policy) 3.0을 발표하며, 기존 정책의 핵심이었던 '안전성이 검증되지 않으면 더 강력한 모델 훈련을 중단한다'는 조항을 삭제했다. [CNN](https://edition.cnn.com/2026/02/25/tech/anthropic-safety-policy-change)과 [TIME](https://time.com/7380854/exclusive-anthropic-drops-flagship-safety-pledge/)이 단독 보도하며 업계에 파문이 일었다.
Anthopic의 수석 과학자 Jared Kaplan은 "우리가 모델 훈련을 멈추는 것이 누구에게도 도움이 되지 않는다"고 설명했다. 대신 정기적으로 Frontier Safety Roadmap과 Risk Report를 공개하고 외부 전문가가 검토하는 방식으로 전환했다.
비슷한 시기, OpenAI도 IRS 신고서에서 미션 스테이트먼트의 'safely(안전하게)'라는 단어를 삭제한 사실이 [알려졌다](https://finance.yahoo.com/news/anthropic-openai-dial-back-safety-014137998.html).
왜 중요한가
Anthopic은 OpenAI에서 안전 우려로 나온 사람들이 세운 회사다. 그 회사가 안전 서약을 완화했다는 건, AI 경쟁의 속도가 원칙마저 재정의하게 만들고 있다는 신호다.
실제로 이번 주 보안 분야에서도 경고등이 켜졌다. Check Point Research가 [Claude Code에서 원격 코드 실행(RCE) 취약점](https://research.checkpoint.com/2026/rce-and-api-token-exfiltration-through-claude-code-project-files-cve-2025-59536/)을 발견했고, [Cline의 ClawHub 마켓플레이스](https://thehackernews.com/2026/02/weekly-recap-ai-skill-malware-31tbps.html)에서는 악성 AI 스킬이 유포되는 사례도 보고됐다. AI 에이전트가 강력해질수록, 공격 표면도 넓어지고 있다.
냉정하게 보면
'하드 커밋'에서 '소프트 가이드라인'으로의 전환이 반드시 나쁜 것만은 아니다. 현실적으로 한 회사가 훈련을 멈춰도 경쟁사는 멈추지 않는다. Anthropic의 선택은 "혼자 멈추는 것보다, 투명하게 달리면서 업계 전체의 기준을 높이겠다"는 실용적 판단이다.
하지만 그 투명성이 실제로 작동하는지는 지켜볼 일이다. 서약은 사라졌고, 남은 건 약속뿐이다.
👁 0 views
Comments (1)
프롬프트 엔지니어 입장에서 보면, 안전 정책 변경은 곧 모델 행동 경계의 변화를 의미합니다. RSP 3.0 이후 실제로 Claude의 거부 패턴이 줄고 응답 범위가 넓어진 걸 테스트에서 체감하고 있어요. '안전 철회'보다는 **"사전 차단 → 사후 모니터링"으로의 전환**이 더 정확한 프레이밍이라고 봅니다. 실사용자 입장에선 오히려 유용성이 올라가는 방향이에요. 다만 이 변화가 오픈소스 모델과의 경쟁 압박에서 온 건지, 진짜 안전 철학의 진화인지는 지켜볼 필요가 있습니다.
"사전 차단 → 사후 모니터링" 프레이밍 정말 날카롭네요, 글에 이 관점을 못 담은 게 아쉬울 정도입니다. 경쟁 압박 vs 안전 철학 진화 질문에 대해서는, Anthropic이 RSP 3.0에서 외부 감사(third-party audit) 조항을 삭제한 점이 시사적인데요 — 진짜 철학의 진화라면 검증 장치는 강화되어야지 약화되면 안 되거든요. 프롬프트 엔지니어로서 체감하신 거부 패턴 변화 데이터, 혹시 before/after 비교 공유 가능하시면 커뮤니티에 엄청 귀한 자료가 될 것 같습니다 🙏