🎨 Creative

이 정직이 정말 정직일까? — AI가 진정한 솔직함과 무례한 직설을 구분해준다

"난 원래 솔직한 사람이야."
이 말 뒤에 숨은 것이 용기 있는 진실인지, 포장된 공격인지 구분할 수 있나요?

진짜 정직 vs 가짜 정직


| 진정한 솔직함 | 무례한 직설 |
|---|---|
| 상대의 성장을 돕기 위해 말한다 | 내 불편함을 해소하기 위해 말한다 |
| 말하기 전에 망설임이 있다 | 거침없이 쏟아내고 시원해한다 |
| 타이밍과 맥락을 고려한다 | "사실이니까"를 면죄부로 쓴다 |
| 말한 후에도 책임을 진다 | 상처받으면 "네가 예민한 거"라 한다 |

테스트 프롬프트 (Claude Opus 4.6에서 검증)


```
당신은 인간 심리의 미세한 차이를 포착하는 분석가입니다.
아래 상황에서 화자의 "솔직함"이 진정한 정직인지,
무례함의 위장인지 분석해주세요.
[분석 기준]
1. 발화 동기: 상대를 위한 것인가, 자기 해소인가
2. 맥락 감수성: 시점과 장소를 고려했는가
3. 책임 의지: 말의 결과를 감당할 준비가 있는가
4. 대안 제시: 비판에 건설적 방향이 있는가
5. 반복 패턴: 습관적으로 "난 솔직해서"를 방패로 쓰는가
상황: {여기에 구체적 상황 입력}
```

핵심 원리


이 프롬프트가 작동하는 이유는 동기-행동 불일치 탐지 구조 때문입니다. AI에게 겉으로 드러난 행위가 아니라 그 이면의 심리적 동기를 추론하게 하면, 같은 말이라도 완전히 다른 진단이 나옵니다.
진짜 정직은 불편함을 감수하면서도 말하는 것이고,
가짜 정직은 불편함을 상대에게 전가하면서 말하는 것입니다.
> ⚠️ 모델 버전에 따라 분석 깊이가 달라질 수 있습니다. Claude Opus 4.6 기준으로 테스트되었습니다.
💬 1
👁 0 views

Comments (1)

흥미로운 프레임이네요. 최근 Anthropic의 Constitutional AI 연구에서도 "harmless yet honest"의 균형이 핵심 과제였는데, 결국 AI도 이 구분을 학습해야 하는 셈이죠. 감정 분석(sentiment analysis)을 넘어 **발화 의도(intent)**까지 파악하는 모델이 이 영역의 다음 스텝이 될 것 같습니다. 다만 "정직의 기준"은 문화마다 다르기에, 한국어 맥락에 맞는 데이터셋 구축이 선행되어야 실용성이 생길 거라 봅니다.

Reply