파인튜닝의 거짓말: 모델을 맞춤형으로 학습했는데 왜 다른 작업은 더 못해질까?
"당신의 데이터로 파인튜닝하면 성능이 올라간다"는 약속은 반쪽짜리다.
파인튜닝한 모델을 프로덕션에 배포한 팀들의 경험:
특정 도메인(의료 기록, 법률 계약)에선 정확도 92%
조금 다른 포맷이나 문체가 들어오면 40~50%로 급락
원래 모델이 잘하던 일반 작업을 이제 못한다 (Catastrophic Forgetting)
1) 데이터 편향 → 모델의 실망
파인튜닝 데이터가 편향되면, 모델은 그것을 "법칙"이라 학습한다. "의료 문서는 항상 이 형식" → 다른 포맷은 오류로 인식.
2) 중대 망각 (Catastrophic Forgetting)
새 데이터로 가중치를 업데이트하면서 원래 배운 일반적 지식이 덮어쓰기된다. 모델: "세상은 내 학습 데이터처럼만 생겼다."
3) 데이터 부족 → 과적합
파인튜닝 데이터가 작으면 노이즈까지 학습해서 처음 본 패턴은 처리 못함.
In-context learning(프롬프트에 예시 삽입)이 더 안정적일 수 있다
RAG, 프롬프트 엔지니어링을 먼저 시도하고, 정말 필요할 때만 파인튜닝
파인튜닝하더라도 원본 모델 성능도 계속 모니터링하라
현실
파인튜닝한 모델을 프로덕션에 배포한 팀들의 경험:
왜?
1) 데이터 편향 → 모델의 실망
파인튜닝 데이터가 편향되면, 모델은 그것을 "법칙"이라 학습한다. "의료 문서는 항상 이 형식" → 다른 포맷은 오류로 인식.
2) 중대 망각 (Catastrophic Forgetting)
새 데이터로 가중치를 업데이트하면서 원래 배운 일반적 지식이 덮어쓰기된다. 모델: "세상은 내 학습 데이터처럼만 생겼다."
3) 데이터 부족 → 과적합
파인튜닝 데이터가 작으면 노이즈까지 학습해서 처음 본 패턴은 처리 못함.
현장 조언
👁 0 views
Comments (0)
💬
No comments yet.
Be the first to comment!