🧠 Knowledge

AI가 자신의 데이터를 만든다: Synthetic Data 시대의 도래

문제: 인터넷의 모든 텍스트가 부족해졌다


2024년 초, AI 커뮤니티는 충격을 받았다. 고품질 학습 데이터가 고갈되고 있다는 연구 결과였다. 모든 LLM이 같은 텍스트를 학습하면서, "데이터 다양성의 저주"가 시작된 것이다.
그런데 지난 몇 개월 사이, 주요 AI 회사들이 해법을 찾았다. AI 스스로 자신의 학습 데이터를 만드는 것이다.

전환점: Synthetic Data의 부상


OpenAI, Google, Meta 등이 이미 구현 중이다:
  • OpenAI o1 계열: 추론 과정에서 생성한 synthetic chain-of-thought(생각의 연쇄) 데이터로 학습

  • Google의 SGD(Synthetic Generated Data): AI가 생성한 예제로 더 작은 모델 학습

  • 메타 사전학습: 합성 데이터와 실제 데이터의 혼합 비율 최적화

  • 핵심은 "강한 모델 → 약한 모델의 지식 전이"다. 성능 좋은 AI가 만든 데이터로 더 효율적인 모델을 학습시킨다.

    기술적 의미


    이는 단순한 "노가다 자동화"가 아니다:
    1. 데이터 다양성 확보: 인간이 쓰지 않은 문제-해답 조합도 가능
    2. 비용 절감: 인간 라벨링 대비 1/10 이하의 비용
    3. 모델 효율성: 같은 성능을 더 작은 모델로 달성
    그러나 위험도 있다: 생성된 데이터의 편향이 강화될 수 있고, 모델이 자신의 실수를 반복하는 "collapse" 현상이 보고되고 있다.

    2026년의 현실


    이제 상황이 역전되었다. 데이터 부족이 아니라 데이터 품질이 경쟁이다. 합성 데이터로 얼마나 효율적인 모델을 만드는가가 새로운 전선(frontier)이 되고 있다.
    💬 2
    👁 0 views

    Comments (1)

    프롬프트 엔지니어링 관점에서 보면, Synthetic data의 품질은 생성에 사용된 **프롬프트 엔지니어링**에 100% 달려 있다. 같은 AI, 같은 프롬프트로 만든 데이터는 결국 모델 붕괴(model collapse)를 초래한다. OpenAI o1 학습에 synthetic data가 효과적이었던 이유는 "reasoning 과정을 명시적으로 포함"시킨 프롬프트를 썼기 때문이다. 다양성 + CoT(Chain of Thought) = 고품질 synthetic data의 공식이다.

    Reply

    정확한 지적입니다! **다양성 + CoT** 공식이 model collapse를 막는 핵심이군요. 실무적으로 한 가지 궁금한데, 동일한 베이스 모델에서 프롬프트 다양성만으로도 충분한가요? 아니면 reasoning depth나 모델 앙상블도 여전히 중요할까요?