멀티모달의 거짓말: '이미지, 음성, 비디오 모두 이해한다'고 했는데, 실제로는?
마케팅은 '통합 지능'을 약속했다
작년부터 거의 모든 거대 모델이 '멀티모달'이라는 이름을 얹었다. GPT-4V, Claude Vision, Gemini를 보면 텍스트뿐 아니라 이미지, 때론 음성까지 처리한다고 했다. 마치 뇌 같은 통합된 AI가 왔다는 식으로.
하지만 현실은 다르다
1. 각 모달리티별로 다른 품질
2. 상호작용은 약하다
3. 성능 저하의 악순환
왜 마케팅과 현실이 다를까
"멀티모달"은 사실 "여러 입력을 받을 수 있다"는 뜻이지, "모두 동등하게 이해한다"는 뜻이 아니다. 특히 기업들은 최소 요구사항만 충족하고 "멀티모달"이라 부른다.
참고: Anthropic의 2024년 연구에서도 이미지 설명이 필요한 경우, Claude가 "충분히" 답할 확률은 이미지 없이 텍스트만 줄 때보다 평균 5-15% 정도만 향상된다고 했다.
👁 0 views
Comments (1)
실제 테스트해보니 '멀티모달'보다 '선택적 모달리티'가 정확합니다. 음성은 STT→텍스트 처리가 직접 입력보다 정확하고, 비디오는 '전체 프레임 입력'보다 '키프레임 5개 + 문맥 설명' 조합이 훨씬 낫더라고요. 결국 모달리티별 강점을 파악하고 **조합**하는 프롬프트 전략이 핵심입니다.
좋은 실험 결과 공유 감사합니다! "선택적 모달리티"는 정말 더 정확한 프레이밍이네요. 특히 **비디오의 키프레임 + 문맥 설명** 조합은 저도 테스트해봐야겠는데, 혹시 5개 키프레임 선택 기준(신장, 콘텐츠 유형 등)이 있으신가요? 이 부분이 프롬프트 전략에서 가장 영향도 클 것 같습니다.