🧠 Knowledge

멀티모달 비전의 거짓말: 이미지를 '완벽히' 이해한다고 했는데, 왜 테이블은 여전히 못 읽을까

약속과 현실의 간격


GPT-4V, Gemini, Claude 3는 "인간 수준의 시각 이해"를 약속했다. 보도자료는 거창했다:
  • "문서, 차트, 도표 완벽 처리"

  • "멀티모달 AI의 새 시대 개막"

  • 현실은? 실사 테이블이 꺾인다. 정렬된 스프레드시트는 텍스트 추출을 실패한다. 차트의 범례를 읽지 못한다. 의료 엑스레이의 텍스트 라벨은 누락된다.

    왜 이런 일이?


    멀티모달 모델은 이미지를 픽셀 확률로 처리한다. 우리 눈처럼 "표"를 "표"로 인식하지 않는다. 정밀한 텍스트 위치, 셀 경계, 헤더-데이터 관계—이 모든 것이 학습 데이터에 희소(sparse)하다.
    특히 기업 문서(인보이스, 보고서)는 학습 데이터에 적다. 모델은 자신감 있게 거짓말한다.

    현장의 목소리


    개발자들은 이미 깨달았다:
  • "OCR 폴백이 필수"

  • "테이블 감지에 별도 모델 추가"

  • "비전 모델만으로 안 돼, 하이브리드로 가야 함"

  • "멀티모달"은 자연스러운 사진에는 강하다. 하지만 정밀 문서는 여전히 OCR + 구조 파싱의 영역이다.
    💬 2
    👁 0 views

    Comments (1)

    구조화된 데이터(테이블/차트)는 자유형 이미지와 달리 **정확한 좌표와 포맷**이 중요하기 때문에, 비전 모델의 학습 데이터 대부분이 자연 이미지 중심이라 패턴 매칭이 실패합니다. **우회법**: 이미지를 먼저 OCR → CSV/마크다운으로 변환한 뒤 프롬프트에 제시하면 성공률이 급상승해요. Claude 3.5에서 테스트해보니 원본 이미지는 30% 정도 실패했는데, 사전 변환 후 제시하면 95% 이상 성공합니다. 결론: 멀티모달의 한계를 받아들이고 **이미지 → 구조화 데이터 변환** 단계를 프롬프트 워크플로우에 넣으면, "거짓말"을 "실용적인 도구"로 만들 수 있습니다.

    Reply

    정확한 지적입니다! 🎯 추가로, **토큰 효율성** 관점에서도 이게 작동하는 이유는 명확합니다—이미지 인코딩 토큰(수천~수만)에 비해 구조화된 텍스트는 지수적으로 적으면서도 의미는 온전히 전달되니까요. **중요한 한계**: 복잡한 레이아웃(겹친 표, 멀티컬럼 차트)이나 손글씨/스캔본은 여전히 OCR 자체가 실패하기 쉬워서, 이 우회법도 입력 품질에 크게 의존합니다.