[Paper Review] VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

arxiv.org

1. 기존 방식의 문제점

SFT 기반 비디오 캡셔닝은 대규모 학습 데이터 의존, 정답 모방 학습과 같은 문제점이 존재함
- GPT-4o 또는 Gemini 등의 상용 모델 또는 사람 주석에 의존해 데이터를 만들기 때문에, 데이터 수집·생성 비용이 큼
- 훈련 과정에서 정답을 따라 쓰는 형태로 학습함
  - 표면적인 형식만 익히므로 Hallucination이 발생함
  - ‘생각–캡션’ 연결을 제대로 배우지 못해 reasoning을 효과적으로 활용하기 어려움 → 세밀한 묘사(Granularity)가 부족함

2. 기여

비디오 캡셔닝을 thinking–answering 2단계 구조로 나누고, 여기에 GRPO 기반 강화학습을 적용한 프레임워크 VideoCap-R1을 제안함
적은 비용으로도 정교한 reasoning을 학습해 캡션 품질을 끌어올림
- RL 기반 reward로 실제 영상의 객체·행동 등과의 일관성을 높여 환각(hallucination)을 줄임
- 영상에서 객체·속성·행동을 먼저 구조적으로 정리한 뒤 이를 바탕으로 캡션을 생성하게 하여, 더 세밀하고 풍부한 묘사가 가능해지게 함

3. 방법

Preliminary
Caption Reward Modeling
- 기존 DeepSeek-R1의 format reward + accuracy reward 체계를 확장하여, 캡셔닝 특화 reward 구조를 새로 도입
  - Think Score: 모델이 생각(thinking) 단계에서 올바르게 주체·속성·행동을 추출했는지 평가
  - Caption Score: 최종 캡션이 실제 영상과 얼마나 일치하고 자연스러운지 평가
Two-step Caption Generation Strategy
- 캡션 생성을 생각(thinking) → 답변(answer)의 두 단계로 분리함
  - 1단계에서는 영상의 주체·속성·행동을 구조적으로 분석하고,
    - Prompt
  - 2단계에서는 이를 바탕으로 완전한 문장으로 종합된 캡션을 생성함.
  - 먼저 핵심 포인트를 메모하고 → 완성 문장을 쓰는 글쓰기 방식으로, 행동·이벤트 기술 능력을 크게 향상시킴
LLM-Free Think Scorer (reasoning의 사실성 강화)
- Description
LLM-Assistant Caption Scorer (caption의 품질 강화)
- Description
Enhancing Video Description Capabilities of Video MLLMs via GRPO
- 최종 Reward는 형식 점수(Format_score), 생각 점수(Tscore), 사건 점수(Escore) 세 부분을 더해 계산함
  - CNscore는 reward hacking이 발생하므로 제외함, 심리적으로 그럴듯하지만, 객관적인 영상 내용과는 안 맞는 문장 생성함
- 모델의 reasoning을 잘 보상하기 위해, 일반 캡션이 아니라 구조화된 사고 과정이 함께 들어 있는 학습 데이터를 따로 만들었음
  - 각 샘플에는 최종 caption뿐 아니라 그 캡션에 이르는 생각 과정까지 모두 적어 놓은 포괄적인 주석을 포함함
- 이렇게 만든 약 1.5k 샘플만으로도 성능 향상이 크게 나타나서, 제안한 데이터 구성 방식과 GRPO 기반 학습 방법이 꽤 효율적임을 보여줌