-
Preliminary
-
Caption Reward Modeling
- 기존 DeepSeek-R1의 format reward + accuracy reward 체계를 확장하여, 캡셔닝 특화 reward 구조를 새로 도입
- Think Score: 모델이 생각(thinking) 단계에서 올바르게 주체·속성·행동을 추출했는지 평가
- Caption Score: 최종 캡션이 실제 영상과 얼마나 일치하고 자연스러운지 평가
-
Two-step Caption Generation Strategy
- 캡션 생성을 생각(thinking) → 답변(answer)의 두 단계로 분리함
- 1단계에서는 영상의 주체·속성·행동을 구조적으로 분석하고,
- 2단계에서는 이를 바탕으로 완전한 문장으로 종합된 캡션을 생성함.
- 먼저 핵심 포인트를 메모하고 → 완성 문장을 쓰는 글쓰기 방식으로, 행동·이벤트 기술 능력을 크게 향상시킴
-
LLM-Free Think Scorer (reasoning의 사실성 강화)
-
LLM-Assistant Caption Scorer (caption의 품질 강화)
-
Enhancing Video Description Capabilities of Video MLLMs via GRPO
- 최종 Reward는 형식 점수(Format_score), 생각 점수(Tscore), 사건 점수(Escore) 세 부분을 더해 계산함
- CNscore는 reward hacking이 발생하므로 제외함, 심리적으로 그럴듯하지만, 객관적인 영상 내용과는 안 맞는 문장 생성함
- 모델의 reasoning을 잘 보상하기 위해, 일반 캡션이 아니라 구조화된 사고 과정이 함께 들어 있는 학습 데이터를 따로 만들었음
- 각 샘플에는 최종 caption뿐 아니라 그 캡션에 이르는 생각 과정까지 모두 적어 놓은 포괄적인 주석을 포함함
- 이렇게 만든 약 1.5k 샘플만으로도 성능 향상이 크게 나타나서, 제안한 데이터 구성 방식과 GRPO 기반 학습 방법이 꽤 효율적임을 보여줌