[Paper Review] Qwen3-VL Technical Report (Video Understanding)

arxiv.org

Qwen3-VL은 구조적 설계 측면에서 세 가지 중대한 개선을 이루었음

Long-range Video Understanding
Fine-grained Visual Understanding
Precise Temporal Reasoning
Long-range Video Understanding
- Preliminary
- Interleaved-MRoPE
  - 기존의 MRoPE(Multi-dimensional Rotary Position Embedding)는 시간(t), 높이(h), 너비(w)의 축을 블록 단위로 나누어 차원에 할당
    - 모든 시간 정보가 고주파 차원(high-frequency dimensions)에 집중되는 한계를 가지고 있었으며, 특히 긴 비디오 데이터의 시간적 맥락 이해에서 성능 저하가 발생함
  - Interleaved-MRoPE를 도입하여 균형잡힌 위치 임베딩을 수행함
    - t, h, w를 교차적으로 배치하여 주파수 대역 전반에 고르게 분산시킴으로써, 시간·공간 축 전체에서 균형 잡힌 위치 인코딩을 제공
  - 이미지 인식 능력을 유지하면서도, 장시간 비디오 분석과 같은 과제에서 현저히 강화된 성능을 발휘함
- long-form video modeling
  - 논문은 비디오·이미지·텍스트가 섞여 있는 초장문 입력을 그대로 처리할 수 있는 모델을 만들고자 함
  - 기본 context window(훈련 시 실제 사용 길이) 자체를 256K로 확장했고, 그 위로 RoPE extrapolation(YaRN)을 써서 훈련되지 않은 초장문인 1M 토큰까지도 안정적으로 처리하도록 설계
    - YaRN: RoPE를 더 길고 자연스럽게 사용할 수 있게 만드는 기술로, 긴 문서를 읽고도 앞·뒷부분 관계를 잘 이해하게 함
  - 4단계 pre-training
    - S0: 8K, 모달리티 align (vision–language 정렬만 업데이트, vision encoder-LLM freeze)
    - S1: 8K, full multimodal pretraining
    - S2: 32K, long-context 비중 확대 (long docs + long videos)
    - S3: 262K, ultra-long context 적응
    - captioning/OCR(저수준 인식 정렬) → VQA·visual grounding(고수준 reasoning)
  - 256K 안에 비디오 하나를 넣으려면 프레임 수 × 프레임당 visual token 수가 너무 커질 수 있음
    - 최대 프레임 2,048장, 프레임당 visual token을 약 640~768 개로 제한
    - MLP Merger가 2×2 패치 그룹을 하나의 visual token으로 압축
    - 훈련에서는 256K까지만 실제로 보고,그 이후의 길이—40~120분(≈1M tokens)—은 YaRN을 적용해 확장함
Fine-grained Visual Understanding

Multi-Level DeepStack
- ViT 여러 레이어의 feature를 LLM 레이어로 직접 주입
- 저수준(fine-grained) + 중간 수준(지역적 구조) + 고수준(semantic) 시각정보 모두 reasoning에 전달
- 결과적으로 InfoVQA, DocVQA 등 문서·차트·세밀 인식 벤치에서 일관된 성능 향상을 보임

Precise Temporal Reasoning

Text-Timestamp Alignment
- 기존에는 비디오 프레임의 temporal position ID를 초 단위 절대 시간에 직접 매핑한 뒤, 이를 MRoPE의 시간 축 pos로 사용하는 방식을 썼음
  - 긴 비디오에서는 pos ID가 너무 크고 희소해져서 long-range temporal context 이해가 부족
  - 다양한 fps에 대해 학습하려면 프레임 레이트별로 균형 잡힌 대규모 데이터가 필요
- Qwen3-VL은 절대 시간을 RoPE에 넣지 않고, 각 비디오 temporal patch 앞에 “텍스트 형태의 타임스탬프 토큰”을 붙여서 시간 정보를 언어로 표현하는 전략을 채택
  - 각 프레임 앞에 <3.0 seconds> 또는 <HH:MM:SS> 같은 문자열을 prefix로 붙이고, 모델은 이를 일반 텍스트 토큰처럼 인코딩하여 해석하며, RoPE는 단지 프레임 순서 등의 위치 정보만 담당하도록 설계
- pos ID 폭주와 fps 의존성을 줄여 long-video에서도 안정적인 temporal reasoning을 가능하게 함
  - fps가 바뀌어도 ‘언어적 시간 표현’만 바뀌고 RoPE pos는 안정적으로 유지되기 때문
Massive multimodal temporal data
- Dense Caption
  - 긴 영상을 짧은 구간들 분할→ 구간별 캡션 생성 → 다시 이어붙여 타임스탬프 달린 긴 스토리 캡션으로 제작
  - 일어난 사건을 한 줄로 요약하는 문장(이벤트 레벨 요약) + 화면에 보이는 구체적 요소(사람, 물체, 배경, 행동 등)를 같아 쓰도록 함
  - “시간 흐름을 따라가는 사건 요약” + “각 구간의 시각적 디테일”을 동시에 담은 데이터
- 시공간(spatio-temporal) video grounding
  - 어느 프레임 구간에서 어떤 객체/행동이 발생하는지를 모델이 추적할 수 있게 하는 데이터임
  - “파란 셔츠를 입은 사람이 5~8초 구간에서 컵을 집어 들고, 8~10초에 마신다”
- 다양한 long video corpus
  - 튜토리얼·강의형 instructional 영상, 영화/드라마 같은 cinematic films, 1인칭 egocentric 영상 등 여러 도메인에서 데이터를 수집
  - 데이터 비율을 조정해 균형 잡힌 데이터 분포를 맞춤
Performance of Qwen3-VL-235B-A22B and top-tier models on visual benchmarks
- 데이터셋
  - MVBENCH, Video-MME: 다양한 비디오 분석 능력을 종합적으로 평가
  - MVLU: 영화/드라마 영상의 스토리 이해 능력 평가
  - LVBench: 긴 비디오 이해, Charades: 특정 행동이 일어나는 시점 파악
  - MMMU: 다양한 학술 문제 기반 비디오 이해, VMVU: 멀티뷰 비디오 이해
- 실험 결과
  - Charades, MMMU, VMVU와 같이 난이도가 높은 데이터셋은 thinking 모드가 유리
  - thinking: opus 4.1 이상의 성능, instruct: GPT-5 수준의 성능