
Qwen3-VL은 구조적 설계 측면에서 세 가지 중대한 개선을 이루었음
Long-range Video Understanding
Fine-grained Visual Understanding
Precise Temporal Reasoning
Long-range Video Understanding
Preliminary
Interleaved-MRoPE
기존의 MRoPE(Multi-dimensional Rotary Position Embedding)는 시간(t), 높이(h), 너비(w)의 축을 블록 단위로 나누어 차원에 할당
Interleaved-MRoPE를 도입하여 균형잡힌 위치 임베딩을 수행함
이미지 인식 능력을 유지하면서도, 장시간 비디오 분석과 같은 과제에서 현저히 강화된 성능을 발휘함

long-form video modeling
논문은 비디오·이미지·텍스트가 섞여 있는 초장문 입력을 그대로 처리할 수 있는 모델을 만들고자 함
기본 context window(훈련 시 실제 사용 길이) 자체를 256K로 확장했고, 그 위로 RoPE extrapolation(YaRN)을 써서 훈련되지 않은 초장문인 1M 토큰까지도 안정적으로 처리하도록 설계
4단계 pre-training

256K 안에 비디오 하나를 넣으려면 프레임 수 × 프레임당 visual token 수가 너무 커질 수 있음
Fine-grained Visual Understanding
Multi-Level DeepStack

Text-Timestamp Alignment
<3.0 seconds> 또는 <HH:MM:SS> 같은 문자열을 prefix로 붙이고, 모델은 이를 일반 텍스트 토큰처럼 인코딩하여 해석하며, RoPE는 단지 프레임 순서 등의 위치 정보만 담당하도록 설계Massive multimodal temporal data
Performance of Qwen3-VL-235B-A22B and top-tier models on visual benchmarks
