
万帧视频单卡跑通! Video-XL-2碾压级效率定义长视频新标准
应用介绍
关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
智源研究院联合上海交通大学等机构发布开源模型Video-XL-2,显著提升长视频理解能力,其核心亮点在于三个维度全面优化了开源多模态大模型对长视频内容的理解能力:
效果更佳:Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。
速度更快:Video-XL-2大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速长视频理解流程。
未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。目前,Video-XL-2的模型权重已上线始智AI-wisemodel开源社区,欢迎体验。
具体而言,Video-XL-2采用SigLIP-SO400M作为视觉编码器,对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。
处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。
在训练策略上,Video-XL-2采用了四阶段渐进式训练的设计,逐步构建其强大的长视频理解能力。
第四阶段,在大规模、高质量且多样化的图像与视频指令数据上进行微调,使Video-XL-2的视觉理解能力得到进一步提升与强化,从而能够更准确地理解和响应复杂的视觉指令。
首先,Video-XL-2引入了分段式的预装填策略(Chunk-based Prefilling,如图3所示):将超长视频划分为若干连续的片段(chunk),在每个chunk内部使用稠密注意力机制进行编码,而不同chunk之间则通过时间戳传递上下文信息。
该设计显著降低了预装填阶段的计算成本与显存开销。其次,Video-XL-2还设计了基于双粒度KV的解码机制(Bi-granularity KV Decoding,如图4所示):在推理过程中,模型会根据任务需求,选择性地对关键片段加载完整的KVs(dense KVs),而对其他次要片段仅加载降采样后的稀疏的KVs(sparse KVs)。
这一机制有效缩短了推理窗口长度,从而大幅提升解码效率。得益于上述策略的协同优化,Video-XL-2实现了在单张显卡上对万帧级视频的高效推理,显著增强了其在实际应用场景中的实用性。
在模型具体表现方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代 Video-XL 实现了显著提升。
此外,在时序定位(Temporal Grounding)任务中,Video-XL-2也表现出色,在Charades-STA数据集上取得了领先的结果,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。
除了效果上的提升,Video-XL-2在视频长度方面也展现出显著优势。如下图所示,在单张24GB消费级显卡(如 RTX 3090 / 4090)上,Video-XL-2可处理长达千帧的视频;而在单张 80GB 高性能显卡(如 A100 / H100)上,模型更支持万帧级视频输入,远超现有主流开源模型。
相较于VideoChat-Flash 和初代 Video-XL,Video-XL-2显著拓展了视频理解的长度并有效降低了资源需求,为处理复杂的视频任务提供了有力的支撑。
Video-XL-2仅需12秒即可完成2048帧视频的预填充。更重要的是,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。
得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。