Esc
输入关键词开始搜索
News

深度解读:Tempo——6B 模型如何在超长视频理解上击败 GPT-4o 21.9 分

深度解读:Tempo——6B 模型如何在超长视频理解上击败 GPT-4o 21.9 分

4101 秒的视频,6B 的模型,8K 的 Token 预算——然后比 GPT-4o 高 21.9 分。Tempo 证明了视频理解的瓶颈不是参数量,而是 Token 分配策略。

1. 一句话定性

Tempo 是一个 6B 参数的视频理解模型,通过将紧凑视觉语言模型(SVLM)作为时序压缩器、并引入训练免费的自适应 Token 分配机制,在超长视频基准上实现了远超 GPT-4o 和 Gemini 1.5 Pro 的性能——以不到后者百分之一的参数量。

2. 核心问题

长视频理解的 Token 瓶颈

视频理解面临一个基本矛盾:

  • 视频很长: 真实世界视频动辄几十分钟甚至数小时
  • 上下文有限: 即使最先进的 LLM 也只有 128K-1M token 窗口
  • 视觉 Token 昂贵: 一帧视频经过视觉编码器后通常产生数百个 token

以每秒 1 帧、每帧 256 token 计算,一个 60 分钟的视频需要 921,600 个视觉 token——远超绝大多数模型的上下文窗口。

现有方案要么暴力采样(丢掉大量帧),要么统一压缩(所有帧用相同的 token 数,无论重要与否)。Tempo 提出的问题是:能不能让模型自己决定每一帧该用多少 token?

3. 方法

3.1 双塔架构

Tempo 采用一个精巧的 6B 双塔设计

组件模型参数量功能
SVLM 压缩器Qwen3-VL-2B2B将视频帧压缩为紧凑记忆 token
LLM 解码器Qwen3-LM-4B4B基于记忆 token 做推理和回答

SVLM 压缩器不是一个简单的特征提取器——它是一个完整的视觉语言模型,能够”理解”每一帧的语义内容,然后将其压缩为可变数量的记忆 token。

3.2 自适应 Token 分配(ATA)

ATA 是 Tempo 最核心的创新,分三个阶段执行,完全不需要额外训练

阶段 1:对比式分配(Contrastive Allocation)

对视频的每个片段,用 zero-shot 方式向 SVLM 提问:“这个片段与问题相关吗?“然后基于 logit 分数分配初始 token 预算:相关性高的片段获得更多 token(最多 16 token/帧),低相关性片段获得更少(最低 0.5 token/帧)。

阶段 2:容量感知保护(Capacity-Aware Protection)

纯粹基于相关性分配可能导致某些片段被极度压缩,丢失结构性信息。阶段 2 设置了最低 token 保障——即使不相关的片段也保留足够的 token 来维持视频的时间连贯性。

阶段 3:Head 截断 O(1)

这是一个巧妙利用因果注意力(causal attention)特性的设计:在 SVLM 的因果注意力机制下,早期的记忆 token 自然地聚合了整个序列的全局信息(语义前装效应)。因此,要从 N 个 token 截断到 K 个,只需保留前 K 个 token——O(1) 操作,无需重新计算。

3.3 四阶段训练课程

阶段目标数据
1. 对齐(Alignment)SVLM-LLM 特征对齐图文对
2. 预训练(Pre-training)视频理解基础能力大规模视频-文本数据
3. 广域 SFT多任务视频理解多样化视频 QA
4. 长上下文 SFT超长视频特化长视频 + 扩展上下文

训练使用 64 台 H100 GPU

4. 关键结果

4.1 超长视频基准:LVBench(平均时长 4101 秒 ≈ 68 分钟)

模型参数量LVBench 分数
Tempo6B52.7
GPT-4o~1.8T(推测)30.8
Gemini 1.5 Pro~MoE33.1

Tempo 6B 超越 GPT-4o 21.9 分,超越 Gemini 1.5 Pro 19.6 分。

在平均长达 68 分钟的视频上,一个 6B 模型以碾压性优势击败了参数量大两个数量级的闭源模型——这是视频理解领域近年来最戏剧性的结果之一。

4.2 综合视频基准:Video-MME

模型参数量Video-MME 总分
GPT-4o~1.8T71.9
Tempo6B67.8

在包含短、中、长视频的综合基准上,Tempo 与 GPT-4o 差距仅 4.1 分——以 6B 参数实现了闭源旗舰模型 94% 的性能。

4.3 “Less is More” 现象

Token 预算LVBench 分数
4K52.7
8K52.3

更少的 token 反而略好于更多的 token。 实际消耗量仅 2.9-3.5 token/帧,远低于 16 token/帧的理论上限——说明 ATA 在大多数情况下选择了极致压缩,且压缩是正确的。

这个反直觉的结果说明:冗余的视觉 token 不仅浪费计算,还会引入噪声,降低 LLM 解码器的推理质量。

5. 局限与开放问题

  1. 依赖 SVLM 的 zero-shot 判断能力: ATA 的质量取决于 2B SVLM 能否正确判断”哪个片段与问题相关”。对于需要细粒度视觉理解的问题(如”视频第 37 分钟背景中的标志牌写了什么”),SVLM 可能无法正确分配 token。
  2. 因果注意力的语义前装假设: Head 截断依赖”早期 token 包含全局信息”的假设——这在标准因果注意力下通常成立,但在旋转位置编码(RoPE)等方案下可能需要额外验证。
  3. 64 H100 训练成本: 虽然推理高效(6B),但训练成本不低。是否能用更少的资源复现,对学术社区的实用性有重要影响。
  4. 实时视频流处理: 当前方案假设视频已完整可用(需要先做整体分割和相关性判断),不直接支持流式视频处理。

6. 为什么重要

视频理解的 Scaling 新方向

Tempo 用 6B 参数击败 1.8T 参数的事实表明:在视频理解上,智能的 token 管理比暴力堆参数更有效。这可能预示着视频理解领域的 Scaling Law 与纯语言任务不同——“用什么数据”和”怎么用数据”比”用多少参数”更重要。

自适应 Token 分配的通用性

ATA 的设计思路(对比式分配 → 容量保护 → 高效截断)完全不依赖视频特定假设,可以推广到:长文档理解(哪些段落值得更多 token?)、多模态对话(图文交叉时如何分配注意力?)、实时监控(哪些时间窗口需要精细分析?)。

语义前装效应的理论意义

Head 截断之所以有效,根本原因是因果注意力的语义前装效应——早期 token 自然聚合后续信息。这个发现对 KV cache 优化、prompt 压缩、长上下文推理加速都有直接的工程启示。

7. 给动动的一句结论

Tempo 是一篇让人重新思考”大模型 vs 小模型”边界的论文——在视频理解这个被认为”非大模型不可”的领域,6B 模型通过聪明的 token 分配策略碾压了 GPT-4o。核心启示:不是所有帧都值得同等对待,不是所有 token 都应该被生成。Less is literally more。


信源: