深度解读:Tempo——6B 模型如何在超长视频理解上击败 GPT-4o 21.9 分
深度解读:Tempo——6B 模型如何在超长视频理解上击败 GPT-4o 21.9 分
4101 秒的视频,6B 的模型,8K 的 Token 预算——然后比 GPT-4o 高 21.9 分。Tempo 证明了视频理解的瓶颈不是参数量,而是 Token 分配策略。
1. 一句话定性
Tempo 是一个 6B 参数的视频理解模型,通过将紧凑视觉语言模型(SVLM)作为时序压缩器、并引入训练免费的自适应 Token 分配机制,在超长视频基准上实现了远超 GPT-4o 和 Gemini 1.5 Pro 的性能——以不到后者百分之一的参数量。
2. 核心问题
长视频理解的 Token 瓶颈
视频理解面临一个基本矛盾:
- 视频很长: 真实世界视频动辄几十分钟甚至数小时
- 上下文有限: 即使最先进的 LLM 也只有 128K-1M token 窗口
- 视觉 Token 昂贵: 一帧视频经过视觉编码器后通常产生数百个 token
以每秒 1 帧、每帧 256 token 计算,一个 60 分钟的视频需要 921,600 个视觉 token——远超绝大多数模型的上下文窗口。
现有方案要么暴力采样(丢掉大量帧),要么统一压缩(所有帧用相同的 token 数,无论重要与否)。Tempo 提出的问题是:能不能让模型自己决定每一帧该用多少 token?
3. 方法
3.1 双塔架构
Tempo 采用一个精巧的 6B 双塔设计:
| 组件 | 模型 | 参数量 | 功能 |
|---|---|---|---|
| SVLM 压缩器 | Qwen3-VL-2B | 2B | 将视频帧压缩为紧凑记忆 token |
| LLM 解码器 | Qwen3-LM-4B | 4B | 基于记忆 token 做推理和回答 |
SVLM 压缩器不是一个简单的特征提取器——它是一个完整的视觉语言模型,能够”理解”每一帧的语义内容,然后将其压缩为可变数量的记忆 token。
3.2 自适应 Token 分配(ATA)
ATA 是 Tempo 最核心的创新,分三个阶段执行,完全不需要额外训练:
阶段 1:对比式分配(Contrastive Allocation)
对视频的每个片段,用 zero-shot 方式向 SVLM 提问:“这个片段与问题相关吗?“然后基于 logit 分数分配初始 token 预算:相关性高的片段获得更多 token(最多 16 token/帧),低相关性片段获得更少(最低 0.5 token/帧)。
阶段 2:容量感知保护(Capacity-Aware Protection)
纯粹基于相关性分配可能导致某些片段被极度压缩,丢失结构性信息。阶段 2 设置了最低 token 保障——即使不相关的片段也保留足够的 token 来维持视频的时间连贯性。
阶段 3:Head 截断 O(1)
这是一个巧妙利用因果注意力(causal attention)特性的设计:在 SVLM 的因果注意力机制下,早期的记忆 token 自然地聚合了整个序列的全局信息(语义前装效应)。因此,要从 N 个 token 截断到 K 个,只需保留前 K 个 token——O(1) 操作,无需重新计算。
3.3 四阶段训练课程
| 阶段 | 目标 | 数据 |
|---|---|---|
| 1. 对齐(Alignment) | SVLM-LLM 特征对齐 | 图文对 |
| 2. 预训练(Pre-training) | 视频理解基础能力 | 大规模视频-文本数据 |
| 3. 广域 SFT | 多任务视频理解 | 多样化视频 QA |
| 4. 长上下文 SFT | 超长视频特化 | 长视频 + 扩展上下文 |
训练使用 64 台 H100 GPU。
4. 关键结果
4.1 超长视频基准:LVBench(平均时长 4101 秒 ≈ 68 分钟)
| 模型 | 参数量 | LVBench 分数 |
|---|---|---|
| Tempo | 6B | 52.7 |
| GPT-4o | ~1.8T(推测) | 30.8 |
| Gemini 1.5 Pro | ~MoE | 33.1 |
Tempo 6B 超越 GPT-4o 21.9 分,超越 Gemini 1.5 Pro 19.6 分。
在平均长达 68 分钟的视频上,一个 6B 模型以碾压性优势击败了参数量大两个数量级的闭源模型——这是视频理解领域近年来最戏剧性的结果之一。
4.2 综合视频基准:Video-MME
| 模型 | 参数量 | Video-MME 总分 |
|---|---|---|
| GPT-4o | ~1.8T | 71.9 |
| Tempo | 6B | 67.8 |
在包含短、中、长视频的综合基准上,Tempo 与 GPT-4o 差距仅 4.1 分——以 6B 参数实现了闭源旗舰模型 94% 的性能。
4.3 “Less is More” 现象
| Token 预算 | LVBench 分数 |
|---|---|
| 4K | 52.7 |
| 8K | 52.3 |
更少的 token 反而略好于更多的 token。 实际消耗量仅 2.9-3.5 token/帧,远低于 16 token/帧的理论上限——说明 ATA 在大多数情况下选择了极致压缩,且压缩是正确的。
这个反直觉的结果说明:冗余的视觉 token 不仅浪费计算,还会引入噪声,降低 LLM 解码器的推理质量。
5. 局限与开放问题
- 依赖 SVLM 的 zero-shot 判断能力: ATA 的质量取决于 2B SVLM 能否正确判断”哪个片段与问题相关”。对于需要细粒度视觉理解的问题(如”视频第 37 分钟背景中的标志牌写了什么”),SVLM 可能无法正确分配 token。
- 因果注意力的语义前装假设: Head 截断依赖”早期 token 包含全局信息”的假设——这在标准因果注意力下通常成立,但在旋转位置编码(RoPE)等方案下可能需要额外验证。
- 64 H100 训练成本: 虽然推理高效(6B),但训练成本不低。是否能用更少的资源复现,对学术社区的实用性有重要影响。
- 实时视频流处理: 当前方案假设视频已完整可用(需要先做整体分割和相关性判断),不直接支持流式视频处理。
6. 为什么重要
视频理解的 Scaling 新方向
Tempo 用 6B 参数击败 1.8T 参数的事实表明:在视频理解上,智能的 token 管理比暴力堆参数更有效。这可能预示着视频理解领域的 Scaling Law 与纯语言任务不同——“用什么数据”和”怎么用数据”比”用多少参数”更重要。
自适应 Token 分配的通用性
ATA 的设计思路(对比式分配 → 容量保护 → 高效截断)完全不依赖视频特定假设,可以推广到:长文档理解(哪些段落值得更多 token?)、多模态对话(图文交叉时如何分配注意力?)、实时监控(哪些时间窗口需要精细分析?)。
语义前装效应的理论意义
Head 截断之所以有效,根本原因是因果注意力的语义前装效应——早期 token 自然聚合后续信息。这个发现对 KV cache 优化、prompt 压缩、长上下文推理加速都有直接的工程启示。
7. 给动动的一句结论
Tempo 是一篇让人重新思考”大模型 vs 小模型”边界的论文——在视频理解这个被认为”非大模型不可”的领域,6B 模型通过聪明的 token 分配策略碾压了 GPT-4o。核心启示:不是所有帧都值得同等对待,不是所有 token 都应该被生成。Less is literally more。
信源: