News

深度解读：Tempo——6B 模型如何在超长视频理解上击败 GPT-4o 21.9 分

4101 秒的视频，6B 的模型，8K 的 Token 预算——然后比 GPT-4o 高 21.9 分。Tempo 证明了视频理解的瓶颈不是参数量，而是 Token 分配策略。

1. 一句话定性

Tempo 是一个 6B 参数的视频理解模型，通过将紧凑视觉语言模型（SVLM）作为时序压缩器、并引入训练免费的自适应 Token 分配机制，在超长视频基准上实现了远超 GPT-4o 和 Gemini 1.5 Pro 的性能——以不到后者百分之一的参数量。

2. 核心问题

长视频理解的 Token 瓶颈

视频理解面临一个基本矛盾：

视频很长： 真实世界视频动辄几十分钟甚至数小时
上下文有限： 即使最先进的 LLM 也只有 128K-1M token 窗口
视觉 Token 昂贵： 一帧视频经过视觉编码器后通常产生数百个 token

以每秒 1 帧、每帧 256 token 计算，一个 60 分钟的视频需要 921,600 个视觉 token——远超绝大多数模型的上下文窗口。

现有方案要么暴力采样（丢掉大量帧），要么统一压缩（所有帧用相同的 token 数，无论重要与否）。Tempo 提出的问题是：能不能让模型自己决定每一帧该用多少 token？

3. 方法

3.1 双塔架构

Tempo 采用一个精巧的 6B 双塔设计：

组件	模型	参数量	功能
SVLM 压缩器	Qwen3-VL-2B	2B	将视频帧压缩为紧凑记忆 token
LLM 解码器	Qwen3-LM-4B	4B	基于记忆 token 做推理和回答

SVLM 压缩器不是一个简单的特征提取器——它是一个完整的视觉语言模型，能够”理解”每一帧的语义内容，然后将其压缩为可变数量的记忆 token。

3.2 自适应 Token 分配（ATA）

ATA 是 Tempo 最核心的创新，分三个阶段执行，完全不需要额外训练：

阶段 1：对比式分配（Contrastive Allocation）

对视频的每个片段，用 zero-shot 方式向 SVLM 提问：“这个片段与问题相关吗？“然后基于 logit 分数分配初始 token 预算：相关性高的片段获得更多 token（最多 16 token/帧），低相关性片段获得更少（最低 0.5 token/帧）。

阶段 2：容量感知保护（Capacity-Aware Protection）

纯粹基于相关性分配可能导致某些片段被极度压缩，丢失结构性信息。阶段 2 设置了最低 token 保障——即使不相关的片段也保留足够的 token 来维持视频的时间连贯性。

阶段 3：Head 截断 O(1)

这是一个巧妙利用因果注意力（causal attention）特性的设计：在 SVLM 的因果注意力机制下，早期的记忆 token 自然地聚合了整个序列的全局信息（语义前装效应）。因此，要从 N 个 token 截断到 K 个，只需保留前 K 个 token——O(1) 操作，无需重新计算。

3.3 四阶段训练课程

阶段	目标	数据
1. 对齐（Alignment）	SVLM-LLM 特征对齐	图文对
2. 预训练（Pre-training）	视频理解基础能力	大规模视频-文本数据
3. 广域 SFT	多任务视频理解	多样化视频 QA
4. 长上下文 SFT	超长视频特化	长视频 + 扩展上下文

训练使用 64 台 H100 GPU。

4. 关键结果

4.1 超长视频基准：LVBench（平均时长 4101 秒 ≈ 68 分钟）

模型	参数量	LVBench 分数
Tempo	6B	52.7
GPT-4o	~1.8T（推测）	30.8
Gemini 1.5 Pro	~MoE	33.1

Tempo 6B 超越 GPT-4o 21.9 分，超越 Gemini 1.5 Pro 19.6 分。

在平均长达 68 分钟的视频上，一个 6B 模型以碾压性优势击败了参数量大两个数量级的闭源模型——这是视频理解领域近年来最戏剧性的结果之一。

4.2 综合视频基准：Video-MME

模型	参数量	Video-MME 总分
GPT-4o	~1.8T	71.9
Tempo	6B	67.8

在包含短、中、长视频的综合基准上，Tempo 与 GPT-4o 差距仅 4.1 分——以 6B 参数实现了闭源旗舰模型 94% 的性能。

4.3 “Less is More” 现象

Token 预算	LVBench 分数
4K	52.7
8K	52.3

更少的 token 反而略好于更多的 token。 实际消耗量仅 2.9-3.5 token/帧，远低于 16 token/帧的理论上限——说明 ATA 在大多数情况下选择了极致压缩，且压缩是正确的。

这个反直觉的结果说明：冗余的视觉 token 不仅浪费计算，还会引入噪声，降低 LLM 解码器的推理质量。

5. 局限与开放问题

依赖 SVLM 的 zero-shot 判断能力： ATA 的质量取决于 2B SVLM 能否正确判断”哪个片段与问题相关”。对于需要细粒度视觉理解的问题（如”视频第 37 分钟背景中的标志牌写了什么”），SVLM 可能无法正确分配 token。
因果注意力的语义前装假设： Head 截断依赖”早期 token 包含全局信息”的假设——这在标准因果注意力下通常成立，但在旋转位置编码（RoPE）等方案下可能需要额外验证。
64 H100 训练成本： 虽然推理高效（6B），但训练成本不低。是否能用更少的资源复现，对学术社区的实用性有重要影响。
实时视频流处理： 当前方案假设视频已完整可用（需要先做整体分割和相关性判断），不直接支持流式视频处理。

6. 为什么重要

视频理解的 Scaling 新方向

Tempo 用 6B 参数击败 1.8T 参数的事实表明：在视频理解上，智能的 token 管理比暴力堆参数更有效。这可能预示着视频理解领域的 Scaling Law 与纯语言任务不同——“用什么数据”和”怎么用数据”比”用多少参数”更重要。

自适应 Token 分配的通用性

ATA 的设计思路（对比式分配 → 容量保护 → 高效截断）完全不依赖视频特定假设，可以推广到：长文档理解（哪些段落值得更多 token？）、多模态对话（图文交叉时如何分配注意力？）、实时监控（哪些时间窗口需要精细分析？）。

语义前装效应的理论意义

Head 截断之所以有效，根本原因是因果注意力的语义前装效应——早期 token 自然聚合后续信息。这个发现对 KV cache 优化、prompt 压缩、长上下文推理加速都有直接的工程启示。

7. 给动动的一句结论

Tempo 是一篇让人重新思考”大模型 vs 小模型”边界的论文——在视频理解这个被认为”非大模型不可”的领域，6B 模型通过聪明的 token 分配策略碾压了 GPT-4o。核心启示：不是所有帧都值得同等对待，不是所有 token 都应该被生成。Less is literally more。

信源：

1. 一句话定性
2. 核心问题
长视频理解的 Token 瓶颈
3. 方法
3.1 双塔架构
3.2 自适应 Token 分配（ATA）
3.3 四阶段训练课程
4. 关键结果
4.1 超长视频基准：LVBench（平均时长 4101 秒 ≈ 68 分钟）
4.2 综合视频基准：Video-MME
4.3 “Less is More” 现象
5. 局限与开放问题
6. 为什么重要
视频理解的 Scaling 新方向
自适应 Token 分配的通用性
语义前装效应的理论意义
7. 给动动的一句结论