AI Research

09. 生成策略与推理优化：温度、Top-p、KV Cache

同一个模型，用不同生成策略，输出质量和风格会差很多。本章讲最常用的推理参数和性能优化。

一、从 logits 到采样

模型输出的是 logits（词汇表分数），先做 softmax 变概率。

probs = softmax(logits / T)

数值例子：

logits = [2.0, 1.5, 0.5]

T=0.2 → logits/T=[10, 7.5, 2.5] → 几乎总选第一个
T=1.0 → 原始分布
T=2.0 → 分布更平，随机性更强

只保留概率最高的 k 个 token，再归一化采样。

原始: A(0.3), B(0.25), C(0.15), D(0.1), ...
Top-k=3 → 只在 A/B/C 中采样

选最小集合，使累计概率 ≥ p。

排序后累计:
A 0.30
A+B 0.55
A+B+C 0.70  ← p=0.7 时停

Top-p 比 Top-k 更自适应，是目前更常用的方案。

不使用 KV Cache：每生成一个 token，都要重算之前所有 token 的 K/V。

使用 KV Cache：历史 token 的 K/V 存起来，只算新 token。

无缓存: 总体 O(n²)
有缓存: 总体接近 O(n)

这就是长对话能跑得动的关键。

代价：显存占用大。上下文越长，KV Cache 越大。

常见参数：

作用是减少”车轱辘话”和循环输出。