News

重新审视 SFT 泛化：有监督微调在正确条件下确实能跨域泛化

论文链接：https://arxiv.org/abs/2604.06628 来源：arXiv preprint（CC BY 4.0）发布日期：2026-04-08 HuggingFace Papers：149 upvotes

速查卡

项目	内容
一句话总结	系统实验证明：SFT 在满足三个条件时确实能跨域泛化，“SFT 只记忆、RL 才泛化”是一个需要修正的过度简化
大白话版	行业普遍认为 SFT（有监督微调）只是记忆训练数据，无法泛化到新领域，只有 RL（强化学习）才能真正泛化。这篇论文通过严格实验证明这个观点是错的——只要数据质量高、基础模型够强、训练时间够长，SFT 一样可以实现跨域泛化。但有一个代价：推理能力提升的同时，安全对齐可能下降。
核心数字	149 upvotes；三个泛化条件；Dip-and-recovery 现象；推理↑ & 安全↓ 的非对称性
价值评级	B+ — 直接挑战行业训练方法论，对训练预算分配有实际影响
适用场景	ML 研究者、AI 训练工程师、模型后训练负责人、训练预算决策者

研究背景

被挑战的范式

过去两年，AI 训练领域有一个被广泛接受的”教条”：

“SFT 只是记忆（memorization），RL 才能泛化（generalization）”

这个观点的来源有几个：

RLVR 方法论的成功：DeepSeek-R1、GRPO 等强化学习方法在数学、代码推理上展示了惊人的跨域泛化能力，而 SFT 的同类尝试效果欠佳
直觉上的支持：SFT 直接优化模仿人类标注的输出，似乎天然地在”复制”而非”理解”
早期实验证据：多项研究发现 SFT 模型在域外任务（out-of-domain）上表现比训练域内差，强化了”过拟合”的印象

然而，这个范式引发了一个关键问题：如果”SFT 不泛化”只是在特定条件下成立，那么我们是否因为这个过度简化的信念，在 RL 训练上过度投入？

本文的研究团队——来自上海交大、香港大学等机构的 11 位研究者——决定系统性地回答这个问题。

为什么这个问题值得重新审视？

从工程角度，SFT 和 RL 的成本差异是巨大的：

SFT：有标注数据 + 梯度下降，工程成本相对可控，可以离线优化
GRPO/PPO：需要在线采样、奖励计算、策略更新，GPU 小时数是 SFT 的数倍甚至十倍以上

如果 SFT 在正确条件下也能泛化，那么大量放弃 SFT 转向 RL 的决策，以及相应的计算资源分配，都需要重新审视。

核心发现

发现一：Dip-and-Recovery 现象

这是本文最反直觉、也最有实践意义的发现：

SFT 跨域性能曲线呈”先下降后恢复”的 U 型模式，而非单调下降。

具体表现：

训练初期（步数较少）：域外任务（cross-domain）的表现明显下降，这正是”SFT 过拟合”直觉的来源
关键拐点：如果在这个低谷期停止训练，就会得出”SFT 无法泛化”的错误结论
训练后期（充分训练）：域外性能不仅恢复，还会超过训练起点

跨域性能曲线示意：

性能
↑
|                         ●●●●●
|                    ●●●●
|   ●●●              
|       ●●●●
|            ●●●●
|
+-----------------------------→ 训练步数
  起点  低谷   恢复  超越起点

这个模式的含义对工程实践至关重要：“过早停止”是导致”SFT 不泛化”错误结论的主要原因之一。 很多团队在看到域外性能下降时就停止了 SFT 实验，但实际上只需要继续训练就能突破这个”假过拟合”阶段。

发现二：三个关键条件

论文确定了 SFT 实现跨域泛化的三个充分条件，缺一不可：

条件 1：高质量有验证的解答数据

不是所有 SFT 数据都能带来泛化：

有效：经过验证的长链推理轨迹（verified long chain-of-thought traces），如数学题的完整求解步骤 + 答案验证
无效：低质量标注、未验证的”看起来合理”的解答、过短的推理链
工程含义：这解释了为什么很多团队的 SFT 实验失败——数据质量不够高，而非 SFT 本身无效

条件 2：更强的基础模型

基础模型能力决定了 SFT 能否激活可迁移的推理模式：

强基础模型 + SFT：模型能从训练数据中提取”可迁移的过程性模式”（transferable procedural patterns），如回溯（backtracking）、分步分析等元策略
弱基础模型 + SFT：模型只能模仿表面冗余（surface-level patterns），无法提取深层推理结构，因此不泛化
工程含义：SFT 不是”注入新能力”，而是”激活已有能力”——基础模型没有的能力，SFT 无法凭空创造

条件 3：足够长的训练时长

Dip-and-recovery 现象意味着训练时长是泛化的必要条件：

过早停止会停留在”低谷期”，误判为失败
充分训练才能看到域外性能的恢复和提升
这对训练预算规划有直接影响：SFT 实验需要预留足够长的训练时间，才能做出公平判断

发现三：推理提升，安全下降的非对称性

这是本文的一个警示性发现：

SFT 在提升推理泛化能力的同时，可能带来安全对齐的退化（safety degradation）。

这种非对称性的具体表现：

推理域（数学、代码、逻辑推理）的跨域性能：随训练提升
安全对齐（拒绝有害请求、保持价值观一致性）：随训练可能退化

这个发现有深刻的实践含义：在评估 SFT 效果时，不能只看推理指标，必须同时监控安全指标。对于面向用户的生产模型，这种非对称性是一个不可忽视的工程风险。

方法论

实验设计思路

论文的实验设计围绕”条件控制”展开：通过系统地改变数据质量、模型规模和训练步数，观察跨域泛化性能的变化，从而确定哪些因素是泛化的必要条件。

域设置

论文采用”域内训练 → 域外测试”的标准跨域评估框架：

在某一推理域（如数学）上进行 SFT 训练
在其他推理域（如代码、逻辑）上测试，观察是否有正向迁移

与 RL 的关系

论文明确指出：这不是”SFT 还是 RL”的非此即彼之争，而是对 SFT 被低估的纠正。两者的关系更可能是互补的：

SFT（高质量数据）：建立基础推理过程的迁移
RL（在线反馈）：进一步强化和探索更难的推理路径

与现有工作的对比

观点	来源	本文的修正
”SFT 不泛化”	DeepSeek-R1 等 RLVR 工作	在正确条件下（高质量数据 + 强模型 + 充分训练）SFT 确实泛化
”过早停止是失败”	常见实验实践	Dip-and-recovery 揭示过早停止会误判为失败
”SFT = 记忆”	直觉性观点	强模型的 SFT 提取的是过程性模式，不是表面记忆
”RL > SFT（泛化）“	领域共识	两者在正确条件下的差异比普遍认为的小得多，且互补

工程影响评估

对训练预算决策的影响

如果本文的结论被进一步验证，训练预算分配逻辑需要更新：

不要过早放弃 SFT：在看到域外性能下降时，先检查是否处于 dip 阶段，而非立即切换到 RL
数据质量 > 数据量：SFT 的效果高度依赖数据质量，在高质量验证数据上的 SFT 可能比在大量低质量数据上的 RL 效果更好
基础模型选择很关键：弱基础模型的 SFT 不泛化，强基础模型的 SFT 可以；这意味着”选好基础模型 + 高质量 SFT”可能是性价比更高的路线

对安全-性能权衡的影响

推理↑ + 安全↓ 的非对称性意味着：

生产模型的 SFT 后需要额外的安全评估步骤
推理强化 SFT 之后，可能需要额外的安全对齐微调（RLHF、Constitutional AI 等）
这是一个工程成本，但不是 SFT 本身的”错”，而是需要明确包含在训练流程中的步骤

批判性评估

研究的价值

范式挑战：系统性地用实验挑战既有共识，是推动领域进步最有价值的研究类型
工程可操作性：三个条件不是抽象的理论，每一个都对应具体的工程决策
Dip-and-recovery 的发现：揭示了一个可能导致大量错误实验结论的方法论缺陷

需要进一步验证的问题

数据质量的定义：“高质量有验证的解答”在实践中如何操作化？验证成本极高（需要外部 oracle），是否有替代方案？
“足够强”的基础模型：具体是什么规模/能力水平的基础模型才能实现泛化？需要参数规模门槛数据
安全退化的程度：安全下降有多严重？是否可以通过并行安全评估 + 重新安全对齐来有效弥补？
基准覆盖度：实验覆盖的推理域是否足够多样？数学→代码的迁移与数学→医疗推理的迁移难度差异巨大
同行评审状态：目前仍是预印本，方法论细节需经过同行评审核实

与现实的距离

论文的核心条件”高质量有验证的解答”在实践中有一个根本性的门槛：如何大规模获取？

数学有符号求解器可以验证（Lean、Mathematica）
代码有单元测试可以验证
但通用推理领域（医疗、法律、科学）的验证成本极高，几乎没有自动化手段

这意味着本文的结论主要适用于有明确验证手段的推理领域，对”验证困难”的任务域的适用性有限。

核心洞见

★ Insight ─────────────────────────────────────

“SFT 不泛化”是一个自我实现的预言：很多研究者在看到 dip 阶段就停止实验，因此永远看不到 recovery，自然得出”SFT 不泛化”的结论。改变实验协议（坚持训练到收敛），结论可能完全相反。
SFT 激活能力而非注入能力：条件 2（更强基础模型）揭示了 SFT 的本质——它只能激活基础模型中已经隐含的推理能力，而无法凭空创造新能力。这对”用 SFT 教会模型全新技能”的期望是明确的边界。
安全-推理的非对称退化是一个被低估的工程风险：大多数推理优化实验只看性能指标，本文提醒安全退化是 SFT 的系统性副作用，任何生产部署前的 SFT 实验都应包含安全评估环节。

─────────────────────────────────────────────────

重新审视 SFT 泛化：有监督微调在正确条件下确实能跨域泛化

重新审视 SFT 泛化：有监督微调在正确条件下确实能跨域泛化

速查卡

研究背景

被挑战的范式

为什么这个问题值得重新审视？

核心发现

发现一：Dip-and-Recovery 现象

发现二：三个关键条件

条件 1：高质量有验证的解答数据

条件 2：更强的基础模型

条件 3：足够长的训练时长

发现三：推理提升，安全下降的非对称性

方法论

实验设计思路

域设置

与 RL 的关系

与现有工作的对比

工程影响评估

对训练预算决策的影响

对安全-性能权衡的影响

批判性评估

研究的价值

需要进一步验证的问题

与现实的距离

核心洞见

延伸阅读