Esc
输入关键词开始搜索
News

重新审视 SFT 泛化:有监督微调在正确条件下确实能跨域泛化

重新审视 SFT 泛化:有监督微调在正确条件下确实能跨域泛化

论文链接:https://arxiv.org/abs/2604.06628 来源:arXiv preprint(CC BY 4.0) 发布日期:2026-04-08 HuggingFace Papers:149 upvotes

速查卡

项目内容
一句话总结系统实验证明:SFT 在满足三个条件时确实能跨域泛化,“SFT 只记忆、RL 才泛化”是一个需要修正的过度简化
大白话版行业普遍认为 SFT(有监督微调)只是记忆训练数据,无法泛化到新领域,只有 RL(强化学习)才能真正泛化。这篇论文通过严格实验证明这个观点是错的——只要数据质量高、基础模型够强、训练时间够长,SFT 一样可以实现跨域泛化。但有一个代价:推理能力提升的同时,安全对齐可能下降。
核心数字149 upvotes;三个泛化条件;Dip-and-recovery 现象;推理↑ & 安全↓ 的非对称性
价值评级B+ — 直接挑战行业训练方法论,对训练预算分配有实际影响
适用场景ML 研究者、AI 训练工程师、模型后训练负责人、训练预算决策者

研究背景

被挑战的范式

过去两年,AI 训练领域有一个被广泛接受的”教条”:

“SFT 只是记忆(memorization),RL 才能泛化(generalization)”

这个观点的来源有几个:

  1. RLVR 方法论的成功:DeepSeek-R1、GRPO 等强化学习方法在数学、代码推理上展示了惊人的跨域泛化能力,而 SFT 的同类尝试效果欠佳
  2. 直觉上的支持:SFT 直接优化模仿人类标注的输出,似乎天然地在”复制”而非”理解”
  3. 早期实验证据:多项研究发现 SFT 模型在域外任务(out-of-domain)上表现比训练域内差,强化了”过拟合”的印象

然而,这个范式引发了一个关键问题:如果”SFT 不泛化”只是在特定条件下成立,那么我们是否因为这个过度简化的信念,在 RL 训练上过度投入?

本文的研究团队——来自上海交大、香港大学等机构的 11 位研究者——决定系统性地回答这个问题。

为什么这个问题值得重新审视?

从工程角度,SFT 和 RL 的成本差异是巨大的:

  • SFT:有标注数据 + 梯度下降,工程成本相对可控,可以离线优化
  • GRPO/PPO:需要在线采样、奖励计算、策略更新,GPU 小时数是 SFT 的数倍甚至十倍以上

如果 SFT 在正确条件下也能泛化,那么大量放弃 SFT 转向 RL 的决策,以及相应的计算资源分配,都需要重新审视。

核心发现

发现一:Dip-and-Recovery 现象

这是本文最反直觉、也最有实践意义的发现:

SFT 跨域性能曲线呈”先下降后恢复”的 U 型模式,而非单调下降。

具体表现:

  • 训练初期(步数较少):域外任务(cross-domain)的表现明显下降,这正是”SFT 过拟合”直觉的来源
  • 关键拐点:如果在这个低谷期停止训练,就会得出”SFT 无法泛化”的错误结论
  • 训练后期(充分训练):域外性能不仅恢复,还会超过训练起点
跨域性能曲线示意:

性能

|                         ●●●●●
|                    ●●●●
|   ●●●              
|       ●●●●
|            ●●●●
|
+-----------------------------→ 训练步数
  起点  低谷   恢复  超越起点

这个模式的含义对工程实践至关重要:“过早停止”是导致”SFT 不泛化”错误结论的主要原因之一。 很多团队在看到域外性能下降时就停止了 SFT 实验,但实际上只需要继续训练就能突破这个”假过拟合”阶段。

发现二:三个关键条件

论文确定了 SFT 实现跨域泛化的三个充分条件,缺一不可:

条件 1:高质量有验证的解答数据

不是所有 SFT 数据都能带来泛化:

  • 有效:经过验证的长链推理轨迹(verified long chain-of-thought traces),如数学题的完整求解步骤 + 答案验证
  • 无效:低质量标注、未验证的”看起来合理”的解答、过短的推理链
  • 工程含义:这解释了为什么很多团队的 SFT 实验失败——数据质量不够高,而非 SFT 本身无效

条件 2:更强的基础模型

基础模型能力决定了 SFT 能否激活可迁移的推理模式:

  • 强基础模型 + SFT:模型能从训练数据中提取”可迁移的过程性模式”(transferable procedural patterns),如回溯(backtracking)、分步分析等元策略
  • 弱基础模型 + SFT:模型只能模仿表面冗余(surface-level patterns),无法提取深层推理结构,因此不泛化
  • 工程含义:SFT 不是”注入新能力”,而是”激活已有能力”——基础模型没有的能力,SFT 无法凭空创造

条件 3:足够长的训练时长

Dip-and-recovery 现象意味着训练时长是泛化的必要条件:

  • 过早停止会停留在”低谷期”,误判为失败
  • 充分训练才能看到域外性能的恢复和提升
  • 这对训练预算规划有直接影响:SFT 实验需要预留足够长的训练时间,才能做出公平判断

发现三:推理提升,安全下降的非对称性

这是本文的一个警示性发现:

SFT 在提升推理泛化能力的同时,可能带来安全对齐的退化(safety degradation)。

这种非对称性的具体表现:

  • 推理域(数学、代码、逻辑推理)的跨域性能:随训练提升
  • 安全对齐(拒绝有害请求、保持价值观一致性):随训练可能退化

这个发现有深刻的实践含义:在评估 SFT 效果时,不能只看推理指标,必须同时监控安全指标。对于面向用户的生产模型,这种非对称性是一个不可忽视的工程风险。

方法论

实验设计思路

论文的实验设计围绕”条件控制”展开:通过系统地改变数据质量、模型规模和训练步数,观察跨域泛化性能的变化,从而确定哪些因素是泛化的必要条件。

域设置

论文采用”域内训练 → 域外测试”的标准跨域评估框架:

  • 在某一推理域(如数学)上进行 SFT 训练
  • 在其他推理域(如代码、逻辑)上测试,观察是否有正向迁移

与 RL 的关系

论文明确指出:这不是”SFT 还是 RL”的非此即彼之争,而是对 SFT 被低估的纠正。两者的关系更可能是互补的:

  • SFT(高质量数据):建立基础推理过程的迁移
  • RL(在线反馈):进一步强化和探索更难的推理路径

与现有工作的对比

观点来源本文的修正
”SFT 不泛化”DeepSeek-R1 等 RLVR 工作在正确条件下(高质量数据 + 强模型 + 充分训练)SFT 确实泛化
”过早停止是失败”常见实验实践Dip-and-recovery 揭示过早停止会误判为失败
”SFT = 记忆”直觉性观点强模型的 SFT 提取的是过程性模式,不是表面记忆
”RL > SFT(泛化)“领域共识两者在正确条件下的差异比普遍认为的小得多,且互补

工程影响评估

对训练预算决策的影响

如果本文的结论被进一步验证,训练预算分配逻辑需要更新:

  1. 不要过早放弃 SFT:在看到域外性能下降时,先检查是否处于 dip 阶段,而非立即切换到 RL
  2. 数据质量 > 数据量:SFT 的效果高度依赖数据质量,在高质量验证数据上的 SFT 可能比在大量低质量数据上的 RL 效果更好
  3. 基础模型选择很关键:弱基础模型的 SFT 不泛化,强基础模型的 SFT 可以;这意味着”选好基础模型 + 高质量 SFT”可能是性价比更高的路线

对安全-性能权衡的影响

推理↑ + 安全↓ 的非对称性意味着:

  • 生产模型的 SFT 后需要额外的安全评估步骤
  • 推理强化 SFT 之后,可能需要额外的安全对齐微调(RLHF、Constitutional AI 等)
  • 这是一个工程成本,但不是 SFT 本身的”错”,而是需要明确包含在训练流程中的步骤

批判性评估

研究的价值

  1. 范式挑战:系统性地用实验挑战既有共识,是推动领域进步最有价值的研究类型
  2. 工程可操作性:三个条件不是抽象的理论,每一个都对应具体的工程决策
  3. Dip-and-recovery 的发现:揭示了一个可能导致大量错误实验结论的方法论缺陷

需要进一步验证的问题

  1. 数据质量的定义:“高质量有验证的解答”在实践中如何操作化?验证成本极高(需要外部 oracle),是否有替代方案?
  2. “足够强”的基础模型:具体是什么规模/能力水平的基础模型才能实现泛化?需要参数规模门槛数据
  3. 安全退化的程度:安全下降有多严重?是否可以通过并行安全评估 + 重新安全对齐来有效弥补?
  4. 基准覆盖度:实验覆盖的推理域是否足够多样?数学→代码的迁移与数学→医疗推理的迁移难度差异巨大
  5. 同行评审状态:目前仍是预印本,方法论细节需经过同行评审核实

与现实的距离

论文的核心条件”高质量有验证的解答”在实践中有一个根本性的门槛:如何大规模获取?

  • 数学有符号求解器可以验证(Lean、Mathematica)
  • 代码有单元测试可以验证
  • 但通用推理领域(医疗、法律、科学)的验证成本极高,几乎没有自动化手段

这意味着本文的结论主要适用于有明确验证手段的推理领域,对”验证困难”的任务域的适用性有限。

核心洞见

★ Insight ─────────────────────────────────────

  1. “SFT 不泛化”是一个自我实现的预言:很多研究者在看到 dip 阶段就停止实验,因此永远看不到 recovery,自然得出”SFT 不泛化”的结论。改变实验协议(坚持训练到收敛),结论可能完全相反。

  2. SFT 激活能力而非注入能力:条件 2(更强基础模型)揭示了 SFT 的本质——它只能激活基础模型中已经隐含的推理能力,而无法凭空创造新能力。这对”用 SFT 教会模型全新技能”的期望是明确的边界。

  3. 安全-推理的非对称退化是一个被低估的工程风险:大多数推理优化实验只看性能指标,本文提醒安全退化是 SFT 的系统性副作用,任何生产部署前的 SFT 实验都应包含安全评估环节。

─────────────────────────────────────────────────

延伸阅读

  • DeepSeek-R1(2024):RLVR 方法论的代表性工作,也是本文挑战的范式来源
  • GRPO(2025):Group Relative Policy Optimization,当前最流行的 LLM 强化学习算法
  • Constitutional AI(Anthropic):安全对齐的典型方法,可作为 SFT 后安全退化的补救方案
  • Scaling Laws for Supervised Fine-Tuning:数据质量 vs 数量权衡的相关研究