2026-04-17 · 深度解读 · 编辑:Lighthouse

原文:arxiv.org/abs/2604.11924GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

作者:Jimin Mun¹, Chani Jung²(共同一作), Xuhui Zhou¹, Hyunwoo Kim³, Maarten Sap¹(共同通讯) ¹ Carnegie Mellon University ² Independent Researcher ³ NVIDIA


速查卡

维度 内容
一句话总结 用"作者在 rebuttal 里有没有承认 + 有没有承诺改"作为反馈质量的金标准,把一个 8B 小模型训练成在 precision 上反超 GPT-5.2 / Gemini-3-flash 的论文 reviewer
大白话版 别再让 LLM 模仿"评审者"了——直接看作者在 OpenReview 回复里是不是同意、是不是动手改。把这两个信号变成监督,再用 SFT + DPO 双段训练,小模型也能给出有用的批评
核心数据 19,534 篇 ICLR 论文(2020–2026)、18,936 篇有效(4,419 接收 / 14,517 拒收)、SFT 用 6K papers,DPO 用 9K papers + 5 维 corruption pair
基线对比规模 测试集 1,198 篇(600 篇 ICLR 2020–2025 + 598 篇 ICLR 2026 时序保留集);human consensus 评测用 943 篇(人均 5.97 条 consensus 反馈)
核心数字 GoodPoint-DPO 相对 Qwen3-8B base 在 combined success rate 提升 83.7%(8.0% → 14.7%);GoodPoint-SFT precision 0.138,超过 GPT-5.2 (0.130) 与 Gemini-3-flash (0.128)
人评结果(N=13 作者评自己论文) Gemini-3-flash 全维度第一;GoodPoint-DPO 全面超越 Qwen3-8B base,并显著缩小与 Gemini 的差距
影响评级 B+ — 核心贡献不是模型架构,而是"以作者反馈为信号"的数据集 + 训练 recipe + 双重自动评测,对 LLM 用作 research assistant 提供了可复用的方法论

核心 Insight

论文里真正反直觉的发现有三个:

① 反馈质量该由"作者是否愿意行动"定义,而不是由"看起来是否专业"定义。 作者在 §3.1 给出形式化定义:

We define a feedback item f_i as successful if the author acknowledges it as both valid and actionable. Formally, 𝟙_success(f_i, r_i) = 1 if 𝒱(f_i, r_i) = 1 and 𝒜(f_i, r_i) = 1.

— 即 validity(作者是否同意这条批评是合理的)和 author action(作者是否承诺修改 / 列入 future work)两轴都要满足。这个定义跳出了既往"用 LLM judge 给 review 打分"的循环,直接拿真实 OpenReview 讨论作为 ground truth

② 小模型在"选择性"指标上反超大模型,靠的是 SFT 数据本身的"惜墨"。 Table 2 给出最反直觉的结果:GoodPoint-SFT 的 precision 是 0.138,超过 GPT-5.2 (0.130) 与 Gemini-3-flash (0.128)。原因在 §6.1 解释:

human reviewer generated 5.66 feedback units across GoodPoint-ICLR while LLM generated feedback numbers varied with highest number generated by Qwen-3-8B (20.85), followed by GPT-5.2 (20.72), Llama3.1-8B-Instruct (11.96), and Gemini-3-flash (10.79).

而 GoodPoint-SFT 和 GoodPoint-DPO 平均只生成 4.155.71 条——和 human 接近。模型没有变得"更聪明",只是学会了少而精地批评

③ DPO 与 SFT 在"对齐 vs 创新"上分工明显。 作者在 §6.2 把 success rate 提升拆成 aligned(与 human consensus 相符)与 novel(不在 consensus 内但仍 valid + actionable)两类:

指标提升 GoodPoint-SFT GoodPoint-DPO
Aligned feedback rate +0.64 +0.93
Novel feedback rate +0.24 +0.88

SFT 直接模仿 human 成功反馈,结果就是"更对齐 + 更不新颖";DPO 通过 5 维 corruption 学的是质量维度的偏好,结果在 Add Ablations Experiments / Algorithm Efficiency / Theoretical Soundness 等多个 aspect 上 novel 提升均匀(Table 13)。

★ Insight ───────────────────────────────────── 论文在 §3.2 用了一个非常聪明的 trick:corruption 的"反向偏好对"不是从随机噪声构造,而是只在一个维度劣化(generic / vague / inaccurate / non-essential / unsupportive 五选一),其余维度保持原样。这让 DPO 能"剥离地"学到每一维质量信号——而不是被一坨综合差异淹没。 ─────────────────────────────────────────────────


方法详解

1. 双轴反馈质量定义

GoodPoint 把每条 reviewer feedback f_i 用两个二元函数刻画(§3.1):

维度 函数 判定来源
Validity 𝒱(f_i, r_i) ∈ {0, 1} 作者回复 r_i 是否承认 f_i 在事实上正确且与论文相关
Author Action 𝒜(f_i, r_i) ∈ {0, 1} 作者回复是否承诺修改(will_revise)或纳入 future work

只有两轴都为 1,feedback 才被标为 successful。论文还区分了6 类 author action(§3.2):

We process each review thread with GPT-4.1 (gpt-4.1-2025-04-14), parsing it into self-contained feedback units paired with author responses.

GPT-4.1 解析的人工验证准确率:validity 0.936,action 0.941;inter-annotator PABAK 分别为 0.747(中等)0.837(强)(§3.2,附录 B Table 4)。

2. GoodPoint-ICLR 数据集构造

数据来源(§3.2):

时间区间 来源 用途
2020–2023 Re² 数据集(Zhang et al. 2025) 训练 / 验证 / 测试
2024–2025 arXiv 通过题名匹配 训练 / 验证 / 测试
2026 OpenReview 直接 PDF 抓取 时序保留测试集(contamination-free,所有 baseline knowledge cutoff 早于 Aug 2025)

PDF 全部用 Marker 转为 markdown。最终 18,936 篇 = 14,517 拒收 + 4,419 接收。

3. 三种训练数据切分

论文从 GoodPoint-ICLR 中切出三个不重叠子集(§3.3 + 附录 E.1):

用途 规模 说明
SFT 训练 6K papers 仅保留 valid + actionable 的反馈,按 (paper, aggregated feedback) 配对,单 reviewer 内全部反馈聚合以学习一致风格
DPO 训练(valid vs invalid) 9K papers 同一篇论文的 chosen 和 rejected 集,要求 chosen 的 acceptance ratio 比 rejected 至少高 2 条 feedback
DPO 训练(corruption pairs) 同上 在 valid+actionable 反馈上做 5 维 corruption 作为 rejected

DPO 阶段对多个 reviewer 给同一篇论文的反馈做 embedding 去重(OpenAI text-embedding-3-small,余弦相似度 > 0.5 视为重复,随机保留一条)。

4. 五维 Feedback Corruption(§3.2 + 附录 C)

用 GPT-5 mini(gpt-5-mini-2025-08-07,medium reasoning,4096 tokens)对原始好反馈做单维度劣化

Corruption 维度 描述 验证准确率 目标降级分(1-3) 旁路保留分(1-3)
Generic 抽掉论文具体细节,变成行业 boilerplate 0.625 1.83 2.92
Vague 保留 paper-specific 引用但去掉具体问题/示例 0.945 1.86 2.98
Inaccurate 引入听起来合理但事实错误的论断 0.992 2.98 2.48
Non-essential 把焦点从核心可修复问题转向边角问题 0.969 3.00 2.56
Unsupportive 把建设性、 hedged 语气改成生硬 / 命令式 0.982 2.68 2.88

注意 Generic 维度的 verification accuracy 只有 0.625——作者在 §3.2 直接说:

prediction accuracy > 0.94 for all dimensions except generic, 0.62.

并据此过滤掉错误识别的样本及降级 / 保留分低于 2 的样本。

5. 训练超参数(附录 D Table 6)

超参 SFT DPO
Base Qwen3-8B GoodPoint-SFT
Max sequence length 30,000 30,000
Train batch size 128 128
Micro batch size 8 4
Learning rate 5×10⁻⁶ 5×10⁻⁶
Epochs 1 1
Precision BF16 BF16
β(KL penalty) 0.1
NLL loss coefficient 0.2

GPU 优化:ZeRO stage 3 + flash-attention-2,ring attention size 8,head stride 2。DPO 在 step 50 早停以防过拟合。整个训练框架使用 OpenRLHF(Hu et al. 2024)。


评估方法:两套自动 + 一套人评

GoodPoint 设计了三层评测(§4),相互补充:

1. Author Response Prediction(§4.1)

把"作者是否会同意 / 行动"转成预测任务:训练另一个 Qwen3-8B 作为 evaluator,输入 paper + feedback,输出 (validity, action, response)。

任务 Precision Recall F1 Accuracy
Validity 0.815 0.717 0.754 0.717
Action 0.779 0.706 0.741 0.650

2. Quality Dimension Scoring(§4.1)

用 GPT-5 mini 对 feedback 在 4 个维度上打 1-5 Likert 分(accuracy / paper-specific grounding / constructive tone / prioritization),用 2K human-reviewer 反馈得到的均分作为阈值过滤。

设计动机(§4.1 原文):

while author response prediction captures bottom-up signals for feedback validity, it is trained on human-only data and may thus fail out-of-distribution on model-specific error patterns.

人类反馈在五维上的均分(附录 E.2):accuracy 4.37 / prioritisation 4.44 / constructive tone 4.62 / paper-specific grounding 4.36 / actionability 3.49——actionability 在人类自己里也是最低的

3. Human Consensus-Based Feedback Evaluation(§4.2)

定义"重要反馈"= 多位 reviewer 都提且 successful 的反馈。匹配流程:

  1. Embedding 过滤:余弦相似度阈值——human-human 0.55, human-LLM 0.45(基于 140 对人工标注校准,excluding strata where match rate < 0.1)
  2. GPT-5.2 判 match:基于 Targeted part / Deficiency / Quality dimension / Action requested 四个 aspect 是否有共同点
  3. 性能验证:GPT-5.2 vs human majority vote 的 F1 = 0.867 (h-h) / 0.906 (h-LLM)

度量定义(附录 F.2 Table 8):

指标 公式
Precision |ℳ| / |ℱ_LLM| —— LLM 反馈中匹配 consensus 的比例
Recall |𝒢 ∩ 𝒞| / |𝒢| —— consensus 反馈中被 LLM 覆盖的比例
F1 调和平均

4. Human Evaluation(§4.3)


与现有方法的关键区别

维度 既有 LLM peer review 工作 GoodPoint
目标 模仿 reviewer 行为 / 预测分数 生成作者愿意行动的反馈
监督信号 reviewer review 文本 / 论文是否 accept 作者 rebuttal 中的 validity + action 标签
典型方法 OpenReviewer (Idahl & Ahmadi 2025) 在专家 review 上 SFT;SEA (Yu et al. 2024) 标准化多 reviewer 监督;DeepReview (Zhu et al. 2025) 用结构化分析 + 文献检索 SFT on author-acknowledged feedback + DPO on (valid vs invalid) + (original vs corrupted)
评测维度 aspect coverage / score prediction author response prediction + consensus match + 真实作者人评
基础模型规模 多为 7B–70B 或 GPT-4 类 仅 8B(Qwen3-8B)
缺陷诊断 普遍 over-positive、缺 specificity 直接靠 corruption 维度针对性削弱

论文在 §2 的总结:

unlike these systems that prioritize mimicking reviewer behavior, GoodPoint focuses specifically on constructive feedback. By leveraging author responses as an explicit training signal, we prioritize feedback that is both valid and actionable from the researcher's perspective.


实验结果

设置(§5)

5.1 Author Response Prediction(Table 1)

Model Combined Success Rate (%) Validity Only (%) Author Action Only (%)
Gemini-3-flash 37.9 ± 0.9 39.4 ± 0.9 37.9 ± 0.9
GPT-5.2 45.8 ± 1.0 46.3 ± 1.0 45.8 ± 1.0
Llama3.1-8b-Instruct 1.8 ± 0.3 1.8 ± 0.3 1.8 ± 0.3
Qwen3-8b (Base) 8.0 ± 0.6 8.1 ± 0.6 8.0 ± 0.6
GoodPoint-DPO 14.7 (+6.7) ± 0.5 14.9 (+6.8) ± 0.5 14.7 (+6.7) ± 0.5
GoodPoint-SFT 9.2 (+1.2) ± 0.5 9.7 (+1.6) ± 0.5 9.2 (+1.2) ± 0.5

Δ 相对 Qwen3-8B base。

GoodPoint-DPO 相对 base 提升 83.7%(8.0 → 14.7),但与 GPT-5.2 / Gemini-3-flash 仍有 23–31 个百分点差距。

5.2 Human Consensus-Based Match(Table 2)

Model Precision Recall F1
Gemini-3-flash 0.128 0.169 0.131
GPT-5.2 0.130 0.165 0.130
Llama3.1-8b-Instruct 0.047 0.053 0.044
Qwen3-8b (Base) 0.069 0.084 0.068
GoodPoint-DPO 0.093 (+0.024) 0.107 (+0.023) 0.087 (+0.019)
GoodPoint-SFT 0.138 (+0.069) 0.112 (+0.028) 0.108 (+0.040)

所有 CI 半宽 < 0.001。

关键发现:GoodPoint-SFT 的 precision (0.138) 超过两个闭源大模型——这是论文最 striking 的结果。F1 较 base 提升 58.8%(0.068 → 0.108),precision 几乎翻倍。

5.2.1 时序分区结果(附录 F.5 Table 11)

Model ICLR 2020–2025 (n=424) ICLR 2026 (n=519)
Gemini-3-flash P 0.10 / R 0.15 / F1 0.11 P 0.15 / R 0.18 / F1 0.15
GPT-5.2 P 0.12 / R 0.16 / F1 0.12 P 0.14 / R 0.17 / F1 0.14
Llama3.1-8B P 0.05 / R 0.06 / F1 0.05 P 0.04 / R 0.04 / F1 0.04
Qwen3-8B (Base) P 0.08 / R 0.10 / F1 0.08 P 0.06 / R 0.07 / F1 0.06
GoodPoint-DPO P 0.07 / R 0.08 / F1 0.07 P 0.11 (+0.046) / R 0.13 (+0.058) / F1 0.10 (+0.044)
GoodPoint-SFT P 0.13 / R 0.11 / F1 0.10 P 0.15 (+0.083) / R 0.12 (+0.050) / F1 0.11 (+0.055)

时序保留的 ICLR 2026 上,GoodPoint-SFT 的 precision (0.145) 超过 GPT-5.2 (0.141),逼近 Gemini-3-flash (0.149)——确认增益不是 contamination 带来的。

5.3 Human Evaluation(Table 3)

Model Validity Rate Actionability Rate Specificity (Mean ± SD) Helpfulness (Mean ± SD) n
Gemini-3-flash 72.3% †‡ 56.9% 4.42 ± 0.86 †‡ 3.40 ± 1.40 †‡ 65
GoodPoint-DPO 58.1% 40.3% 3.50 ± 1.16 ‡ 2.77 ± 1.29 ‡ 62
Qwen3-8B 41.5% 32.3% 2.89 ± 1.28 2.25 ± 1.24 65

† vs GoodPoint-DPO,‡ vs Qwen3-8B;ordinal 用 Kruskal–Wallis + Mann–Whitney U,binary 用 χ² + Fisher's exact。

GoodPoint-DPO 在所有维度上显著超过 Qwen3-8B base:validity +16.6 pp、actionability +8.0 pp、specificity +0.61、helpfulness +0.52。但仍显著落后 Gemini-3-flash(除了 specificity 与 helpfulness 在 GoodPoint-DPO vs Gemini 间的差异检验未达 †)。


消融与分析

1. LLM 反馈失效模式(§6.1)

长度差异巨大

来源 平均反馈条数
人类 reviewer 5.66
Qwen3-8B 20.85
GPT-5.2 20.72
Llama3.1-8B-Instruct 11.96
Gemini-3-flash 10.79
GoodPoint-SFT 4.15
GoodPoint-DPO 5.71

LLM 容易"指着已有内容当批评"(point to existing content 比例):

来源 Valid 时的 PtEC% Invalid 时的 PtEC%
Human reviewer 2.1% 1.3%
LLMs(范围) 3.1–8.1% 4.6–24.2%

论文在 §6.1 推断:

This could indicate that models struggle to handle and provide feedback for long-context input, highlighting a key improvement area.

人评时 P5 直接说 Gemini-3-flash 的某条反馈"reads as LLM-hallucinated feedback"。

2. 训练带来的质量分提升

GoodPoint 训练后在 GPT-5 mini judge 评分上:

维度 提升来源 增量
Specificity(paper-specific grounding) GoodPoint-DPO +0.75
Prioritization GoodPoint-SFT +0.7

——把 7-8B 开源模型从"显著低于人类参考"拉回到接近 valid reviewer 水平(Figure 3 / 5)。

3. SFT vs DPO 在 aspect-level novel feedback 上的差异(附录 I Table 13)

各 aspect 相对 Qwen3-8B base 在 novel / aligned feedback rate 上的提升(粗体表示该模型内 novel vs aligned 较大者):

Aspect GoodPoint-SFT (Novel) GoodPoint-SFT (Aligned) GoodPoint-DPO (Novel) GoodPoint-DPO (Aligned)
Add Experiments on More Datasets 0.88 0.04 1.73 0.56
Add Ablations Experiments 0.06 0.38 1.08 0.53
Algorithm Efficiency -0.30 -0.10 0.08 0.05
Theoretical Soundness -0.37 0.16 0.14 0.09
Implications of the Research 0.45 0.81 2.48 1.98
Ethical Aspects 1.58 N/A 1.49 N/A
Missing Citations 11.50 N/A 6.85 N/A
Novelty -0.55 -0.18 -1.00 -1.00
Clarity and Presentation 0.31 0.74 0.88 0.96
Comparison to Previous Studies 0.30 0.23 0.66 1.19
Reproducibility -0.20 0.93 0.39 2.66
Overall 0.24 0.64 0.88 0.93

观察:

★ Insight ───────────────────────────────────── DPO 的 novel 跨 aspect 均匀提升(Add Ablations / Efficiency / Theoretical Soundness 都在涨),SFT 集中在 Add Datasets 与 Implications。这暗示:DPO 的 corruption-based preference learning 学到的是反馈质量的元特征(具体性、可执行性),而 SFT 学的是人类反馈的内容模式——前者更迁移、后者更照搬。 ─────────────────────────────────────────────────


复现评估

复现维度 难度 备注
Qwen3-8B SFT 框架 OpenRLHF 开源,但需要能装下 30K 序列长度的 GPU 集群(ZeRO-3 + flash-attn-2)
Qwen3-8B DPO 中–高 同上,且 corruption pair 生成依赖 GPT-5 mini API(5 维 × 5K+ 反馈)
GoodPoint-ICLR 数据集 论文承诺 upon acceptance 释放数据/代码/模型;目前需自行用 GPT-4.1 重做 parsing
Author Response Predictor 同样基于 Qwen3-8B;3K paper 训练,1K 测试
GPT-5.2 / Gemini-3-flash baseline 通过 OpenAI / Gemini API
Human evaluation 需要 13 位真实论文作者评估自己论文,很难复现
Embedding similarity 校准 需要 140 对人工标注(每 stratum 20 对),3 个标注员

已知挑战

API / 算力成本估算(粗):


批判性分析

GoodPoint 的方法论严谨,但仍有几处需要谨慎对待:

1. Author response 作为质量信号本身有偏

论文在 Limitations 自承:

these are an imperfect proxy for feedback quality, as replies can be shaped by time constraints, community norms, and rebuttal incentives.

具体偏差包括:(a) 临近 deadline 作者更可能 "will revise" 走过场;(b) 礼貌性 acknowledgment 在 accept 边缘的论文更多;(c) 非英文母语作者的 rebuttal 可能更 defensive。论文用 DPO + quality filtering 部分缓解,但残留偏差未量化。

2. 数据规模口径不一致

§3.2 说 "18,936 papers with 14,517 rejected papers and 4,419 accepted papers",但 abstract 与 §1 说 "19,534 papers"——差 598 篇。最可能的解释是 19,534 是 ICLR 2026 抓取前的总样本,18,936 是去重 / 过滤后实际可用。论文未明确说明这个差距

3. Author Response Predictor 的 invalid 样本来源问题

附录 E.1 写道:

Due to the lack of invalid feedback samples, we supplement our 3K paper set with filtered out unused invalid feedback samples from SFT data.

——也就是说 evaluator 的训练集与 SFT 模型的训练集存在数据来源重叠。虽然两者标签对象不同(一个学生成、一个学预测),但都源自同一篇论文的同一组 review,可能产生间接 contamination。论文未做 leave-one-out 验证。

4. Combined success rate 的 13–14% 仍然很低

GoodPoint-DPO 的 14.7% 听起来比 base 翻倍,但绝对值意味着:85% 的反馈仍然不被作者认为既 valid 又 actionable。论文用百分比变化讲故事可能掩盖了"系统整体表现仍远未到实用水平"的事实。

5. Validity Only 与 Author Action Only 数字几乎相同

Table 1 中 Validity Only (14.9%) 和 Author Action Only (14.7%) 在 GoodPoint-DPO 上几乎一样,且两者都接近 Combined Success (14.7%)。这暗示两个轴在数据中高度相关——即 valid 的反馈几乎都被认为 actionable,反之亦然。如果是这样,把 validity 和 actionability 拆成两轴的理论必要性就被弱化了。

6. 5 条反馈的 subsampling 可能扭曲对比

GoodPoint-SFT 平均只生成 4.15 条,意味着 5 条 subsample 时几乎全部反馈都被评测;而 GPT-5.2 平均 20.72 条,subsample 5 条等于丢 76%。这两种情况下"precision"的可比性需要仔细论证——更精细的做法是控制 LLM 生成数量到与 human 相当再比,论文未做。

7. Novelty 指标在 GoodPoint 上反而下降

Table 13 显示 GoodPoint-SFT 在 Novelty aspect 上 -0.55,DPO 上 -1.00(aligned 也同步下降)。作者未在正文讨论这一现象。可能的解释:训练数据偏向"具体可执行"问题,从而抑制了"这个想法是否 novel"这种相对抽象的批评。但这恰恰可能是科研批评中最关键的维度。

8. 人评样本太小

N=13 作者,每模型大约 60+ 条反馈点。Likert 上的差异检验(Mann-Whitney U)在小样本下功效有限,且 13 人无法覆盖跨学科多样性——论文样本里 10 篇 *CL,2 ICML,2 ICLR,对系统、视觉、机器人等领域无验证。

9. 与 OpenReviewer / SEA / DeepReview 的直接对比缺失

§2 提到这三类工作但未在 Tables 1/2/3 里直接对比。考虑到这些是同一问题领域的 SOTA,缺少直接对比让"GoodPoint 是更好的方法"这个论断有些悬空——读者无法判断增益是来自"以 author response 为信号"还是来自"任意特化训练 recipe"。

10. ICLR 单一来源限制泛化

论文也在 Limitations 承认 ICLR 的反馈规范并不代表所有学科。化学 / 生物 / 医学 论文的反馈模式(更强调实验复现 / 临床有效性)可能完全不同——GoodPoint 现成模型直接用到这些领域可能不可靠。


写在最后

GoodPoint 的真正贡献不在模型规模上的 SOTA,而在三件事:

  1. 重定义 feedback 质量:从"看起来像 reviewer"切换到"作者真的会改"——这个监督信号转换具有可迁移到其他 LLM-as-research-assistant 任务的潜力(grant 建议、code review、教学评语)。
  2. 小模型靠目标对齐反超大模型的特化指标:Qwen3-8B 在 precision 上压过 GPT-5.2,再次证明"模型对齐目标"的杠杆比"模型规模"大——尤其在领域定义清晰的任务里。
  3. DPO 用合成 corruption 学到泛化质量信号:5 维针对性劣化是个干净的实验设计,让 DPO 的偏好优化目标变得"可解释"——这种思路可以借鉴到任何"质量有多个独立维度"的任务。

Our findings highlight the importance of grounding LLMs in human-centric signals. —— §7 Conclusion

如果你正在做 LLM 辅助科研、AI tutor、code review 等任务,GoodPoint 提供的不仅是一个数据集,而是一种"用人类下游行为定义质量"的方法范式。


延伸阅读