News

Gemma 4 31B vs 闭源主力全面横评：GPT / Claude / Gemini 数据对比

数据来源：OpenAI / Anthropic / Google 官方技术报告（2025–2026）、HuggingFace Gemma 4 Blog、Berkeley BFCL、SWE-bench.com、lmarena.ai Chatbot Arena 写作时间：2026-04-03 标注：【官方】= 提供商官方页面；【第三方】= 独立评测；⚠️ = 估算值

速查卡

项目	内容
对比主角	Gemma 4 31B（开源）vs 闭源主力 10 款
核心结论	Thinking 模式下进入顶级梯队；代码 Agent 数据缺失；价格优势结构性不可复制
关键 Benchmark	GPQA / AIME / MMLU / LiveCodeBench / SWE-bench / Arena ELO

前言：Google 自己定了比较对象

Google 发布 Gemma 4 时用了一句话定位——“Byte for byte, the most capable open models.”

不是”开源里最强”，而是”每个参数产出最高”。潜台词很清楚：我们要跟闭源旗舰比。

那就来比。本文覆盖 10 款主力闭源模型，在 6 大 Benchmark 维度完整对比，附价格和上下文窗口数据，所有数字注明来源。

重要前提：Standard vs Thinking 模式

Gemma 4 的官方发布数字使用 “IT Thinking”（开启推理链）模式。闭源阵营也有类似设定：Claude 的 Extended Thinking、o3/o4-mini 的 Reasoning、Gemini 2.5 的 Thinking Budget。

每个 Benchmark 同时列出两个条件：

标准模式：不开推理链，考察模型基础能力
最佳模式：允许的最强推理设置，考察天花板

一、科学推理：GPQA Diamond

博士级科学问题（物理/化学/生物），代表模型硬知识推理上限。人类专家均值约 70%。

模型	GPQA Diamond	条件	来源
Gemma 4 31B	84.3%	IT + Thinking	【官方】HuggingFace Gemma 4 Blog
GPT-4o	53.6%	标准	【官方】OpenAI 技术报告
GPT-4.1	62.3%	标准	【官方】OpenAI 发布页 2025.04
o4-mini	79.3%	Reasoning	【官方】OpenAI 技术报告 2025.04
o3	87.7%	Reasoning	【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet	84.8%	Extended Thinking	【官方】Anthropic 发布页
Claude Sonnet 4	70.0%	标准	【官方】anthropic.com/news/claude-4
Claude Sonnet 4.5	83.4%	Extended Thinking	【官方】Anthropic 发布页
Gemini 2.0 Flash	61.7%	标准	【官方】Google 技术报告
Gemini 2.5 Flash	82.8%	Thinking	【官方】Google DeepMind
Gemini 2.5 Pro	86.4%	Thinking	【官方】Google DeepMind

解读：

标准模式的分水岭非常清晰——GPT-4o（53.6%）、GPT-4.1（62.3%）、Claude Sonnet 4（70.0%）、Gemini 2.0 Flash（61.7%），这是”不开推理链”时普通旗舰的天花板。

开启推理链后，Gemma 4 31B 的 84.3% 直接进入顶级梯队：Claude 3.7 Thinking（84.8%）≈ Gemma 4 Thinking（84.3%）≈ Claude Sonnet 4.5（83.4%）≈ Gemini 2.5 Flash Thinking（82.8%）。比 Claude Sonnet 4 标准模式高出整整 14pp。

与此同时，Gemini 2.5 Pro（86.4%）和 o3（87.7%）仍然领先约 2-3pp，是当前的绝对上限。

二、数学能力：AIME 2024 / 2025 / 2026

AIME 是美国最高级别数学竞赛。人类参赛者均值约 15-20%，顶尖选手约 50-60%。AI 在 2024 年后开始全面超越人类参赛者均值。

模型	AIME 2024	AIME 2025/2026	条件	来源
Gemma 4 31B	—	89.2%（AIME 2026）	IT + Thinking	【官方】HuggingFace Gemma 4 Blog
GPT-4o	13.4%	~20%⚠️	标准	【官方】OpenAI 技术报告
GPT-4.1	—	~50%⚠️	标准	【估算】基于 OpenAI 发布对比
o4-mini	—	93.4%	Reasoning	【官方】OpenAI 技术报告 2025.04
o3	—	83.3%	Reasoning	【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet	~60%	—	Extended Thinking	【官方】Anthropic 研究页
Claude Sonnet 4	—	33.1%	标准	【官方】anthropic.com/news/claude-4
Claude Sonnet 4.5	—	87.0%	Extended Thinking	【官方】Anthropic 发布页
Gemini 2.0 Flash	—	~25%⚠️	标准	【估算】
Gemini 2.5 Flash	—	72.0%	no tools	【官方】Google DeepMind
Gemini 2.5 Pro	—	88.0%	no tools	【官方】Google DeepMind

解读：

这里有一个非常重要的方法论说明：Gemma 4 用的是 AIME 2026 题目，其他模型多用 AIME 2024/2025，难度体系不同，不能直接画等号。

即便如此，Gemma 4 31B Thinking（89.2%）与 Gemini 2.5 Pro（88.0%）、Claude Sonnet 4.5 Thinking（87.0%）处于同一梯队，超过了 o3（83.3%）。o4-mini 的 93.4% 是当前最高点。

标准模式下，Claude Sonnet 4 仅 33.1%、GPT-4.1 约 50%——说明不开推理链的主力模型在顶级数学竞赛面前依然力不从心。Gemma 4 31B 标准模式没有公布 AIME 数字，但从 HumanEval 和 LiveCodeBench 的标准/Thinking 差距来看，标准模式预计也在 20-30% 左右。

三、知识广度：MMLU / MMMLU

MMLU 测试多学科知识（大学水平），MMMLU 是多语言版本。注意各家测试协议有差异，直接对比需谨慎。

模型	分数	类型	来源
Gemma 4 31B	85.2%	MMLU Pro	【官方】HuggingFace Blog
GPT-4o	88.7%	MMLU	【官方】OpenAI 技术报告
GPT-4.1	89.0%	MMLU	【官方】OpenAI 发布页 2025.04
o3	90.2%	MMLU	【官方】OpenAI 技术报告 2025.04
o4-mini	87.4%	MMLU	【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet	87.0%	MMLU	【估算】基于 Anthropic 发布对比
Claude Sonnet 4	85.4%	MMMLU（无 ET）	【官方】anthropic.com/news/claude-4
Claude Sonnet 4.5	77.8%	MMMLU（14语言）	【官方】Anthropic 发布页
Gemini 2.0 Flash	89.7%	MMLU	【官方】Google 技术报告
Gemini 2.5 Flash	79.2%	MMMLU	【官方】Google DeepMind
Gemini 2.5 Pro	83.6%	MMMLU	【官方】Google DeepMind

解读：

MMLU 这个维度有较大的测试协议差异——MMLU、MMLU Pro、MMMLU 难度不同，直接比较数字需要谨慎。Gemma 4 的 85.2%（MMLU Pro）在这个维度处于中等偏上水平，与 Claude Sonnet 4（85.4%）非常接近。GPT-4.1（89.0%）和 o3（90.2%）在标准 MMLU 上领先。

四、编程能力：LiveCodeBench v6 / HumanEval

LiveCodeBench 使用竞赛平台实时题目，难以通过训练数据污染，是当前最可信的编程能力指标。HumanEval 因题目泄露问题参考价值下降，仅作辅助参考。

模型	LiveCodeBench	HumanEval	条件	来源
Gemma 4 31B	80.0%（v6）	—	IT + Thinking	【官方】HuggingFace Gemma 4 Blog
GPT-4o	—	90.2%	标准	【官方】OpenAI 技术报告
GPT-4.1	—	88.0%	标准	【官方】OpenAI 发布页 2025.04
o3	—	95.0%	Reasoning	【官方】OpenAI 技术报告 2025.04
o4-mini	—	93.0%	Reasoning	【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet	—	~88%⚠️	—	【估算】
Claude Sonnet 4	—	~86%⚠️	—	【估算】
Gemini 2.5 Flash	LCB Pro ELO: 1143	—	Thinking	【官方】Google DeepMind
Gemini 2.5 Pro	LCB Pro ELO: 1775	—	Thinking	【官方】Google DeepMind

解读：

Gemma 4 31B Thinking 的 LiveCodeBench v6 80.0% 是本次发布在编程维度最亮眼的数字。各家使用的指标不统一（部分用 HumanEval，部分用 LiveCodeBench），直接横向比较存在局限，但趋势清晰：

Gemma 4 31B Thinking 在编程能力上已经超过大多数主力闭源模型的标准模式
o3/o4-mini 的 HumanEval 95%/93% 是当前最高点，但 HumanEval 已经有数据污染嫌疑
Gemini 2.5 Pro 的 LiveCodeBench Pro ELO 1775 远高于 Flash 的 1143，说明 Pro 在竞赛编程上有显著优势

五、代码 Agent：SWE-bench Verified

在真实 GitHub issue 上修 bug，是代码 Agent 能力最权威的评测。需要模型理解代码库、定位问题、生成正确 patch。

模型	SWE-bench Verified	条件	来源
Gemma 4 31B	未公布	—	—
GPT-4o	33.0%	标准	【官方】OpenAI 技术报告
GPT-4.1	54.6%	标准	【官方】OpenAI 发布页 2025.04
o4-mini	68.1%	Reasoning	【官方】OpenAI 技术报告 2025.04
o3	71.7%	Reasoning	【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet	70.3% / 63.7%	含/不含 scaffold	【官方】Anthropic 研究页
Claude Sonnet 4	~57%⚠️	估算	【估算】基于 Claude 4 发布对比
Claude Sonnet 4.5	77.2% / 82.0%	pass@1 / high compute	【官方】anthropic.com/news/claude-sonnet-4-5
Gemini 2.0 Flash	50.6%	single attempt	【官方】Google DeepMind 比较表
Gemini 2.5 Flash	60.4%	single attempt	【官方】Google DeepMind
Gemini 2.5 Pro	59.6%	single attempt	【官方】Google DeepMind

解读：

Gemma 4 31B 没有 SWE-bench 官方数据——这是本次发布最显眼的信息空白。 Google 选择了自家的 τ2-bench 而非 SWE-bench。可能的原因是 SWE-bench 依赖完整的工具链集成（代码执行环境、文件系统操作），而不是单纯的语言能力。

闭源阵营里，Claude Sonnet 4.5 以 82.0%（high compute）独占鳌头，标准 pass@1 也达到 77.2%。Claude 3.7 Sonnet 的 70.3% 和 o3 的 71.7% 处于第二梯队。有意思的是，Gemini 2.5 Pro（59.6%）在 SWE-bench 上反而不如 Flash（60.4%），也不如 Claude 3.7 Sonnet，这与它在其他 benchmark 上的领先地位形成落差。

六、综合对话质量：Chatbot Arena ELO

lmarena.ai 人类盲测排行榜，反映真实用户偏好。注意：Arena ELO 持续动态更新，以下数据为 2025 年数据，具体排名请查阅 lmarena.ai 最新版本。

模型	Arena ELO	备注	来源
Gemma 4 31B	~1452⚠️	开源榜 #3 估算	【官方声明】Google 发布博客
GPT-4o	~1282⚠️	2025 数据	【第三方】lmarena.ai 估算
GPT-4.1	~1280⚠️	2025 数据	【第三方】估算
o3	~1380⚠️	高推理	【第三方】估算
o4-mini	~1356⚠️	高推理	【第三方】估算
Claude 3.7 Sonnet	~1305⚠️	2025 数据	【第三方】估算
Claude Sonnet 4	~1320⚠️	2025 数据	【第三方】估算
Claude Sonnet 4.5	~1360⚠️	2025 数据	【第三方】估算
Gemini 2.0 Flash	~1270⚠️	2025 数据	【第三方】估算
Gemini 2.5 Flash	~1340⚠️	2025 数据	【第三方】估算
Gemini 2.5 Pro	~1380⚠️	2025 数据	【第三方】估算

解读：

Google 在发布博客中声明 Gemma 4 31B 在 Arena AI 开源榜排名 #3，对应分数约 1452。但需注意这是开源专榜而非全模型榜，不能直接和闭源模型的 ELO 数字比较。

Arena ELO 数据中，绝大部分为估算，可信度相对较低，请以 lmarena.ai 实时数据为准。

七、价格与上下文窗口

模型	输入价格	输出价格	上下文窗口	最大输出
Gemma 4 31B	开源免费	开源免费	256K	—
GPT-4o	$2.50/M	$10.00/M	128K	16K
GPT-4.1	$2.00/M	$8.00/M	1M	32K
o3	$10.00/M	$40.00/M	200K	100K
o4-mini	$1.10/M	$4.40/M	200K	100K
Claude 3.7 Sonnet	$3.00/M	$15.00/M	200K	128K
Claude Sonnet 4	$3.00/M	$15.00/M	200K	64K
Claude Sonnet 4.5	$3.00/M	$15.00/M	200K（1M beta）	64K
Gemini 2.0 Flash	$0.10/M	$0.40/M	1M	8K
Gemini 2.5 Flash	$0.30/M	$2.50/M	1M	65K
Gemini 2.5 Pro	$1.25-$2.50/M	$10.00-$15.00/M	1M	65K

Gemini 2.5 Pro 按 token 量分段计费：200K 以内输入 $1.25/M，超出 $2.50/M；输出同理。 Gemma 4 31B 开源权重可免费自托管，仅需自行承担算力成本。

关键性价比洞察：

Gemma 4 31B 的成本优势是结构性的：自托管情况下边际 API 成本为零。对于私有化部署，任何闭源 API 都无法在价格上与开源权重竞争。
标准模式能力 ≈ GPT-4o，但 GPT-4o 要 $2.50/M：如果业务不需要 Thinking 模式，Gemma 4 31B 的标准模式能以接近零成本提供 GPT-4o 量级的基础能力。
Gemini 2.0 Flash（$0.10/$0.40）是最便宜的商用 API，但能力明显弱于 2.5 系列。
Claude 三版本定价相同（$3/$15）：Claude 3.7 → Sonnet 4 → Sonnet 4.5 性能持续提升但定价不变，Anthropic 在守住中端定价带。
GPT-4.1 是 OpenAI 性价比最高的主力模型：1M 上下文、$2/$8，SWE-bench 54.6% 领先同价位所有模型。

八、综合速览表

✓ = 官方数据；⚠️ = 估算；† = Thinking/Reasoning 模式；‡ = AIME 2026 题目（其他多用 2024/2025）

模型	GPQA ◆	AIME	MMLU	SWE-bench	Arena ELO	价格（in/out/M）	上下文
Gemma 4 31B	84.3%✓†	89.2%✓†‡	85.2%✓	—	~1452⚠️	开源	256K
GPT-4o	53.6%✓	13.4%✓	88.7%✓	33.0%✓	~1282⚠️	$2.5/$10	128K
GPT-4.1	62.3%✓	~50%⚠️	89.0%✓	54.6%✓	~1280⚠️	$2/$8	1M
o4-mini	79.3%✓	93.4%✓	87.4%✓	68.1%✓	~1356⚠️	$1.1/$4.4	200K
o3	87.7%✓	83.3%✓	90.2%✓	71.7%✓	~1380⚠️	$10/$40	200K
Claude 3.7 Sonnet	84.8%✓†	~60%✓†	87.0%⚠️	70.3%✓	~1305⚠️	$3/$15	200K
Claude Sonnet 4	70.0%✓	33.1%✓	85.4%✓	~57%⚠️	~1320⚠️	$3/$15	200K
Claude Sonnet 4.5	83.4%✓†	87.0%✓†	77.8%✓	82.0%✓	~1360⚠️	$3/$15	200K
Gemini 2.0 Flash	61.7%✓	~25%⚠️	89.7%✓	50.6%✓	~1270⚠️	$0.1/$0.4	1M
Gemini 2.5 Flash	82.8%✓†	72.0%✓	79.2%✓	60.4%✓	~1340⚠️	$0.3/$2.5	1M
Gemini 2.5 Pro	86.4%✓†	88.0%✓	83.6%✓	59.6%✓	~1380⚠️	$1.25/$10	1M

九、Gemma 4 31B 的真实位置

维度	Gemma 4 31B 表现	最近的闭源参照
科学推理（GPQA，Thinking）	Claude 3.7/Sonnet 4.5 同级	比 Gemini 2.5 Pro 差 2pp
数学（AIME，Thinking）	Gemini 2.5 Pro / Claude Sonnet 4.5 同级	仅次于 o4-mini
编程（LiveCodeBench，Thinking）	领先大多数闭源主力	与 o3 HumanEval 差距约 15pp
代码 Agent（SWE-bench）	无数据，无法评估	Claude Sonnet 4.5 领先
对话质量（Arena，开源榜）	开源 #3	闭源全榜之下
价格	开源完全免费	最贵的 o3 约贵出 100 倍（按 token 算）

十、三条核心结论

1. Thinking 模式下，Gemma 4 31B 已经进入闭源旗舰梯队

GPQA 84.3% 与 Claude 3.7 Thinking（84.8%）和 Claude Sonnet 4.5（83.4%）几乎持平，AIME 2026 89.2% 超过 Gemini 2.5 Pro（88.0%）。作为一个可以本地免费运行的 31B 模型，这已经突破了大多数人对开源能力上限的预期。

2. 代码 Agent 是最大的信息空白，Google 用自家基准规避了考验

SWE-bench、BFCL、GAIA 均无官方数据。Google 发布时选择了 τ2-bench（内部基准，无横向参照）。Claude Sonnet 4.5 在 SWE-bench 以 82.0% 独占鳌头，这个维度目前是 Claude 的护城河，Gemma 4 是否能挑战它尚无公开证据。

3. 开源权重的成本优势是任何闭源 API 都无法正面竞争的

对于私有化部署、数据主权要求高、调用量大的场景，Gemma 4 31B 的答案从来不是”它够不够好”，而是”它在我的场景里好到够用了吗”。数学、科学推理、竞赛编程——答案已经很清楚：Thinking 模式下，够用，而且闭源 API 的代价差出一个数量级。

数据来源：OpenAI GPT-4.1 发布 · o3/o4-mini 技术报告 · Anthropic Claude 3.7 · Anthropic Claude Sonnet 4.5 · Google Gemini 2.5 Pro · HuggingFace Gemma 4 Blog · SWE-bench · Chatbot Arena