Esc
输入关键词开始搜索
News

Gemma 4 31B vs 闭源主力全面横评:GPT / Claude / Gemini 数据对比

Gemma 4 31B vs 闭源主力全面横评:GPT / Claude / Gemini 数据对比

数据来源:OpenAI / Anthropic / Google 官方技术报告(2025–2026)、HuggingFace Gemma 4 Blog、Berkeley BFCL、SWE-bench.com、lmarena.ai Chatbot Arena 写作时间:2026-04-03 标注:【官方】= 提供商官方页面;【第三方】= 独立评测;⚠️ = 估算值

速查卡

项目内容
对比主角Gemma 4 31B(开源)vs 闭源主力 10 款
核心结论Thinking 模式下进入顶级梯队;代码 Agent 数据缺失;价格优势结构性不可复制
关键 BenchmarkGPQA / AIME / MMLU / LiveCodeBench / SWE-bench / Arena ELO

前言:Google 自己定了比较对象

Google 发布 Gemma 4 时用了一句话定位——“Byte for byte, the most capable open models.”

不是”开源里最强”,而是”每个参数产出最高”。潜台词很清楚:我们要跟闭源旗舰比。

那就来比。本文覆盖 10 款主力闭源模型,在 6 大 Benchmark 维度完整对比,附价格和上下文窗口数据,所有数字注明来源。


重要前提:Standard vs Thinking 模式

Gemma 4 的官方发布数字使用 “IT Thinking”(开启推理链)模式。闭源阵营也有类似设定:Claude 的 Extended Thinking、o3/o4-mini 的 Reasoning、Gemini 2.5 的 Thinking Budget。

每个 Benchmark 同时列出两个条件:

  • 标准模式:不开推理链,考察模型基础能力
  • 最佳模式:允许的最强推理设置,考察天花板

一、科学推理:GPQA Diamond

博士级科学问题(物理/化学/生物),代表模型硬知识推理上限。人类专家均值约 70%。

模型GPQA Diamond条件来源
Gemma 4 31B84.3%IT + Thinking【官方】HuggingFace Gemma 4 Blog
GPT-4o53.6%标准【官方】OpenAI 技术报告
GPT-4.162.3%标准【官方】OpenAI 发布页 2025.04
o4-mini79.3%Reasoning【官方】OpenAI 技术报告 2025.04
o387.7%Reasoning【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet84.8%Extended Thinking【官方】Anthropic 发布页
Claude Sonnet 470.0%标准【官方】anthropic.com/news/claude-4
Claude Sonnet 4.583.4%Extended Thinking【官方】Anthropic 发布页
Gemini 2.0 Flash61.7%标准【官方】Google 技术报告
Gemini 2.5 Flash82.8%Thinking【官方】Google DeepMind
Gemini 2.5 Pro86.4%Thinking【官方】Google DeepMind

解读:

标准模式的分水岭非常清晰——GPT-4o(53.6%)、GPT-4.1(62.3%)、Claude Sonnet 4(70.0%)、Gemini 2.0 Flash(61.7%),这是”不开推理链”时普通旗舰的天花板。

开启推理链后,Gemma 4 31B 的 84.3% 直接进入顶级梯队:Claude 3.7 Thinking(84.8%)≈ Gemma 4 Thinking(84.3%)≈ Claude Sonnet 4.5(83.4%)≈ Gemini 2.5 Flash Thinking(82.8%)。比 Claude Sonnet 4 标准模式高出整整 14pp。

与此同时,Gemini 2.5 Pro(86.4%)和 o3(87.7%)仍然领先约 2-3pp,是当前的绝对上限。


二、数学能力:AIME 2024 / 2025 / 2026

AIME 是美国最高级别数学竞赛。人类参赛者均值约 15-20%,顶尖选手约 50-60%。AI 在 2024 年后开始全面超越人类参赛者均值。

模型AIME 2024AIME 2025/2026条件来源
Gemma 4 31B89.2%(AIME 2026)IT + Thinking【官方】HuggingFace Gemma 4 Blog
GPT-4o13.4%~20%⚠️标准【官方】OpenAI 技术报告
GPT-4.1~50%⚠️标准【估算】基于 OpenAI 发布对比
o4-mini93.4%Reasoning【官方】OpenAI 技术报告 2025.04
o383.3%Reasoning【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet~60%Extended Thinking【官方】Anthropic 研究页
Claude Sonnet 433.1%标准【官方】anthropic.com/news/claude-4
Claude Sonnet 4.587.0%Extended Thinking【官方】Anthropic 发布页
Gemini 2.0 Flash~25%⚠️标准【估算】
Gemini 2.5 Flash72.0%no tools【官方】Google DeepMind
Gemini 2.5 Pro88.0%no tools【官方】Google DeepMind

解读:

这里有一个非常重要的方法论说明:Gemma 4 用的是 AIME 2026 题目,其他模型多用 AIME 2024/2025,难度体系不同,不能直接画等号。

即便如此,Gemma 4 31B Thinking(89.2%)与 Gemini 2.5 Pro(88.0%)、Claude Sonnet 4.5 Thinking(87.0%)处于同一梯队,超过了 o3(83.3%)。o4-mini 的 93.4% 是当前最高点。

标准模式下,Claude Sonnet 4 仅 33.1%、GPT-4.1 约 50%——说明不开推理链的主力模型在顶级数学竞赛面前依然力不从心。Gemma 4 31B 标准模式没有公布 AIME 数字,但从 HumanEval 和 LiveCodeBench 的标准/Thinking 差距来看,标准模式预计也在 20-30% 左右。


三、知识广度:MMLU / MMMLU

MMLU 测试多学科知识(大学水平),MMMLU 是多语言版本。注意各家测试协议有差异,直接对比需谨慎。

模型分数类型来源
Gemma 4 31B85.2%MMLU Pro【官方】HuggingFace Blog
GPT-4o88.7%MMLU【官方】OpenAI 技术报告
GPT-4.189.0%MMLU【官方】OpenAI 发布页 2025.04
o390.2%MMLU【官方】OpenAI 技术报告 2025.04
o4-mini87.4%MMLU【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet87.0%MMLU【估算】基于 Anthropic 发布对比
Claude Sonnet 485.4%MMMLU(无 ET)【官方】anthropic.com/news/claude-4
Claude Sonnet 4.577.8%MMMLU(14语言)【官方】Anthropic 发布页
Gemini 2.0 Flash89.7%MMLU【官方】Google 技术报告
Gemini 2.5 Flash79.2%MMMLU【官方】Google DeepMind
Gemini 2.5 Pro83.6%MMMLU【官方】Google DeepMind

解读:

MMLU 这个维度有较大的测试协议差异——MMLU、MMLU Pro、MMMLU 难度不同,直接比较数字需要谨慎。Gemma 4 的 85.2%(MMLU Pro)在这个维度处于中等偏上水平,与 Claude Sonnet 4(85.4%)非常接近。GPT-4.1(89.0%)和 o3(90.2%)在标准 MMLU 上领先。


四、编程能力:LiveCodeBench v6 / HumanEval

LiveCodeBench 使用竞赛平台实时题目,难以通过训练数据污染,是当前最可信的编程能力指标。HumanEval 因题目泄露问题参考价值下降,仅作辅助参考。

模型LiveCodeBenchHumanEval条件来源
Gemma 4 31B80.0%(v6)IT + Thinking【官方】HuggingFace Gemma 4 Blog
GPT-4o90.2%标准【官方】OpenAI 技术报告
GPT-4.188.0%标准【官方】OpenAI 发布页 2025.04
o395.0%Reasoning【官方】OpenAI 技术报告 2025.04
o4-mini93.0%Reasoning【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet~88%⚠️【估算】
Claude Sonnet 4~86%⚠️【估算】
Gemini 2.5 FlashLCB Pro ELO: 1143Thinking【官方】Google DeepMind
Gemini 2.5 ProLCB Pro ELO: 1775Thinking【官方】Google DeepMind

解读:

Gemma 4 31B Thinking 的 LiveCodeBench v6 80.0% 是本次发布在编程维度最亮眼的数字。各家使用的指标不统一(部分用 HumanEval,部分用 LiveCodeBench),直接横向比较存在局限,但趋势清晰:

  • Gemma 4 31B Thinking 在编程能力上已经超过大多数主力闭源模型的标准模式
  • o3/o4-mini 的 HumanEval 95%/93% 是当前最高点,但 HumanEval 已经有数据污染嫌疑
  • Gemini 2.5 Pro 的 LiveCodeBench Pro ELO 1775 远高于 Flash 的 1143,说明 Pro 在竞赛编程上有显著优势

五、代码 Agent:SWE-bench Verified

在真实 GitHub issue 上修 bug,是代码 Agent 能力最权威的评测。需要模型理解代码库、定位问题、生成正确 patch。

模型SWE-bench Verified条件来源
Gemma 4 31B未公布
GPT-4o33.0%标准【官方】OpenAI 技术报告
GPT-4.154.6%标准【官方】OpenAI 发布页 2025.04
o4-mini68.1%Reasoning【官方】OpenAI 技术报告 2025.04
o371.7%Reasoning【官方】OpenAI 技术报告 2025.04
Claude 3.7 Sonnet70.3% / 63.7%含/不含 scaffold【官方】Anthropic 研究页
Claude Sonnet 4~57%⚠️估算【估算】基于 Claude 4 发布对比
Claude Sonnet 4.577.2% / 82.0%pass@1 / high compute【官方】anthropic.com/news/claude-sonnet-4-5
Gemini 2.0 Flash50.6%single attempt【官方】Google DeepMind 比较表
Gemini 2.5 Flash60.4%single attempt【官方】Google DeepMind
Gemini 2.5 Pro59.6%single attempt【官方】Google DeepMind

解读:

Gemma 4 31B 没有 SWE-bench 官方数据——这是本次发布最显眼的信息空白。 Google 选择了自家的 τ2-bench 而非 SWE-bench。可能的原因是 SWE-bench 依赖完整的工具链集成(代码执行环境、文件系统操作),而不是单纯的语言能力。

闭源阵营里,Claude Sonnet 4.5 以 82.0%(high compute)独占鳌头,标准 pass@1 也达到 77.2%。Claude 3.7 Sonnet 的 70.3% 和 o3 的 71.7% 处于第二梯队。有意思的是,Gemini 2.5 Pro(59.6%)在 SWE-bench 上反而不如 Flash(60.4%),也不如 Claude 3.7 Sonnet,这与它在其他 benchmark 上的领先地位形成落差。


六、综合对话质量:Chatbot Arena ELO

lmarena.ai 人类盲测排行榜,反映真实用户偏好。注意:Arena ELO 持续动态更新,以下数据为 2025 年数据,具体排名请查阅 lmarena.ai 最新版本。

模型Arena ELO备注来源
Gemma 4 31B~1452⚠️开源榜 #3 估算【官方声明】Google 发布博客
GPT-4o~1282⚠️2025 数据【第三方】lmarena.ai 估算
GPT-4.1~1280⚠️2025 数据【第三方】估算
o3~1380⚠️高推理【第三方】估算
o4-mini~1356⚠️高推理【第三方】估算
Claude 3.7 Sonnet~1305⚠️2025 数据【第三方】估算
Claude Sonnet 4~1320⚠️2025 数据【第三方】估算
Claude Sonnet 4.5~1360⚠️2025 数据【第三方】估算
Gemini 2.0 Flash~1270⚠️2025 数据【第三方】估算
Gemini 2.5 Flash~1340⚠️2025 数据【第三方】估算
Gemini 2.5 Pro~1380⚠️2025 数据【第三方】估算

解读:

Google 在发布博客中声明 Gemma 4 31B 在 Arena AI 开源榜排名 #3,对应分数约 1452。但需注意这是开源专榜而非全模型榜,不能直接和闭源模型的 ELO 数字比较。

Arena ELO 数据中,绝大部分为估算,可信度相对较低,请以 lmarena.ai 实时数据为准。


七、价格与上下文窗口

模型输入价格输出价格上下文窗口最大输出
Gemma 4 31B开源免费开源免费256K
GPT-4o$2.50/M$10.00/M128K16K
GPT-4.1$2.00/M$8.00/M1M32K
o3$10.00/M$40.00/M200K100K
o4-mini$1.10/M$4.40/M200K100K
Claude 3.7 Sonnet$3.00/M$15.00/M200K128K
Claude Sonnet 4$3.00/M$15.00/M200K64K
Claude Sonnet 4.5$3.00/M$15.00/M200K(1M beta)64K
Gemini 2.0 Flash$0.10/M$0.40/M1M8K
Gemini 2.5 Flash$0.30/M$2.50/M1M65K
Gemini 2.5 Pro$1.25-$2.50/M$10.00-$15.00/M1M65K

Gemini 2.5 Pro 按 token 量分段计费:200K 以内输入 $1.25/M,超出 $2.50/M;输出同理。 Gemma 4 31B 开源权重可免费自托管,仅需自行承担算力成本。

关键性价比洞察:

  1. Gemma 4 31B 的成本优势是结构性的:自托管情况下边际 API 成本为零。对于私有化部署,任何闭源 API 都无法在价格上与开源权重竞争。

  2. 标准模式能力 ≈ GPT-4o,但 GPT-4o 要 $2.50/M:如果业务不需要 Thinking 模式,Gemma 4 31B 的标准模式能以接近零成本提供 GPT-4o 量级的基础能力。

  3. Gemini 2.0 Flash($0.10/$0.40)是最便宜的商用 API,但能力明显弱于 2.5 系列。

  4. Claude 三版本定价相同($3/$15):Claude 3.7 → Sonnet 4 → Sonnet 4.5 性能持续提升但定价不变,Anthropic 在守住中端定价带。

  5. GPT-4.1 是 OpenAI 性价比最高的主力模型:1M 上下文、$2/$8,SWE-bench 54.6% 领先同价位所有模型。


八、综合速览表

✓ = 官方数据;⚠️ = 估算;† = Thinking/Reasoning 模式;‡ = AIME 2026 题目(其他多用 2024/2025)

模型GPQA ◆AIMEMMLUSWE-benchArena ELO价格(in/out/M)上下文
Gemma 4 31B84.3%✓†89.2%✓†‡85.2%✓~1452⚠️开源256K
GPT-4o53.6%✓13.4%✓88.7%✓33.0%✓~1282⚠️$2.5/$10128K
GPT-4.162.3%✓~50%⚠️89.0%✓54.6%~1280⚠️$2/$81M
o4-mini79.3%✓93.4%87.4%✓68.1%✓~1356⚠️$1.1/$4.4200K
o387.7%83.3%✓90.2%71.7%✓~1380⚠️$10/$40200K
Claude 3.7 Sonnet84.8%✓†~60%✓†87.0%⚠️70.3%✓~1305⚠️$3/$15200K
Claude Sonnet 470.0%✓33.1%✓85.4%✓~57%⚠️~1320⚠️$3/$15200K
Claude Sonnet 4.583.4%✓†87.0%✓†77.8%✓82.0%~1360⚠️$3/$15200K
Gemini 2.0 Flash61.7%✓~25%⚠️89.7%✓50.6%✓~1270⚠️$0.1/$0.41M
Gemini 2.5 Flash82.8%✓†72.0%✓79.2%✓60.4%✓~1340⚠️$0.3/$2.51M
Gemini 2.5 Pro86.4%✓†88.0%✓83.6%✓59.6%✓~1380⚠️$1.25/$101M

九、Gemma 4 31B 的真实位置

维度Gemma 4 31B 表现最近的闭源参照
科学推理(GPQA,Thinking)Claude 3.7/Sonnet 4.5 同级比 Gemini 2.5 Pro 差 2pp
数学(AIME,Thinking)Gemini 2.5 Pro / Claude Sonnet 4.5 同级仅次于 o4-mini
编程(LiveCodeBench,Thinking)领先大多数闭源主力与 o3 HumanEval 差距约 15pp
代码 Agent(SWE-bench)无数据,无法评估Claude Sonnet 4.5 领先
对话质量(Arena,开源榜)开源 #3闭源全榜之下
价格开源完全免费最贵的 o3 约贵出 100 倍(按 token 算)

十、三条核心结论

1. Thinking 模式下,Gemma 4 31B 已经进入闭源旗舰梯队

GPQA 84.3% 与 Claude 3.7 Thinking(84.8%)和 Claude Sonnet 4.5(83.4%)几乎持平,AIME 2026 89.2% 超过 Gemini 2.5 Pro(88.0%)。作为一个可以本地免费运行的 31B 模型,这已经突破了大多数人对开源能力上限的预期。

2. 代码 Agent 是最大的信息空白,Google 用自家基准规避了考验

SWE-bench、BFCL、GAIA 均无官方数据。Google 发布时选择了 τ2-bench(内部基准,无横向参照)。Claude Sonnet 4.5 在 SWE-bench 以 82.0% 独占鳌头,这个维度目前是 Claude 的护城河,Gemma 4 是否能挑战它尚无公开证据。

3. 开源权重的成本优势是任何闭源 API 都无法正面竞争的

对于私有化部署、数据主权要求高、调用量大的场景,Gemma 4 31B 的答案从来不是”它够不够好”,而是”它在我的场景里好到够用了吗”。数学、科学推理、竞赛编程——答案已经很清楚:Thinking 模式下,够用,而且闭源 API 的代价差出一个数量级。


数据来源:OpenAI GPT-4.1 发布 · o3/o4-mini 技术报告 · Anthropic Claude 3.7 · Anthropic Claude Sonnet 4.5 · Google Gemini 2.5 Pro · HuggingFace Gemma 4 Blog · SWE-bench · Chatbot Arena