Gemma 4: Byte for byte, the most capable open models
Gemma 4: Byte for byte, the most capable open models
原文链接:https://deepmind.google/models/gemma/gemma-4/ 博客全文:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ 作者:Clement Farabet(VP of Research, Google DeepMind)、Olivier Lacombe(Group Product Manager) 机构:Google DeepMind 发布日期:2026-04-02
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | Google 发布最强开源模型家族 Gemma 4,基于 Gemini 3 技术,采用 Apache 2.0 许可证 |
| 大白话版 | Google 把自家最厉害的 AI 模型技术下放到开源版本,而且换成了真正的开源许可证,任何人都能免费商用 |
| 核心数字 | 31B 模型 Arena AI 开源 #3;AIME 2026 数学 89.2%;击败 20 倍大小的模型;400M+ 累计下载 |
| 评级 | A — 必读级发布。开源模型能力天花板的又一次提升,Apache 2.0 切换是对整个开源 AI 生态的重大利好 |
| 代码 | HuggingFace: google/gemma-4 / Kaggle: google/gemma-4 / Ollama: gemma4 |
| 关键词 | Gemma 4, 开源, Apache 2.0, 31B Dense, 26B MoE, E4B, E2B, 边缘计算, Agentic |
核心 Insight
Gemma 4 的核心叙事不是”又一个大模型”,而是 “每参数智能密度”(intelligence-per-parameter)的极致追求 + 真正的开源许可证。
这两点合在一起的意义是革命性的:
-
能力密度:31B 参数的 Gemma 4 在 Arena AI 排名全球开源 #3,击败了参数量 20 倍以上的模型。26B MoE 变体推理时只激活 3.8B 参数就能排到 #6。这意味着单张 H100(80GB)甚至消费级 GPU 就能运行世界级智能。
-
Apache 2.0:Gemma 3 时代的自定义许可证是社区的一大痛点——虽然免费但附带各种限制条款,企业法务团队对此心存疑虑。切换到 Apache 2.0 彻底消除了这个障碍,意味着:完全自由商用、可修改、可再分发、无需向 Google 报告、无需担心许可证变更风险。
-
从云到端的完整覆盖:四个尺寸(31B Dense → 26B MoE → E4B → E2B)覆盖从数据中心到树莓派的全场景,而且边缘模型(E2B/E4B)支持视觉+音频多模态输入。这不是一个模型,而是一个”可到处部署的 AI 引擎家族”。
为什么 Gemma 4 能用更少的参数做到更多?
从技术角度看,这得益于 Gemini 3 的研究成果下放:
- 更好的架构设计:虽然 Google 没有公开 Gemma 4 的完整技术报告(截至发布日),但从 Gemini 3 的已知信息推断,更高效的注意力机制、改进的位置编码、优化的 FFN 结构都贡献了能力密度的提升
- 更高质量的训练数据:Google 坐拥全球最大的网页索引+知识图谱+多语言数据,数据质量是能力密度的关键因素
- MoE 架构的高效利用:26B MoE 只需激活 3.8B 参数即可推理,本质上是用”专家路由”机制让不同类型的输入由不同的”专家子网络”处理,避免了密集模型中大量参数”空转”的浪费
- 从 Gemini 3 到 Gemma 4 的”蒸馏+优化”路径:大模型的知识通过精心设计的训练流程压缩到小模型中,这比从零训练小模型效果好得多
模型规格与架构
完整模型家族
| 模型 | 参数量 | 推理激活参数 | 定位 | 上下文窗口 | 多模态 | Arena AI 排名 |
|---|---|---|---|---|---|---|
| Gemma 4 31B Dense | 31B | 31B | 旗舰,最高质量 | 256K | 视觉 | 开源 #3 (1452) |
| Gemma 4 26B MoE (A4B) | 26B | 3.8B | 速度优先,低延迟 | 256K | 视觉 | 开源 #6 (1441) |
| Gemma 4 E4B | — | ~4B | 移动端/IoT | 128K | 视觉+音频 | — |
| Gemma 4 E2B | — | ~2B | 超轻量边缘 | 128K | 视觉+音频 | — |
硬件需求映射
| 模型 | 最低硬件 | 推荐硬件 | 典型场景 |
|---|---|---|---|
| 31B Dense (bf16) | 单张 H100 80GB | H100/A100 | 服务端部署、微调基座 |
| 31B Dense (量化) | 消费级 GPU (24GB+) | RTX 4090 / 3090 | 本地 IDE 助手、Agent |
| 26B MoE | 同上,但更快 | 任何 24GB+ GPU | 低延迟 API 服务 |
| E4B | 手机/树莓派 | Pixel / 骁龙 8 系 | 端侧 Agent、离线助手 |
| E2B | IoT 设备 | Jetson Orin Nano | 嵌入式 AI |
关键能力特性
高级推理与 Agentic 工作流:
- 原生函数调用(function calling):模型天然支持调用外部工具和 API
- 结构化 JSON 输出:直接生成符合 schema 的 JSON,无需后处理
- 原生系统指令(system instructions):无需在 prompt 中模拟系统角色
- 多步规划与深度逻辑推理
多模态能力:
- 所有模型支持图像/视频输入(可变分辨率)
- E2B/E4B 额外支持音频输入(语音识别+理解)
- 擅长 OCR、图表理解等视觉任务
多语言:
- 原生训练覆盖 140+ 语言
- 不仅是翻译,还理解文化语境
Benchmark 详细结果
| Benchmark | 测量内容 | 31B IT Thinking | 26B A4B IT Thinking | E4B IT Thinking | E2B IT Thinking | Gemma 3 27B IT |
|---|---|---|---|---|---|---|
| Arena AI (text) | 综合对话质量 | 1452 | 1441 | — | — | 1365 |
| MMLU | 多语言问答 | 85.2% | 82.6% | 69.4% | 60.0% | 67.6% |
| MMMU Pro | 多模态推理 | 76.9% | 73.8% | 52.6% | 44.2% | 49.7% |
| AIME 2026 | 数学竞赛题 | 89.2% | 88.3% | 42.5% | 37.5% | 20.8% |
| LiveCodeBench v6 | 竞赛编程 | 80.0% | 77.1% | 52.0% | 44.0% | 29.1% |
| GPQA Diamond | 科学知识 | 84.3% | 82.3% | 58.6% | 43.4% | 42.4% |
| τ2-bench | Agent 工具使用 | 86.4% | 85.5% | 57.5% | 29.4% | 6.6% |
解读:
-
数学能力飞跃:AIME 2026 从 Gemma 3 的 20.8% 直接跳到 89.2%(+68.4pp),这不是渐进提升,是质变。即使是 26B MoE 也达到了 88.3%,表明数学推理能力不依赖于密集参数。
-
Agent 工具使用能力爆发:τ2-bench 从 6.6% 到 86.4%(+79.8pp),Gemma 3 几乎不能做 Agent 任务,Gemma 4 直接成为顶级 Agent 基座。这是最具实际价值的提升——意味着 Gemma 4 可以直接用于构建自主 Agent。
-
编程能力翻倍有余:LiveCodeBench 从 29.1% 到 80.0%(+50.9pp),直接进入竞赛级编程能力范围。
-
MoE 与 Dense 的性能差距极小:26B MoE 在所有 benchmark 上仅比 31B Dense 低 1-3 个百分点,但推理时只用 3.8B 参数。这意味着在速度敏感的场景中,MoE 是更优选择。
与竞品的横向对比
| 模型 | 机构 | 参数量 | 开源许可 | AIME 2026 | LiveCodeBench v6 | Arena AI |
|---|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 89.2% | 80.0% | 1452 | |
| Gemma 4 26B MoE | 26B (A4B) | Apache 2.0 | 88.3% | 77.1% | 1441 | |
| Qwen3.6-Plus | 阿里 | <100B | 商用许可 | — | — | — |
| Llama 4 Scout | Meta | 109B (A17B) | Llama License | — | — | — |
| Llama 4 Maverick | Meta | 400B (A17B) | Llama License | — | — | — |
| Gemma 3 27B | 27B | 自定义许可 | 20.8% | 29.1% | 1365 |
注: Qwen3.6-Plus 和 Llama 4 的部分 benchmark 数据缺失或不可直接对比。Arena AI 排名 Gemma 4 31B 为开源 #3,击败了包括 Llama 4 Maverick(400B)在内的大模型。
生态系统与工具链
Day-1 支持的框架和平台
| 类别 | 工具 |
|---|---|
| 推理引擎 | vLLM, llama.cpp, SGLang, NVIDIA NIM, LiteRT-LM |
| 本地运行 | Ollama, LM Studio, MLX |
| 训练/微调 | HuggingFace TRL, Keras, Unsloth, NeMo |
| 前端集成 | Transformers.js, Candle |
| 云平台 | Vertex AI, Cloud Run, GKE |
| 移动端 | AICore Developer Preview, ML Kit GenAI |
| 硬件平台 | NVIDIA (Jetson → Blackwell), AMD ROCm, Google TPU (Trillium/Ironwood) |
下载与快速开始
# Ollama(最简单)
ollama run gemma4
# HuggingFace
# pip install transformers
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("gg-hf-gg/gemma-4-31B-it")
# Google AI Studio(在线体验)
# https://aistudio.google.com/prompts/new_chat?model=gemma-4-31b-it
Apache 2.0 许可证的意义
这次许可证变更值得单独分析,因为它对整个开源 AI 生态的影响可能比模型本身更深远。
许可证对比
| 维度 | Gemma 3 自定义许可 | Gemma 4 Apache 2.0 | Llama License |
|---|---|---|---|
| 商业使用 | ✅ 但有条件 | ✅ 完全自由 | ✅ 但有月活限制 |
| 修改/再分发 | ✅ 但需保留条款 | ✅ 完全自由 | ✅ 但需保留归属 |
| 专利授权 | 有限 | ✅ 明确授予 | 有限 |
| 法务友好度 | 中等(需审阅) | ⭐⭐⭐⭐⭐(标准许可) | 中等 |
| 社区接受度 | 争议较大 | 广泛欢迎 | 争议中等 |
为什么 Apache 2.0 是”金标准”?
- 企业法务零摩擦:Apache 2.0 是全球最被广泛理解和接受的开源许可证之一,几乎所有企业的法务部门都已审阅过,不需要额外的许可证审查流程
- 明确的专利授权:Apache 2.0 包含明确的专利授权条款,保护使用者不会因使用模型而遭到专利诉讼
- 真正的”数字主权”:Google 在博客中强调 “digital sovereignty”——各国政府和企业可以完全掌控自己的数据、基础设施和模型,无需依赖 Google 的许可
- 社区信号效应:Google 明确写了 “You gave us feedback, and we listened”——这向社区传递了积极信号,可能推动 Meta 等也考虑更宽松的许可
批判性分析
局限性
-
缺少完整技术报告:截至发布日,Google 没有公开 Gemma 4 的完整技术报告(仅有 model card)。对于一个声称”每参数最聪明”的模型,缺少训练细节(数据混合、训练策略、架构改进)是一个遗憾。这使得独立验证其声明更加困难。
-
Benchmark 选择性展示:官方只展示了最有利的 benchmark 结果。在某些任务(如长上下文检索、代码完成等具体工程任务)上的表现可能不如数字看起来那么亮眼。社区独立评测的结果可能会揭示不同的画面。
-
边缘模型(E2B/E4B)的实际可用性:虽然声称支持”从手机到树莓派”,但在实际部署中,E2B 的 2B 有效参数在复杂任务上的能力仍然有限。128K 上下文在 2GB RAM 设备上是否真能保持性能?
-
Thinking 模式的依赖性:所有 benchmark 数字都标注了 “IT Thinking”(带推理链的版本),这意味着模型需要生成额外的推理 token 来达到这些分数。实际延迟和成本会比”裸”推理高很多。没有 Thinking 模式的 benchmark 数字缺失。
适用边界
- 最佳场景:需要高质量推理的本地/私有部署、Agent 工作流、多语言应用、边缘设备 AI
- 不适用场景:需要超长上下文(>256K)的任务、需要最高保密级别的政府应用(虽然有 Sovereign Cloud 选项)、需要自定义模态的特殊任务
独立观察
-
Gemma 4 vs Qwen3.6-Plus 的赛道碰撞:两者在同一天发布,都主打”小模型大能力”+编程+Agent。Qwen3.6-Plus 拿出 100 万上下文的杀手锏,Gemma 4 拿出 Apache 2.0+更完整的尺寸矩阵。这是 2026 年开源模型赛道最精彩的正面对决。
-
Google 的”开源-闭源双引擎”战略:Gemma 4 与 Gemini 3 形成互补——开源版本吸引社区和生态,闭源版本在 Cloud 上变现。这比 Meta 的纯开源策略(缺乏 API 营收)和 OpenAI 的纯闭源策略(缺乏社区生态)都更可持续。
-
400M 下载量 + 10 万社区变体的生态飞轮:Gemma 已经形成了强大的社区生态——微调版本、领域特化版本(如保加利亚语 BgGPT、癌症治疗发现 Cell2Sentence-Scale)。Apache 2.0 将进一步加速这个飞轮。
对领域的影响
短期(1-3 个月): 开源社区将涌现大量 Gemma 4 微调版本。在 HuggingFace Trending 上预计会持续霸榜数周。Ollama / LM Studio 用户将大规模迁移到 Gemma 4。
中期(3-12 个月): Gemma 4 将成为 Agent 框架(LangChain、AutoGPT 等)的默认开源选择之一。边缘部署(手机、IoT)将进入实用阶段。Apache 2.0 可能推动 Meta 在 Llama 5 时采用更开放的许可。
长期(1-2 年): “每参数智能密度”的竞赛将加速——这比”参数量竞赛”对实际应用更有价值。如果 Gemma 4 的社区微调版本能在特定垂直领域达到 GPT-5 级别,将彻底改变 AI 产业的成本结构。
附录:Gemma 4 31B vs 闭源主力模型全面横评
数据来源:OpenAI / Anthropic / Google 官方技术报告及模型卡(2025–2026)、Berkeley BFCL、SWE-bench.com、LiveCodeBench、GAIA HuggingFace Leaderboard、lmarena.ai Chatbot Arena 标注说明:⚠️ = 社区估算或非官方数据;† = 扩展思考/Thinking 模式下的分数;✓ = 官方数据
为什么要把 Gemma 4 31B 和闭源模型放在一起比?
因为 Google 自己说了——“Byte for byte, the most capable open models”。这句话的潜台词是:我们不仅在开源里赢,我们要和闭源旗舰一起比。
那就来比。
重要前提:Standard vs Thinking 模式
Gemma 4 的官方发布数字用的是 **“IT Thinking”(开启推理链)**模式,其他闭源模型里也存在类似情况(Claude 的 Extended Thinking、o3/o4-mini 的 Reasoning 模式、Gemini 2.5 系列的 Thinking Budget)。
为了公平,本节对每个关键 benchmark 都同时提供两种条件的对比:标准模式(不开启推理链)和最佳模式(模型允许的最强推理设置)。
一、科学推理:GPQA Diamond
测量内容:博士级科学问题(物理/化学/生物),代表模型的”硬知识推理”上限。
| 模型 | GPQA Diamond | 条件 | 数据来源 |
|---|---|---|---|
| Gemma 4 31B | 53.7% | 标准 IT | 官方(HuggingFace 模型卡)✓ |
| Gemma 4 31B Thinking | 84.3% | IT + Thinking | 官方(Google 发布博客)✓ |
| GPT-4o | 53.6% | 标准 | 官方(OpenAI)✓ |
| GPT-4.1 | 66.3% | 标准 | 官方(OpenAI)✓ |
| o4-mini | 81.4% | Reasoning | 官方(OpenAI System Card)✓ |
| o3 | 87.7% | Reasoning | 官方(OpenAI System Card)✓ |
| Claude 3.7 Sonnet | 68.0% | 标准 | 官方(Anthropic)✓ |
| Claude 3.7 Sonnet | 84.8% | Extended Thinking† | 官方(Anthropic)✓ |
| Claude Sonnet 4 | 80.0% | 标准 | 官方(Anthropic)✓ |
| Claude Sonnet 4.5 | 84.2% | 标准 | 官方(Anthropic)✓ |
| Gemini 2.5 Flash | 72.0% | Thinking | 官方(Google)✓ |
| Gemini 2.5 Pro | 86.4% | Thinking | 官方(Google DeepMind)✓ |
| Gemini 2.0 Flash | 62.1% | 标准 | 官方(Google)✓ |
解读:
- 标准模式:Gemma 4 31B(53.7%)和 GPT-4o(53.6%)几乎并列,是 GPT-4o 级别的科学推理能力。但 GPT-4.1 已经达到 66.3%,比 Gemma 4 31B 高出约 13pp。
- Thinking 模式:Gemma 4 31B 开启 Thinking 后跳到 84.3%,直接进入 Claude Sonnet 4.5(84.2%)和 Claude 3.7 Thinking(84.8%)的梯队,比 Claude Sonnet 4(80.0%)还略高,但仍然低于 Gemini 2.5 Pro(86.4%)和 o3(87.7%)。
- 核心结论:在 GPQA 这个维度,Gemma 4 31B Thinking ≈ Claude Sonnet 4.5(标准),作为开源模型意义重大。
二、数学能力:AIME 2024 / AIME 2026
AIME 是美国最高级别数学竞赛题。AI 模型在此的得分从 2023 年几乎接近 0,到 2025 年已经”制霸”人类竞赛选手。
| 模型 | AIME 2024 | AIME 2025/2026 | 条件 | 数据来源 |
|---|---|---|---|---|
| Gemma 4 31B | 16.7% | — | 标准 IT | 官方(HuggingFace 模型卡)✓ |
| Gemma 4 31B Thinking | — | 89.2%(AIME 2026) | IT + Thinking | 官方(Google 发布博客)✓ |
| GPT-4o | 9.3% | — | 标准 | 官方(OpenAI)✓ |
| GPT-4.1 | 26.7% | — | 标准 | 官方(OpenAI)✓ |
| o4-mini | 93.4% | 92.7% | Reasoning | 官方(OpenAI System Card)✓ |
| o3 | 96.7% | 88.9% | Reasoning | 官方(OpenAI System Card)✓ |
| Claude 3.7 Sonnet | 16.0% | — | 标准 | 官方(Anthropic)✓ |
| Claude 3.7 Sonnet | 80.0% | 80.0% | Extended Thinking† | 官方(Anthropic)✓ |
| Claude Sonnet 4 | — | 55.0% | 标准 | 官方(Anthropic)✓ |
| Claude Sonnet 4.5 | — | 72.0% | 标准 | 官方(Anthropic)✓ |
| Gemini 2.5 Flash | — | 73.3% | Thinking | 官方(Google)✓ |
| Gemini 2.5 Pro | — | 86.7% | Thinking | 官方(Google DeepMind)✓ |
| Gemini 2.0 Flash | 22.0% | — | 标准 | 官方(Google)✓ |
解读:
- 标准模式的分水岭极其明显:Claude 3.7(16%)、Gemma 4 31B(16.7%)、GPT-4.1(26.7%)——这三者在标准模式下都”不会做”AIME 题。这说明不开推理链,2026 年旗舰模型对顶级数学题依然力不从心。
- Thinking 模式把格局完全扭转:Gemma 4 31B Thinking(89.2% AIME 2026)直接超过 Gemini 2.5 Pro(86.7%),跟 o3(88.9%)几乎持平。这是本次发布最令人震惊的数字——一个 31B 开源模型在数学推理上比肩 OpenAI 旗舰推理模型?
- ⚠️ 重要注意:Google 使用的是 AIME 2026 数据,其他模型多用 AIME 2024/2025,难度和评测协议存在差异,不能直接做等号比较。即便如此,AIME 2026 89.2% 仍然是一个非常强烈的信号。
三、编程能力:LiveCodeBench v5/v6 / HumanEval
LiveCodeBench 基于竞赛平台实时题目,比 HumanEval 更难伪造、更贴近真实能力。
| 模型 | LiveCodeBench | HumanEval | 条件 | 数据来源 |
|---|---|---|---|---|
| Gemma 4 31B | 50.0%(v5) | 82.9% | 标准 IT | 官方(HuggingFace 模型卡)✓ |
| Gemma 4 31B Thinking | 80.0%(v6) | — | IT + Thinking | 官方(Google 发布博客)✓ |
| GPT-4o | 32.3% | 90.2% | 标准 | 官方(OpenAI)✓ |
| GPT-4.1 | 54.4% | — | 标准 | 官方(OpenAI)✓ |
| o4-mini | 79.0% | ~93% ⚠️ | Reasoning | 官方/社区 |
| o3 | 82.1% | ~95% ⚠️ | Reasoning | 官方/社区 |
| Claude 3.7 Sonnet | 55.6% | — | 标准 | 第三方(LiveCodeBench)✓ |
| Claude Sonnet 4.5 | 64.2% | — | 标准 | 官方(Anthropic)✓ |
| Gemini 2.5 Flash | 57.8% | — | Thinking | 官方(Google)✓ |
| Gemini 2.5 Pro | 70.4% | — | Thinking | 官方(Google DeepMind)✓ |
| Gemini 2.0 Flash | 34.5% | 89.7% | 标准 | 官方(Google)✓ |
解读:
- 标准模式:Gemma 4 31B(50.0%)> GPT-4o(32.3%),约与 GPT-4.1(54.4%)接近。这个数字意味着 Gemma 4 的代码能力已经是 GPT-4.1 级别的,只是 LiveCodeBench 版本号有差异(v5 vs v6)。
- Thinking 模式:80.0% 直追 o3(82.1%)和 o4-mini(79.0%),大幅超越 Gemini 2.5 Pro(70.4%)和 Claude Sonnet 4.5(64.2%)。
- HumanEval 的局限性:GPT-4o 的 90.2% 其实比 Gemma 4 的 82.9% 高,但 HumanEval 题目已经被训练数据污染,LiveCodeBench 才是更可信的编程能力指标。
四、代码 Agent:SWE-bench Verified
在真实 GitHub issue 上修复 bug,是代码 Agent 能力的金标准。
| 模型 | SWE-bench Verified | 条件 | 数据来源 |
|---|---|---|---|
| Gemma 4 31B | — | — | 无官方数据 |
| GPT-4o | 38.8% | 标准 | 官方(OpenAI)✓ |
| GPT-4.1 | 54.6% | 标准 | 官方(OpenAI)✓ |
| o4-mini | 68.1% | Reasoning | 官方(OpenAI)✓ |
| o3 | 71.7% | Reasoning | 官方(OpenAI)✓ |
| Claude 3.7 Sonnet | 62.3% / 70.3%† | 标准/Thinking | 官方(Anthropic)✓ |
| Claude Sonnet 4 | 72.7% | 标准 | 官方(Anthropic)✓ |
| Claude Sonnet 4.5 | 75.1% | 标准 | 官方(Anthropic)✓ |
| Gemini 2.5 Flash | 38.0% | 标准 | 官方(Google)✓ |
| Gemini 2.5 Pro | 63.8% | 标准 | 官方(Google DeepMind)✓ |
| Gemini 2.0 Flash | 38.6% | 标准 | 官方(Google)✓ |
解读:
- Gemma 4 31B 没有 SWE-bench 官方数据,这是一个值得注意的缺失。Google 在发布时选择了 τ2-bench(自家 Agent 基准)而非 SWE-bench,可能原因是 SWE-bench 更依赖工具链集成(代码执行、文件操作),而不是纯语言能力。
- 闭源模型里,Claude 系列在 SWE-bench 上碾压 Gemini 系列——Gemini 2.5 Pro(63.8%)vs Claude Sonnet 4.5(75.1%),差距超过 11pp。这也是 Claude 被普遍认为是”代码 Agent 最强”的核心数据来源。
- GPT-4.1 vs Claude 3.7 的对比很有意思:GPT-4.1 标准模式(54.6%)< Claude 3.7 标准模式(62.3%),说明在代码 Agent 任务上 Claude 的优势不只来自推理链。
五、工具调用与 Agent 能力:τ2-bench / BFCL / GAIA
5.1 τ2-bench(Google 内部 Agent 基准)
这是 Google 专门为 Agentic 工作流设计的评测,测试模型在多步骤工具使用场景下的表现。
| 模型 | τ2-bench | 条件 |
|---|---|---|
| Gemma 4 31B Thinking | 86.4% | IT + Thinking |
| Gemma 4 26B MoE Thinking | 85.5% | IT + Thinking |
| Gemma 3 27B IT | 6.6% | 标准 IT |
⚠️ 注:τ2-bench 目前只有 Google 内部数据,缺乏对 Claude/GPT/Gemini 系列的横向对比结果。但 86.4% 的绝对值和 Gemma 3 的 6.6% 之间的跳跃(+79.8pp)说明 Gemma 4 的 Agentic 能力是质的突破。
5.2 BFCL v3(Berkeley Function Calling Leaderboard)
测试模型按照 JSON Schema 准确调用工具的能力。
| 模型 | BFCL Overall | 数据来源 |
|---|---|---|
| Gemma 4 31B | — | 暂无数据 |
| GPT-4.1 | 79.3% | 第三方(Berkeley)✓ |
| Claude 3.7 Sonnet | 74.5% | 第三方(Berkeley)✓ |
| GPT-4o | 72.0% | 第三方(Berkeley)✓ |
| Gemini 2.5 Pro | 71.2% | 第三方(Berkeley)✓ |
| Gemini 2.0 Flash | 69.8% | 第三方(Berkeley)✓ |
5.3 GAIA(通用 AI 助手真实任务)
测试模型完成真实世界多步骤任务(搜索 + 文件处理 + 推理组合)。
| 模型 | GAIA (test avg) | 数据来源 |
|---|---|---|
| Gemma 4 31B | — | 暂无数据 |
| Gemini 2.5 Pro | 72.0% | 官方/第三方✓ |
| o3 | 67.6% | 官方(OpenAI)✓ |
| GPT-4.1 | 54.4% | 第三方(HF Leaderboard)✓ |
| Claude 3.7 Sonnet | 49.3% | 第三方(HF Leaderboard)✓ |
| GPT-4o | ~38% ⚠️ | 社区估算 |
综合 Agent 能力解读:
- Gemma 4 在 BFCL 和 GAIA 上目前均无官方数据,这是一个真实的信息缺口。
- Gemini 2.5 Pro 在 GAIA 上遥遥领先(72%),核心原因是其原生 Google Search 工具集成——多步骤信息检索任务对原生搜索能力的依赖极高。
- GPT-4.1 以 Strict Mode 函数调用为核心优势,在 BFCL 排名第一(79.3%)。
六、综合对话质量:Chatbot Arena ELO
来源:lmarena.ai 人类盲评排行榜,数据约为 2025 年中期
| 排名(全模型) | 模型 | Arena ELO | 说明 |
|---|---|---|---|
| 1 | Gemini 2.5 Pro | 1422 | 全球第一 |
| 2 | o3 | 1383 | |
| 3 | GPT-4.1 | 1369 | |
| 4 | Claude Sonnet 4.5 | 1359 | |
| 5 | Gemini 2.5 Flash | 1345 | |
| 6 | Claude 3.7 Sonnet | 1316 | |
| 7 | GPT-4o | 1285 | |
| 开源 #3 | Gemma 4 27B(31B) | ~1270 ⚠️ | 开源模型中位居前列 |
| 8 | Gemini 2.0 Flash | 1228 |
解读:
- Gemma 4 在全模型榜的绝对位置(~1270)低于所有闭源旗舰(1285-1422),但是领先 Gemini 2.0 Flash。
- 在开源模型专榜上,Gemma 4 31B 是 #3(1452 Arena AI 开源榜分),击败了 Llama 4 Maverick(400B)和 Qwen3.6-Plus 等对手。这是 Google 原文”开源 #3”的数据来源——两个榜单用的是不同评分体系,不能混用。
七、价格与性价比全景
| 模型 | 输入价格 | 输出价格 | 上下文窗口 | 定价类型 |
|---|---|---|---|---|
| Gemma 4 31B | 免费(自托管)/ $0.35 | 免费 / $1.05 | 128K | 开源权重;Vertex AI 商用定价 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 1M | 最低成本商用 API |
| Gemini 2.5 Flash | $0.15 | 3.50 | 1M | 非思考/思考输出差价 |
| GPT-4o | $2.50 | $10.00 | 128K | |
| GPT-4.1 | $2.00 | $8.00 | 1M | 缓存输入 $0.50 |
| Claude 3.7 / Sonnet 4 / 4.5 | $3.00 | $15.00 | 200K | 三版本同价 |
| Gemini 2.5 Pro | 2.50 | 15.00 | 1M | 按 token 量分段计费 |
| o4-mini | $1.10 | $4.40 | 200K | |
| o3 | $10.00 | $40.00 | 200K | 最贵 |
关键性价比洞察:
-
Gemma 4 31B 的成本优势是结构性的:自托管情况下边际成本接近零(只有算力成本)。对于私有化部署需求,这不是”便宜一点”,而是”商业模型完全另一个量级”。
-
GPT-4o 与 Gemma 4 31B Thinking 的能力比较:两者 GPQA 分数几乎持平(标准模式),但 GPT-4o 要收 10,Gemma 4 可以免费自托管。
-
Gemini 2.5 Flash(0.60)是商用 API 里性价比最高的方案:GPQA 72%、AIME 73.3%、SWE-bench 38%,而且有 1M token 上下文,Thinking 模式按需付费。
-
Claude 系列三版本同价(15):Claude 3.7 → Sonnet 4 → Sonnet 4.5 性能在持续提升,但定价不变,说明 Anthropic 的策略是”锁定中端市场”。
-
o3(40)的使用场景:成本是 Claude 的 3-4 倍,适合对推理质量极度敏感且任务量不大的场景(复杂规划、一次性分析)。
八、综合横评表(全维度速览)
✓ = 官方数据;⚠️ = 估算;† = 扩展思考/Thinking 模式;— = 无公开数据
| 模型 | GPQA ◆ | AIME 2025 | LiveCode | SWE-bench | BFCL | GAIA | Arena ELO | 价格(in/out) | 上下文 |
|---|---|---|---|---|---|---|---|---|---|
| Gemma 4 31B(标准) | 53.7%✓ | — | 50.0%✓ | — | — | — | ~1270⚠️ | 开源/1.05 | 128K |
| Gemma 4 31B(Thinking) | 84.3%✓† | 89.2%✓†‡ | 80.0%✓† | — | — | — | — | 同上 | 128K |
| GPT-4o | 53.6%✓ | — | 32.3%✓ | 38.8%✓ | 72.0%✓ | ~38%⚠️ | 1285✓ | 10 | 128K |
| GPT-4.1 | 66.3%✓ | — | 54.4%✓ | 54.6%✓ | 79.3%✓ | 54.4%✓ | 1369✓ | 8 | 1M |
| o4-mini | 81.4%✓ | 92.7%✓ | 79.0%✓ | 68.1%✓ | — | 62.0%⚠️ | — | 4.40 | 200K |
| o3 | 87.7%✓ | 88.9%✓ | 82.1%✓ | 71.7%✓ | — | 67.6%✓ | 1383✓ | 40 | 200K |
| Claude 3.7 Sonnet | 68.0%/84.8%†✓ | 80.0%†✓ | 55.6%✓ | 62.3%/70.3%†✓ | 74.5%✓ | 49.3%✓ | 1316✓ | 15 | 200K |
| Claude Sonnet 4 | 80.0%✓ | 55.0%✓ | ~64%⚠️ | 72.7%✓ | — | — | — | 15 | 200K |
| Claude Sonnet 4.5 | 84.2%✓ | 72.0%✓ | 64.2%✓ | 75.1%✓ | — | — | 1359✓ | 15 | 200K |
| Gemini 2.5 Flash | 72.0%✓ | 73.3%✓ | 57.8%✓ | 38.0%✓ | 71.2%⚠️ | — | 1345✓ | 0.60 | 1M |
| Gemini 2.5 Pro | 86.4%✓ | 86.7%✓ | 70.4%✓ | 63.8%✓ | — | 72.0%✓ | 1422✓ | 10 | 1M |
| Gemini 2.0 Flash | 62.1%✓ | — | 34.5%✓ | 38.6%✓ | 69.8%✓ | — | 1228✓ | 0.40 | 1M |
‡ Google 使用 AIME 2026 题目,其他模型多用 AIME 2024/2025,难度体系略有不同。
九、基于数据的定性结论
Gemma 4 31B 的真实位置:
| 维度 | Gemma 4 31B 的水平 | 闭源参照点 |
|---|---|---|
| 标准科学推理(GPQA) | GPT-4o 级别 | 比 GPT-4.1 差 12pp |
| Thinking 科学推理(GPQA) | Claude Sonnet 4.5 / Claude 3.7 Thinking 级别 | 比 Gemini 2.5 Pro 差 2pp |
| 数学(AIME,Thinking) | 接近 Gemini 2.5 Pro 级别 | 仅次于 o3/o4-mini |
| 编程(LiveCode,Thinking) | o4-mini 级别 | 超越 Gemini 2.5 Pro |
| 代码 Agent(SWE-bench) | 无数据,无法评估 | Claude 系列领先 |
| 工具调用 / Agent(BFCL/GAIA) | 无数据,无法评估 | Gemini 2.5 Pro + GPT-4.1 领先 |
| 对话质量(Arena) | 介于 GPT-4o 和 Gemini 2.0 Flash 之间 | 全闭源旗舰之下 |
| 价格 | 开源完全免费 | 最贵的 o3 贵出 28x(如用 Vertex AI 定价算) |
三条最核心的结论:
-
Gemma 4 31B Thinking 是目前最强的开源数学/科学推理模型:在 GPQA 和 AIME 上达到或超越 Claude Sonnet 4.5 标准模式,与 Gemini 2.5 Pro(闭源旗舰)差距在 2pp 以内。这一点已经超出了很多人的预期。
-
代码 Agent 能力存在显著数据空白:Google 没有提供 SWE-bench、BFCL、GAIA 的官方数字。这不一定意味着 Gemma 4 在这些方面表现差,但作为一个声称”顶级 Agent 能力”的模型,缺乏最权威的 Agent 基准数据,让”Agent 能力爆发”的叙事无法被独立验证。
-
性价比是无法竞争的护城河:对于私有化部署需求,任何闭源方案都无法在价格上与开源权重竞争。问题从来不是”Gemma 4 够不够好”,而是”它在哪些场景好到足够用”。答案已经很清楚:数学、科学推理、编程——够用,而且价格差出一个数量级。
数据来源与完整引用:OpenAI GPT-4.1 发布 · o3/o4-mini System Card · Anthropic Claude 3.7 Sonnet · Google Gemini 2.5 Pro · Gemma 4 HuggingFace 模型卡 · Berkeley BFCL · SWE-bench · LiveCodeBench · GAIA Leaderboard · Chatbot Arena