News

MiniMax M2.7: 256-Expert MoE and the Open-Source License Controversy

原文链接：https://www.minimax.io/news/minimax-m2-7 / https://huggingface.co/MiniMax-AI/MiniMax-M2.7 来源：MiniMax 发布日期：2026-04-14 HN 讨论热度：高

速查卡

项目	内容
一句话总结	MiniMax 发布 M2.7，228.7B 参数 / 256 专家 / ~9.8B 激活的超大 MoE 模型，SWE-bench Pro 56.22% 刷新开源记录，但 Modified-MIT 非商用许可引发社区”伪开源”争议
大白话版	一家中国 AI 创业公司做了个技术很猛的大模型，但贴了个”开源”标签却不让商用——社区吵翻了
核心要点	256 专家 MoE（8 激活）、self-evolution 训练 100+ 轮、SWE-bench Pro 56.22%、Modified-MIT 非商用许可、社区开源定义争议
价值评级	A — 必读级：MoE 架构的极致探索 + 开源 AI 许可证路线之争的最新战场
适用场景	大规模 MoE 架构研究、AI 许可证合规评估、中国 AI 创业公司竞争分析

文章背景

MoE（Mixture of Experts）架构是 2024-2026 年大模型领域最重要的扩展范式。其核心思想是：将模型参数分散到多个”专家”子网络中，每次推理只激活其中少数专家，实现”大参数量、低计算成本”的组合。Mixtral 8x7B（8 专家）、DeepSeek-V3（256 专家）、GPT-4（传闻 16 专家）都采用了这一范式。

MiniMax 是这场 MoE 军备竞赛的一个独特玩家——一家商汤系背景的中国创业公司，2021 年成立，2026 年 1 月在香港 IPO，累计融资超 6 亿美元（含阿里巴巴领投），拥有 2.36 亿+用户（主要来自社交 AI 应用 Talkie/星野）。M2.7 是继 M2.5 之后的又一次大幅升级，也是当前公开的专家数量最多的 MoE 模型之一。

但 M2.7 引发的最大争议不在技术本身，而在其许可证：一个名为 “Modified-MIT” 的自创许可证，保留了 MIT 的简洁格式但附加了非商用限制。这在 Hacker News 社区引发了关于”什么才算开源”的激烈辩论——直接触及了当前 AI 行业最敏感的神经之一。

完整内容还原

一、架构设计：256 专家的极限探索

M2.7 的架构参数：

参数	数值
总参数量	228.7B
激活参数量	~9.8B
专家数量	256
每 token 激活专家数	8
层数	62
最大上下文长度	200K tokens
精度	FP8
训练基础设施	未公开

256 专家是一个极其激进的设计选择。对比行业主流：

模型	总参数	专家数	激活专家	激活参数
Mixtral 8x7B	46.7B	8	2	~12.9B
DeepSeek-V3	671B	256	8	~37B
M2.7	228.7B	256	8	~9.8B
Qwen2.5-MoE	~14B	64	8	~2.7B

M2.7 的独特定位在于：与 DeepSeek-V3 相同的专家数量（256）和激活策略（8-of-256），但总参数量仅为 V3 的 1/3。这意味着每个专家的平均参数量更小——约 0.89B/专家（vs DeepSeek-V3 的 ~2.6B/专家）。更小的专家意味着更细粒度的专业化分工，但也更依赖路由器（router）将 token 准确分配到正确的专家。

FP8 精度训练/推理是另一个值得关注的工程选择。FP8（8 位浮点）将每个参数的存储从 FP16 的 2 字节降至 1 字节，使得 228.7B 参数的模型在推理时仅需约 229 GB 显存（理论值），可在 4× H100（80GB）上运行。这大幅降低了部署门槛。

二、Self-Evolution：100+ 轮自我进化训练

M2.7 最独特的训练策略是 “self-evolution”——一种迭代式自我改进过程：

初始训练：在大规模预训练语料上完成基础训练。
自我评估：模型在一组 benchmark 和内部评估集上自我评估表现。
难题挖掘：识别模型表现薄弱的领域和具体样本。
针对性训练：生成针对薄弱领域的合成数据或重新加权训练数据，进行定向强化。
重复：回到步骤 2，持续迭代。

MiniMax 声称这一过程执行了 100+ 轮，带来了 30% 的综合性能提升。更引人注目的是，他们进行了 3 次 24 小时自主试验（autonomous trials）——模型在无人工干预的情况下连续运行 24 小时，自主完成评估-训练-评估的循环。

Self-evolution 的概念并非 MiniMax 首创（Google 的 SELF-PLAY finetuning、Meta 的迭代 DPO 都有类似思路），但 100+ 轮的迭代深度和 24 小时自主运行的实践规模在公开报告中属于最激进的。

潜在风险在于过拟合和”能力坍缩”（capability collapse）。反复在 benchmark 上自我优化可能导致模型在 benchmark 上得分虚高，但在 benchmark 未覆盖的真实任务上表现退化。MiniMax 未详细公开他们如何应对这一风险。

三、Benchmark 表现：编程能力突出

M2.7 在多个编程和 Agent 相关 benchmark 上展现了强劲表现：

Benchmark	M2.7 成绩	对比
SWE-bench Pro	56.22%	开源模型最佳
Terminal Bench 2	57.0%	—
NL2Repo	39.8%	—
MLE Bench Lite	66.6%	—
VIBE-Pro	55.6%	—

SWE-bench Pro 56.22% 是最有分量的数字。SWE-bench 系列是评估模型解决真实 GitHub Issue 能力的标准 benchmark，Pro 版本比原版更难（更复杂的代码修改、更长的上下文、更难的推理链）。56.22% 意味着模型可以独立解决超过一半的真实软件工程问题。

但需要注意的是：

SWE-bench 的评测方式差异很大——不同提交者使用的 Agent 框架、系统提示、工具链可能截然不同，这使得跨模型的”公平对比”存在很大灰色地带。
闭源模型的成绩通常更高——Claude Opus 4.6 在 SWE-bench Verified 上超过 70%，GPT-4o 在类似评测中也表现优异。M2.7 的 56.22% 在”开源模型”范畴内领先，但与闭源顶级模型仍有差距。
Self-evolution 对 SWE-bench 优化的可能性——100+ 轮自我迭代中是否包含对 SWE-bench 相关任务的针对性优化，MiniMax 未明确说明。

四、Modified-MIT 许可证：开源定义之争

M2.7 的许可证是引发最大争议的焦点。MiniMax 使用了一个自创的 “Modified-MIT” 许可证：

与标准 MIT 的关键差异：

标准 MIT：允许任何人免费使用、修改、分发，包括商用，几乎没有限制。
Modified-MIT：保留了 MIT 的基本框架，但附加了非商用限制——商业使用需联系 api@minimax.io 获取单独许可。

这一设计在 Hacker News 社区引发了激烈讨论：

反对方（主流声音）：

“This is absolutely not open source.” —— simonw（Simon Willison，知名开发者）

Simon Willison 的立场代表了开源社区的正统观点：根据 OSI（Open Source Initiative）的定义，“开源”许可证不得限制商业使用。Modified-MIT 附加了商业限制，因此不符合开源定义。使用 “MIT” 作为名称前缀更是误导——暗示了与标准 MIT 的亲缘关系，但实际限制性远大于 MIT。

“I’d rather use M2.5 with a real open license.” —— zozbot234

部分用户甚至表示更倾向使用 MiniMax 的前代模型 M2.5，因为 M2.5 使用了更宽松的许可证。这说明许可证的收紧可能产生适得其反的效果——用户可能选择能力稍弱但许可清晰的替代品。

技术法律分析：

“These modified open-source licenses are likely legally unenforceable in most jurisdictions.” —— littlestymaar

HN 社区中的法律讨论指出了一个深层问题：自创许可证的法律可执行性。标准 MIT、Apache 2.0、GPL 等许可证经过了数十年的法律实践检验，其条款的法律含义明确。而自创的 Modified-MIT：

未经法律实践检验——没有判例法来明确其条款的执行边界。
与 MIT 名称的混淆可能构成法律风险——如果用户合理地将 “Modified-MIT” 理解为 MIT 的变体而进行了商业使用，MiniMax 的执行诉讼可能面临抗辩。
跨司法管辖区的不确定性——在不同国家的法律框架下，非商用限制的定义和可执行性差异很大。

五、更广泛的 AI 许可证战争

M2.7 的许可证争议不是孤立事件，而是 2024-2026 年 AI 行业”伪开源”趋势的最新案例：

模型	许可证	商用限制	争议度
Llama 3	Llama Community License	月活 >7 亿需单独授权	中
DeepSeek-V3	MIT (真正)	无	无
Mistral Large	非商用	完全禁止	中
Qwen2.5	Apache 2.0 + 附加条款	部分场景限制	低
M2.7	Modified-MIT	非商用	高
Grok-2	Apache 2.0	无	无

DeepSeek-V3 使用真正的 MIT 许可证（无任何附加限制）是目前中国 AI 公司中最”纯正”的开源选择，这也是为什么 M2.7 的 Modified-MIT 格外刺眼——它在名称上模仿了 MIT 的开放性，但在实质上背离了 MIT 的核心精神。

行业趋势解读： 越来越多的 AI 公司试图在”获取开源社区的信任和传播效应”与”保留商业化控制权”之间走钢丝。这催生了大量自创许可证，但这些许可证：

增加了用户的合规不确定性（需要律师逐条审查）
碎片化了开源生态（每个模型一种许可证）
侵蚀了”开源”一词的公信力

OSI 在 2024 年发布了 “Open Source AI Definition”（OSAID），明确要求开源 AI 模型必须允许不受限制的使用、修改和再分发。按此标准，M2.7 明确不属于”开源 AI”。

六、MiniMax 公司背景与战略分析

创始团队与融资：

2021 年创立，核心团队来自商汤科技（SenseTime）
累计融资超 6 亿美元，阿里巴巴领投
2026 年 1 月在香港 IPO
2.36 亿+ 用户，主要来自社交 AI 应用 Talkie（海外）和星野（国内）

战略定位： MiniMax 的独特性在于它不仅是模型提供商，更是 C 端 AI 社交应用运营商。Talkie 在北美 Z 世代用户中拥有显著份额，星野在国内也有可观用户基础。这种”模型 + 应用”的垂直整合策略，使得 MiniMax 有动力保留模型的商业控制权——M2.7 的 Modified-MIT 许可证可能反映了其保护核心应用竞争力的考量。

法律风险： MiniMax 近期面临两项值得关注的法律挑战：

Disney 版权诉讼——涉及 AI 生成内容中的版权问题。
Anthropic 蒸馏指控——Anthropic 指控 MiniMax（以及其他中国 AI 公司）通过蒸馏（distillation）其 Claude 模型来训练自己的模型。

这些法律挑战为 M2.7 的许可证选择提供了另一层解读：MiniMax 可能正在通过限制商业使用来降低自身的法律风险暴露——如果模型被第三方商用导致的版权问题，MiniMax 希望通过许可证条款将自己与下游使用者的法律责任区隔开来。

七、技术深潜：256 专家的路由挑战

从技术角度看，256 专家带来的核心挑战不在于参数量，而在于路由效率和专家利用率。

负载均衡问题： 理想情况下，256 个专家应被均匀使用——每个 token 激活 8 个，256 个专家的理论均衡利用率为 8/256 = 3.125%。但实际中，路由器往往倾向于将 token 集中发送到少数”万能”专家，导致大量专家处于闲置状态（“死专家”问题）。

DeepSeek-V3 通过辅助 loss（auxiliary loss-free load balancing）和动态路由策略解决了这一问题。MiniMax 未详细公开 M2.7 的路由策略，但 228.7B 的总参数和 256 专家意味着每个专家仅约 0.89B 参数——如果存在显著的”死专家”问题，有效参数量可能远低于名义值。

通信开销： 在分布式训练和推理中，MoE 的关键瓶颈是 all-to-all 通信——每个 token 需要被路由到可能分布在不同 GPU 上的 8 个专家。256 专家意味着更高的分布稀疏性，对 GPU 间通信带宽的要求更高。FP8 精度在一定程度上缓解了通信压力（数据量减半），但 all-to-all 的延迟问题依然存在。

深度分析

1. MoE 架构的规模极限在哪里

M2.7 的 256 专家已接近当前 MoE 架构的工程极限。更多的专家（如 512 或 1024）面临三重挑战：

路由精度：专家越多，准确将 token 分配到正确专家的难度越高。
通信成本：all-to-all 通信随专家数线性增长。
训练稳定性：更多专家意味着更稀疏的梯度信号，训练不稳定性增加。

DeepSeek-V3 和 M2.7 都选择了 256 专家 + 8 激活，这可能不是巧合而是当前硬件和算法条件下的”甜点”配置。下一代 MoE 的突破可能不在于增加专家数量，而在于更智能的路由算法（如可微分路由、层级路由）或更高效的通信原语。

2. Self-Evolution 的可信度评估

100+ 轮 self-evolution、30% 性能提升——这些数字需要审慎对待：

30% 提升的基线是什么？ 如果是 self-evolution 开始前的基础模型，30% 提升是合理的（相当于多轮 RLHF + 定向微调的累积效果）。如果是 M2.5 到 M2.7 的全部提升，则需要区分架构改进和 self-evolution 各自的贡献。
过拟合风险：100+ 轮迭代在一组固定 benchmark 上优化，过拟合的可能性不容忽视。可信的验证需要展示在 held-out benchmark 或真实任务上的表现。
可复现性：MiniMax 未发布 self-evolution 的详细方法论和训练日志，第三方无法验证其声称的效果。

3. 许可证选择的商业博弈

Modified-MIT 的选择反映了 MiniMax 的一个核心矛盾：需要开源社区的反馈和传播来提升模型影响力，但不愿让竞争对手免费商用其模型。

这一矛盾在中国 AI 公司中尤为突出。DeepSeek 选择了真正开放（MIT），换来了巨大的社区声誉和全球影响力；阿里 Qwen 选择了 Apache 2.0 + 有限附加条款，平衡了开放性和控制权；MiniMax 选择了最严格的 Modified-MIT，可能在短期内保护了商业利益，但长期来看可能损害了社区信任。

对开发者的实际影响： 如果你正在评估使用 M2.7 构建产品：

个人研究和学术使用没有限制。
任何商业用途（包括内部商业工具）都需要联系 MiniMax 获取许可。
许可条款的模糊性意味着灰色地带（如：使用 M2.7 的输出来训练另一个模型算商用吗？）需要法律评估。
更安全的选择是使用 DeepSeek-V3（MIT）或 Qwen2.5（Apache 2.0）作为商用基础。

4. 中国 AI 公司的全球化竞争格局

MiniMax 的发展轨迹折射出中国 AI 创业公司的一个独特路径——通过 C 端社交 AI 应用（而非 API/企业服务）建立用户基础，再用用户数据和收入反哺模型研发。这与 OpenAI（API → ChatGPT）、Anthropic（API → Claude）的路径形成了对照。

M2.7 在编程任务上的突出表现（SWE-bench Pro 56.22%）暗示 MiniMax 可能正在将战略重心从社交 AI 向开发者工具/Agent 方向迁移——这也解释了为什么他们需要用 Modified-MIT 保护商业利益：在开发者工具市场中，模型本身就是核心产品，无限制开源等于放弃产品壁垒。

结论与展望

MiniMax M2.7 是一个技术上令人印象深刻但在开源策略上引发争议的发布。256 专家 MoE 架构和 self-evolution 训练代表了当前大模型工程的前沿探索；SWE-bench Pro 56.22% 证明了中国 AI 公司在编程任务上的快速追赶。

但 Modified-MIT 许可证的选择将长期影响 M2.7 在开源社区的接受度。在 DeepSeek-V3 已经树立了”真正 MIT 开源”标杆的背景下，任何打着开源旗号但实质限制商用的做法都会面临更严厉的审视。

后续关注：

社区独立评测：等待 OpenCompass、lmsys Arena 等独立平台的对比评测，验证 M2.7 的 benchmark 成绩是否在真实交互场景中成立。
许可证澄清：MiniMax 是否会在社区压力下调整许可证条款。
Anthropic 蒸馏诉讼进展：这一法律挑战可能影响 MiniMax 未来模型的发布策略。
MoE 路由技术细节：期待后续技术报告公开 256 专家的路由策略和专家利用率数据。