News

深度解读：FutureX 动态评测榜与国产 Agent 系统 Milkyway

信源：快科技报道解读日期：2026-04-06

一、为什么这件事重要

FutureX 是一个由字节跳动 Seed 团队、斯坦福、普林斯顿、华盛顿大学等联合发起的全球动态评测基准。它的核心差异在于：题目来自尚未揭晓结果的真实未来事件，天然免疫数据泄漏和”背答案”问题。

在 2026 年 3 月底的最新榜单中，北京中关村学院信息智能团队的 Milkyway 以 60.9 分登顶，大幅领先 xAI 的 Grok-4（25.9 分）。陈天桥团队的 MiroFlow 以 57.5 分紧随其后。这是中国团队首次在此类面向不确定性决策的全球评测中取得显著领先。

二、FutureX 评测机制解析

根据报道中的公开描述：

题目来源：每天从全球 195 个高质量信源实时采集新题，覆盖政治、金融、零售、公共卫生等领域
防作弊设计：题目在事件结果揭晓前发布，模型无法通过训练数据获取答案
分级难度：
- Level 1（基础事件）：约占 10%
- Level 2（趋势预测）：约占 20%
- Level 3-4（多步深度推理 + 高不确定性宏观预测）：合计约占 70%
评分逻辑：采用”叠加式”评分，简单的”是与否”判断只占少数分值，真正区分度在高难度长链推理

已确认的信息

Milkyway 60.9 分、MiroFlow 57.5 分、Grok-4 25.9 分——这些数字来自快科技对 FutureX 官方榜单的引用
智谱 GLM-5-thinking 37.3 分、DeepSeek-V3.2-thinking 31.2 分、通义 Qwen-3.5-plus-thinking 26.9 分
FutureX 设有垂直子榜（FutureX-Finance、FutureX-Retail、FutureX-PublicHealth 等）

需审慎对待的信息

完整的评测方法论论文未出现在本地源包中，上述评测机制描述主要来自媒体转述
Milkyway 和 MiroFlow 的底层模型、训练数据和系统架构的技术细节尚未充分公开

三、关键技术信号：Harness 层与验证机制

报道中特别提到 Milkyway / MiroFlow 的优势来自三个系统工程层面：

Harness 层（脚手架）：在基础大模型外部构建的任务编排与信息检索框架
DAG 推理协议：有向无环图结构的多步推理链路，每一步可并行、可回溯
双层验证器：每次推理输出经过两层独立验证，强制纠错

这意味着竞争焦点正在从单模型参数规模转向**“模型 + 验证 + 工作流”的系统工程**。对中国 AI 生态而言，这是一个积极信号：在底座模型未必全面领先时，Agent 外壳、任务分解和验证闭环仍然可以打出全球竞争力。

四、对比分析：为什么单模型在高难度任务上表现不佳

以 Grok-4 为例（来自报道数据）：

Level 1 简单任务：71.43 分（表现良好）
Level 3 深度推理：仅 8.21 分（断崖式下跌）

以第三方 Agent 接入的 GPT-5.2 为例：

综合仅 10.3 分

这说明：面对需要跨领域信息整合、概率推断和长链推理的真实世界问题，单模型的”裸跑”能力远不够。真正拉开差距的是系统层面的信息获取、推理编排和结果验证能力。

五、局限与观察要点

需要警惕的方面：

目前公开信息主要来自媒体转述和榜单截图，尚缺完整技术报告和社区独立复核
FutureX 作为评测平台自身的方法论成熟度也需要更多学术审查
单次榜单成绩不等于长期稳定能力，需观察后续多轮评测的一致性
Milkyway / MiroFlow 是否会公布更多技术细节和开源信息，是后续关注重点

产业启示：

对创业团队而言，“Agent Harness + 验证闭环”可能是一条不依赖超大算力的差异化路线
对投资者而言，关注的不应只是底座模型公司，还应包括在特定垂直领域构建高质量 Agent 系统的团队
FutureX 式动态评测的兴起，可能逐步取代静态 benchmark 成为衡量 AI 系统真实能力的主流方式