HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents
原文链接:https://arxiv.org/abs/2604.07430 作者:Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu 等 21 位 机构:Tencent Robotics X 实验室 & HY Vision Team 发布日期:2026-04-08
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 腾讯 Robotics X 开源具身基础模型,MoT 架构以 2B 激活参数在 22 项基准中赢得 16 项,实际机器人任务最高 85% 成功率 |
| 大白话版 | 腾讯做了一个专门让机器人”看懂世界”并执行任务的 AI 模型。它用了一个聪明的架构(图像和文字走不同的”神经网络分支”),结果用很少的计算量(2B 激活参数)打败了参数量更大的竞争对手。更难得的是,它真的在真实机器人上测试并公开了成功率数字,不只是 benchmark 刷分。 |
| 核心数字 | 2B 激活参数赢 16/22 基准;Mug Hanging 成功率 75%(vs π0.5 的 50%);平均分 58.0%(超 Qwen3-VL-4B 10.2pp) |
| 评级 | B — 重要进展,MoT 在具身 AI 的成功应用,开源可直接验证 |
| 代码 | 开源:https://github.com/Tencent-Hunyuan/HY-Embodied |
| 关键词 | MoT, 具身 AI, 空间推理, VLA, GRPO, 在线策略蒸馏, 腾讯 Robotics X |
核心 Insight
具身 AI 的根本挑战:为什么通用 VLM 不够?
当前最强的视觉语言模型(GPT-4V、Gemini、Claude)在回答”图片里有什么”时表现出色,但让机器人用这些模型来执行现实任务时,失败率极高。原因在于两种能力的根本差异:
- 通用 VLM 擅长:图像描述、常识问答、视觉理解(“这张图里有一只猫”)
- 具身任务需要:精确空间推理(“这个杯子距离我手臂 23cm,角度 35°”)、时序动作规划(“先移动手臂到抓取位,再旋转腕部 90°”)、物理感知(“这个物体的材质是否允许直接抓取”)
HY-Embodied-0.5 的核心 Insight 是:空间-时间理解和具身推理需要专门的数据组成和模型架构,不能靠大量通用数据稀释出来。模型要真正”理解”三维世界,需要明确地训练深度估计、轨迹预测、多视角对应、时序动作序列。
为什么 MoT 是关键选择?
现有的多模态 VLM 通常用”一套权重打天下”——视觉 token 和文本 token 走同一个 FFN(前馈神经网络)。这在通用场景下是合理的(因为节省参数),但在需要精确空间推理的具身场景中,用处理文字的同一套参数来理解”这个工具头偏左 8cm”会造成模式冲突。
MoT(Mixture-of-Transformers)的思路是:让视觉 token 和文本 token 各走自己的 QKV 和 FFN 权重。视觉路径保留了双向注意力(图像没有时序因果约束),文本路径保留了因果注意力(语言生成需要)。
关键工程细节:MoT 不是从零训练两套权重——而是复制预训练 LLM 的 FFN 和 QKV 参数,用原始权重初始化视觉路径,再在多模态训练中让两条路径各自特化。这意味着:
- 参数量翻倍(多了一份 FFN),但激活参数不变(每个 token 只走一条路径)
- 推理时延接近 2B 密集基线(几乎没有 overhead)
- 模态特化在训练中自然涌现,而非人工设计
方法详解
整体架构
输入: 图像序列 + 文本指令
│
├─ HY-ViT 2.0 (400M)
│ ├─ 任意分辨率原生支持
│ ├─ 离散表示 (codebook 2k, 8×8 patch)
│ └─ 视觉潜在 token (learnable, 全局对齐)
│
├─ MoT 融合层
│ ├─ 视觉 token → 复制的 QKV/FFN + 双向注意力
│ └─ 文本 token → 原始 QKV/FFN + 因果注意力
│
└─ 输出
├─ 语言回复 (文本)
├─ 空间预测 (坐标, 深度, 轨迹)
└─ VLA 控制信号 (下游机器人接口)
两个规模档位:
- MoT-2B:4B 总参数,2.2B 激活参数,面向边缘设备/机器人本地推理
- MoE-A32B:约 32B 激活参数,面向高精度推理任务
关键技术组件
组件 1: HY-ViT 2.0
做什么: 将输入图像转换为视觉 token,同时学习全局场景理解和离散视觉表示。
怎么做:
-
任意分辨率支持:机器人摄像头输入分辨率不固定,ViT 需要在任意尺寸下稳定工作
-
双重监督信号:
- 视觉重建损失:通过 codebook(大小 2000)学习离散视觉表示,监督目标是下一个视觉 code 的预测
- 全局对齐损失:可学习的”潜在 token”(Latent Token)与更大的教师 ViT 的全局特征对齐
- 总损失:
直觉解释: 用”重建图像”和”匹配大模型特征”两个任务强迫 ViT 既学习精细局部信息(重建需要),也学习全局语义(匹配需要)。
组件 2: MoT(Mixture-of-Transformers)多模态融合
做什么: 让视觉信息和语言信息在 Transformer 中用各自适合的路径处理,避免模态间的参数冲突。
怎么做: 在每个 Transformer 层中:
- 视觉 token → 复制的 FFN + 复制的 QKV(视觉特化路径)
- 文本 token → 原始 FFN + 原始 QKV(语言特化路径)
- 注意力机制:视觉用双向注意力,文本用因果注意力
关键工程细节:
初始化: 复制预训练 LLM 的 FFN 和 QKV 权重
视觉路径 ← 预训练权重 (拷贝)
文本路径 ← 预训练权重 (原始)
训练: 两条路径各自特化,互不干扰
推理: 每个 token 只通过一条路径,无 overhead
为什么 overhead 接近零: 尽管参数量翻倍,但每次前向传播中 视觉 token 走视觉路径,文本 token 走文本路径。不存在”判断走哪条路”的额外计算(类似 MoE 的 router overhead),因为模态本身就是判断条件。
组件 3: 三阶段迭代自进化后训练
这是论文中最重要的训练创新,解决了具身模型从”能力存在”到”推理激活”的跨越问题。
Stage 1 — Cold-Start SFT(冷启动):
- 数据:约 10 万条人机协作构建的思维链(Chain-of-Thought)实例
- 目标:让模型学会”有结构地思考具身任务”
- 质量标准:从推理质量和逻辑正确性两个维度评估
Stage 2 — GRPO 强化学习(能力探索):
- 动态数据构建:丢弃”全对”的(太简单)和”全错”的(太难)样本,保留”部分成功”的样本。这确保了 RL 训练始终在”当前能力的边界”上探索。
- 相对优势归一化:(组内相对排名,避免绝对奖励标度影响)
- 任务感知奖励设计(针对具身任务特化):
| 任务类型 | 奖励设计 |
|---|---|
| 抓取/检测 | IoU(交并比)、中心距离误差 |
| 回归预测 | 数值误差(如深度估计的 RMSE) |
| 轨迹规划 | DTW(动态时间规整)、弗雷歇距离 |
| 文本理解 | LLM-as-Judge 后备评分 |
- 训练参数:组大小 G=16,每轮 5 万样本,5 个 epoch,学习率 8×10⁻⁷
Stage 3 — 拒绝采样微调(RFT,能力固化):
- 从约 100 万候选中过滤出约 30 万条高质量轨迹
- 通过 SFT 将 RL 阶段发现的高质量推理模式”固化”成稳定行为
- 作用:RL 给了模型探索新解法的能力,RFT 把好的解法稳定下来,防止 RL 训练的高方差
组件 4: 在线策略蒸馏(大模型 → 小模型)
做什么: 将 32B 大模型的高级推理能力迁移到 2B 小模型,同时保留小模型的推理效率。
怎么做: 最小化 KL 散度,但关键在于”在学生模型自己的解码状态上”计算 KL——而不是拿教师模型生成的序列做模仿学习:
直觉: 传统知识蒸馏是”学生看教师的答案,然后模仿”。这里的 On-Policy 蒸馏是”学生自己解码到当前位置,然后对比教师在同一位置的分布”——这给了学生更丰富的信号(不只是终止答案,而是每一步的策略分布),且避免了分布偏移问题。
训练数据组成
预训练语料(625B token):
- 通用理解数据:389B token
- 具身与感知数据:236B token
- 空间与机器人数据:43%
- 视觉感知数据:57%
视觉感知数据(约 1.14 亿样本):
| 类别 | 样本量 | 内容 |
|---|---|---|
| 全能检测(Omni-Detection) | 6200万 | 2D/3D 边界框 |
| 深度估计 | 3600万 | 绝对深度 + 相对深度 |
| 图像分割 | 500万 | 来自 SA-1B |
| 指向与计数 | 1100万 | 空间定位 |
空间核心数据(5 大类):
- 对应关系:跨帧点匹配、2D-3D 映射
- 几何:深度估计、深度对比
- 配置:物体计数、相对位置
- 度量:尺寸、距离、房间面积估计
- 动态:相机自运动、物体运动跟踪
中间训练阶段(25M 样本): 混合比例 = 通用:具身:空间 = 12:5:3
实验结果
主实验:2B 激活参数 vs 竞品
以下是 HY-MoT-2B 在 22 项基准中的完整对比(参数更大的竞品以灰色标注):
| 基准 | HY-MoT-2B | Qwen3-VL-2B | RoboBrain-2.5 | MiMo-Embodied-7B |
|---|---|---|---|---|
| 视觉感知 | ||||
| CV-Bench | 89.2 | 80.0 | 85.7 | 88.8 |
| DA-2K | 92.3 | 69.5 | 76.5 | 72.2 |
| 具身理解 | ||||
| ERQA | 54.5 | 41.8 | 47.3 | 46.8 |
| EmbSpatial-Bench | 82.8 | 75.9 | 80.7 | 76.2 |
| RoboBench-MCQ | 49.2 | 36.9 | 45.8 | 43.6 |
| RoboBench-Planning | 54.2 | 36.2 | 36.4 | 58.7 |
| RoboSpatial-Home | 55.7 | 45.3 | 63.2 | 61.8 |
| ShareRobot-Affordance | 26.8 | 19.8 | 25.5 | 9.0 |
| ShareRobot-Trajectory | 73.3 | 41.6 | 62.2 | 50.6 |
| Ego-Plan2 | 45.5 | 35.5 | 38.8 | 39.9 |
| 空间理解 | ||||
| 3DSRBench | 57.0 | 39.9 | 43.9 | 42.0 |
| All-Angles Bench | 55.1 | 42.3 | 46.7 | 49.0 |
| MindCube | 66.3 | 28.4 | 31.0 | 36.2 |
| MMSI-Bench | 33.2 | 23.6 | 25.1 | 31.9 |
| RefSpatial-Bench | 45.8 | 28.9 | 45.3 | 48.0 |
| SAT | 76.7 | 45.3 | 56.7 | 78.7 |
| SIBench-mini | 58.2 | 42.0 | 50.9 | 53.1 |
| SITE-Bench-Image | 62.7 | 52.3 | 61.0 | 49.9 |
| SITE-Bench-Video | 63.5 | 52.2 | 58.0 | 58.9 |
| ViewSpatial | 53.1 | 37.2 | 41.6 | 36.1 |
| VSIBench | 60.5 | 48.0 | 55.2 | 48.5 |
| Where2Place | 68.0 | 45.0 | 59.0 | 63.6 |
| 平均 | 58.0 | 42.2(估) | 50.7(估) | 51.5(估) |
解读:
- 赢 16/22 项,平均分 58.0%,比 Qwen3-VL-4B(注意:比较对象是 4B 而非 2B)高 10.2pp
- 输掉的 6 项(RoboBench-Planning、RoboSpatial-Home、RefSpatial-Bench、SAT、RoboBench-Planning、Where2Place 子集)集中在”需要长时序规划”或”精确 3D 位置匹配”的任务,这是 2B 规模在复杂空间推理上的自然上界
32B 大模型 vs 前沿闭源模型
| 模型 | 机构 | 平均分 |
|---|---|---|
| HY-MoE-A32B | Tencent | 67.0 |
| Seed 2.0 | ByteDance | 66.2 |
| Qwen 3.5 A17B | Alibaba | 66.1 |
| Gemini 3.0 Pro | 63.6 | |
| Kimi K2.5 | Moonshot | 61.1 |
HY-MoE-A32B 以 3.4 分优势超过 Gemini 3.0 Pro,且在 7 项任务(32%)中排名第一,6 项(27%)中排名第二。
真实机器人任务成功率
测试平台:双臂 Xtrainer 机器人,带头部和腕部摄像头
| 任务 | HY-VLA | π0.5 | π0 |
|---|---|---|---|
| 精密插件装配 | 85% | 85% | 80% |
| 餐具叠放 | 80% | 85% | 60% |
| 马克杯挂架 | 75% | 50% | 45% |
解读:
- 马克杯挂架(Mug Hanging)是最能体现差距的任务:需要精确的三维空间感知和灵巧控制。HY-VLA 75% vs π0(Physical Intelligence)的 45%,差距高达 30pp。
- 精密插件装配与 π0.5 持平(85%),说明在精细操作领域已达到最强具身 AI 创业公司的水平。
- 预训练使用了 5000 小时的 UMI(Universal Manipulation Interface)数据,每项任务 SFT 使用 300-700 个真实机器人演示。
复现评估
| 维度 | 评分 | 详细说明 |
|---|---|---|
| 代码可得性 | ⭐⭐⭐⭐ | GitHub 已开源:https://github.com/Tencent-Hunyuan/HY-Embodied,含权重 |
| 数据可得性 | ⭐⭐⭐ | 预训练数据部分内部数据集,但评测数据集大多公开 |
| 算力需求 | ⭐⭐ | MoT-2B 可在单 GPU 推理,但训练仍需多卡(Stage 2 GRPO 需要大批量) |
| 工程复杂度 | ⭐⭐⭐ | 三阶段训练流程较复杂,但有代码参考;VLA 控制器接口需额外配置 |
| 预期收益 | ⭐⭐⭐⭐ | 对具身 AI 研究者直接可用;对机器人工程师需要额外的控制器适配 |
复现建议:
- 直接下载 HY-MoT-2B 权重,在标准具身基准上跑推理评测(最快路径,1-2 天)
- 如需在自己机器人上部署,参考 VLA 章节的控制器接口说明,需要额外的机械臂适配工作
- 三阶段训练流程如需复现,预估需要 8 张 A100 以上 GPU,分阶段约 1-2 周
批判性分析
局限性
论文承认的:
- 没有明确讨论局限性章节(这本身是一个局限)
我们额外观察到的:
-
基准分布偏移问题依然存在: 22 项基准中的任务设计(即使是具身专项的),与真正开放世界的机器人操作仍有较大差距。Robot 实验只用了 3 种任务,而真实家庭/工厂场景的长尾任务分布要复杂得多。
-
MoT overhead “接近零”的说法需要量化: 论文声称 MoT 推理时延接近密集 2B 基线,但没有给出具体延迟数字(ms)。对实时机器人控制(需要 >25fps),这个数字很关键。
-
5000 小时 UMI 预训练数据的可获得性: UMI 数据是人工演示采集的,5000 小时代表大量人工标注投入,这对资源有限的研究团队复现完整流程是瓶颈。
-
“胜过参数量更大的竞品”的比较公平性: 和 Qwen3-VL-4B 比而非 Qwen3-VL-2B 比,说明 4B 密集模型在具身任务上仍不如 HY-MoT-2B(激活 2.2B)。但和 7B 级别竞品的比较中,HY-MoT-2B 在部分任务上输掉了——说明激活参数对能力上界的限制是真实存在的。
改进方向
-
更长任务序列的测试: 目前 3 种机器人任务都是单次动作序列,长时序规划(10+ 步骤)的表现未知。
-
跨机器人泛化性: 在 Xtrainer 上训练的 VLA 是否能直接泛化到其他机械臂平台(UR5、Franka)?这是具身 AI 商业化的关键问题。
-
在线持续学习: 目前训练-部署是分离的,机器人在实际使用中无法自我改进。RL 训练的经验是否可以在部署后持续累积?
对领域的影响
短期: HY-Embodied-0.5 的开源为具身 AI 社区提供了目前公认最强的边缘端开源基础模型,社区会基于此快速迭代应用(机械臂控制、仓储机器人、服务机器人)。
中期: MoT 架构的成功说明”模态特化分支 + 参数共享初始化”是一个值得更广泛探索的方向。它和 MoE 的精神类似但实现更简单——可能对通用多模态 VLM 的架构优化也有启发。
长期: 腾讯 Robotics X 开源具身基础模型,意味着腾讯已具备生态竞争底气。当 Google(Genie/RT-2)、Meta(开源 LLM for Robotics)、Anthropic(Computer Use)、腾讯都在具身 AI 赛道投入时,行业会快速进入平台收敛期。下一个竞争维度将是”数据飞轮”——谁有更多真实机器人演示数据,谁就有持续优势。