News

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

原文链接：https://arxiv.org/abs/2604.07430 作者：Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu 等 21 位机构：Tencent Robotics X 实验室 & HY Vision Team 发布日期：2026-04-08

速查卡

项目	内容
一句话总结	腾讯 Robotics X 开源具身基础模型，MoT 架构以 2B 激活参数在 22 项基准中赢得 16 项，实际机器人任务最高 85% 成功率
大白话版	腾讯做了一个专门让机器人”看懂世界”并执行任务的 AI 模型。它用了一个聪明的架构（图像和文字走不同的”神经网络分支”），结果用很少的计算量（2B 激活参数）打败了参数量更大的竞争对手。更难得的是，它真的在真实机器人上测试并公开了成功率数字，不只是 benchmark 刷分。
核心数字	2B 激活参数赢 16/22 基准；Mug Hanging 成功率 75%（vs π0.5 的 50%）；平均分 58.0%（超 Qwen3-VL-4B 10.2pp）
评级	B — 重要进展，MoT 在具身 AI 的成功应用，开源可直接验证
代码	开源：https://github.com/Tencent-Hunyuan/HY-Embodied
关键词	MoT, 具身 AI, 空间推理, VLA, GRPO, 在线策略蒸馏, 腾讯 Robotics X

核心 Insight

具身 AI 的根本挑战：为什么通用 VLM 不够？

当前最强的视觉语言模型（GPT-4V、Gemini、Claude）在回答”图片里有什么”时表现出色，但让机器人用这些模型来执行现实任务时，失败率极高。原因在于两种能力的根本差异：

通用 VLM 擅长：图像描述、常识问答、视觉理解（“这张图里有一只猫”）
具身任务需要：精确空间推理（“这个杯子距离我手臂 23cm，角度 35°”）、时序动作规划（“先移动手臂到抓取位，再旋转腕部 90°”）、物理感知（“这个物体的材质是否允许直接抓取”）

HY-Embodied-0.5 的核心 Insight 是：空间-时间理解和具身推理需要专门的数据组成和模型架构，不能靠大量通用数据稀释出来。模型要真正”理解”三维世界，需要明确地训练深度估计、轨迹预测、多视角对应、时序动作序列。

为什么 MoT 是关键选择？

现有的多模态 VLM 通常用”一套权重打天下”——视觉 token 和文本 token 走同一个 FFN（前馈神经网络）。这在通用场景下是合理的（因为节省参数），但在需要精确空间推理的具身场景中，用处理文字的同一套参数来理解”这个工具头偏左 8cm”会造成模式冲突。

MoT（Mixture-of-Transformers）的思路是：让视觉 token 和文本 token 各走自己的 QKV 和 FFN 权重。视觉路径保留了双向注意力（图像没有时序因果约束），文本路径保留了因果注意力（语言生成需要）。

关键工程细节：MoT 不是从零训练两套权重——而是复制预训练 LLM 的 FFN 和 QKV 参数，用原始权重初始化视觉路径，再在多模态训练中让两条路径各自特化。这意味着：

参数量翻倍（多了一份 FFN），但激活参数不变（每个 token 只走一条路径）
推理时延接近 2B 密集基线（几乎没有 overhead）
模态特化在训练中自然涌现，而非人工设计

方法详解

整体架构

输入: 图像序列 + 文本指令
  │
  ├─ HY-ViT 2.0 (400M)
  │   ├─ 任意分辨率原生支持
  │   ├─ 离散表示 (codebook 2k, 8×8 patch)
  │   └─ 视觉潜在 token (learnable, 全局对齐)
  │
  ├─ MoT 融合层
  │   ├─ 视觉 token → 复制的 QKV/FFN + 双向注意力
  │   └─ 文本 token → 原始 QKV/FFN + 因果注意力
  │
  └─ 输出
      ├─ 语言回复 (文本)
      ├─ 空间预测 (坐标, 深度, 轨迹)
      └─ VLA 控制信号 (下游机器人接口)

两个规模档位：

MoT-2B：4B 总参数，2.2B 激活参数，面向边缘设备/机器人本地推理
MoE-A32B：约 32B 激活参数，面向高精度推理任务

关键技术组件

组件 1: HY-ViT 2.0

做什么： 将输入图像转换为视觉 token，同时学习全局场景理解和离散视觉表示。

怎么做：

任意分辨率支持：机器人摄像头输入分辨率不固定，ViT 需要在任意尺寸下稳定工作
双重监督信号：
- 视觉重建损失：通过 codebook（大小 2000）学习离散视觉表示，监督目标是下一个视觉 code 的预测
$L_\text{vision} = -\frac{1}{N_v} \sum_i \log p_i(z_i)$
- 全局对齐损失：可学习的”潜在 token”（Latent Token）与更大的教师 ViT 的全局特征对齐
$L_\text{global} = -\frac{f'_\text{latent} \cdot f_\text{teacher}}{\|f_\text{latent}\| \|f_\text{teacher}\|}$
- 总损失： $L_\text{total} = L_\text{llm} + L_\text{vision} + L_\text{global}$

直觉解释： 用”重建图像”和”匹配大模型特征”两个任务强迫 ViT 既学习精细局部信息（重建需要），也学习全局语义（匹配需要）。

组件 2: MoT（Mixture-of-Transformers）多模态融合

做什么： 让视觉信息和语言信息在 Transformer 中用各自适合的路径处理，避免模态间的参数冲突。

怎么做： 在每个 Transformer 层中：

视觉 token → 复制的 FFN + 复制的 QKV（视觉特化路径）
文本 token → 原始 FFN + 原始 QKV（语言特化路径）
注意力机制：视觉用双向注意力，文本用因果注意力

关键工程细节：

初始化: 复制预训练 LLM 的 FFN 和 QKV 权重
        视觉路径 ← 预训练权重 (拷贝)
        文本路径 ← 预训练权重 (原始)
训练: 两条路径各自特化，互不干扰
推理: 每个 token 只通过一条路径，无 overhead

为什么 overhead 接近零： 尽管参数量翻倍，但每次前向传播中视觉 token 走视觉路径，文本 token 走文本路径。不存在”判断走哪条路”的额外计算（类似 MoE 的 router overhead），因为模态本身就是判断条件。

组件 3: 三阶段迭代自进化后训练

这是论文中最重要的训练创新，解决了具身模型从”能力存在”到”推理激活”的跨越问题。

Stage 1 — Cold-Start SFT（冷启动）：

数据：约 10 万条人机协作构建的思维链（Chain-of-Thought）实例
目标：让模型学会”有结构地思考具身任务”
质量标准：从推理质量和逻辑正确性两个维度评估

Stage 2 — GRPO 强化学习（能力探索）：

动态数据构建：丢弃”全对”的（太简单）和”全错”的（太难）样本，保留”部分成功”的样本。这确保了 RL 训练始终在”当前能力的边界”上探索。
相对优势归一化： $A_i = \frac{r_i - \mu(r)}{\sigma(r)}$ （组内相对排名，避免绝对奖励标度影响）
任务感知奖励设计（针对具身任务特化）：

任务类型	奖励设计
抓取/检测	IoU（交并比）、中心距离误差
回归预测	数值误差（如深度估计的 RMSE）
轨迹规划	DTW（动态时间规整）、弗雷歇距离
文本理解	LLM-as-Judge 后备评分

训练参数：组大小 G=16，每轮 5 万样本，5 个 epoch，学习率 8×10⁻⁷

Stage 3 — 拒绝采样微调（RFT，能力固化）：

从约 100 万候选中过滤出约 30 万条高质量轨迹
通过 SFT 将 RL 阶段发现的高质量推理模式”固化”成稳定行为
作用：RL 给了模型探索新解法的能力，RFT 把好的解法稳定下来，防止 RL 训练的高方差

组件 4: 在线策略蒸馏（大模型 → 小模型）

做什么： 将 32B 大模型的高级推理能力迁移到 2B 小模型，同时保留小模型的推理效率。

怎么做： 最小化 KL 散度，但关键在于”在学生模型自己的解码状态上”计算 KL——而不是拿教师模型生成的序列做模仿学习：

$L_\text{OPD} = \mathbb{E}\left[\frac{1}{|y|} \sum_t \text{KL}\left(\pi_t(\cdot | x, y_{<t}) \| \pi_s(\cdot | x, y_{<t})\right)\right]$

直觉： 传统知识蒸馏是”学生看教师的答案，然后模仿”。这里的 On-Policy 蒸馏是”学生自己解码到当前位置，然后对比教师在同一位置的分布”——这给了学生更丰富的信号（不只是终止答案，而是每一步的策略分布），且避免了分布偏移问题。

训练数据组成

预训练语料（625B token）：

通用理解数据：389B token
具身与感知数据：236B token
- 空间与机器人数据：43%
- 视觉感知数据：57%

视觉感知数据（约 1.14 亿样本）：

类别	样本量	内容
全能检测（Omni-Detection）	6200万	2D/3D 边界框
深度估计	3600万	绝对深度 + 相对深度
图像分割	500万	来自 SA-1B
指向与计数	1100万	空间定位

空间核心数据（5 大类）：

对应关系：跨帧点匹配、2D-3D 映射
几何：深度估计、深度对比
配置：物体计数、相对位置
度量：尺寸、距离、房间面积估计
动态：相机自运动、物体运动跟踪

中间训练阶段（25M 样本）： 混合比例 = 通用:具身:空间 = 12:5:3

实验结果

主实验：2B 激活参数 vs 竞品

以下是 HY-MoT-2B 在 22 项基准中的完整对比（参数更大的竞品以灰色标注）：

基准	HY-MoT-2B	Qwen3-VL-2B	RoboBrain-2.5	MiMo-Embodied-7B
视觉感知
CV-Bench	89.2	80.0	85.7	88.8
DA-2K	92.3	69.5	76.5	72.2
具身理解
ERQA	54.5	41.8	47.3	46.8
EmbSpatial-Bench	82.8	75.9	80.7	76.2
RoboBench-MCQ	49.2	36.9	45.8	43.6
RoboBench-Planning	54.2	36.2	36.4	58.7
RoboSpatial-Home	55.7	45.3	63.2	61.8
ShareRobot-Affordance	26.8	19.8	25.5	9.0
ShareRobot-Trajectory	73.3	41.6	62.2	50.6
Ego-Plan2	45.5	35.5	38.8	39.9
空间理解
3DSRBench	57.0	39.9	43.9	42.0
All-Angles Bench	55.1	42.3	46.7	49.0
MindCube	66.3	28.4	31.0	36.2
MMSI-Bench	33.2	23.6	25.1	31.9
RefSpatial-Bench	45.8	28.9	45.3	48.0
SAT	76.7	45.3	56.7	78.7
SIBench-mini	58.2	42.0	50.9	53.1
SITE-Bench-Image	62.7	52.3	61.0	49.9
SITE-Bench-Video	63.5	52.2	58.0	58.9
ViewSpatial	53.1	37.2	41.6	36.1
VSIBench	60.5	48.0	55.2	48.5
Where2Place	68.0	45.0	59.0	63.6
平均	58.0	42.2（估）	50.7（估）	51.5（估）

解读：

赢 16/22 项，平均分 58.0%，比 Qwen3-VL-4B（注意：比较对象是 4B 而非 2B）高 10.2pp
输掉的 6 项（RoboBench-Planning、RoboSpatial-Home、RefSpatial-Bench、SAT、RoboBench-Planning、Where2Place 子集）集中在”需要长时序规划”或”精确 3D 位置匹配”的任务，这是 2B 规模在复杂空间推理上的自然上界

32B 大模型 vs 前沿闭源模型

模型	机构	平均分
HY-MoE-A32B	Tencent	67.0
Seed 2.0	ByteDance	66.2
Qwen 3.5 A17B	Alibaba	66.1
Gemini 3.0 Pro	Google	63.6
Kimi K2.5	Moonshot	61.1

HY-MoE-A32B 以 3.4 分优势超过 Gemini 3.0 Pro，且在 7 项任务（32%）中排名第一，6 项（27%）中排名第二。

真实机器人任务成功率

测试平台：双臂 Xtrainer 机器人，带头部和腕部摄像头

任务	HY-VLA	π0.5	π0
精密插件装配	85%	85%	80%
餐具叠放	80%	85%	60%
马克杯挂架	75%	50%	45%

解读：

马克杯挂架（Mug Hanging）是最能体现差距的任务：需要精确的三维空间感知和灵巧控制。HY-VLA 75% vs π0（Physical Intelligence）的 45%，差距高达 30pp。
精密插件装配与 π0.5 持平（85%），说明在精细操作领域已达到最强具身 AI 创业公司的水平。
预训练使用了 5000 小时的 UMI（Universal Manipulation Interface）数据，每项任务 SFT 使用 300-700 个真实机器人演示。

复现评估

维度	评分	详细说明
代码可得性	⭐⭐⭐⭐	GitHub 已开源：https://github.com/Tencent-Hunyuan/HY-Embodied，含权重
数据可得性	⭐⭐⭐	预训练数据部分内部数据集，但评测数据集大多公开
算力需求	⭐⭐	MoT-2B 可在单 GPU 推理，但训练仍需多卡（Stage 2 GRPO 需要大批量）
工程复杂度	⭐⭐⭐	三阶段训练流程较复杂，但有代码参考；VLA 控制器接口需额外配置
预期收益	⭐⭐⭐⭐	对具身 AI 研究者直接可用；对机器人工程师需要额外的控制器适配

复现建议：

直接下载 HY-MoT-2B 权重，在标准具身基准上跑推理评测（最快路径，1-2 天）
如需在自己机器人上部署，参考 VLA 章节的控制器接口说明，需要额外的机械臂适配工作
三阶段训练流程如需复现，预估需要 8 张 A100 以上 GPU，分阶段约 1-2 周

批判性分析

局限性

论文承认的：

没有明确讨论局限性章节（这本身是一个局限）

我们额外观察到的：

基准分布偏移问题依然存在： 22 项基准中的任务设计（即使是具身专项的），与真正开放世界的机器人操作仍有较大差距。Robot 实验只用了 3 种任务，而真实家庭/工厂场景的长尾任务分布要复杂得多。
MoT overhead “接近零”的说法需要量化： 论文声称 MoT 推理时延接近密集 2B 基线，但没有给出具体延迟数字（ms）。对实时机器人控制（需要 >25fps），这个数字很关键。
5000 小时 UMI 预训练数据的可获得性： UMI 数据是人工演示采集的，5000 小时代表大量人工标注投入，这对资源有限的研究团队复现完整流程是瓶颈。
“胜过参数量更大的竞品”的比较公平性： 和 Qwen3-VL-4B 比而非 Qwen3-VL-2B 比，说明 4B 密集模型在具身任务上仍不如 HY-MoT-2B（激活 2.2B）。但和 7B 级别竞品的比较中，HY-MoT-2B 在部分任务上输掉了——说明激活参数对能力上界的限制是真实存在的。

改进方向

更长任务序列的测试： 目前 3 种机器人任务都是单次动作序列，长时序规划（10+ 步骤）的表现未知。
跨机器人泛化性： 在 Xtrainer 上训练的 VLA 是否能直接泛化到其他机械臂平台（UR5、Franka）？这是具身 AI 商业化的关键问题。
在线持续学习： 目前训练-部署是分离的，机器人在实际使用中无法自我改进。RL 训练的经验是否可以在部署后持续累积？

对领域的影响

短期： HY-Embodied-0.5 的开源为具身 AI 社区提供了目前公认最强的边缘端开源基础模型，社区会基于此快速迭代应用（机械臂控制、仓储机器人、服务机器人）。

中期： MoT 架构的成功说明”模态特化分支 + 参数共享初始化”是一个值得更广泛探索的方向。它和 MoE 的精神类似但实现更简单——可能对通用多模态 VLM 的架构优化也有启发。

长期： 腾讯 Robotics X 开源具身基础模型，意味着腾讯已具备生态竞争底气。当 Google（Genie/RT-2）、Meta（开源 LLM for Robotics）、Anthropic（Computer Use）、腾讯都在具身 AI 赛道投入时，行业会快速进入平台收敛期。下一个竞争维度将是”数据飞轮”——谁有更多真实机器人演示数据，谁就有持续优势。