News

论文精读：VoxCPM2——无分词器扩散自回归语音合成

当 TTS 领域还在争论”用多少个离散 token 才够”时，VoxCPM2 直接跳过了这个问题：不用 token，在连续潜空间里直接生成语音。

1. 一句话定性

VoxCPM2 是 OpenBMB（清华）团队的第二代语音合成模型，核心创新在于完全消除离散分词步骤——不把语音编码为离散 token 再解码，而是在 AudioVAE 的连续潜空间中直接操作，通过 LocEnc → TSLM → RALM → LocDiT 四阶段管线实现文本到语音的端到端生成。2B 参数，30 种语言，48kHz 原生输出，Apache 2.0 开源。

2. 为什么”无分词器”是关键创新

传统 TTS 的分词瓶颈

当前主流 TTS 架构（VALL-E、VoiceCraft、CosyVoice 等）通常遵循以下范式：

文本 → 文本编码 → 离散语音 Token → Token 解码 → 波形

离散化（tokenization）步骤会引入两类信息损失：

量化误差： 将连续语音信号强制映射到有限码本（codebook），不可避免地丢失细微的韵律和音色信息
粒度限制： Token 的时间分辨率由码本设计决定，过粗则失去细节，过细则序列过长导致自回归生成效率崩塌

VoxCPM2 的解法

VoxCPM2 完全跳过离散化，在连续潜空间中操作：

文本 → LocEnc → TSLM → RALM → LocDiT → AudioVAE 解码 → 48kHz 波形

没有码本，没有量化，语音的韵律、情感、音色等连续特征在整个管线中保持无损传递。

3. 架构四阶段详解

阶段一：LocEnc（局部编码器）

规模： 4 层 Transformer
输入： 文本 token + 参考音频的 AudioVAE 编码
输出： 局部条件表示（local conditioning representation）
作用： 提取文本的局部语音先验（如音素级发音特征），为后续生成提供精细的文本-语音对齐信号

阶段二：TSLM（文本引导语音语言模型）

规模： 24 层 Transformer，从 MiniCPM-4 初始化
核心创新： 这是整个架构的”大脑”——一个在连续语音空间中自回归运行的语言模型
工作方式： 不预测下一个离散 token，而是预测连续潜空间中的下一个帧的分布参数
FSQ（Finite Scalar Quantization）瓶颈层： 256 维、9 级别的 FSQ 层作为信息瓶颈，迫使 TSLM 学习结构化的高层语音表示。FSQ 是一种轻量化量化方案，用于在连续和离散之间取得平衡——它不是用来做”分词”的，而是作为训练稳定性的正则化手段
MiniCPM-4 初始化的意义： 利用文本语言模型的预训练知识（语法、语义、多语言能力）来引导语音生成，这是 VoxCPM2 多语言能力的关键来源

阶段三：RALM（残差自回归语言模型）

规模： 6 层 Transformer
输入： TSLM 输出的粗粒度语音表示
输出： 细化的连续潜空间表示
作用： 补充 TSLM 因信息瓶颈（FSQ）而丢失的细节。类比于图像生成中的”从低分辨率到高分辨率”的超分辨率过程——TSLM 生成”轮廓”，RALM 补充”纹理”

阶段四：LocDiT（局部扩散 Transformer）

规模： 4 层 DiT（Diffusion Transformer）
方法： Flow-matching（流匹配）
输入： RALM 输出 + LocEnc 的局部条件
输出： 最终的连续潜空间表示，送入 AudioVAE 解码器生成波形
作用： 利用扩散模型的强大分布建模能力，将语音表示精炼至可直接解码为高质量波形的水平

4. AudioVAE V2：非对称编解码器

AudioVAE V2 是 VoxCPM2 的声学前端/后端，负责波形 ↔ 连续潜空间的转换：

特性	说明
编码器输入	16kHz 采样率
解码器输出	48kHz 采样率
非对称设计	编码端低采样率降低计算成本，解码端高采样率保证输出质量
超分辨率能力	解码过程内置 16kHz → 48kHz 的超分辨率，无需额外后处理

这种非对称设计的巧妙之处在于：训练时可以用大量 16kHz 语音数据（获取成本低），推理时输出 48kHz 高保真音频。

5. 训练配置

参数	值
总参数量	~2B
训练数据	>200 万小时多语言语音
语言数	30 种
训练迭代	400K（预训练）+ 100K（微调）
硬件	40× NVIDIA H100
TSLM 初始化	MiniCPM-4 预训练权重

训练策略要点：

第一阶段（400K 迭代）：全量多语言数据预训练，学习跨语言的通用语音表示
第二阶段（100K 迭代）：高质量数据微调，提升韵律自然度和音质

6. 基准测试结果

语音质量指标

指标	VoxCPM2	说明
英文 WER	1.84%	Word Error Rate，越低越好
中文 CER	0.97%	Character Error Rate，越低越好
SIM（说话人相似度）	75–79%	Speaker Similarity，衡量声音克隆准确度

1.84% 的英文 WER 和 0.97% 的中文 CER 在开源 TTS 模型中均处于领先水平——意味着生成的语音在内容准确性上几乎无错误。

推理性能

指标	标准推理	Nano-vLLM 加速
RTF（实时因子）	~0.30	~0.13
VRAM 需求	~8GB	~8GB

RTF 0.30 意味着生成 1 秒语音需要 0.30 秒计算时间——已满足实时应用需求。Nano-vLLM 加速后 RTF 降至 0.13，有充足的延迟余量。

7. 三大应用能力

7.1 语音设计（Voice Design）

仅凭自然语言描述即可创造全新声音，无需参考音频：

“一位 30 岁左右的女性，声音温暖柔和，语速中等，带有轻微的南方口音”

模型直接从文本描述生成符合要求的声音——这依赖于 TSLM 从 MiniCPM-4 继承的语义理解能力。

7.2 可控克隆（Controllable Cloning）

从短音频（几秒到几分钟）克隆目标声音，同时支持：

情感风格引导（如”用这个声音但更兴奋”）
语速调整
语调变化

7.3 LoRA 微调

仅需 5–10 分钟目标说话人的音频，即可通过 LoRA 适配实现高度个性化的声音复制。这对企业级部署尤其重要——每个客户可以用极少量数据定制专属声音。

8. 消融实验关键发现

论文的消融实验揭示了几个重要的架构设计选择：

FSQ 瓶颈的必要性： 移除 FSQ 层后，TSLM 的训练不稳定，生成质量显著下降——信息瓶颈作为正则化手段对训练稳定性至关重要
MiniCPM-4 初始化 vs 随机初始化： 从预训练 LLM 初始化 TSLM 相比随机初始化，在多语言泛化和韵律自然度上有显著优势
RALM 的必要性： 移除 RALM（直接从 TSLM 到 LocDiT）导致音质下降，说明粗→细的两阶段细化对连续潜空间方法是必要的
AudioVAE V2 vs V1： V2 的非对称设计在保持编码效率的同时，输出音质显著优于 V1 的对称设计

9. 与同期开源 TTS 模型对比

模型	架构	参数量	语言数	分词方式	许可证
VoxCPM2	扩散自回归	2B	30	无分词器	Apache 2.0
CosyVoice 2	自回归 + VITS	~1B	中/英/日	离散 token	Apache 2.0
Fish Speech	自回归	~500M	中/英	离散 token	MIT
Bark (Suno)	自回归	~1B	多语言	离散 token	MIT

VoxCPM2 在参数量、语言覆盖和架构创新上均处于开源 TTS 的最前沿。

10. 产业影响与开放问题

对 TTS 行业的影响：

开源生态空白填补： Coqui TTS 停更、Bark 更新缓慢，VoxCPM2 有望成为新的开源 TTS 标杆
无分词器路线的验证： 如果社区复现确认结果，可能推动整个 TTS 领域从离散 token 范式向连续潜空间范式迁移
社区热度信号： GitHub 24 小时内 1136 Star，说明高质量开源 TTS 的需求远未被满足

开放问题：

流式生成延迟： 扩散自回归架构在流式场景（实时对话、语音助手）中的首包延迟如何？RTF 0.13 是批量指标，流式首包延迟可能更高
2B 参数的部署门槛： 8GB VRAM 对消费级 GPU 友好，但对边缘设备和手机端仍有差距
30 语言的质量均匀性： 训练数据在语言间的分布是否均匀？低资源语言（如非洲语言、东南亚语言）的质量是否与中英文持平？
声音克隆的安全与伦理： 几秒音频即可克隆声音的能力在技术上令人印象深刻，但在伦理和法律上需要配套的使用规范

信源：