Esc
输入关键词开始搜索
News

论文精读:VoxCPM2——无分词器扩散自回归语音合成

论文精读:VoxCPM2——无分词器扩散自回归语音合成

当 TTS 领域还在争论”用多少个离散 token 才够”时,VoxCPM2 直接跳过了这个问题:不用 token,在连续潜空间里直接生成语音。

1. 一句话定性

VoxCPM2 是 OpenBMB(清华)团队的第二代语音合成模型,核心创新在于完全消除离散分词步骤——不把语音编码为离散 token 再解码,而是在 AudioVAE 的连续潜空间中直接操作,通过 LocEnc → TSLM → RALM → LocDiT 四阶段管线实现文本到语音的端到端生成。2B 参数,30 种语言,48kHz 原生输出,Apache 2.0 开源。

2. 为什么”无分词器”是关键创新

传统 TTS 的分词瓶颈

当前主流 TTS 架构(VALL-E、VoiceCraft、CosyVoice 等)通常遵循以下范式:

文本 → 文本编码 → 离散语音 Token → Token 解码 → 波形

离散化(tokenization)步骤会引入两类信息损失:

  1. 量化误差: 将连续语音信号强制映射到有限码本(codebook),不可避免地丢失细微的韵律和音色信息
  2. 粒度限制: Token 的时间分辨率由码本设计决定,过粗则失去细节,过细则序列过长导致自回归生成效率崩塌

VoxCPM2 的解法

VoxCPM2 完全跳过离散化,在连续潜空间中操作:

文本 → LocEnc → TSLM → RALM → LocDiT → AudioVAE 解码 → 48kHz 波形

没有码本,没有量化,语音的韵律、情感、音色等连续特征在整个管线中保持无损传递。

3. 架构四阶段详解

阶段一:LocEnc(局部编码器)

  • 规模: 4 层 Transformer
  • 输入: 文本 token + 参考音频的 AudioVAE 编码
  • 输出: 局部条件表示(local conditioning representation)
  • 作用: 提取文本的局部语音先验(如音素级发音特征),为后续生成提供精细的文本-语音对齐信号

阶段二:TSLM(文本引导语音语言模型)

  • 规模: 24 层 Transformer,从 MiniCPM-4 初始化
  • 核心创新: 这是整个架构的”大脑”——一个在连续语音空间中自回归运行的语言模型
  • 工作方式: 不预测下一个离散 token,而是预测连续潜空间中的下一个帧的分布参数
  • FSQ(Finite Scalar Quantization)瓶颈层: 256 维、9 级别的 FSQ 层作为信息瓶颈,迫使 TSLM 学习结构化的高层语音表示。FSQ 是一种轻量化量化方案,用于在连续和离散之间取得平衡——它不是用来做”分词”的,而是作为训练稳定性的正则化手段
  • MiniCPM-4 初始化的意义: 利用文本语言模型的预训练知识(语法、语义、多语言能力)来引导语音生成,这是 VoxCPM2 多语言能力的关键来源

阶段三:RALM(残差自回归语言模型)

  • 规模: 6 层 Transformer
  • 输入: TSLM 输出的粗粒度语音表示
  • 输出: 细化的连续潜空间表示
  • 作用: 补充 TSLM 因信息瓶颈(FSQ)而丢失的细节。类比于图像生成中的”从低分辨率到高分辨率”的超分辨率过程——TSLM 生成”轮廓”,RALM 补充”纹理”

阶段四:LocDiT(局部扩散 Transformer)

  • 规模: 4 层 DiT(Diffusion Transformer)
  • 方法: Flow-matching(流匹配)
  • 输入: RALM 输出 + LocEnc 的局部条件
  • 输出: 最终的连续潜空间表示,送入 AudioVAE 解码器生成波形
  • 作用: 利用扩散模型的强大分布建模能力,将语音表示精炼至可直接解码为高质量波形的水平

4. AudioVAE V2:非对称编解码器

AudioVAE V2 是 VoxCPM2 的声学前端/后端,负责波形 ↔ 连续潜空间的转换:

特性说明
编码器输入16kHz 采样率
解码器输出48kHz 采样率
非对称设计编码端低采样率降低计算成本,解码端高采样率保证输出质量
超分辨率能力解码过程内置 16kHz → 48kHz 的超分辨率,无需额外后处理

这种非对称设计的巧妙之处在于:训练时可以用大量 16kHz 语音数据(获取成本低),推理时输出 48kHz 高保真音频。

5. 训练配置

参数
总参数量~2B
训练数据>200 万小时多语言语音
语言数30 种
训练迭代400K(预训练)+ 100K(微调)
硬件40× NVIDIA H100
TSLM 初始化MiniCPM-4 预训练权重

训练策略要点:

  • 第一阶段(400K 迭代):全量多语言数据预训练,学习跨语言的通用语音表示
  • 第二阶段(100K 迭代):高质量数据微调,提升韵律自然度和音质

6. 基准测试结果

语音质量指标

指标VoxCPM2说明
英文 WER1.84%Word Error Rate,越低越好
中文 CER0.97%Character Error Rate,越低越好
SIM(说话人相似度)75–79%Speaker Similarity,衡量声音克隆准确度

1.84% 的英文 WER 和 0.97% 的中文 CER 在开源 TTS 模型中均处于领先水平——意味着生成的语音在内容准确性上几乎无错误。

推理性能

指标标准推理Nano-vLLM 加速
RTF(实时因子)~0.30~0.13
VRAM 需求~8GB~8GB

RTF 0.30 意味着生成 1 秒语音需要 0.30 秒计算时间——已满足实时应用需求。Nano-vLLM 加速后 RTF 降至 0.13,有充足的延迟余量。

7. 三大应用能力

7.1 语音设计(Voice Design)

仅凭自然语言描述即可创造全新声音,无需参考音频:

“一位 30 岁左右的女性,声音温暖柔和,语速中等,带有轻微的南方口音”

模型直接从文本描述生成符合要求的声音——这依赖于 TSLM 从 MiniCPM-4 继承的语义理解能力。

7.2 可控克隆(Controllable Cloning)

从短音频(几秒到几分钟)克隆目标声音,同时支持:

  • 情感风格引导(如”用这个声音但更兴奋”)
  • 语速调整
  • 语调变化

7.3 LoRA 微调

仅需 5–10 分钟目标说话人的音频,即可通过 LoRA 适配实现高度个性化的声音复制。这对企业级部署尤其重要——每个客户可以用极少量数据定制专属声音。

8. 消融实验关键发现

论文的消融实验揭示了几个重要的架构设计选择:

  1. FSQ 瓶颈的必要性: 移除 FSQ 层后,TSLM 的训练不稳定,生成质量显著下降——信息瓶颈作为正则化手段对训练稳定性至关重要
  2. MiniCPM-4 初始化 vs 随机初始化: 从预训练 LLM 初始化 TSLM 相比随机初始化,在多语言泛化和韵律自然度上有显著优势
  3. RALM 的必要性: 移除 RALM(直接从 TSLM 到 LocDiT)导致音质下降,说明粗→细的两阶段细化对连续潜空间方法是必要的
  4. AudioVAE V2 vs V1: V2 的非对称设计在保持编码效率的同时,输出音质显著优于 V1 的对称设计

9. 与同期开源 TTS 模型对比

模型架构参数量语言数分词方式许可证
VoxCPM2扩散自回归2B30无分词器Apache 2.0
CosyVoice 2自回归 + VITS~1B中/英/日离散 tokenApache 2.0
Fish Speech自回归~500M中/英离散 tokenMIT
Bark (Suno)自回归~1B多语言离散 tokenMIT

VoxCPM2 在参数量、语言覆盖和架构创新上均处于开源 TTS 的最前沿。

10. 产业影响与开放问题

对 TTS 行业的影响:

  • 开源生态空白填补: Coqui TTS 停更、Bark 更新缓慢,VoxCPM2 有望成为新的开源 TTS 标杆
  • 无分词器路线的验证: 如果社区复现确认结果,可能推动整个 TTS 领域从离散 token 范式向连续潜空间范式迁移
  • 社区热度信号: GitHub 24 小时内 1136 Star,说明高质量开源 TTS 的需求远未被满足

开放问题:

  1. 流式生成延迟: 扩散自回归架构在流式场景(实时对话、语音助手)中的首包延迟如何?RTF 0.13 是批量指标,流式首包延迟可能更高
  2. 2B 参数的部署门槛: 8GB VRAM 对消费级 GPU 友好,但对边缘设备和手机端仍有差距
  3. 30 语言的质量均匀性: 训练数据在语言间的分布是否均匀?低资源语言(如非洲语言、东南亚语言)的质量是否与中英文持平?
  4. 声音克隆的安全与伦理: 几秒音频即可克隆声音的能力在技术上令人印象深刻,但在伦理和法律上需要配套的使用规范

信源: