VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

news2026/2/11 11:08:11

NLP中Bert的进展历史
- word embedding
- ELMO
- GPT
- Bert
AudioLM: a Language Modeling Approach to Audio Generation
- abstract
- intro
- related work
VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
- abstract
- speech quantization
- training:conditional codec LM
- - AR-codec LM:acoustic prompt
  - NAR-codec LM:fine acoustic prompt

NLP中Bert的进展历史

word embedding

word embedding:每个单词one-hot编码的向量矩阵，在大语言训练之后，该矩阵可以直接提取出来，作为word embedding提取器，用于计算单词的相似度等；其中提取word embedding的方式word2vec的训练有两种：（1）提供上下文，预测目标单词，CBOW（continuous bag-of-word model）；（2）当前单词预测前后的单词。
缺点：当同一单词有不同含义的时候无法区分

在word embedding的基础上，对上下文信息进行编码，对于当前单词提供出来的是word embedding, 双向LSTM前向编码的结果，反向编码的结果（其中后两项有比较强的语义信息）。

使用transformer结构，且使用了双向编码的结果
使用了CBOW的方法，训练的时候，对于一个句子，随机mask一定比例的单词，作为预测目标。（为了避免训练把mask映射，部分mask不是替换成【mask】的方式，而是随机换成其他的单词，或者不做mask)
in-context学习的能力，对于下游任务，只需要对数据结构作一定的修改，仍然使用此结构，在重多任务上都取得比较好的结果。

在没有condition的情况下（linguistic features, MIDI seq），即使强如wavenet，也只能生成噪声。
之前的方法：使用自监督语言模型方法预训练的模型得到semantic tokens。这些token捕捉了local dependencies（phn，音乐中局部的旋律），长时特征（speech中的语言句法信息，钢琴曲中的harmony，rhythm）。——重建质量不高。
本文：（1）semantic tokens和fine-level acoustic tokens，保证高质量生成和长时依赖。且两部分互为补充（音素信息和生成质量）；（2）AudioLM音色复刻：acoustic prompt来自3s unspseech speaker的时候，可以实现音色、韵律以及录制环境的复刻。（3）AudioLM音乐生成：给了prompt之后，可以生成旋律、节奏、乐器音色一致的音乐。（4）为了防止语言延续（speech continuation）滥用，训练一个很高精度的判别器，用于判别语音是否是audioLM生成的。

neutral codec：AudioLM使用SoundStream neutral codec提取的tokens（降采样），作为序列建模的target，而且tokens可以被重建为语音。

motivation：将大数据训练语言模型的方法引入到TTS中，通过极大的数据量进行in-context learning，使用prompt-based approaches方法做zero-shot TTS
效果demo

在这里插入图片描述

使用neutral codec对speech进行量化成离散的tokens，此过程可逆，也可以将discrete tokens反变换成高质量音频。neutral codec相比于其他量化方法优点在于：（1）包含充分的说话人信息和声学信息。（2）有现成的codec decoder，不需要重新训练；（3）相比于 $\mu-law$ 变换，所需的steps更少，效率更高。
使用预训练的EnCodec作为tokenizer。输入speech采样率24kHz，经过模型将采样320倍，变成75Hz。模型是8个层级结构的CNN-residualVQ。第一维是global信息（音色，声道），后7维是细粒度的phn以及其他相关的信息，这么说是与使用的预训练模型自己训练时候的8维target提取方式有关（audioLM图，SoudnStream+wav2vecBERT）
输入10s的音频，输出是75*10=750 * 8的离散特征矩阵