- 2024.7
- MICROSOFT
文章目录
- MELLE: Autoregressive Speech Synthesis without Vector Quantization
- abstract
- method
- 损失函数
- Autoregressive Image Generation without Vector Quantization
- abstract
- methods
- 更好的AR model
- results
MELLE: Autoregressive Speech Synthesis without Vector Quantization
abstract
- 预测连续的mel spec代替预测VQ采样。
- 难点在于:
- 如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;
- 如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
- 实际上很像是回滚到tacotron的版本,直接预测mel,算MSE(mel)+KL(mel, embedding);只是用transformer decoder来完成AR的过程,没有用具体的一层attention 实现对齐。
method
- 通过latent sampling module,将LLM的输出转换到直接预测mel spec,具体的实现方式如下
损失函数
- 回归损失:其中
y
y
y是mel-spec 真值;
y
′
y'
y′ 是latent sampling module预测的mel spec;
y
′
′
y''
y′′ 是post-net 处理之后的mel spec
- KL loss:在生成质量和latent 空间归一上很有效果,也有助于改善mel的多样性和鲁棒性;没有把
z
t
z_t
zt设置为标准高斯分布,而是
p
(
z
t
)
p(z_t)
p(zt) as
N
(
y
t
,
I
)
N(y_t,I)
N(yt,I),简化模型优化路径
- Spectrogram Flux Loss:负向,惩罚生成多帧一致的结果,
- stop loss: 累计值,no stop 预测-1,stop 预测1,因为预测结果有很多个负值,因此给正值一个很大的权重(100)
Autoregressive Image Generation without Vector Quantization
- 2024,6
- hekaiming
- 论文内容参考
abstract
- motivation:VQ限制了图像生成的清晰度,因为像素本身是连续的值,是否可以不对图片进行量化,直接拟合连续的分布。
- method:利用diffusion 强大的能力,用连续值而不是类别分布来建模自回归模型中下一个像素值的分布
methods
- 虽然不需要量化,我们依然需要用自编码器来压缩图像,减少要生成的像素数。本工作依然采取了 VQ-VAE、VQGAN 那种两阶段的生成方式,只不过把 VQ 自编码器换成了用 KL loss 约束的 VAE。
- 在每一步训练时,我们知道上下文像素是什么,也知道当前像素的真值是什么。那么,只要以上下文像素为约束,用当前像素的真值去训练一个带约束扩散模型就行了。作者把训练这种隐式描述下一个像素值分布的误差函数称为Diffusion Loss。
更好的AR model
results
- 从第一大行可以看出,Diffusion Loss 似乎对标准自回归的改进不是很明显,且这一套方法的生成能力并不出色。只有把自回归模型逐渐改进后,Diffusion Loss 的效果才能逐渐体现出来。在后几行掩码自回归模型中,Diffusion Loss 的作用还是很大的。
- 而对比前三大行,我们可以发现自回归模型的架构极大地提升了生成效果,且似乎将 Transformer 由 causal 改成 bidirect 的提升更加显著。
- 第四大行相比第三大行,提升了每次预测的词元数,主要是为了加速。这两行的对比结果表明,做了这个加速操作后,模型生成能力并没有下降多少。后续实验都是基于第四行的配置。