学习目标:
VITGAN实验
学习时间:
2023.8.12-20238.18
学习产出:
一、实验
1、内容:在原模型的基础上加上相对位置编码,结果:比原模型差
2、内容:在原模型的基础上加上可学习位置编码+相对位置编码,结果:比原模型好
3、内容:在原模型的LN层中使用傅里叶特征,结果:比原模型差
4、内容:在原模型的第一个Block和隐性神经表征使用傅里叶特征,结果:比原模型差
5、内容:将位置嵌入改为傅里叶位置编码,结果:比原模型差
二、CVPR2023图像生成论文
1、MAGE
MAE 重建的图像虽然具有与原始图像相似的语义信息,但会出现严重的模糊与失真问题,不管是扩散模型还是 GAN,都缺乏提取高质量图像特征的能力。本文作者提出了 MAGE(Masked Generative Encoder),首次实现了统一的图像生成和特征提取模型。与MIM直接作用于图像的掩码方法不同,MAGE 提出了基于图像语义符的 masked image token modeling 方法。MAGE 首先使用 VQGAN 编码器将原始图像转换为离散的语义符。之后,MAGE 对其进行随机掩码,并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构,重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率,MAGE 可以同时进行生成模型(接近 100% 掩码率)和表征学习(50%-80% 掩码率)的训练。
2、U-ViT:ViT与Difussion Model的结合
U-ViT将transformer替换掉了Difussion Model中原来的带有U-Net设计的CNN,延续ViT的方法,将带噪图片划分为多个patch之后,将时间t,条件c,和图像patch视作token输入到Transformer block,应用U-Net的long skip结构,实现利用transformer进行图像生成的任务。