*免责声明:
1\此方法仅提供参考
2\搬了其他博主的操作方法,以贴上路径.
3*
场景一: Attention is all you need
场景二: VIT
场景三: Swin v1
场景四: Swin v2
场景五: SETR
场景六: TransUNet
场景七: SegFormer
场景八: PVT
场景九: Segmeter
…
场景一:Attention is all you need
论文地址
强推–》国外学者的解读
强推–》国内学者对国外学者解读的翻译
1.1 概述
强推先看–> 《场景三:seq2seq与attention机制》
1.2 transformer网络结构
细讲 | Attention Is All You Need
1.3 encoder
1.4 decoder
tarnsformer里面的decoder阶段的mask的作用与数学描述
1.5 输入端 (位置编码)
1.6 encoder与decoder的交互形式
…
场景二: VIT (Vision Transformer)
论文地址
Vision Transformer详解
ViT(Vision Transformer)解析
【机器学习】详解 Vision Transformer (ViT)
1.1 概述
MLP更多请看–> 《场景六:神经网络》
1.2 VIT网络结构
1.3 输入端编码处理
图片编码
用于分类的class编码
位置编码
1.4 encoder
强推–>transformer系列基础知识先导篇
【正则化】DropPath/drop_path用法
1.5 MLP Head
强推–>MLP更多知识可查看 《场景五1.4 与场景六》
1.6 ViT-B/16结构图
1.7 hybrid model (cnn与transformer结合的混合模型)
1.8 参数调节
1.9 实验结果
…
场景三:swin v1
Swin Transformer 论文地址
github工程项目地址
参考一:Swin-Transformer网络结构详解
参考二:论文详解:Swin Transformer
参考三:详解Swin Transformer核心实现,经典模型也能快速调优
1.1 前言
1.2 网络结构
1.3 输入端编码处理
1.4 W-MSA ( Window Mutil-head Attention )
1.5 SW-MSA ( Shifted Window Mutil-head Attention)
1.6 Patch Merging
1.7 相对位置偏置
1.8 模型结构图
1.9 性能
…
…
you did it