论文是IEEE收录的一篇论文《CrossFormer++: A Versatile Vision Transformer Hinging on Cross-Scale Attention》(《基于跨尺度自注意力机制的多功能视觉Transformer》)
泛读完之后最大的感悟有以下几点:
1、文章在实验的结果中呈现了大量的图片和表格,并且对于自己的数据使用了高亮显示,且在括号里还标注了与最好的模型相比,精度提升的具体数值,从而读来一目了然
2、文章使用了大量的不同模型做比对,目前已知的Transformer模型进行了对比试验,对于首先提出的CrossFormer和后来改进的CrossFormer++,作者对比了现存的模型以及文章中提出的两种模型结构,消融实验也是很丰富——是否存在CEL、PGS、ACL等对准确性的影响等等。
(看来优秀论文还是得用数据说话,还得是多种模型对比下来的大量数据结果呀)
附上简单制作的思维导图,希望各路大神能够指点一二,不胜感激!