深度学习论文: CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications
PDF:https://arxiv.org/pdf/2408.03703
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
在相关研究中,视觉 Transformer(ViT)虽凭借 token mixer 的强大全局上下文能力取得了显著进展,但也面临着 token mixer 中矩阵操作(如 Softmax)复杂度高,以及在移动设备或实时应用中难以兼顾准确性、效率和易部署性等问题。