架构特点
EdgeNeXt是一种集CNN与Transformer于一体的混合架构,其核心创新在于引入了 分割深度转置注意力(SDTA)编码器 。这种设计巧妙地将深度卷积与自适应核大小以及转置注意力相结合,实现了最佳的精度-速度平衡。
SDTA编码器主要由两个组件构成:
-
特征编码模块 :受Res2Net架构启发,采用多尺度处理方法,将输入张量分割成多个通道组,然后对每个通道组应用深度卷积操作。这种设计能够学习自适应多尺度特征表示,使输出特征的空间感受野更加灵活和自适应。
-
自注意计算模块 :通过跨通道维度而非空间维度应用多头自注意力(MHA),有效降低了计算复杂度。具体而言,计算查询(Q)、键(K)和值(V)映射时,将L2范数应用于Q和K,然后在Q和K的转置之间的通道维度上应用点积,生成C×C的softmax缩放注意力得分矩阵。
这种创新设计使得SDTA编码器在保持较低计算复杂度的同时,能够有效编码全局信息。具体优势包括:
-
复杂度降低 :将原始自注


![P8651 [蓝桥杯 2017 省 B] 日期问题--注意日期问题中2月的天数 / if是否应该连用](https://i-blog.csdnimg.cn/direct/d7b8582f89164332873139dbbaa585f2.png)


![[含文档+PPT+源码等]精品基于Python实现的vue3+Django计算机课程资源平台](https://img-blog.csdnimg.cn/img_convert/1db1fd4398e7d71af2a7065bb4ac76eb.png)








![P8720 [蓝桥杯 2020 省 B2] 平面切分--set、pair](https://i-blog.csdnimg.cn/direct/63909a73603a4bcd9cfa909475ccdd36.png)




