摘要
Next-ViT(下一代视觉Transformer)是专为解决传统ViT模型在工业部署中遇到的推理速度慢、计算复杂度高等问题而设计的。它巧妙地结合了高效的Next Convolution Block(NCB)和Next Transformer Block(NTB),通过创新的混合策略(NHS)堆叠这些模块,从而在各种视觉任务中实现了延迟与准确性的最佳权衡。NCB擅长捕获短期依赖信息,而NTB则专注于长期依赖的建模,两者相辅相成,共同提升了网络的建模能力和推理效率。
我们将RT-DETR原有的主干网络替换为Next-ViT模块,这一改造带来了显著的性能提升。具体而言,Next-ViT模块凭借其高效的卷积和Transformer混合架构,使得RT-DETR在保持原有快速推理速度的同时,检测精度得到了大幅提升。此外,Next-ViT的部署友好型设计也使得改造后的RT-DETR在实际工业应用中更加得心应手,无论是服务器GPU还是移动设备,都能展现出卓越的性能表现。
优点如下:
-
增强的特征提取: Next-ViT模块通过其独特的Next Convo