摘要
基于 Transformer 的深度神经网络架构因其在自然语言处理 (NLP) 和计算机视觉 (CV) 领域的各种应用中的有效性而引起了极大的兴趣。这些模型是多种语言任务(例如情绪分析和文本摘要)的实际选择,取代了长短期记忆 (LSTM) 模型。视觉 Transformer (ViTs) 在视觉应用中表现出比传统卷积神经网络 (CNN) 更好的模型性能,同时需要更少的参数和训练时间。针对给定任务和数据集的神经架构设计流程极具挑战性,因为它需要多个跨学科领域的专业知识,例如信号处理、图像处理、优化和相关领域。神经架构搜索 (NAS) 是一种有前途的技术,它使用机器学习 (ML) 方法以数据驱动的方式自动化神经网络的架构设计过程。搜索方法探索了几种架构,而不需要大量人力,并且搜索到的模型优于手动构建的网络。在本文中,我们回顾了神经架构搜索技术,目标是 Transformer模型及其架构系列,例如 Transformer 的双向编码器表示 (BERT) 和 Vision Transformer。我们对大约 50 种最先进的神经架构搜索方法进行了深入的文献综述,并探索了这一快速发展的问题类别的未来方向。