Neural Architecture Search for Transformers:A Survey

news2025/4/21 14:01:24

摘要

基于 Transformer 的深度神经网络架构因其在自然语言处理 (NLP) 和计算机视觉 (CV) 领域的各种应用中的有效性而引起了极大的兴趣。这些模型是多种语言任务（例如情绪分析和文本摘要）的实际选择，取代了长短期记忆 (LSTM) 模型。视觉 Transformer (ViTs) 在视觉应用中表现出比传统卷积神经网络 (CNN) 更好的模型性能，同时需要更少的参数和训练时间。针对给定任务和数据集的神经架构设计流程极具挑战性，因为它需要多个跨学科领域的专业知识，例如信号处理、图像处理、优化和相关领域。神经架构搜索 (NAS) 是一种有前途的技术，它使用机器学习 (ML) 方法以数据驱动的方式自动化神经网络的架构设计过程。搜索方法探索了几种架构，而不需要大量人力，并且搜索到的模型优于手动构建的网络。在本文中，我们回顾了神经架构搜索技术，目标是 Transformer模型及其架构系列，例如 Transformer 的双向编码器表示 (BERT) 和 Vision Transformer。我们对大约 50 种最先进的神经架构搜索方法进行了深入的文献综述，并探索了这一快速发展的问题类别的未来方向。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2315950.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！