Transformers 发展一览

news2024/11/23 12:48:28

动动发财的小手,点个赞吧!

Transformers 研究概览

alt

1. 介绍

近年来,深度学习的研究步伐显着加快,因此越来越难以跟上所有最新发展。尽管如此,有一个特定的研究方向因其在自然语言处理、计算机视觉和音频处理等多个领域取得的成功而备受关注。这在很大程度上归功于其高度适应性的架构。该模型称为 Transformer,它利用了该领域的一系列机制和技术(即注意力机制)。

2. 分类

迄今为止,基于 vanilla Transformer 探索了一系列全面的模型,大致可分为三类:

  • 网络结构修改
  • 预训练方法
  • 应用
alt

上面的每个类别都包含其他几个子类别,我将在接下来的部分中对其进行彻底研究。图 2. 说明了研究人员修改 Transformers 的类别。

3. 注意力

自注意力在 Transformer 中起着基本作用,尽管它在实践中有两个主要缺点。

  1. 复杂性:对于长序列,该模块成为瓶颈,因为其计算复杂度为 O(T²·D)。
  2. 结构先验:它不解决输入的结构偏差,需要将额外的机制注入训练数据,稍后它可以学习(即学习输入序列的顺序信息)。
alt

因此,研究人员探索了各种技术来克服这些缺点。

  1. 稀疏注意力:该技术试图通过考虑输入的一小部分而不是整个输入序列来降低注意力机制的计算时间和内存要求,从而生成与完整矩阵相反的稀疏矩阵。
  2. 线性化注意力:使用内核特征映射解开注意力矩阵,该方法试图以相反的顺序计算注意力,以将资源需求降低到线性复杂度。
  3. 原型和内存压缩:这一行修改试图减少查询和键值对,以实现更小的注意力矩阵,从而减少时间和计算复杂度。
  4. Low-rank self-attention:通过使用参数化或用低秩近似替换它来显式地建模自注意力矩阵的低秩属性,试图提高 transformer 的性能。
  5. 先验注意力:利用其他来源的先验注意力分布,这种方法将其他注意力分布与从输入中获得的注意力分布相结合。
  6. 改进的多头机构:有多种方法可以修改和提高多头机构的性能,可以归入该研究方向。

4. 总结

总之,Transformer 的分类学和注意力机制的各种进步显着扩展了基于 Transformer 的模型的能力和效率。稀疏注意力技术,例如基于位置和基于内容的稀疏注意力,以及线性化注意力,已经解决了传统密集注意力的计算局限性。查询原型和内存压缩方法引入了创新的方法来提高注意力机制的效率。低秩自注意力启用了参数化和近似技术,以实现更有效的注意力计算。结合先验,例如局部性建模、较低的模块先验和多任务适配器,已经在改善注意力机制方面显示出可喜的结果。最后,对多头机制的修改,例如头部行为建模、限制跨度、精细聚合和其他变体,显示出进一步提高基于 Transformer 的模型性能的潜力。

注意机制的这些进步为未来在自然语言处理、计算机视觉和机器翻译等各个领域的研究和应用提供了令人兴奋的前景。通过利用这些创新技术,基于变压器的模型可以继续突破性能和效率的界限,为高级机器学习应用开辟新的可能性。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/472917.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CLion开发工具 | 04 - CLion内置工具和插件

专栏介绍 一、CLion内置工具 1. SSH终端工具 填写ssh远程连接信息: 连接后在Terminal栏即可使用: 2. HTTP请求 填写http请求内容,并发起请求,方便的一批: 二、插件 1. 管理已安装的插件 2. 简体中文插件 3. 主题…

React 环境搭建,并打包到服务器

一. 安装node.js brew install node 二. 创建react app npx create-react-app my-app cd my-app npm start 默认使用3000端口,本地3000端口被占用,修改/node_modules/react-scripts/scripts/start.js中的端口号 // 这是start.js部分源码 const DEFAU…

【前端客栈】使用CSS实现畅销书排行榜页面

📬📫hello,各位小伙伴们,我是小浪。大家都知道,我最近是在更新各大厂的软件测试开发的面试真题,也是得到了很大的反馈和好评,几位小伙伴也是成功找到了测开的实习,非常不错。如果能前…

移除链表元素

☃️个人主页:fighting小泽 🌸作者简介:目前正在学习C语言和数据结构 🌼博客专栏:leetcode练习题 🏵️欢迎关注:评论👊🏻点赞👍🏻留言&#x1f4a…

ChatGPT 和 Elasticsearch:OpenAI 遇见私有数据(二)

在之前的文章 “ChatGPT 和 Elasticsearch:OpenAI 遇见私有数据(二)” 中,我们详细描述了如何结合 ChatGPT 及 Elasticsearch 来进行搜索。它使用了如下的架构: 在今天的文章中,我们来详细描述实现这个的详…

BatchNormalization 介绍

1 为何要用BatchNormalization 为了让深层网络更容易训练,有两种方法: 使用更好的优化器:如 SDGMomentun等; 改变网络结构,比如加入BN层,处理网络数据,让网络数据服从标准的高斯分布&#xff0…

人群计数传统方法:object detection, regression-based

数据标注方式: (1)人很少、人很大的时候用bounding box,把人从头到脚都框进长方形方框内,这个方框只用记录三个点的坐标,左下、左上、右下;测试集预测的时候,除了点的坐标还要输出这…

1. 安装Open vSwitch环境

1. 安装Open vSwitch环境 1 配置基础环境。 在VMware Workstation软件中创建一个虚拟机VM1,配置2张网卡,虚拟机VM1配置如图4-3所示。将网卡ens33地址配置为192.168.1.131/24,网卡ens34地址配置为192.168.2.131/24。 图4-3 VM1虚拟机配置 2…

(有假币,因子个数)笔试强训

博主简介:想进大厂的打工人博主主页:xyk:所属专栏: JavaEE初阶 目录 文章目录 一、选择1 二、选择2 二、[编程题]有假币 三、[编程题]因子个数 一、选择1 在使用锁保证线程安全时,可能会出现活跃度失败的情况,活跃度失败主要…

【DataGrip】手把手教你使用可视化数据库管理工具DataGrip(附数据库驱动无法下载解决办法)

博主简介:努力学习的大一在校计算机专业学生,热爱学习和创作。目前在学习和分享:数据结构、Go,Java等相关知识。博主主页: 是瑶瑶子啦所属专栏: Mysql从入门到精通近期目标:写好专栏的每一篇文章 目录 一、…

Android 面试笔记总结,建议吸收一下灵气~

android消息机制 消息机制指Handler、Looper、MessageQueue、Message之间如何工作的。 handler是用来处理消息和接收消息的中间者,handler的创建会伴随着handler中产生looper和MessageQueue,handler依赖于looper,looper依赖于MessageQueue&a…

大学生体质测试管理系统~java

摘要 大学生体质测试管理系统提供给用户一个简单方便体质测试管理信息,通过留言区互动更方便。本系统采用了B/S体系的结构,使用了java技术以及MYSQL作为后台数据库进行开发。系统主要分为系统管理员、教师和用户三个部分,系统管理员主要功能…

[论文笔记]C^3F,MCNN:图片人群计数模型

(万能代码)CommissarMa/Crowd_counting_from_scratch 代码:https://github.com/CommissarMa/Crowd_counting_from_scratch (万能代码)C^3 Framework开源人群计数框架 科普中文博文:https://zhuanlan.zhihu.com/p/65650998 框架网址:https…

[oeasy]python0141_自制模块_module_reusability_复用性

自制包内容 回忆上次内容 上次导入了外部的py文件 import my_module 导入一个自己定义的模块 可以使用my_module中的变量 不能 直接使用 my_module.py文件中的变量只要加my_module.作为前缀就可以 直接导入导入变量、函数 from my_module import pi 可以导入my_module.pi 并…

面试必问的Java 线程池原理及最佳实践

1. 概述 1.1 线程池是什么 线程池(Thread Pool)是一种基于池化思想管理线程的工具,经常出现在多线程服务器中,如MySQL。 创建线程本身开销大,反复创建并销毁,过多的占用内存。所以有大量线程创建考虑使用…

【Python_Opencv图像处理框架】直方图与傅里叶变换

写在前面 本篇文章是opencv学习的第五篇文章,主要讲解了直方图与傅里叶变换的有关操作,作为初学者,我尽己所能,但仍会存在疏漏的地方,希望各位看官不吝指正🥰 写在中间 一、直方图 ( 1 &…

软件企业利用ChatGPT的正确姿势

先来看一下现在市场环境 ChatGPT作为现象级产品横空出世之后,极大地带动了大语言模型产业和生成式AI(AIGC)产业的蓬勃发展。海外市场上,OpenAI、微软、谷歌、Meta等巨头动作频频。中国市场更是风起云涌,百度、阿里、华…

Android 源码解读-应用是如何启动的

作者:Android帅次 前言 作为多年的 Android 开发,写了不少应用,但是一个App到底是怎么启动起来的?你要说桌面点一下就启动了,那也对。但是它的启动过程呢?带着这样的疑问,咱们来一步步学习。 …

C语言 | 约瑟夫问题(猴王争夺战)

约瑟夫问题(单向循环链表的使用) 约瑟夫问题有时也称为约瑟夫斯置换,是一个出现在计算机科学和数学中的问题。在计算机编程的算法中,类似问题又称为约瑟夫环。下面我们将用猴子争大王这一故事以及采用单向循环链表这一方法来进行讲…

Lazysysadmin靶机渗透过程

准备工作 下载好靶机到本地后 VMware导入OVA 启动靶机 扫描信息 首先扫描整个C段发现主机 进一步扫描端口 从扫描结果可知: Samba服务MySQLSSH端口网站端口 先对网站进行目录遍历 发现有wordpress网站和phpmyadmin管理系统 出现了非常多遍My name is togie.可能…