Transformer杀疯了!王炸成果荣登Nature,实现无限上下文长度

news2024/12/24 2:45:54

继DeepMind的新设计MoD大幅提升了 Transformer 效率后,谷歌又双叒开始爆改了!

与之前荣登Nature子刊的life2vec不同,谷歌的新成果Infini-attention机制(无限注意力)将压缩内存引入到传统的注意机制中,并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

这让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比。(相当于一个存放100本书的图书馆,通过新技术能存储11400本书)

对比几种不同Transformer模型可处理上下文的长度和内存占用情况

目前,关于 Transformer 的改进非常火爆,是当前学术研究的热点之一,有丰富的研究素材和灵感可供我们参考。除Infini-attention外,还有很多Transformer改进方案效果拔群。

本文整理了22篇Transformer最新的改进方案,都是大佬团队出品,开源的都附上了代码方便复现,希望能给各位的论文加加速。

论文原文以及开源代码需要的同学看文末

Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

google

方法:论文介绍了一种有效的方法,将基于Transformer的大型语言模型(LLMs)扩展到具有有限内存和计算的无限长输入。该方法的一个关键组成部分是一种名为Infini-attention的新的注意机制。Infini-attention将压缩内存引入到传统的注意机制中,并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

创新点:

  • Infini-attention:引入了一种实际且强大的注意机制,具有长期压缩记忆和局部因果注意力,有效地建模长距离和短距离的上下文依赖关系。

  • 压缩记忆:在Infini-attention中,通过重用点积注意力计算中的查询、键和值状态(Q、K和V),而不是计算压缩记忆的新记忆条目。这种状态共享和重用使得点积注意力和压缩记忆之间的有效插入式长上下文适应变得可能,并加快了训练和推断速度。

life2vec

Using Sequences of Life-events to Predict Human Lives

DTU

方法:论文使用了一个基于Transformer架构的life2vec模型,通过将个人生活事件序列化并嵌入到向量空间中,来分析和预测人类生活的各种结果,如早逝风险和个性特征。

创新点:

  • 论文提出了一种将生命事件编码到单一向量空间的方法,这种方法不仅能够捕捉事件之间的相似性,还能够揭示事件之间的复杂相互作用。

  • 通过使用模型解释性工具,如梯度显著性图和概念激活向量(TCAV),研究者们能够解释模型是如何做出预测的,这增加了模型的透明度和可信度。

  • life2vec模型能够执行多种预测任务,从早期死亡率到个性细微差别,显示出模型的多功能性和适应性。

Searchformer

Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping

FAIR at Meta

方法:本文介绍了一种训练Transformer模型解决复杂规划任务的方法,并提出了Searchformer模型,该模型在多步规划任务(如迷宫导航和Sokoban拼图)中比传统的符号规划算法(如A* 搜索)少使用搜索步骤来计算最优解。

创新点:

  • 基于Transformer架构的Searchformer模型,通过预测A* 搜索的搜索动态来解决复杂的规划任务,实现了比A* 搜索更少的搜索步骤下计算出最优解的能力。

  • Searchformer模型通过搜索动态引导训练,能够在较小的训练数据集和较小的模型规模下达到比直接预测最优解的模型更好的性能。

  • 在迷宫导航和Sokoban拼图等复杂规划任务上,Searchformer模型表现出较高的准确性和搜索效率,为使用Transformer解决传统符号规划算法无法解决的任务提供了可能性。

iTransformer

ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING

Tsinghua University

方法:iTransformer是一种针对时间序列预测优化的Transformer模型,它通过独立嵌入变量令牌并应用自注意力机制来捕捉多变量相关性,使用前馈网络学习时间序列表示,从而提高了模型在多变量预测任务中的性能和泛化能力。

创新点:

  • iTransformer没有修改Transformer的基本组件,而是通过改变架构来提高性能,这表明了现有Transformer组件在多变量时间序列预测中的潜力。

  • 通过在变量维度上应用自注意力机制,iTransformer能够更好地捕捉多变量之间的相关性,这对于时间序列预测尤其重要。

  • iTransformer在未见过的变量上展现出良好的泛化能力,这使得模型可以在训练时使用较少的变量,而在预测时仍然能够准确预测所有变量。

  • 提出了一种新的高效训练策略,通过在每个批次中随机选择部分变量进行训练,从而显著减少了内存占用并提高了训练速度。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“爆改22”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1607863.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python--4函数def,本质、值传递、引用传递、默认值参数、*参数名、**变量、lambda [参数]: 函数、偏函数、递归、递归练习

学习目标: 函数def,本质、值传递、引用传递、默认值参数、*参数名、**变量、lambda [参数]: 函数、偏函数、递归、 递归练习 学习内容: 函数def,本质、值传递、引用传递、默认值参数、*参数名、**变量、lambda [参数]: 函数、偏函数、递归、 递归练习 …

CSS中position属性总结

CSS中position属性的总结 如果我的文章看不懂,不要犹豫,请直接看阮一峰大佬写的文章 https://www.ruanyifeng.com/blog/2019/11/css-position.html 1 干嘛用的 用来定位HTML元素位置的,通过top、bottom、right、left定位元素 分别有这些值&a…

3D模型格式转换工具HOOPS Exchange:3D CAD数据的快速导入与导出

在当今的工程设计领域中,快速且可靠地处理3D CAD数据是至关重要的。HOOPS Exchange SDK通过提供一组C软件库,为开发团队提供了实现这一目标的有效工具。 什么是HOOPS Exchange? HOOPS Exchange是一组C软件库,旨在为开发团队提供…

DNS服务器的管理与配置

目录 一、相关知识 域名空间 DNS服务器分类 域名解析过程 资源记录 二、安装DNS服务 安装bind软件包 DNS服务的启动与停止 配置主要名称服务器 主配置文件 从例子学起: (1)建立主配置文件named.conf (2)…

OpenHarmony网络协议通信c-ares [交叉编译]异步解析器库

简介 c-ares是异步解析器库,适用于需要无阻塞地执行 DNS 查询或需要并行执行多个 DNS 查询的应用程序。 下载安装 直接在OpenHarmony-SIG仓中搜索c-ares并下载。 使用说明 以OpenHarmony 3.1 Beta的rk3568版本为例 将下载的c-ares库代码存在以下路径:…

上位机图像处理和嵌入式模块部署(树莓派4b实现固件主流程)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 软件开发一般有软件需求、架构设计和详细设计、软件测试这四个部分。软件需求和软件测试都比较好理解,前者是说要实现哪些功能&#xf…

【SpringBoot+VUE+ELEMENT 】前后端分离的管理系统的实现——基础功能(记录向)

一个前后端分离的实现。后端使用SpringBoot,前端使用Vue,后端标准的四层结构,前端是用的Element。 一、环境准备 1.安装node.js Node.js 是一个开源的、跨平台的 JavaScript 运行时环境。 成功后cmd中运行 node -v npm -v 出现 对应的版本…

活动 | 华院计算与数学家一起走进世界轨道交通之都-中国株洲

4月17日,由株洲市人民政府主办、株洲高新区管委会承办,华院计算技术(上海)股份有限公司(以下简称“华院计算”)协办的“制造名城、院士同行,数学家走进株洲”活动在湖南株洲举行。 来自中国数学…

匿名函数与gorm中的Transaction事务方法

整理下go中的匿名函数,项目中很多地方都在用。 1、函数类型的变量 Go中,函数也是一种数据类型。定义一个函数,把这个函数赋值给一个变量,这个变量就是函数类型的变量,用这个变量等价于直接调函数: packa…

算法刷题记录2

4.图 4.1.被围绕的区域 思路:图中只有与边界上联通的O才不算是被X包围。因此本题就是从边界上的O开始递归,找与边界O联通的O,并标记为#(代表已遍历),最后图中剩下的O就是:被X包围的O。图中所有…

使用LVGL提升交互效率:基于启明智显Model3A方案的7寸智能屏用户界面(UI)设计介绍

项目概述: 【启明智显】,作为一家专注于HMI和AIoT解决方案的公司,我们致力于为用户提供创新、可靠且高效的产品和解决方案。近日我们推出了高性能及高性价比的HMI芯片——Model3A。芯片搭载了强大的2D图形加速引擎,能够提供高达7…

RNN知识体系构筑:详尽阐述其理论基础、技术架构及其在处理序列数据挑战中的创新应用

一、为什么需要RNN 尽管神经网络被视为一种强大且理论上能够近似任何连续函数的模型,尤其当训练数据充足时,它们能够在输入空间中的某个点( x )映射到输出空间的特定值( y ),然而,这并不能完全解释为何在众多应用场景中&#xff…

基于Spring Boot的新生宿舍管理系统设计与开发

基于Spring Boot的新生宿舍管理系统设计与开发 开发语言:Java框架:springbootJDK版本:JDK1.8数据库工具:Navicat11开发软件:eclipse/myeclipse/idea 系统部分展示 报修处理管理界面图,在报修处理管理页面…

QA测试开发工程师面试题满分问答16: 微信输入框如何设计测试用例?

可以涵盖基础功能、用户交互、编辑撤回、权限相关、网络信号、异常、并发性能和安全性等方面的测试用例: 基础功能: 验证输入框是否能够接收用户输入,并显示输入的文字。检查输入框是否支持常见的字符输入,如字母、数字、标点符号…

Unity Shader 流光 边缘光

前言 Unity2021.3.23 一、实现原理 Time控制UV的变化,再采样一张流光贴图.即可实现流光效果。 二、效果及源码展示 1.流光效果 效果描述: 1.边缘光(菲尼尔), 2.从上到下扫描光. 效果图如下: 代码如下: Shader "Unlit/ScanCode" {Properties{_MainTe…

【数据结构】树与二叉树、树与森林部分习题与算法设计例题

目录 【数据结构】树与二叉树部分习题与算法设计例题一、单选题二、算法设计题判断二叉树是否为完全二叉树求二叉树的最小深度 以及 二叉树树高 树与二叉树知识点文章: 【数据结构】树与二叉树(递归法先序、中序、后序、层次遍历二叉树、二叉树的建立以及求树高的方…

必看——通配符SSL证书在线免费申请方法!

申请通配符SSL证书,就相当于给你的网站及所有子域名都戴上同一顶加密“帽子”,保护它们的安全通信。以下是三步搞定的方法: 第一步:找权威机构 就像你要找个官方认证的地方办证明一样,先选一家靠谱的证书颁发机构&…

软考中级网络工程师-2024上岸宝典

1.软考是什么 简单说就是计算机技术 相关的国家级证书考试,想听专业点给大家截一张官网的图,不想听废话直接往下。 同为国家级证书的:注册会计师、法律职业资格证、一级建筑师,证书的价值是比较高的。 很多人都是在求职前或者大…

产废端实时音视频监控系统在运输车辆驾驶室中的应用

实时音视频监控系统可通过在运输车辆驾驶室安装音视频摄录设备,实现将运输车辆内部及周围环境音视频数据通过移动网络实时回传指挥中心的功能。 前端摄录设备主要负责采集车内外的视音频信息,为了保障车辆及运输人员 的安全,应合理选择摄录设…

探索半导体测试领域:哲讯TCC智能化管理系统的应用与优势

在半导体行业中,封装和测试环节是至关重要的一环。半导体封装测试是指将通过测试的晶圆按照产品型号及功能需求加工得到独立芯片的过程。半导体封测包括封装和测试两个环节,封装是保护芯片免受物理、化学等环境因素造成的损伤,增强芯片的散热…