Alibi:Attention With Linear Biases Enables Input Length Extrapolation

news2024/11/19 5:32:15

Alibi:Attention With Linear Biases Enables Input Length Extrapolation

  • Introduction
  • Method
  • Result
  • 参考

Introduction

假设一个模型在512token上做训练,在推理的时候,模型在更长的序列上表现叫做模型的外推性。作者表明以前的位置编码如Sin、Rotary、T5 Bias 的外推性都随着推理长度的增加变得越来越差。基于此,坐着的提出了Alibi,如下图:
在这里插入图片描述
Alibi与其他位置编码相比,随着推理token长度的增加模型对token的困惑度基本不变。
同时,Ailibi在训练速度与推理速度上都比T5与Rotary要快,与Sin相当,内存占用上也要比前者少11%。
在这里插入图片描述

Method

在这里插入图片描述

Alibi的方法十分简单,如上图,在计算 attention score的时候,会对以前的分数按照与当前的位置差距进行不同程度的惩罚。假设在计算q3与k3的attention时,q3还会考虑 k1,k2的attention,其中对q3k1就-2,对q3k2就-1。然后在乘上坡度m,其中作者发现m不需要根据不同数据选择不同的值,在使用的时候不变即可,m在不同的head上设置方法如下:
在这里插入图片描述

Result

在这里插入图片描述

参考

https://arxiv.org/pdf/2108.12409.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/699755.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS 数据变化监听函数封装

文章目录 监听函数使用用例重复添加函数,只有最后一个监听函数有效 监听函数 /*** 监听函数* param {对象} vm * param {键值} key * param {触发函数} action */ function WatchValueChange(vm, key, action) {var val vm[key]Object.defineProperty(vm, key, {e…

阿里内部流传出来的《1000 道互联网大厂 Java 工程师面试题》来袭,面试必刷,跳槽大厂神器

眼看着"金九银十"也快到来了,很多小伙伴都蠢蠢欲动想要刚给自己涨一波薪资;面试作为涨薪最直接最有效的方式,我们需要花费巨大的精力和时间来准备。除了自身的技术积累之外,掌握一定的面试技巧和熟悉最常见的面试题&…

掌握imgproc组件:opencv-图像轮廓与图像分割修复

图像轮廓与图像分割修复 1.查找并绘制轮廓1.1 寻找轮廓:findContours()函数1.2 绘制轮廓:drawContours()函数1.3 案例程序:轮廓查找 2. 寻找物体的凸包2.1 凸包2.2 寻找凸包:convexHull()函数2.3 案例:寻找和绘制物体的…

【前端|CSS系列第1篇】CSS零基础入门之CSS的基本概念和选择器

欢迎来到CSS零基础入门系列的第一篇博客!在这个系列中,我们将一起学习CSS(层叠样式表)的基础知识,探索如何为网页添加样式和布局。本篇博客将重点介绍CSS的基本概念和选择器,帮助你理解CSS的核心概念。 1.…

MAYA活塞(使用骨骼)

复制骨骼 P父子关系 创建组

根据数组中对象的某个字段分组最简洁方式

使用map数据结构的,键值唯一性进行操作 //根据年龄分组,获取目标数据格式//[{key:key,data:[{}]}]//{key:[]}const arr [{ name:test1,age:10},{ name:test2,age:20},{ name:test3,age:10},{ name:test4,age:20},{ name:test5,age:10},{ name:test6,age…

群晖 NAS WebDAV服务手机ES文件浏览器远程访问

文章目录 1. 安装启用WebDAV2. 安装cpolar3. 配置公网访问地址4. 公网测试连接5. 固定连接公网地址6. 使用固定地址测试连接 转载自cpolar极点云文章:群晖NAS搭建WebDAV服务手机ES文件浏览器远程访问 有时候我们想通过移动设备访问群晖NAS 中的文件,以满足特殊需求,…

centos7安装zabbix v4

1.获取rpm包 wget -c https://mirrors.aliyun.com/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-2.el7.noarch.rpm 2.安装 yum install zabbix-release-4.0-2.el7.noarch.rpm -y 3.关防火墙和selinux 4.下载数据库 yum install mariadb -y 5.启动数据库设置密码 …

UE4 Cesium离线生成地形

地理空间数据云 首先进这个网址,下载对应的tif以及高程(DEM) 下载CesiumLab2 在地形切片中点击添加,将黑白图像数据,添加,选择存储类型为散列文件,选择输出路径 再选择影像切片,选择…

Redis 数据类型 | Navicat 数据编辑器

Redis 有别于其他键值(key-value)存储的一个关键特性是它支持多种数据类型,包括字符串(string)、列表(list)、集合(set)、排序集合(sorted set)和…

Sparse Fuse Dense: 向高质量的深度补全3D目标检测迈进

点云的稀疏性:在远距离和遮挡区域提供的信息较差,导致难以生成精确的3D边界框。 出现了多模态融合。 图像和点云的不同表示方式使得它们难以融合,导致性能不佳。 论文提出了一种新颖的多模态框架SFD(Sparse Fuse Dense&#xf…

Docker学习笔记14

容器镜像在Docker host的存储位置: 最上面的层(layer)为读写层,也就是容器。下面的其他的层都是只读层的镜像层。并且除了最下面的一层外,其他的层都有一个指针指向自己下面的一层镜像(联合文件系统&#…

SpringMVC入门篇2 --- 请求与响应

目录 1.请求映射路径 在类上面统一设置RequestMapping注解,统一设置访问路径前缀。 在上文案例的基础上进行修改。 src/main/java/org/example/controller/UserController.java package org.example.controller;import org.springframework.stereotype.Controll…

寻寻觅觅,彩电厂商能否“智”取未来?

彩电业,还能不能好? 电视行业的发展,一直伴随着漫长的价格战。从黑白到彩电再到超大屏,从CRT到平板再到液晶,在每一轮技术革新之后,市场总会经历从落到起,从起到落的循环,然后陷入价…

重磅!2023年影响因子正式发布 , Nature/Science等顶刊普遍下降 (附名单下载)~

2023年6月28日,科睿唯安(Clarivate Analytics)发布了最新年度期刊引证报告(JCR), 其中包含我们所关注的最新影响因子(Impact Factor, IF). 科研界对每年影响因子发布可谓是翘首以待,据小编统计发现,今年的影响因子普遍…

安科瑞故障电弧探测器在建筑电气的设计与应用

安科瑞 崔丽洁 【摘要】:电气设备是建筑中不可缺少的一部分,具有较为重要的作用和意义,在应用过程中不仅能够提升建筑本身实用性能,而且可为消费者提供更加优良的生活环境。但设备一旦在运行过程中出现故障,不仅会影响…

使用python3的sqlalchemy+sqlcipher3对sqlite3数据加密,使用pysqlcipher3编译打建环境,并写项目测试

一、背景 最近有个想法,想写一个软件,前期本来想用java的springboot加vue来实现,数据库选sqlite来存储,但在用spingboot框架搭好之后,感觉这款软件更适合用python来写,java不适windows桌面系统&#xff0c…

Spring Boot 中的 Environment

Spring Boot 中的 Environment 在 Spring Boot 中,Environment 是一个重要的组件,用于管理应用程序的配置。它是一个接口,提供了访问应用程序配置属性的方法。在本文中,我们将深入探讨 Spring Boot 中的 Environment,…

Git基本操作总结

0.Git操作关系图 1.初次创建仓库 1)git ini(初次提交时使用,项目中会生成.git文件) 2)git add . 3)git commit -m “提交代码” 4)git remote add origin “http://xxx.git”(关联远程主机) / git remote rm origin …

服务器数据恢复-NetApp FAS存储误删文件夹的数据恢复案例

NetApp存储故障&分析: 某公司一台NetApp存储,工作人员误操作删除一个重要的文件夹。 虽然被删除已经有一段时间了,但是根据NetApp文件系统WAFL的特点,数据被覆盖的可能性不大。 NetApp存储数据恢复过程: 1、由于不…