StreamingLLM输入、输出无限长的小记

StreamingLLM输入、输出无限长的小记

news2025/4/14 16:05:33

本文中：
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星
提到了StreamingLLM可以提供给模型无限输入、无限输出的能力，大概解读一下这个概念

可以实现：

可以支持无限输入，但原理不是全记住这些输入
可以支持无限输出

1 第一个概念点：KV Cache

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

本来每次模型输出都是依次进行：

step 0 input: Lionel Messi is a player
step 1 input: Lionel Messi is a player who
step 2 input: Lionel Messi is a player who has
step 3 input: Lionel Messi is a player who has been
step 4 input: Lionel Messi is a player who has been a
step 5 input: Lionel Messi is a player who has been a key
step 6 input: Lionel Messi is a player who has been a key part
step 7 input: Lionel Messi is a player who has been a key part of
step 8 input: Lionel Messi is a player who has been a key part of the
step 9 input: Lionel Messi is a player who has been a key part of the team
step 10 input: Lionel Messi is a player who has been a key part of the team's
step 11 input: Lionel Messi is a player who has been a key part of the team's success
step 12 input: Lionel Messi is a player who has been a key part of the team's success.
step 13 input: Lionel Messi is a player who has been a key part of the team's success.

 Input: Lionel Messi is a
Output: Lionel Messi is a player who has been a key part of the team's success.

当前轮输出token与输入tokens拼接，并作为下一轮的输入tokens，反复多次。可以看出第i+1轮输入数据只比第i轮输入数据新增了一个token，其他全部相同！因此第i+1轮推理时必然包含了第 i 轮的部分计算。KV Cache，缓存当前轮可重复利用的计算结果，下一轮计算时直接读取缓存结果，就是这么简单，不存在什么Cache miss问题。

2 attention sink

attention sink这个词笔者认为是注意力机制一直关注的地方。从下图可知，也就是前几个token ，不论文章多长，前几个token一直非常重要。
在这里插入图片描述
如果文章非常长，那开头还这么重要，是不是有违常理？
这里的大概解释是，softmax导致的

由于Softmax需要所有位置的值的总和为1，因此必须“表态”给某些位置较大的权重，这就可能导致错误的权重更新，而这个错误在后续的过程中很难被纠正。

因为前几个token非常重要，
由此StreamingLLM 提供了【Window Attention的改进版】
在这里插入图片描述
attention关注两个区域：

黄色区域，attention sinks，前几个token
蓝色区域，rolling kv cache，临近的几个token

由此，为啥StreamingLLM可以支持无限输入，代表，attention只关注了以上两个部分

3 无限输出

StreamingLLM的作用更像是可以自动帮你新建会话。比如，你和一个2K窗口的机器人说话，它说到2K token就戛然而止，你需要再补个“继续”之类的，才能继续对话。
StreamingLLM帮你省了这一步，直接流式无限输出了

参考：
LLM推理技术之StreamingLLM：如何拥有无限长生成能力
最多400万token上下文、推理提速22倍，StreamingLLM火了，已获GitHub 2.5K星
StreamingLLM 框架问世，该框架有哪些功能？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1079082.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

沪深300期权一个点多少钱？

沪深300期权一个点多少钱？

经中国证监会批准，深圳证券交易所于2019年12月23日上市嘉实沪深300ETF期权合约品种。该产品是以沪深300为标的物的嘉实沪深300ETF交易型指数基金为标的衍生的标准化合约，下文介绍沪深300期权一个点多少钱?本文来自：期权酱一、沪深300期权涨…

阅读更多...

YOLOV8改进：soft-nms、DIOU-nms、SIOU-nms、EIOU-nms、WIOU-nms

YOLOV8改进：soft-nms、DIOU-nms、SIOU-nms、EIOU-nms、WIOU-nms

1.nms介绍 1.1 nms NMS（Non-Maximum Suppression，非极大值抑制）是一种常用的目标检测算法，用于抑制冗余的边界框，保留最具代表性的目标框。在目标检测任务中，通常会生成多个候选边界框（boun…

阅读更多...

基于SSM的网络安全宣传网站设计与实现

基于SSM的网络安全宣传网站设计与实现

末尾获取源码开发语言：Java Java开发工具：JDK1.8 后端框架：SSM 前端：采用JSP技术开发数据库：MySQL5.7和Navicat管理工具结合服务器：Tomcat8.5 开发软件：IDEA / Eclipse 是否Maven项目&#x…

阅读更多...

立即提升吃鸡战斗力！分享顶级游戏干货！

立即提升吃鸡战斗力！分享顶级游戏干货！

各位吃鸡玩家，您好！在这里，我将与您分享一些提高游戏战斗力的实用技巧，同时带您体验顶级游戏作战干货！ 首先，我向您推荐绝地求生作图工具。通过使用这些强大的作图工具，您可以轻松编辑出炫酷的吃…

阅读更多...

$华为OD机考算法题：字符串划分$

华为OD机考算法题：字符串划分

题目部分题目字符串划分难度难题目说明给定一个小写字母组成的字符串s，请找出字符串中两个不同位置的字符作为分割点，使得字符串分成的三个连续子串且子串权重相等，注意子串不包含分割点。若能找到满足条件的两个分割点，请输出…

阅读更多...

bert----学习笔记

bert----学习笔记

一个简单基础模板： bert导入，分词，编码 from transformers import BertConfig, BertTokenizer, BertModel import torch from transformers import BertModel, BertTokenizer # 指定模型文件夹路径（包含 pytorch_model.bin&#…

阅读更多...

面面俱到：揭秘吃鸡新手最关心的要领和细节，全方位指引你成为绝地求生高手！

面面俱到：揭秘吃鸡新手最关心的要领和细节，全方位指引你成为绝地求生高手！

你是否正在探索绝地求生的神秘世界，却感到迷茫和困惑？想要掌握吃鸡的要领和细节，成为一名顶尖玩家吗？现在，我们将为你揭秘吃鸡新手最关心的要领和细节，带你全面了解这个充满挑战的游戏。无论是如何选择起跳…

阅读更多...

摆脱繁杂工作：Appwrite 带你高效开发 | 开源日报 No.50

摆脱繁杂工作：Appwrite 带你高效开发 | 开源日报 No.50

TheAlgorithms/Java Stars: 53.8k License: MIT 这个项目是一个用 Java 实现的算法集合，旨在提供学习目的。它包含了各种不同类型的算法，并且可以通过 Gitpod.io 进行运行、编辑和贡献。该项目具有以下核心优势： 提供了大量常见算法及其实…

阅读更多...

澳大利亚教育部宣布ChatGPT将被允许在澳学校使用！

澳大利亚教育部宣布ChatGPT将被允许在澳学校使用！

教育部长最近宣布，从 2024 年起，包括 ChatGPT 在内的人工智能将被允许在所有澳大利亚学校使用。 （图片来源：卫报） 而早些时候，澳洲各高校就已经在寻找与Chatgpt之间的平衡了。之前，悉尼大学就…

阅读更多...

微服务10-Sentinel中的隔离和降级

微服务10-Sentinel中的隔离和降级

文章目录降级和隔离1.Feign整合Sentinel来完成降级1.2总结 2.线程隔离两种实现方式的区别3.线程隔离中的舱壁模式3.2总结 4.熔断降级5.熔断策略（根据异常比例或者异常数） 回顾我们的限流——>目的：在并发请求的情况下服务出现故障&…

阅读更多...

2023年软考网工上半年下午真题

2023年软考网工上半年下午真题

试题一： 阅读以下说明，回答问题1至问题4，将解答填入答题纸对应的解答栏内。 [说明] 某企业办公楼网络拓扑如图1-1所示。该网络中交换机Switch1-Switch 4均是二层设备，分布在办公楼的各层，上联采用干兆光纤。核心交换…

阅读更多...

前端 vite+vue3——写一个随机抽奖组件

前端 vite+vue3——写一个随机抽奖组件

文章目录 ⭐前言⭐设计布局⭐交互设计⭐整体代码⭐insicode代码 ⭐总结⭐结束 ⭐前言大家好，我是yma16，本文分享关于前端 vitevue3——写一个抽奖随机组件。 vue3系列相关文章： 前端vue2、vue3去掉url路由“ # ”号——nginx配置 csdn新星计…

阅读更多...

FHRP首跳冗余的解析

FHRP首跳冗余的解析

首跳冗余的解析个人简介 HSRP hot standby router protocol 热备份路由协议思科设备上 HSRP VRRP 华为设备上 VRRP HSRP v1 version 1 HSRP v2 version 2 虚拟一个HSRP虚拟IP地址 192.168.1.1 开启HSRP的抢占功能通过其他参数人为调整谁是主谁是从 &a…

阅读更多...

入门C++程序员需要怎么下手？

入门C++程序员需要怎么下手？

前言众所周知，C是一种非常流行的编程语言，它广泛应用于计算机科学和软件开发中，无论是计算机专业的学生还是自学编程的程序员，学习C都是一个必备的技能。那么，如果想成为一名C程序员，学习C需要多久才能入门…

阅读更多...

Vuex获取、修改参数值及异步数据处理

Vuex获取、修改参数值及异步数据处理

14天阅读挑战赛学不可以已... 目录一、Vuex简介 1.1 vuex介绍 1.2 vuex核心二、Vuex使用 2.1 Vuex安装 2.2 创建store模块 2.3 创建vuex的store实例并注册上面引入的各大模块三、使用Vuex获取、修改值案例 3.1 创建两个菜单组件 3.2 配置路由 3.3 模拟菜单数据 …

阅读更多...

设计模式 - 行为型模式考点篇：迭代器模式（概述 | 案例实现 | 优缺点 | 使用场景）

设计模式 - 行为型模式考点篇：迭代器模式（概述 | 案例实现 | 优缺点 | 使用场景）

目录一、行为型模式一句话概括行为型模式 1.1、迭代器模式 1.1.1、概述 1.1.2、案例实现 1.1.3、优缺点 1.1.4、使用场景一、行为型模式一句话概括行为型模式行为型模式：类或对象间如何交互、如何划分职责，从而更好的完成任务. 1.1、迭代器…

阅读更多...

ruoyi 若依前端vue npm install 运行vue前端

ruoyi 若依前端vue npm install 运行vue前端

首次导入，需要先执行 npm install #进入到前端模块目录下 cd ruoyi-ui # 安装 npm install 启动后端项目运行前端项目：运行成功后，会浏览器自动加载到前端首页（或者浏览器访问打印的两个地址） # 运行 npm run dev 部…

阅读更多...

[sqoop]hive导入mysql,其中mysql的列存在默认值列

[sqoop]hive导入mysql,其中mysql的列存在默认值列

一、思路直接在hive表中去掉有默认值的了列，在sqoop导入时,指定非默认值列即可， 二、具体 mysql的表 hive的表 create table dwd.dwd_hk_rcp_literature(id string,literature_no string,authors string,article_title string,source_title string…

阅读更多...

【MySql】6- 实践篇(四)

【MySql】6- 实践篇(四)

文章目录 1. 为何SQL语句逻辑相同，性能却差异巨大1.1 性能差异大的SQL语句问题1.1.1 案例一:条件字段函数操作1.1.2 案例二:隐式类型转换1.1.3 案例三:隐式字符编码转换 2. 为何只查询一行的SQL执行很慢2.1 场景一:查询长时间不返回2.1.1 等MDL锁2.1.2 等 flush2.1.…

阅读更多...

vscode远程ssh服务器且更改服务器别名

vscode远程ssh服务器且更改服务器别名

目录 1、打开VS Code并确保已安装"Remote - SSH"扩展。如果尚未安装，请在扩展市场中搜索并安装它。 2、单击左下角的"Remote Explorer"图标，打开远程资源管理器。 3、在远程资源管理器中，单击右上角的齿轮图标&#x…

阅读更多...

推荐文章

最新文章