NeuIPS 2024 | YOCO的高效解码器-解码器架构

NeuIPS 2024 | YOCO的高效解码器-解码器架构

news2025/4/16 17:10:23

该研究提出了一种新的大模型架构，名为YOCO（You Only Cache Once），其目的是解决长序列语言模型推理中的内存瓶颈。YOCO通过解码器-解码器结构的创新设计，显著减少推理时的显存占用并提升了长序列的处理效率。

现有大模型的挑战：长序列缓存的瓶颈

当前的大规模语言模型通常采用基于解码器的Transformer架构，通过缓存前序生成的键值对（KV缓存）来提升推理效率。然而，随着输入序列的增长，KV缓存占据的显存也在急剧增加。例如，一个65B参数量的语言模型，在处理512K长度的序列时，需要约86GB显存，超过了一张H100-80GB GPU的容量。此外，预填充（prefilling）长输入序列的延迟也非常高，限制了模型的实际部署。

YOCO架构：解码器-解码器的新范式

为了应对上述问题，YOCO架构应运而生。它由两个部分组成：

自解码器（Self-Decoder）：用于生成全局KV缓存。
交叉解码器（Cross-Decoder）：通过交叉注意力机制复用自解码器生成的KV缓存。

整个模型从外部看起来依然像传统的解码器模型，能够自然适应自回归生成任务。YOCO的独特之处在于，它只需要在自解码器中缓存一次KV对，然后在交叉解码器中多次复用。这种设计不仅大幅降低了显存消耗，还保留了传统模型的全局注意力能力。

YOCO的三大核心优势

1. 显存节省，支持更长序列

YOCO通过只缓存一次全局KV对，将显存需求显著降低。与传统Transformer相比，YOCO在处理长序列时的显存占用得到了大幅优化。实验数据显示，在65B参数量的模型中，YOCO将KV缓存的显存需求减少了80倍，使得在处理1M长度的输入时，YOCO仅需12.4GB显存，而Transformer则需占用超过100GB显存。

2. 预填充加速，优化用户体验

在推理阶段，YOCO利用交叉解码器复用自解码器的输出，使得模型在预填充阶段可以提前退出，节省计算资源。例如，在处理512K长度的序列时，YOCO的预填充时间仅为6秒，相较于传统Transformer的180秒，实现了约30倍的加速。

3. 提升推理吞吐量，降低部署成本

YOCO显著提升了推理的吞吐量，使每秒生成的token数量大幅增加。在512K长度下，YOCO的吞吐量为每秒43个token，而传统Transformer仅为4.5个，达到了近10倍的提升。这意味着，YOCO能够以更少的硬件资源完成更多的推理任务，从而降低了部署成本。

YOCO的实验表现

实验结果表明，YOCO在多个语言建模任务中展现了极强的竞争力。与同等规模的Transformer模型相比，YOCO在处理长序列任务时，不仅性能更优，而且显存占用和推理延迟也明显更低。

在“针尖查找（Needle-in-a-Haystack）”测试中，YOCO将上下文长度扩展至1M，依然保持了高精度的查询结果。这表明，YOCO在长序列任务中的记忆与处理能力非常出色，适合处理如长文档摘要、代码理解等需要长上下文的任务。

此外，下表展示了YOCO与其他模型在语言建模任务中的性能对比。实验数据显示，YOCO的性能与现有最优模型相当，甚至在某些任务上有所超越，进一步验证了YOCO架构的有效性。

技术实现细节：高效的自解码器模块

YOCO的自解码器模块采用了两种高效的注意力机制来减少计算复杂度：

滑动窗口注意力（Sliding-Window Attention）：通过限制注意力的窗口范围，将KV缓存的复杂度从线性降低到常量级，极大减少了显存的消耗。
门控保留机制（Gated Retention）：结合数据驱动的门控机制，提升了模型的计算效率和生成效果。

YOCO在书籍和代码数据集上的实验结果表明，其累积平均负对数似然（NLL）随着上下文长度的增加而不断降低，显示了其在长序列任务中的优越性能。

总结：未来前景

YOCO通过创新性的解码器-解码器架构，突破了长序列语言模型在推理阶段的内存和延迟瓶颈。在保持模型性能的前提下，显著提升了显存利用率和推理速度，使其成为未来大模型架构的有力候选。未来，YOCO的设计理念或许还可以拓展到更多任务场景中，如长文本生成、对话系统等需要高效长序列处理的领域。

论文链接：

https://openreview.net/forum?id=25Ioxw576r

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2250376.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

《数据挖掘：概念、模型、方法与算法（第三版）》

《数据挖掘：概念、模型、方法与算法（第三版）》

嘿，数据挖掘的小伙伴们！今天我要给你们介绍一本超级实用的书——《数据挖掘：概念、模型、方法与算法》第三版。这本书是数据挖掘领域的经典之作，由该领域的知名专家编写，系统性地介绍了在高维数据空间中分析和提取大量…

阅读更多...

RT-DETR融合Inner-IoU及相关改进思路

RT-DETR融合Inner-IoU及相关改进思路

RT-DETR使用教程： RT-DETR使用教程 RT-DETR改进汇总贴：RT-DETR更新汇总贴《Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box》一、模块介绍论文链接：https://arxiv.org/abs/2311.02877 代码链接&a…

阅读更多...

解决“磁盘已插上,但Windows系统无法识别“问题

解决“磁盘已插上,但Windows系统无法识别“问题

电脑上有2块硬盘，一块是500GB的固态硬盘，另一块是1000GB的机械硬盘，按下开机键，发现500G的固态硬盘识别了，但1000GB的机械硬盘却无法识别。后面为了描述方便，将"500GB的固态硬盘"称为X盘&#xf…

阅读更多...

[2024年3月10日]第15届蓝桥杯青少组stema选拔赛C++中高级（第二子卷、编程题（2））

[2024年3月10日]第15届蓝桥杯青少组stema选拔赛C++中高级（第二子卷、编程题（2））

方法一（string）： #include <iostream> #include <string> using namespace std;// 检查是否为回文数 bool isPalindrome(int n) {string str to_string(n);int left 0, right str.size() - 1;while (left < right) {if (s…

阅读更多...

智慧防汛平台在城市生命线安全建设中的应用

智慧防汛平台在城市生命线安全建设中的应用

随着城市化进程的加快，城市基础设施的复杂性和互联性不断增强，城市生命线的安全管理面临前所未有的挑战。智慧防汛平台作为城市生命线安全建设的重要组成部分，通过现代信息技术提升城市防汛应急管理的智能化水平，保障城市安全。 …

阅读更多...

【R安装】VSCODE安装及R语言环境配置

【R安装】VSCODE安装及R语言环境配置

目录 VSCODE下载及安装VSCODE上配置R语言环境参考 Visual Studio Code（简称“VSCode” ）是Microsoft在2015年4月30日Build开发者大会上正式宣布一个运行于 Mac OS X、Windows和 Linux 之上的，针对于编写现代Web和云应用的跨平台源代码编辑器&…

阅读更多...

Unity3D模型场景等测量长度和角度功能demo开发

Unity3D模型场景等测量长度和角度功能demo开发

最近项目用到多段连续测量物体长度和角度功能，自己研究了下。 1.其中向量角度计算： 需要传入三个坐标来进行计算。三个坐标确定两条向量线段的方向，从而来计算夹角。 public Vector3 SetAngle(Vector3 p1, Vector3 p2,Vector3 p3) { …

阅读更多...

02-线性表

02-线性表

目录 2.1线性表基本概念线性表特点 2.2线性表的顺序表示和实现 Ⅰ.顺序表的初始化 Ⅱ.顺序表的取值 Ⅲ.顺序表的查找 Ⅳ.顺序表的插入 Ⅴ.顺序表的删除 2.3线性表的链式表示和实现单链表（线性链表） Ⅰ.单链表的初始化 Ⅱ.单链表的取值 Ⅲ.单链…

阅读更多...

云计算基础-期末复习

云计算基础-期末复习

第一章：云计算概论一、云计算的定义与特征 1. 定义： 云计算是一种通过网络以按需、可扩展的方式获取计算资源和服务的模式。它将计算资源视为一种公用事业，用户可以根据需求动态获取和释放资源，而无需了解底层基础设施的细节。…

阅读更多...

大模型专栏--Spring Ai Alibaba介绍和功能演示

大模型专栏--Spring Ai Alibaba介绍和功能演示

Spring AI Alibaba 介绍和功能演示背景 Spring AI Alibaba 开源项目基于 Spring AI 构建，是阿里云通义系列模型及服务在 Java AI 应用开发领域的最佳实践，提供高层次的 AI API 抽象与云原生基础设施集成方案，帮助开发者快速构建 AI 应用。…

阅读更多...

计算机网络实验八应用层相关协议分析

计算机网络实验八应用层相关协议分析

一、实验目的熟悉CMailServer邮件服务软件和Outlook Express客户端软件的基本配置与使用；分析SMTP及POP3协议报文格式和SMTP及POP3协议的工作过程。二、实验原理为了观察到邮件发送的全部过程，需要在本地计算机上配置邮件服务器和客户代理。在这里我…

阅读更多...

计算机组成与系统结构复习笔记

计算机组成与系统结构复习笔记

1 概念冯诺伊曼机: ①采用存储程序工作方式: 事先编制好的程序和原始数据送入主存后执行, 取指令 → \to →指令译码并计算下条指令地址 → \to →取操作数并执行 → \to →结果送回主存, 自动逐条执行指令直至程序结束; ②由运算器, 存储器, 控制器, 输入设备, 输出设备 5 部…

阅读更多...

CIKM23|基于会话推荐的因果关系引导图学习

CIKM23|基于会话推荐的因果关系引导图学习

论文链接：https://www.researchgate.net/profile/Dianer-Yu/publication/373143453_Causality-guided_Graph_Learning_for_Session-based_Recommendation/links/652b3fe006bdd619c48fdd00/Causality-guided-Graph-Learning-for-Session-based-Recommendation.pdf 这…

阅读更多...

Milvus 2.5:全文检索上线,标量过滤提速,易用性再突破！

Milvus 2.5:全文检索上线,标量过滤提速,易用性再突破！

01. 概览我们很高兴为大家带来 Milvus 2.5 最新版本的介绍。在 Milvus 2.5 里，最重要的一个更新是我们带来了“全新”的全文检索能力，之所以说“全新”主要是基于以下两点： 第一，对于全文检索基于的 BM25 算法，我们采…

阅读更多...

$【机器学习】机器学习的基本分类-监督学习-逻辑回归-Sigmoid 函数$

【机器学习】机器学习的基本分类-监督学习-逻辑回归-Sigmoid 函数

Sigmoid 函数是一种常用的激活函数，尤其在神经网络和逻辑回归中扮演重要角色。它将输入的实数映射到区间 (0, 1)，形状类似于字母 "S"。 1. 定义与公式 Sigmoid 函数的公式为： 特点输出范围：(0, 1)，适合用…

阅读更多...

C++游戏开发入门：如何从零开始实现自己的游戏项目？

C++游戏开发入门：如何从零开始实现自己的游戏项目？

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】今日分享关于C游戏开发的相关内容！ 关于【…

阅读更多...

HTTP（网络）

HTTP（网络）

目录 1.Http的基本代码 1.1 HttpServer.hpp 1.2 简单测试一下 1.3 用telnet测试一下 1.4 用浏览器访问 1.5 返回相应的过程（网页版本）编辑 1.5.1 再次用浏览器访问 1.6 返回相应的过程（文件版本） 1.6.1网页 1.6.2 测试 …

阅读更多...

docker服务容器化

docker服务容器化

docker服务容器化 1 引言2 多个容器间网络联通2.1 单独创建关联2.2 创建时关联 3 服务搭建3.1 镜像清单3.2 容器创建 4 联合实战4.2 flink_sql之kafka到starrocks4.2 flink_sql之mysql到starrocks 5 文献借鉴 1 引言利用docker可以很效率地搭建服务，本文在win1…

阅读更多...

Linux系统之iotop命令的基本使用

Linux系统之iotop命令的基本使用

Linux系统之iotop命令的基本使用一、iotop命令介绍二、iotop命令的使用帮助2.1 安装iotop2.2 iotop命令help帮助信息2.3 iotop命令选项解释三、 iotop命令的基本使用四、iotop使用注意事项一、iotop命令介绍 iotop 是一个类似于 top 的命令行工具，但它专注于显示…

阅读更多...

opencv 区域提取三种算法

opencv 区域提取三种算法

opencv 区域提取三种算法 1.轮廓查找 findContours()函数，得到轮廓的点集集合 cv::vector<cv::vector<Point>> contours;threshold(roiMat,binImg,m_pPara.m_nMinGray,m_pPara.m_nMaxGray,THRESH_BINARY);//膨胀处理Mat dilaElement getStructuringE…

阅读更多...

推荐文章

最新文章