白话EAGLE2:解锁大模型的“打草稿”技术

news2024/11/24 20:47:56

实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

总览EAGLE-2

EAGLE-2是一种加速大型语言模型(LLM)推理过程的技术。具体来说,它采用了基于推测性采样(speculative sampling)的技术,它通过引入动态草稿树和草稿模型的置信度分数来提高LLM的推理效率。EAGLE-2能确保模型生成的文本概率分布不变,也使得其成为一种无损加速算法。

  • 推测性采样(Speculative Sampling)是一种通过生成和验证多个候选词来加速LLM推理的方法。具体来说,它首先使用一个小模型快速生成一些候选词(Draft),然后用更大的模型来验证这些候选词正确性。

  • 草稿树(Draft Tree)是一种数据组织结构,用来组织和存储草稿模型(Draft Model)生成的候选词。

  • 动态草稿树(Dynamic Draft Trees)是在EAGLE-2过引入的,它改进了传统静态草稿树的局限性。动态草稿树会根据草稿模型的置信度分数和生成上下文,动态调整草稿树的结构。

  • 置信度分数是指草稿模型对某个候选词的信心程度,它近似表示该候选词被最终模型接受的概率。

先来感受一下EAGLE-2技术令人震撼的效果,在各种的模型的推理上遥遥领先,基本面能够达到3-4倍数的加速。

上面的统计结果在temperature=0时候的加速比。

temperature是LLM推理的超参数。大模型在预测下一个字符的时候,会针对词汇表的所有候选者都生产预测的概率,0代表选择永远选择概率最高的。随着temperature设置数据的增加,下一个预测字符的随意性就会增加

上图中,对于推测采样,Vicuna系列使用Vicuna-68M作为草稿模型。LLaMA2-Chat 7B、13B 和 LLaMA3-Instruct 8B缺乏合适的草稿模型,标记为 N/A。LLaMA2-Chat 70B和 LLaMA3-Instruct 70B分别使用LLaMA2-Chat 7B和LLaMA3-Instruct 8B作为草稿模型。在表 1 中展示了与其他方法的比较,但该图仅展示了一个子集,包括这些方法中最快的EAGLE。

Speculative Sampling

推测采样技术

推测采样技术是鼻祖,其核心思想是先起草(Draft)然后验证(Verification):快速生成一个可能正确的草案,然后检查草案中哪些Token可以被接受。

2023年5月份提出的一种推测技术如上图所示,每行代表算法一次迭代。

此处的近似模型,或者称为草稿模型的是一个6M的类GPT的解码器。这个模型是利用8k个Token训练出来的,目标模型是具有97M个参数的类GPT解码器!

绿色标记是近似(草稿)模型提出的建议,而被目标模型接受,而红色和蓝色标记分别是被拒绝的建议及其更正。例如,在第一行中,目标模型仅运行了一次,生成了5个Token。

2024年2月份的Ouroboros针对打草稿的技术进行加速。它从前瞻解码中得到启发,使用草稿短语直接加速目标模型T。因为每轮草稿短语都需要目标模型T的前向传递来验证,因此限制了前瞻解码的整体加速效果。

它先通过使用现有的较小模型(橙色部分)进行草稿,然后以低成本生成草稿短语(粉色部分),紧接这并行 的方式使用目标LLM来验证草稿。在这种草稿-验证框架下,打草稿的效率已成为这种推测采样技术的加速瓶颈。但是它以较低的成本生成更长的草稿可以带来更好的解码加速,而且它无需对草稿和目标模型进行微调。

一句话,作为幕后代笔的草稿模型而言,打草稿的效率十分重要!!

与前瞻解码不同,它使用草稿短语通过草稿模型S间接加速目标模型T,让目标模型的每次Forward(大白话,吐新的Token)可以同时验证多轮短语,从而实现更好的加速。如图2所示,在Ouroboros中,草稿模型的起草过程是逐个草稿短语而不是逐个Token进行,在草稿模型的每次Forward传递过程中,都会并行生成多个新短语。<如何生成另外讲解!>

EAGLE

2024年1月份的EAGLE是对抽样技术的改进。在提交这项工作时,EAGLE在Spec-Bench中排名第一,这是一个很全面的评估基准,旨在评估不同场景中的推测采样的技术。

EAGLE 的流水线。上半部分说明了计算过程,下半部分显示了每个步骤对应的生成结果。在上半部分中,绿色块表示token嵌入,橙色块表示特征f,红色框表示草稿模型的预测,带有雪花图标的蓝色模块表示目标大模型LLM的参数,这些参数是冻结的。

上图为起草阶段。与自回归预测 token序列的标准推测性抽样不同,EAGLE 在更结构化的特征级别运行,即使用LLM原始的LM Head获取草稿token。为了消除不确定性,EAGLE还带上每个阶段的特征(可以大致理解为上下文)f。

验证阶段。在标准推测性抽样中,草稿是链式结构的,如果草稿token被拒绝,则需要丢弃所有后续 token。EAGLE 使用树形结构草稿,允许在草稿 token被拒绝时尝试替代分支。图b说明了两者之间的差异。

EAGLE Vs EAGLE-2

EAGLE和EAGLE-2之间的差异。EAGLE始终使用固定的草稿形状。当查询为“10+2=”时,下一个标记很可能被正确预测为“1”。但是,使用静态草稿树,即便另一个候选“3”正确的概率非常低,EAGLE仍会添加两个候选。而EAGLE-2根据上下文调整草稿树的形状。当查询为“10+2”时,下一个标记很难预测,因此 EAGLE-2 添加了两个候选。对于更简单的查询“10+2=”,EAGLE-2仅添加一个候选“1”。

由此可以看到EAGLE-2根据上下文动态调整草稿树,增强推测性抽样。其方法包括两个主要阶段:扩展和重新排名。该过程从扩展阶段开始,在该阶段,草稿模型从草稿树的最新层输入最有希望的节点以形成下一层。来自草案模型的置信度分数可以用于接受率,从而可以有效地预测和验证Token。在重新排名阶段,会选择接受概率较高的Token作为目标LLM的输入。

这种两阶段方法确保草稿树适应上下文,显著提高Token被目标大模型接受的概率。同时消除了多次Forward的推理,在不影响生成文本质量的情况下加快了推理过程。

下图为EAGLE-2这种技术在多个模型推理上面的提升倍数。

这一期帮助读者解锁了大模型的打草稿技术,其实就是通过利用小模型快速并行的吐出草稿以便加速完整的推理过程。其实也好理解,比如在现实生活中的文学创作,也是先陆续生成草稿,然后再最后精校,包括这篇文章,当然中间还有很多细节值得深究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1872536.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

七天速通javaSE:第五天 数组基础

文章目录 前言一、认识数组二、数组的声明和创建1. 声明数组变量2. 创建数组3. 变量的初始化&#xff08;赋值&#xff09;3.1 静态初始化3.2 动态初始化 3. 示例 三、数组的使用1. 循环1.1 普通for循环1.2 For-Each 循环 2. 数组作为函数的参数和返回值 前言 本文将为大家介绍…

vue+fineReport 使用前端搜索+报表显示数据

--fineReprot 将需要搜索的参数添加到模版参数 sql&#xff1a; --前端传递参数 注&#xff1a;因为每次点击搜索的结果需要不一样&#xff0c;还要传递一个时间戳的参数&#xff1a; let timesamp new Date().getTime()

【模板】项目建设方案(Word原件)

1 引言 1.1 编写目的 1.2 项目概述 1.3 名词解释 2 项目背景 3 业务分析 3.1 业务需求 3.2 业务需求分析与解决思路 3.3 数据需求分析【可选】 4 项目建设总体规划【可选】 4.1 系统定位【可选】 4.2 系统建设规划 5 建设目标 5.1 总体目标 5.2 分阶段目标【可选】 5.2.1 业务目…

ICMAN触摸芯片之滑轮滑条演示

ICMAN触摸芯片之滑轮滑条演示 ICMAN触摸芯片实现的滑轮滑条方案—— 按键处理逻辑快速&#xff0c;物理结构定位&#xff0c;定位精准&#xff0c;实现简单&#xff0c; 属于按键滑轮滑条&#xff0c;由硬件实现的专用触摸芯片通过滑轮滑条结构设计来实现。 常见的硬件应用&a…

不使用canvs也能创建出点状背景

div{ height: 100%; touch-action: none; background: radial-gradient(circle, #e6e6e6 1px, transparent 1px); /* 创建一个点状背景 */ background-size: 15px 15px; /* 控制点的大小和间距 */ padding: 20px; /* 添加内边距使内容不靠边 */ position: relative; /* 让内部内…

DigiRL:让 AI 自己学会控制手机

类似于苹果此前发布的Ferret-UI 的安卓开源平替。主要用于在 Android 设备上识别 UI 和执行指令&#xff0c;不同的是它利用了离线到在线强化学习&#xff08;Offline-to-Online RL&#xff09;&#xff0c;能够快速适应应用更新或 UI 变化。

EDA 虚拟机 Synopsys Sentaurus TCAD 2018.06-SP2 CentOS7.9

下载地址&#xff08;制作不易&#xff0c;下载使用需付费&#xff0c;不能接受的请勿下载&#xff09;&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1358rH_Ner1TYdc_TgoXrew?pwdyq3p 提取码&#xff1a;yq3p

Meet AI4S 直播预告丨房价分析新思路:神经网络直击复杂地理环境中的空间异质性

近年来&#xff0c;房地产市场起起落落&#xff0c;房价已经成为了扰动居民幸福感的重要影响因素。大多数家庭都需要面对「买不买房、何时买房、在哪儿买房、买什么房」的艰难抉择&#xff0c;每一个问题的答案都在某种程度上与房价的波动息息相关。 近年来&#xff0c;我国各…

2023年第十四届蓝桥杯JavaB组省赛真题及全部解析(上)

目录 前言&#xff1a; 一、试题 A&#xff1a;阶乘求和&#xff08;填空&#xff09; 二、试题 B&#xff1a;幸运数字&#xff08;填空&#xff09; 三、试题 C&#xff1a;数组分割 四、试题 D&#xff1a;矩阵总面积 五、试题 E&#xff1a;蜗牛 六、试题 F&#xff…

ConcurrentLinkedQueue详解(详细图文+动画演示)

目录 ConcurrentLinkedQueue详解1、ConcurrentLinkedQueue简介2、ConcurrentLinkedQueue继承体系3、ConcurrentLinkedQueue的构造函数4、ConcurrentLinkedQueue的数据结构ConcurrentLinkedQueue类的属性注释ConcurrentLinkedQueue真正存储元素的类Node<E>ConcurrentLinke…

element ui 的 el-date-picker 日期选择组件设置可选日期范围

有时候&#xff0c;在使用日历控件的时候&#xff0c;我们需要进行定制&#xff0c;控制用户只能在指定日期范围内进行日期选择&#xff0c;在这里&#xff0c;我使用了 element ui 的 el-date-picker 日期选择控件&#xff0c;控制只能选择当前月及往前的2个月&#xff0c;效果…

基于单片机和组态王的温度监控系统的设计

摘 要 : 介绍了以 MSP430 单片机为核心 , 建立基于 DS18B20 和组态王的温度采集和监控系统。主要研究了单片机和组态王的通用通讯协议。按照 KingView 提供的通信协议 , 设计组态王与单片机的通信程序 , 实现了组态王与M SP430 单片机的直接串行通讯。在中药提取装置的…

优思学院|「按计划推动型」与「需求拉动型」的生产模式

针对生产架构做对比分类的用语&#xff0c;主要有按计划推进型与需求拉动型。 「按计划推动型」与「需求拉动型」两者乃是生产架构上常使用、成对比的两个用语。不过&#xff0c;有时不只用来指单纯的生产现场架构&#xff0c;也有人把它应用在更广泛的生产架构设计上。 按计划…

智能网络构建:探索大模型在网络领域的应用

网络领域以其高度复杂性和快速迭代为特点&#xff0c;完成从网络设计、配置、诊断到安全的网络任务需要广泛的专业知识。这些任务的固有复杂性&#xff0c;加上网络技术和协议不断变化的格局&#xff0c;为传统基于机器学习的方法带来了显著的障碍。这些方法在泛化和自动化网络…

吴恩达+ OpenAi共同编写<面向开发者的LLM入门教程>Github 50k+ star!

今天给大家推荐一本由吴恩达和OpenAI团队共同编写的关于大型语言模型&#xff08;LLM&#xff09;的权威教程<面向开发者的LLM入门教程>&#xff01;&#xff0c;在Github上已经高达50k star了&#xff0c;这含金量不用多说&#xff0c;在这里给大家强烈推荐一波&#xf…

孟德献刀 | 第4集 | 宁教我负天下人,休教天下人负我 | 你自比鸿鹄,安知他人是燕雀呀 | 三国演义 | 逐鹿群雄

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 &#x1f4cc;这篇博客是毛毛张分享三国演义文学剧本中的经典台词和语句&#xff0c;本篇分享的是《三国演义》第Ⅰ部分《群雄逐鹿》的第4️⃣集《孟德献刀》&#x…

开源API网关-ApacheShenYu首次按照启动遇到的问题

一.背景 公司有API网关产品需求&#xff0c;希望有图形化的后台管理功能。看到了ApacheShenYu&#xff0c;作为Apache的顶级项目&#xff0c;直接认可了。首先&#xff0c;感谢各位大神的付出&#xff0c;初步看这个项目是国内大厂中的大神创立的&#xff0c;在此表示膜拜&…

如何利用俄罗斯VK Ads破解中俄贸易难题?

在当前全球经济环境下&#xff0c;中国与俄罗斯之间的贸易关系正面临着新的机遇和挑战。 特别是随着国际形势的变化&#xff0c;中俄两国的贸易往来日益频繁&#xff0c;中国企业机构出口至俄罗斯的业务也随之增多。 在这样的背景下&#xff0c;如何通过有效的市场推广策略&a…