爱丁堡大学出新招,大小语言模型配合节约成本!

news2025/1/16 16:51:13

在大语言模型的应用中,往往面临着成本性能权衡的问题。

一方面,大型LLM的参数量极大(如70B),每次调用都可能带来更多的成本,而小型LLM(如7B)的成本则更容易被接受。

另一方面,更大的参数量明显带来了更好的性能。

鱼与熊掌真的不可得兼吗?

爱丁堡大学的研究者带来了全新的大小模型协同方案,不需要额外训练任何辅助模型,即可取得非常优秀的效果!

实验表明,在27个实验设置中,这一方法可以其中25个优于现有主流协同方法。

让我们来看看他们的思路吧~

论文标题
Optimising Calls to Large Language Models with Uncertainty Based Two-Tier Selection

论文链接
https://arxiv.org/pdf/2405.02134.pdf

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

现有主流方法介绍

首先,研究者介绍了现有大小模型协同方案的两种主流思路。

假设我们有两个LLM,其中大型LLM比小型LLM更昂贵,但性能更好。为了让它们协同工作,方案包括:

(1)路由(Routing)(下图左):通过用户传入的查询,来选择最合适的LLM(即权衡成本与性能)。

(2)级联(Cascading)(下图右):先让小模型根据用户的查询生成结果,随后通过查询和小型LLM的结果,来选择是否调用大型LLM。

而研究者认为,使用额外的辅助模型来进行这些判断(上图蓝框),增加了这些方案的复杂性。并且,辅助模型不仅需要额外的训练,而且通常还需要特定的训练数据,可能无法推广到其他任务。

那么,抛开辅助模型,有什么其他方法呢?

研究者决定使用级联的方式,并从小型LLM生成结果的过程中,提取置信度度量。这样,判断小型模型的生成结果是否可信不再需要辅助模型,而是通过小型LLM的简单置信度来决定是否需要进一步调用大模型。

大小模型协同的问题定义

首先,我们要来定义需要解决的问题。

定义小型LLM调用的平均成本为:

其中, 表示第 个查询 在小型LLM上的成本,而 表示查询总数量。

同理,我们可以得到大型LLM调用的平均成本为:

显然可得

级联与路由的具体方法

定义问题之后,作者列举了目前主流的一些大小模型协同方法。

(1) 路由

对于路由方案,成本可以被定义为如下公式,其中 是在路由中调用大型LLM的概率。

由此,我们可以展开说明一些主流方案:

(1-1)随机路由(Random routing):指对于每个传入的查询,以概率 随机调用大型LLM。此方法用于作为所有方法的参照指标。

(1-2)路由(Routing,Sakota et al., 2023; Lu et al., 2023):训练一个辅助模型,在给定查询的情况下预测小型LLM的性能,判断是否需要调用大型LLM。

(1-3)HybridLLM(Ding et al., 2024):训练一个辅助模型,预测小型LLM是否比大型LLM能更好的解决传入的查询。

上述提到的辅助模型,最终判断的相关阈值都与 相关。

(2)级联

对于级联方案,成本可以被定义为如下公式,其中 是在级联中调用大型LLM的概率。

(2-1)FrugalGPT(Chen et al., 2023):训练一个辅助模型,根据给定的用户查询和小型LLM生成的候选答案,预测后者是否正确。

(2-2)Margin Sampling(我们的方法):根据小型LLM输出的不确定性,即margin,定义为:

其中 和 分别是第一和第二最可能的token,根据第一个预测出的token的概率分布,得到两个token之间的概率之差,可以被理解为小型LLM生成该token的确定程度(置信度)。

值得注意的是,上述所有方法都需要设置决策标准的阈值,我们在这项工作中选择动态阈值

初始阈值是使用前 10 个查询计算的,通过获取辅助模型的输出,或者 Margin Sampling 的margin值,确定初始的 或 数值。在后续的查询中,继续使用辅助模型做出是否调用大型 LLM 的决定,并根据所有过去的查询动态更新阈值。

实验结果与讨论

介绍了包含路由和级联两种思路的上述5种方法后,我们需要通过实验来确认它们的效果。

首先,我们研究了3对大型和小型的LLM,它们分别是:

  • Mistral 7B 和 Mixtral 8x7B

  • Llama-2 13B 和 Llama-2 70B

  • GPT-3 和 GPT-4

对于开源系列的模型(Mistral和Llama-2),我们的所有实验均在 4-bit 量化后,在一张 NVIDIA A100 GPU (80 GB) 中完成。

而在测试数据集方面,我们选取了分类任务(情感分类ISEAR,事实核查FEVER,情感分析RT-Polarity/CR/SST-2),多项选择任务(世界常识Openbook)和 QA任务(人类真实问题NaturalQuestions,含知识库的百科问答Wikifact,语言理解和推理bAbI)

基于上述这些数据集,我们在上表中实验了3对大小模型。为了引入成本因素,我们将报告准确率的AUC,并将其除以 。同时,我们的结果假设了一个简单的成本方案 ,这点与商业API的价格和其他成本方面的工作保持一致。最后,对于上表,加粗的结果表示最佳性能,下划线的结果表示第二好的性能。

将上表的所有任务结果求取平均后,我们得到了准确率曲线,如下图。

通过观察实验结果,作者也给出了一些结论。

  • 在所有 9 个任务和 3 个 LLM 组合中(共27组配置),Margin Sampling 仅对 2 个没有实现最佳或第二佳的性能。作者认为,Margin Sampling 的性能会随着小型LLM性能的提高而提高,小型LLM在特定任务中表现太差,导致了 Margin Sampling 的性能波动。

  • FrugalGPT 平均而言是表现第二好的策略。然而,在更具挑战性的多项选择任务 Openbook 上,它的表现比随机基线差;在 QA 任务中的表现也不一致。作者认为,FrugalGPT 的辅助模型更擅长简单的分类问题,在困难问题上则有所欠缺。

  • Routing 和 HybridLLM 似乎在 QA 任务中表现良好,而在分类任务中表现较差。我们注意到,HybridLLM 的平均性能在GPT模型对上与随机基线性能相同,这是一个令人惊讶的发现。

作者也合并上述9个不同任务的数据,来模拟多任务情况。实验结果如下表,Margin Sampling 依然取得了最佳结果。

最后,为了确保 Margin Sampling 的鲁棒性,作者尝试从改变辅助模型的训练数据比例和改变成本配置两方面进行实验。

结果表明,使用一倍的数据量训练辅助模型后,Margin Sampling 仍然具有竞争力,如下表。

而在控制的前提下,改变的值,也基本不会影响 Margin Sampling 的性能表现。

总结

在本文中,作者提出了一种全新的大小模型协同级联方法 Margin Sampling,它无需使用任何辅助模型,仅靠小型 LLM 生成第一个 token 的 margin 值即可作出判断。

实验表明,这种方法具有优秀的表现和强大的鲁棒性,在大小LLM性能与成本的权衡上,提供了令人惊喜的思路!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1653713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件测试】用例篇 -- 详解

一、测试用例的基本要素 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。(注意:不需要执行结果,因为执行结果…

四、Redis五种常用数据类型-List

List是Redis中的列表,按照插入顺序保存数据,插入顺序是什么样的,数据就怎么保存。可以添加一个元素到列表的头部(左边)或者尾部(右边)。一个列表最多可以包含232-1个元素(4294967295,每个列表超过40亿个元素)。是一种双向列表结构…

如何获取中国各省市区的边界

前几个专栏我介绍了获取各流域边界的方法,可参见以下的文章: 格林兰岛和南极洲的流域边界文件下载-CSDN博客 读取shp文件中的经纬度坐标-CSDN博客 读取谷歌地球的kml文件中的经纬度坐标_谷歌地球识别穿过矿区的公路,并获取公路的经纬度坐标-CSDN博客 关于…

图像处理:图像噪声添加

文章目录 前言一、高斯噪声二、椒盐噪声三、泊松噪声四、斑点噪声五、指数噪声六、均匀噪声总结 前言 本文主要介绍几种添加图像噪声的方法,用于数据增强等操作。 以下图为例。 一、高斯噪声 高斯噪声就是给图片添加一个服从高斯分布的噪声,可以通过调…

OpenGL 入门(三)—— OpenGL 与 OpenCV 共同打造大眼滤镜

从本篇开始,会在上一篇搭建的滤镜框架的基础上,介绍具体的滤镜效果该如何制作。本篇会先介绍大眼滤镜,先来看一下效果,原图如下: 使用手机后置摄像头对眼部放大后的效果: 制作大眼滤镜所需的主要知识点&…

Qt应用开发(拓展篇)——图表 QChart

一、前言 QChart是一个图形库模块,它可以实现不同类型的序列和其他图表相关对象(如图例和轴)的图形表示。要在布局中简单地显示图表,可以使用QChartView来代替QChart。此外,线条、样条、面积和散点序列可以通过使用QPolarChart类表示为极坐标…

PRL:新型量子传感方案突破纳米测量极限

朴茨茅斯大学的研究人员近期宣布了一项令人振奋的量子传感方案,该方案在测量两个干涉光子之间的横向位移方面达到了前所未有的量子灵敏度。 这一技术的突破为超分辨率成像技术带来了新的可能性。目前,这些技术通常采用单光子源作为探针,用于在…

无刷电机和有刷电机的区别

无刷电机和有刷电机的区别 无刷电机的定子上绕着线圈,线圈通常是成对出现的,通过控制电路为每一对线圈按照一定顺序输入电流,就可以产生旋转的磁场 它还有一个永磁体转子,现在多采用高磁能级的稀土铷铁硼材料,体积更小…

Python练习(函数)

目录 6-1 使用函数求素数和 函数接口定义: 裁判测试程序样例: 输入样例: 输出样例: 6-2 使用函数输出指定范围内Fibonacci数的个数 函数接口定义: 裁判测试程序样例: 输入样例: 输出样…

【AI绘画】Midjourney 工笔画 水蓝色衣服的少女

using Midjourney 提示词: highly detailed,细节刻画细腻,超高清晰度,32k,HD,大师作品,高质量,动漫少女,水墨人像,20岁年轻身材很好的中国少女,惊人的美貌,五官精致,精致的妆容,华丽的水蓝色衣服,古风服饰,华丽的珠宝,飞扬的黑色长发,大风吹起头发,宝石发光,黄金装饰…

tf2使用savemodel保存之后转化为onnx适合进行om模型部署

tf2使用savemodel保存之后转化为onnx适合进行om模型部署 tf保存为kears框架h5文件将h5转化为savemodel格式,方便部署查看模型架构将savemodel转化为onnx格式使用netrononnx模型细微处理代码转化为om以及推理代码,要么使用midstudio tf保存为kears框架h5文…

Windows注册表

注册表 一.概述 注册表(Registry)是Microsoft Windows中的一个重要的数据库,用于[存储系统]和[应用程序]的设置信息。早在[Windows 3.0]推出[OLE]技术的时候,注册表就已经出现。随后推出的[Windows NT]是第一个从系统级别广泛使…

IT项目管理 选择/判断 【太原理工大学】

第一章、IT项目管理 判断题 1、搬家属于项目。( 对 ) 2、项目是为了创造一个唯一的产品或提供一个唯一的服务而进行的永久性的努力。( 错 ) 3、项目具有临时性的特征。( 对 ) 4、项目开发过程…

基于RTI Connext使用Simulink的DDS Blockset

MathWorks一直是数据分发服务(DDS)标准的长期支持者。RTI Connext基于DDS,已与Simulink集成多年,使用户能够导入数据进行更逼真的模拟工作。 2021年,MathWorks通过其新推出的Simulink附加产品DDS Blockset提高了标准。…

怎么制作好玩的gif?试试这个工具轻松制作

视频之所以受大众的喜爱是因为有声音、画面的搭配,让观者深入其中体验感会更强。但是视频的体积较大、时长也比较长,给我们的传播和保存造成了一定的影响。那么,我们可以将视频制作成gif图片来使用,不需要下载软件,使用…

在哪个网站找视频素材?在哪可以下视频素材?

在这个视频内容极为重要的时代,高质量的视频素材成为了创作的关键。特别是4K和无水印视频素材,它们不仅提升了视觉效果,也为作品增加了专业度。以下是一些优秀的国内外视频素材网站,希望能助您一臂之力。 1. 蛙学府 专注于为中国…

01-基本概念- 索引,文档和 REST API

# kibana_sample_data_ecommerce 为es 索引#查看索引相关信息 GET kibana_sample_data_ecommerce#查看索引的文档总数 GET kibana_sample_data_ecommerce/_count#查看前10条文档,了解文档格式 POST kibana_sample_data_ecommerce/_search { }#_cat indices API #查看…

福州网站建设如何设计极简风格合理?

福州网站建设如何设计极简风格合理?企业网站逐渐流行,每个人的审美也发生着巨大的改变,开始追求一种极简的风格。简单的 风格才能够凸显原有的主题,不会太过主次不分。 越来越多的网站建设中选择极简的风格,简单的页面…

8款好用的电脑监控软件分享丨好资源不私藏!

电脑已经成为我们日常生活和工作的重要工具。随之而来的是,电脑监控的需求也逐渐增加。为了帮助大家更好地管理和监控电脑使用情况,本文将为您推荐8款好用的电脑监控软件。这些软件功能强大,易于使用,适用于各种场景,让…

什么情况下 MySQL 连查询都能被阻塞?

MySQL 的锁也是不少,在哪种情况下会连查询都能被阻塞?这是一个有意思的问题。 工作中,很多开发和 DBA 可能接触较多的锁也就行锁了。对于行锁,阻塞写能理解,阻塞读实在是想不到。能阻塞读的那肯定是颗粒度更大的锁了&…