斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

news2026/2/14 5:22:23

文章目录

- 主要解决问题
- 采用什么方法
- - Prompt adaptation
  - LLM approximation
  - LLM cascade
- 实验结论
- 讨论与展望

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

主要解决问题

这篇文章主要是要解决如何降低调用大语言模型的成本(ChatGPT)。大模型API调用成本主要是三方面的：1. prompt cost(输入的prompt)；2. generation cost(输出的部分)；3. 每次调用的固定开销(网费等)。不用的模型之前的差异化收费也不一样，比如ChatGPT 10M的token需要30美金，但是如果是调用GPT-J的话，只需要0.2美金。

如何基于query的难易程度，来调用差异化的模型？如何将相似的问题存起来，减少模型的调用？等等一些手段都可以用来减少GPT的调用，减少成本。作者提出了三种策略来减少开销：

prompt adaptation；
LLM approximation；
LLM cascade；

结论就是能够减少98%的花销，或者是相同花销下，提升4%的性能。

采用什么方法

Prompt adaptation

LLM的调用开销与query的大小呈线性递增，因此减小prompt的长度就是一个可以去减少开销的点。

prompt selections：选择合适的，需要的QA示例：
query concatenation：多个query一起发送给chatgpt：

LLM approximation

如果大语言模型的调用很贵，那么一个简单的想法就是去近似这个大语言模型。不管是completion cache，还是fine-tuning都是可以的。

LLM cascade

不同的LLM APIs都具有他们各自的强项和弱项。

LLM cascade中两个比较关键的地方是：1. scoring function；2. LLM router。

在论文中，作者是采用DistiBERT去作为这个 scoring function。LLM router就是作者非常建议的设定这些阈值和顺序。当然这个也可以用大模型中的Reward Model去评分。

LLM的多样性同时会使得最终的性能有所提升，贵的LLM APIs也不一定见地好。

实验结论

作者在一些特定的数据集上面做了实验，以下是一些Cost和Acc的曲线图。可以看到很少的钱就能够达到较为不错的效果。

讨论与展望

这里很重要的一点，时间开销作者这里并没有讨论。尤其是LLM cascade这块，如果前两次调用失败，那时间开销就比较长了。当然还有一些问题是LLM商业化应用的共性问题，安全，隐私，伦理，不确定性等等。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/510211.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

NMOS双向转换电路实测以及上升沿尖峰处理

NMOS双向转换电路实测以及上升沿尖峰处理

NMOS双向转换电路实测以及上升沿尖峰处理 NMOS双向转换电路 🔧采用的是5V供电的STC8H单片机输出PWM波形，经过上面的电平转换电路测量低压端的波形。 ✨在做3.3V <>5V 电平转换电路方案验证时，输入5V PWM波形和输出波形的波形上升沿有尖…

阅读更多...

[Java基础练习-002]综合应用（基础进阶），如果你会做，那说明你java入门了，

[Java基础练习-002]综合应用（基础进阶），如果你会做，那说明你java入门了，

本篇的练习是一个综合性的练习，结合了各个知识点，比如选择结构、循环结构、数组等java基础知识。综合性运用比较强。目录 1、进阶练习一、学习网站（主要考察选择结构、输入语句） 2、进阶练习二（选择结构、循环&#…

阅读更多...

SELinux详解

SELinux详解

文章目录 SELinux详解什么是SELinux当初设计的目标：避免资源的误用传统的文件权限与账号主要的关系：自主访问控制(DOC)以策略规则制定特定进程读取特定文件：强制访问控制(MAC) SELinux的运行模式安全上下文进程与文件SELinux类型字段的相关性…

阅读更多...

QQ邮箱网易邮箱及企业邮箱开通SMTP/POP3及设置授权码

QQ邮箱网易邮箱及企业邮箱开通SMTP/POP3及设置授权码

一、什么是 POP3/IMAP/SMTP 服务 POP3 （Post Office Protocol - Version 3）协议用于支持使用电子邮件客户端获取并删除在服务器上的电子邮件。 IMAP （Internet Message Access Protocol）协议用于支持使用电子邮件客户端交互式存…

阅读更多...

Windows Nvm+Node.js安装

Windows Nvm+Node.js安装

前言在windows系统下安装的是nvm-windows，nvm只支持安装在在Linux和Mac系统下。之前在Linux上安装过，最近在Windows上安装，特记录一下。下载下载地址：传送门安装Nvm 双击exe文件，选定安装路径，下…

阅读更多...

最新|事件相机SLAM综述

最新|事件相机SLAM综述

Arxiv链接：https://arxiv.org/abs/2304.09793 Github 链接：https://github.com/kun150kun/ESLAM-survey 视觉SLAM (vSLAM)是指移动机器人通过相机感知外部世界并估计机器人的位姿和重建周围环境的三维地图。vSLAM在各种应用中扮演着不可或缺的角色，包括自动驾驶，机器人导航…

阅读更多...

【华为云服务器使用ftp21端口进行连接】

【华为云服务器使用ftp21端口进行连接】

[使用ftp21端口连接华为云linux服务器] 华为云服务器使用ftp21端口进行连接说明: 我们在操作linux服务器时, 经常想可视化的操作文件, 单使用命令行操作不友好。本文旨在使用ftp工具可视化的连接华为云服务器 1.安装vsfftpd 1.1 检查vsfftpd是否已安装执行以下命令可以看…

阅读更多...

网安笔记04 公钥密码体制

网安笔记04 公钥密码体制

公钥密码体制公钥密码体制的基本概念保密性：确保信息只被授权的人访问认证：确认某实体/数据源的真实性保密性需要考虑到不可否认性数据完整性保密系统要考虑达到实际上不可破接获密文、某些明文密文对，决定密钥或者明文是不可…

阅读更多...

没计算机基础，就是评职称用的，软考中级哪个好考啊？

没计算机基础，就是评职称用的，软考中级哪个好考啊？

那必须把系统集成项目管理工程师安排上！ 题目也不难，主要弄清楚47个过程的输入输出，还有工具的使用，几乎很多题都是按照这逻辑来的。建议可以去网上、刷题APP上，多薅点资料和真题，集成是热门科目&#x…

阅读更多...

Centos7.6华为云服务器安装FineBI

Centos7.6华为云服务器安装FineBI

一、首先申请一个云端服务器配置可根据自己需求申请，建议内存在16G以上 CPU 4核内存 8GiB 系统盘 40GiB 带宽 1Mbit/s 二、在FineBI官网上查看安装方法，截图如下下载后，直接根据上述步骤安装即可，一般不需要添加其余软件在安装中遇到问题有以下几点 1.解压后，文件夹名…

阅读更多...

一个网站引发的程序猿的牢骚，哈哈哈

一个网站引发的程序猿的牢骚，哈哈哈

2013年大学毕业后，参加工作做的第一个前端项目，北京服装学院，今天调研一个关于iframe的需求，突然想试试，以前那些做IE6兼容的项目是否还在使用，就默默的点开了。十年了，他们没有换网站&#xff…

阅读更多...

Python中因为软拷贝导致调用face_recognition.encodings(img)出现的典型问题

Python中因为软拷贝导致调用face_recognition.encodings(img)出现的典型问题

问题描述在使用face_recognition时，在对np.array格式图片使用形如new_img img[x:y, a:b]进行裁剪后，因为是软拷贝，导致前后图片其实引用了同一个face_locations, 从而导致莫名其妙的错误。问题代码检测一张照片里的人脸，并…

阅读更多...

深度解耦：使用Jetpack新技术Hilt实现依赖注入

深度解耦：使用Jetpack新技术Hilt实现依赖注入

注入解耦是一种软件设计模式，旨在将应用程序的不同组件解耦。通过采用依赖注入、控制反转、面向接口编程等技术，注入解耦模式可以帮助开发人员将应用程序分解为可重用和可扩展的组件。这样做可以减少代码的耦合度，提高模块化和可测试性&#…

阅读更多...

Java并发编程实践学习笔记（三）——共享对象之发布和异常

Java并发编程实践学习笔记（三）——共享对象之发布和异常

目录 1 公共静态变量逸出 2 非私有方法逸出私有变量 3 this引用逸出 4 构造函数中的可覆盖方法调用逸出发布（publishing）一个对象的意思是：使对象能够在当前作用域之外的代码中使用。例如，将一个指向该对象的引用保存到其他代…

阅读更多...

奖品收到了

奖品收到了

质量一流！物流速度快！下次继续努力！ 开心

阅读更多...

抽象、封装、继承、多态

抽象、封装、继承、多态

抽象抽象是从众多的事物中抽取出共同的、本质性的特征，而舍弃其非本质的特征的过程。下面是抽象到封装的过程如果不考虑实际的情况下人的定义：有嘴、有脚、有眼睛、有耳朵、会吃饭、会跑。动物的定义：有嘴、有脚、有眼睛、有耳朵、会…

阅读更多...

2023年网红经济研究报告

2023年网红经济研究报告

第一章行业概况随着社交媒体和移动互联网的普及，网红经济迅速崛起。网红经济，是指以网络为平台，通过网红的影响力、热度和传播力，形成的一种以流量变现为主的商业模式。网红经济涉及到的行业非常广泛，如美妆、时尚、…

阅读更多...

ai聊天机器人chatgpt收费版

ai聊天机器人chatgpt收费版

AI聊天机器人的功能通常包括以下几个方面： 自然语言理解。该功能可以识别并理解用户输入的自然语言，如文本、语音等，以便进行后续的处理和回复。对话管理。该功能可以管理对话的上下文和流程，并根据用户的输入和意图来产…

阅读更多...

Linux系统查看CPU信息命令cat /proc/cpuinfo详细说明

Linux系统查看CPU信息命令cat /proc/cpuinfo详细说明

Linux操作系统服务器如何查看CPU处理器信息？使用命令cat /proc/cpuinfo可以查看CPU详细信息，包括CPU核数、逻辑CPU、物理CPU个数、CPU是否启用超线程等，阿里云服务器网分享Linux服务器查看CPU信息命令： 目录 Linux服务器查看CPU…

阅读更多...

JavaWeb12-三大组件之监听器-Listener

JavaWeb12-三大组件之监听器-Listener

1. 官方文档文档：java_ee_api_中英文对照版.chm 2. Listener 监听器介绍 Listener 监听器它是 JavaWeb 的三大组件之一。JavaWeb 的三大组件分别是：Servlet 程序、Listener 监听器、Filter 过滤器Listener 是 JavaEE 的规范，就是接口监听…

阅读更多...

推荐文章

最新文章