ACL2023 | 赔了?引入GPT-3大模型到智能客服,竟要赔钱?

news2024/11/17 23:30:02

作者 | 小戏、Python

关于大模型的商业落地,一个非常容易想到的场景就是智能客服,作为不止是大模型也是 NLP 领域的一个最主要的应用场景,由于人工客服的高昂成本,AI 客服伴随着模型技术的发展也逐步走进我们的生活,在手机里各种主要的 APP 几乎都配备了一个智能客服。

而以 Chat 命名的大规模语言模型(LLMs)似乎天然的适配智能客服的应用场景,大模型驱动的智能客服也是一个非常具有想象力的落地方向。但是,在今年的 ACL 2023 中,来自对话式 AI 科技公司 LivePerson 的研究人员针对大模型“取代”客服工作算了一笔经济账,结果发现,用 GPT-3 等大模型做智能客服的 Backbone 反而有可能要赔钱?

大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!

大模型的壁垒,也是大模型当下一个不可回避的问题,可能就是它高昂的训练与响应成本,使用 GPT-2 与 Nvidia A100 GPU 进行单次响应的成本约为 0.0011 美分,而如果这个模型换为基于 GPT-3 的 Davinci 模型,使用 OpenAI 的 API 的单次响应成本则将会变为 1.1 美分。而这种成本测算方式的一个突出问题就在于,显然这种粗略的 API 成本可能与企业商业使用的成本具有明显区别,同时这个成本也必然会伴随着大模型的高速发展而不断发生变化。并且,在许多大模型的应用场景中,并非是直接调用原始的大模型 API,而是需要在落地场景下对大模型进行比如 Prompt 调用层面的“微调”,因此针对大模型使用成本的测算将会成为一个突出的问题。

也因此,这篇论文提出了一个期望净成本节约(Expected Net Cost Savings,ENCS)的框架,期望测算各种 LLMs 与不同品牌下大模型部署者节省的成本与花费的成本的综合关系,也正是通过这个 ENCS 框架,作者团队通过一个案例研究发现,使用一些较小的模型,比如 GPT-2 完成推理与响应的任务,其成本节约效果要优于 GPT-3,其核心原因在于尽管损失了一部分“响应质量”,但是却大大降低了其“响应成本”,这表明,目前这些大模型的响应成本对于实际使用的客户而言还是过高,无法真正实现成本的节约。

ENCS

首先来看一下这个期望净成本节约 ENCS 是如何进行测算的,ENCS 的整体测算流程可以从下图中看出,更一般的说,ENCS 测算的是大模型生成的每个响应生效或被使用的概率 P(U) 乘以每个对大模型响应的使用带来的费用节省 SU,减去生成该响应的成本,即:

而如果再细化一点,如果对大模型生成的响应不直接使用而是进行编辑或是“忽略”时(忽略一般可能带来负的费用节省),可以将上式修正为:

此处的 SU,SE,SI 等均可以从人类客服的每小时费用 R 与人类客服响应时间 Tr 与接受、编辑与忽略响应时所花费的时间进行估计:

一个简单的面对大模型的响应有可能的三种动作接受、编辑与忽略计算 ENCS 值的小例子如下图所示:

案例研究

论文针对一家匿名零售商(AR)展开了案例研究,AR 的客户群体主要由在 AR 平台进行买卖的商家与消费者组成,AR 雇佣的专业人类客服会接受专业的培训,可以就不同的客户及各种不同的问题做出专业的回复。AR 共计雇佣约 350 名客服,平均每月发送 100000 条消息,约进行 15000 轮对话。

通过该零售商提供的对话数据,论文构建了一个针对 AR 零售商的定制训练数据集(Brand)与一个问题的通用数据(General),采用三种主流的训练策略——Prompt Engineering, Fine-tuning 以及知识蒸馏,对 11 种主流模型进行了训练

为了获取针对这些“智能客服”回答响应的“有用程度”,论文采用专家打分的方式,对这些模型的每个对话进行了接受、编辑与忽略的评分判断,哪怕对于人工客服,人们也并不总是接受他们的回复,而在智能客服中,基于 GPT-3 的模型表现最佳。

假设一个人工客服每小时的成本为 10$,即 SU=SE=SI=10,每条消息平均需要 30 秒,而使用 LLMs 可以节省 25 秒,GPT-2 的模型生成成本为 0.002 美分,使用 Distilled GPT-2 需要 0.0011 美分,使用 OpenAI 的 API 成本为 1.09 美分,使用微调模型的成本为 6.54 美分,使用 Cohere 的 API 的成本为 0.25 美分,使用微调模型的成本为 0.5 美分。通过使用 ENCS 评估各个模型的“成本节约力度”,结果如下图所示,可以看出具有更高响应质量的 GPT-3 反而会造成负的 ENCS 值,即不仅不会为企业带来成本的节约,甚至还会加重企业成本的负担

具体而言,AR 零售商使用 GPT-2 BFT BD 单条消息可以节省 4.47 美分,根据 AR 每年的消息数量 1200000 条来计算,使用 GPT-2 模型可以节约 53653 美元,而使用 GPT-3 模型则可能要亏损约 18691 美元。

针对计算得到的 ENCS,可以为每个模型计算得到一个盈亏平衡点,如下图所示,当绿色线(劳动力成本节约)与红色线(模型建设投入)相交时达到盈亏平衡,可以得到,对于一个每年消息总量约 500000 条的小企业而言,使用大模型构建智能客服必须快速的降低前期的研发成本,而对于一个每年约有 2000 万条消息的大企业而言,使用大模型构建智能客服才会真正带来成本节约

总结与讨论

这篇论文针对大模型应用在智能客服领域的商业场景进行了细致深入的研究,同时提出了一种评估大模型响应到底带来了多少“成本节约”问题的分析框架 ENCS,给出了一个有点反直觉但是又十分合理的结论——在当下大模型的应用成本仍然较高,只有大企业的大体量带来的规模效应才有可能有动力去完成大模型的实际部署,对于小企业而言大模型的应用成本仍然过高。不过这些分析也主要试图提供一些管理、决策之上的洞见,在更细致的成本测算之上还有许多工作需要去做,当然,最后,这些洞见不仅呼唤着大模型的技术进步为我们带来成本的降低,也呼唤着一些第三方平台企业的出现解决一些小企业用不起大模型的现实问题,且让我们期待一下大模型未来的进步吧

论文题目:
The economic trade-offs of large language models: A case study
论文链接:
https://arxiv.org/pdf/2306.07402.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/700223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue iview table Tooltip内容过多闪屏解决

vue的项目,框架是iview 客户反应,指令描述的内容有几百个字,鼠标悬浮,浏览器开始闪烁 解决思路是加宽度限制,滚动, 后面发现像是transfer属性的bug,触碰浏览器底部,距离不够造成 …

重新理解 RocketMQ Commit Log 存储协议

最近突然感觉:很多软件、硬件在设计上是有 root reason 的,不是 by desgin 如此,而是解决了那时、那个场景的那个需求。一旦了解后,就会感觉在和设计者对话,了解他们的思路,学习他们的方法,思维…

C#可视化 国产热剧信息查询(具体做法及全部代码)

目录 题目: 做法: 代码部分: DBHelper类 From1主窗体代码 题目: 1. 首次打开页面,展示所有汽车信息列表,如图 1 所示。 2.双击第二行右边内容全部发生改变 数据库设计及内容 做法: 首先设置d…

React hooks文档笔记(五)useEffect——解决异步操作竞争问题

1.开发环境下组件加载两次? 非bug,重新安装组件仅在开发过程中发生,帮助找到需要清理的效果。在生产环境中只会加载一次。 React 将在 Effect 下次运行之前以及卸载期间调用您的清理函数。return () > {}; 2. 🌰订阅事件情况…

Python连接MySQL数据库(简单便捷)

🐒,本文中,使用到的工具有:Pycharm,Anaconda,MySQL 5.5,spyder(Anaconda) 什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2 中则…

Java 语言基础练习题

Java 语言基础练习题 Key Point ●包的基本语法 ●Java 语言中的标识符,命名规范 ●八种基本类型 ●基本操作符 ●if 语句和switch 语句 练习 1.(标识符命名)下面几个变量中,那些是对的?那些是错的?错的请…

C++学习 程序控制结构

程序控制结构 以某种顺序执行的一系列动作,用于解决某个问题。包括 顺序结构、选择结构、循环结构。 顺序结构 按照顺序正常执行。前几篇文章的代码都是顺序结构的体现。 选择结构 执行满足条件的语句。 if 结构:if (表达式){} 表达式为真则执行&…

Linux历史及环境搭建(VMware搭建CentOS7环境)

Linux历史及环境搭建 1.Linux历史1.1 UNIX发展的历史1.2 Linux发展历史1.2.1 开源1.2.2 官网1.2.3 发行版本 2.VMware配置CentOS7环境2.1 CentOS下载2.2 配置环境2.3 切换国内阿里源2.4 无图形化界面开机 结语 1.Linux历史 在这里简要介绍Linux的发展史。要说 Linux&#xff0…

机器学习李宏毅学习笔记36

文章目录 前言Meta learning应用总结 前言 Meta learning(二)应用方向 Meta learning应用 回顾gradient descen Θ0(initial的参数)是可以训练的,一个好的初始化参数和普通的是有很大差距的。可以通过一些训练的任务…

Python通过私信消息提取博主的赠书活动地址

文章目录 前言背景设计开发1.引入模块2.获取私信内容3.根据文本提取url的方法4.获取包含‘书’的url5.程序入口 效果总结最后 前言 博主空空star主页空空star的主页 大家好,我是空空star,本篇给大家分享一下《通过私信消息提取博主的赠书活动地址》。 背…

通用策略04丨ORB魔改框架+自适应动量过滤模板

量化策略开发,高质量社群,交易思路分享等相关内容 大家好,今天我们分享2023年度第4期通用策略——ORB魔改框架自适应动量过滤模板。 本期策略是2023年通用系列第4篇。本期主要内容有对ORB原版的逻辑魔改,其次我们将跨日周期均线过…

现在有一个未分库分表的系统,未来要分库分表,如何设计才可以让系统从未分库分表动态切换到分库分表上?

停机迁移方案 最 low 的方案,就是很简单,大家伙儿凌晨 12 点开始运维,网站或者 app 挂 个公告,说 0 点到早上 6 点进行运维,无法访问。 接着到 0 点停机,系统停掉,没有流量写入了,…

设计一个高流量高并发的系统需要关注哪些点

1、设计原则 1.1、系统设计原则 在设计一个系统之前,我们先要有一个统一且清晰的认知:不要想着一下就能设计出完美的系统,好的系统是迭代出来的。不要复杂化,要先解决核心问题。但是要有先行的规划,对现有的问题有方…

字符与代表数据的转化

目的 在与设备交互当中,大都以十六进制的数进行交互。 而显示给用户时,是以字符的形式显示。 这中间就需要字符与其所代表的数值的转化,比如: ‘0F’---->0x0F 这怎么实现呢,一个是字符,另一个是数字&a…

Apache seatunnel集群部署

跳转到安装目录 cd /opt/soft/seatunnel 1.设置环境变量 export SEATUNNEL_HOME/opt/soft/seatunnel export PATH$PATH:$SEATUNNEL_HOME/bin 启动服务端 ./bin/seatunnel-cluster.sh -d 启动客户端 ./bin/seatunnel.sh --config ./config/kafka2gbase_udf.conf 这样就启…

Vue3 数字滚动插件 vue-countup-v3

文章目录 介绍效果安装属性事件配置项完整样例 介绍 vue-countup-v3 插件是一个基于 Vue3 的数字动画插件,用于在网站或应用程序中创建带有数字动画效果的计数器。通过该插件,我们可以轻松地实现数字的递增或递减动画,并自定义其样式和动画效…

软件测试职业发展的7个阶段,哪个都吃香!

首先谈谈我在软件测试行业的亲身经历:我的一位同事曾经很认真地问过我一个问题,他说他现在从事软件测试工作已经4年了,但是他不知道现在的工作和自己在工作3年时有什么不同,他想旁观者清,也许我能回答他的问题。此外他…

手写vue-diff算法(一)

Vue初始化流程 1.Vue流程图 Vue流程图: Vue的初始化流程,默认会创建一个Vue实例,执行初始化、挂载、模板编译操作,模板被编译成为render函数;在render函数初始化时会执行取值操作,从而进入getter方法对当…

【科研入门】会议、期刊、出版社、文献数据库、引文数据库、SCI分区、影响因子等基础科研必备知识

大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员。关注公众号【程序员洲洲】即可获得10G学习资料、面试笔记、大厂独家学习体系路线等…还可以加入技术交流群欢迎大家在CSDN后台私信我! 本文目录 一、会议与期刊二、如何辨别是否…

【UE5 Cesium】07-Cesium for Unreal 从一个地点飞行到另一个地点(下)

UE版本:5.1 介绍 本文以在基督城(新西兰)和悉尼(澳大利亚)这两个城市间为例,在上一篇文章(【UE5 Cesium】06-Cesium for Unreal 从一个地点飞行到另一个地点(上)&#…