心法利器[97] | 判断问题是否真的需要大模型来解决

news2025/1/18 9:45:19

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。

2022年新一版的文章合集已经发布,累计已经60w字了,获取方式看这里:CS的陋室60w字原创算法经验分享-2022版。(2023在路上了!)

往期回顾

  • 心法利器[87] | 填志愿:AI算法方向过来人的建议

  • 心法利器[88] | 有关大模型幻觉问题的思考

  • 心法利器[89] | 实用文本生成中的解码方法

  • 心法利器[90-95] | 谈校招:合集

  • 心法利器[96] | 写了个向量检索的baseline

鉴于最近看到以及收集到的问题多半是“大模型能否做XXX问题”、“XXX问题为什么大模型做的会这么差”之类的,为了让大家对大模型的边界有更加清楚的认识,本文对自己的理解进行梳理,也为大家对大模型树立一个预期,避免非理性的方案选型。

没有万能药

开始聊之前,还是想跟大家强调,没有什么方法是万能的,我们需要因地制宜地,针对性的为问题提供合适的解决方案。

一方面,大模型给我们带来了很多惊喜,也在很多问题上得到了“看起来不错”的效果,另一方面,因为他拥有接近“地球百科”级别的知识,所以在解决很多问题时体现出很强的“无监督”性,从而给大家带来了很高的预期,但凡出现问题都想尝试用大模型来试试看,然而实际上仍旧因为很多原因,大模型在这些问题的表现却又并不如我们预想的那么优秀。

我们应该把大模型当做一个有些强的工具,而并非万能的神器,在方案筛选的时候可以放入当做备选项,而不能够当做唯一解。

请严肃反思,你现在掌握的,应该不会只有这一个方法吧,不会吧不会吧。

大模型的优劣势

大家对大模型的目前的优势看的还是比较多的,我总结下来,主要是这几点:

  • 海量开放域知识支撑,不需要再进行针对性学习。

  • 部分具体简单问题的无监督性,简单的分类、提取等,只要足够明确,模型能做到比较高的下限。

  • 通用良好的生成能力,语言回复基本能通顺。

  • 指令执行能力,即在输入中提供指令,常用指令在模型层面能够识别和体现。

  • 技术影响力。

除此之外,还会有些缺点,想必只要多次尝试,并进行过详细分析的大家应该能感受到:

  • 不可识别判断以及修正的幻觉问题。

  • 专业性知识的缺失导致特定领域内的回复不稳定。

  • 多轮对话策略的定制困难。

  • 性能、耗时、成本问题。

大模型选型的判断

因此,要判断用不用大模型,可以从下面几个角度来考虑:

首先,是否具备使用大模型的条件,这是一票否决的,如果不具备,根本不要谈使用大模型了。

  • 需求对任务的时延要求很低,例如十来毫秒。

  • 私有化部署的缺设备,缺显卡,想买服务但是预算给不到。

其次,任务的复杂性,一般而言,越复杂的任务,越充裕的资源,应该是各自用更加专业的方案来做各自的上限才会比较高,大模型能提供的,是一个基础的、快速的、zero shot或者few shot的baseline方案,他的通用性和海量知识的支撑让他对简单的东西能快速反应并且做对,但是复杂的,到达边缘瓶颈的问题,他解决的肯定是不好的,再者微调和微调后的部署,都存在很大的风险和成本困难。

第三,基础工作的支撑。当我们都把目光聚焦在大模型本身,甚至是训练的时候,我们通常忽略了围绕大模型所需要的大量基础工作,这些工作是支撑大模型运行的关键,例如外挂知识库所需要的检索模块,大模型性能提升的加速引擎、多级多卡能力,模型的推理部署,有利于任务执行的prompt等等(这里需要强调,基础工作也非常关键,围绕大模型有很多基础工作需要做,甚至是某些定制的内容,这个我应该会专门写文章来讲)。

案例思考

给个例子大家看看,为了更加清晰地让大家明白,选型时需要考虑的问题以及角度,不见得是不能用,也不见得是万能,这些思路我自己感觉才是相比于技术本身来的更加重要。

搜索意图识别

搜索意图识别应该是我最擅长的任务了,最近听不少人来问我有没有必要尝试下大模型来做。考虑还是因地制宜吧,意图识别表面上就是个因地制宜问题,但领域和意图的划分规则非常多样,而且划分很多时候不是主观的,有很多客观因素存在,我列举一下我可能会考虑到的地方:

  • 是否有用模型的必要,有些规则或者词典就能轻松做到的,别说大模型,模型都没必要,而且甚至还没规则词典做的好。

  • 泛化能力的需求是用模型的门槛,有泛化需求才有用模型的必要。

  • 边界是否能比较简单地陈述。毕竟大模型的分类依赖指令和few-shot样本,如果不好描述,其实很难做好这种分类,例如“百科”、“客服”、“投诉”这些,语言其实很难描述他们的边界,此时大模型做起来其实也会比较吃力。

  • 是否有足够的训练数据。训练数据越充裕,小模型的优势越会体现。

  • 数据不足的时候,few-shot(自己编几个),in-context learning可能也可以取得不错的效果,就看别的因素了,随着数据量增加,结合向量召回找到合适的样本再用in-context learning,也会有不错的效果。

  • 性能,性能,还是性能。尤其是意图识别本身只是搜索中的小部分,耗时还是要给召回、排序让更多的。

若非找资源充足且性能要求不高,或者有技术影响力之类的压力,一般不会直接用大模型直接做意图识别,更多可能的思路:

  • 大模型做baseline快速预测,构造标签样本。

  • 直接生成泛化样本供小模型训练使用。

所以在这种小的、比较经典的NLP任务下,大模型的发挥空间其实不那么大,杀鸡焉用牛刀。而且在实用过程中,我也有些体验:

  • 简单任务,大模型确实能得到更高的下限,但是后续要调优,肯定是分离出来用小模型专项优化,提升会更多。

  • 复杂任务,大模型需要复杂指令,同时也要fewshot起步,否则模型压根不知道怎么分,这也合理,毕竟边界模糊真的不好讲述,用样本来描述边界会更加明显,这个时候大模型就体现不出优势了。

9f9a137f7e3a6233a587604b4fe7af46.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/934721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微服务系统面经之二: 以秒杀系统为例

16 微服务与集群部署 16.1 一个微服务一般会采用集群部署吗? 对于一个微服务是否采用集群部署,这完全取决于具体的业务需求和系统规模。如果一个微服务的访问压力较大,或者需要提供高可用性,那么采用集群部署是一种常见的策略。…

社区供稿 | FaceChain 开源项目原理解析

一、背景说明 各类 AI 写真软件由于其精准的个人形象精美的生成效果引爆了朋友圈传播,证件照满足了用户刚需,古装照等风格照满足了用户“美照”的需求。 FaceChain 是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低三张照片即可获…

十五、pikachu之CSRF

文章目录 一、CSRF概述二、CSRF实战2.1 CSRF(get)2.2 CSRF之token 一、CSRF概述 Cross-site request forgery 简称为“CSRF”,在CSRF的攻击场景中攻击者会伪造一个请求(这个请求一般是一个链接),然后欺骗目标用户进行点击&#xf…

对标 GPT-4?科大讯飞刘庆峰:华为GPU技术能力已与英伟达持平

科大讯飞创始人、董事长刘庆峰在亚布力中国企业家论坛第十九届夏季高峰会上透露了关于自家大模型进展的一些新内容。刘庆峰认为,中国在人工智能领域的算法并没有问题,但是算力方面似乎一直被英伟达所限制。 以往的“百模大战”中,训练大型模型…

mysql下载

网址 MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/ 2、选择MSI进行安装 3、这里我选择离线安装 4、这里我选择直接下载 5、等待下载安装即可

改变癌症诊断!梯度提升方法可准确预测癌症患者的生存风险!

一、引言 癌症是全球范围内一种严重的疾病,对人类健康造成了巨大的威胁。据世界卫生组织统计,癌症是全球首要死因之一,每年有数百万人因癌症而丧生 [1]。然而,早期的癌症诊断和治疗非常重要,可以显著提高患者的存活率和…

滑动窗口系列4-Leetcode322题零钱兑换-限制张数-暴力递归到动态规划再到滑动窗口

这个题目是Leecode322的变种,322原题如下: 我们这里的变化是把硬币变成可以重复的,并且只有coins数组中给出的这么多的金币,也就是说有数量限制: package dataStructure.leecode.practice;import java.util.Arrays; i…

ChatGPT癌症治疗“困难重重”,真假混讲难辨真假,准确有待提高

近年来,人工智能在医疗领域的应用逐渐增多,其中自然语言处理模型如ChatGPT在提供医疗建议和信息方面引起了广泛关注。然而,最新的研究表明,尽管ChatGPT在许多领域取得了成功,但它在癌症治疗方案上的准确性仍有待提高。…

华为OD机试 - 完全数计算(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述四、Java算法源码五、效果展示六、纵览全局 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(A卷B卷)》。 刷的越多&…

Lalamu-免费视频口型同步工具,创建属于你自己的虚拟数字人

什么是Lalamu? Lalamu 是一款视频口型同步应用程序。该应用程序由 Lalamu Entertainment 开发,允许用户对视频中的任何面孔进行口型同步。无论是人物、人体模型、书籍封面、艺术品、演员、婴儿、蜡像,甚至银行账单上的面孔,Lalamu 都可以让…

FreeSWITCH 1.10.10 简单图形化界面4 - 腾讯云NAT设置

FreeSWITCH 1.10.10 简单图形化界面4 - 腾讯云NAT设置 0、 界面预览1、 查看IP地址2、 修改协议配置3、 开放腾讯云防火墙4、 设置ACL5、 设置协议中ACL,让PBX匹配内外网6、 重新加载SIP模块7、 查看状态8、 测试一下 0、 界面预览 http://myfs.f3322.net:8020/ 用…

尝试自主打造一个有限状态机(二)

前言 上一篇文章我们从理论角度去探索了状态机的定义、组成、作用以及设计,对状态机有了一个基本的认识,这么做有利于我们更好地去分析基于实际应用的状态机,以及在自主设计状态机时也能更加地有条不紊。本篇文章将从状态机的实际应用出发&am…

AI项目四:基于mediapipe的钢铁侠操作(虚拟拖拽)

若该文为原创文章,转载请注明原文出处。 一、介绍 在B站看到使用CVZone进行虚拟物体拖放,模仿钢铁侠电影里的程序操作!_哔哩哔哩_bilibili 是使用CVZone方式实现的,代码教程来源https://www.computervision.zone,感兴趣可以测试…

MathType7.4mac最新版本数学公式编辑器安装教程

MathType7.4中文版是一款功能强大且易于使用的公式编辑器。该软件可与word软件配合使用,有效提高了教学人员的工作效率,避免了一些数学符号和公式无法在word中输入的麻烦。新版MathType7.4启用了全新的LOGO,带来了更多对数学符号和公式的支持…

全国自考02325《计算机系统结构》历年真题试卷及答案 年份:202304

2023 年4 月高等教育自学考试全国统一命题考试 计算机系统结构试题答案及评分参考 (课程代码 02325) 一、选择题:本大题共 10小题,每小题1分 1.D 2.B 3.D 4.A 5.B 6.C 7.D 8.D 9. A 10.C 二、填空题:本大题共 10小题&#xff…

如何加入微信群?微信加群教程,如何加更多的群聊?

微信群是人们交流互动的重要平台之一,加入合适的微信群可以拓宽人脉、获取信息和分享经验。下面小编将分享三个方法,帮助你轻松加入心仪的微信群。 方法一:扫描二维码加入 很多微信群会设置专属的二维码,方便他人加入。当你得到某…

Linux操作系统--shell编程(条件判断)

(1).基本的语法 test condition [ condition ] 注意condition前后要有空格;在使用该种表达式的时候,条件非空即为 true,[ hello ]返回 true,[ ] 返回 false。我们可以通过echo $?来判断上一次执行的情况来判断真假(0真1假)。

详解预处理

全文目录 前言预定义符号#define 定义标识符常量#define 定义宏#define 替换规则# 宏参数转换字符串## 宏参数拼接带有副作用的宏参数 宏与函数的对比#undef 移出宏定义命令行定义条件编译#include 文件包含头文件的包含方式头文件的重复包含 前言 前面我们学习了程序的编译和…

【C语言基础】源文件与头文件详解

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

Office Tool Plus 使用与激活

Office Tool Plus 一个强大且实用的 Office 部署工具。 可以免费激活使用office各种版本 体验了一下,觉得很不错,我介绍一下我使用的方式: 1.安装软件 访问官网:Office Tool Plus 选择ZIP的包,下载后解压&#xff0c…