大模型开发(七):LLM提示工程(Prompt)与思维链(CoT)

news2024/10/5 8:31:56

全文共6500余字,预计阅读时间约13~20分钟 | 满满干货(附案例),建议收藏!
请添加图片描述

一、LLM模型的涌现能力

在GPT没有爆火之前,一直以来的共识都是:模型的规模越大,模型在下游任务上的能力越多、越强。

LLM原始训练目标是为了生成自然、连贯的文本,因为其本身接受了大量的文本进行预训练,因此根据提示补全和创造文本就是模型的原生能力。

在原生能力范畴下,LLM模型具备文本创造能力,如写小说、新闻、诗歌,GPT-3模型最早是被用来做这些事情的。

不过,仅仅能进行文本创造,并不足以让大语言模型掀起新的一轮技术革命,引爆这一轮技术革命的真正原因是:大语言模型的涌现能力

人们真正看好大语言模型技术的根本在于当模型足够大(参数足够大&训练数据足够多)时模型展示出了“涌现能力”。

随着不断有新的模型的提出,大规模的语言模型出现了很多超乎研究者意料的能力。针对这些在小模型上没有出现,但是在大模型上出现的不可预测的能力,就被称为涌现能力,在 Jason Wei 等人的研究中给出如下定义:

论文:Emergent Abilities of Large Language Models

在小模型中没有表现出来,但是在大模型中变现出来的能力(An ability is emergent if it is not present in smaller models but is present in larger models.)。

换句话说:所谓涌现能力(EmergentCapabilities),指的是模型在没有针对特定任务进行训练的情况下,仍然能够在合理提示下处理这些任务的能力,有时也可以将涌现能力理解为模型潜力,巨大的技术潜力,是LLM爆火的根本原因。

对于大语言模型(例如Completion模型)来说,本身并未接受对话语料训练,因此对话能力其实也是它涌现能力的体现,另外常用的翻译、编程、推理、语义理解等,都属于大语言模型的涌现能力。

二、如何激发大模型的涌现能力

激发大型语言模型的涌现能力有两种方法:提示工程(prompt engineering)和微调(fine-tuning)。

2.1 提示工程(prompt engineering)

提示工程是指通过设计特殊的提示来激发模型的涌现能力。这种方法不需要对模型进行额外的训练,只需要通过设计合适的提示来引导模型完成特定任务。提示工程通常用于在不更新模型参数的情况下,快速解决新问题。

通过输入更加合理的提示,引导模型进行更有效的结果输出,本质上一种引导和激发模型能力的方法

这种方法最早在GPT3 的论文中提出:给定一个提示(例如一段自然语言指令),模型能够在不更新参数的情况下给出回复。在此基础上,Brown等在同一篇工作中提出了Few-shot prompt,在提示里加入输入输出实例,然后让模型完成推理过程。这一流程与下游任务规定的输入输出完全相同,完成任务的过程中不存在其它的中间过程。下图展示了来自不同工作任务在不同大模型下few-shot下的测试结果。
论文:Language Models are Few-Shot Learners

image-20230718145029201

其中,横坐标为模型训练的预训练规模(FLOPs:floating point operations,浮点运算数。一个模型的训练规模不仅和参数有关,也和数据多少、训练轮数有关,因此用FLOPs综合地表示一个模型的规模),纵轴为下游任务的表现。可以发现,当模型规模在一定范围内时(大多FLOPs在 1 0 22 10^{22} 1022以内),模型的能力并没有随着模型规模的提升而提高;当模型超过一个临界值时,效果会马上提升,而且这种提升和模型的结构并没有明显的关系。

目前为大模型添加prompt的方式越来越多,主要表现出的一个趋势是,相比于普通的 few-shot 模式(只有输入输出)的 prompt 方式,新的方法会让模型在完成任务的过程中拥有更多的中间过程,例如一些典型的方法:思维链(Chain of Thought)、寄存器(Scratchpad)等等,通过细化模型的推理过程,提高模型的下游任务的效果,下图展示了各种增强提示的方法对于模型的作用效果:

image-20230718150013397

具体的任务类型包括数学问题、指令恢复、数值运算和模型校准,横轴为训练规模,纵轴为下游任务的评价方式。与上图类似,在一定的规模以上,模型的能力才随着模型的规模突然提高;在这个阈值以下的现象则不太明显。不同的任务采用的激发方式不同,模型表现出的能力也不尽相同,这是一个不断研究的过程。

对于通过提示工程来激发模型的涌现能力来说,优劣势很明显:

  • 优势:它是一种更加轻量级的引导方法,尝试和实施的门槛更低。
  • 劣势:受限于模型对话上下文限制,提示量有限。

2.2 微调(fine-tuning)

微调是指在预训练好的大型语言模型基础上,针对特定任务进行额外训练。这种方法需要对模型进行额外的训练,但可以提高模型在特定任务上的性能。微调通常用于解决那些无法通过提示工程解决的问题。

换句话说:它通过输入额外的样本,对模型部分参数进行修改,从而强化模型某部分能力。本质上也是一种引导和激发模型能力的方法

微调是后面要花大量篇幅写的内容,所以这里就不详细说了

微调方法与提示工程相比:

优势:可以让模型永久的强化某方面能力。

劣势:需要重新训练模型部分,训练成本较大,需要精心准备数据,技术实施难度更大

对于这两种方法各自有各自使用的应用场景,提示工程解决的问题,往往不会用微调(如小语义空间内的推理问题),微调通常用于解决那些无法通过特征工程解决的问题。

它们更多的时候是作为上下游技术关系,例如要进行本地知识库的定制化问答,最好的方法就是借助提示工程进行数据标注,然后再利用标注好的数据进行微调。

相比模型的原生能力,模型的涌现能力是非常不稳定的,要利用提示工程和微调技术来引导和激发模型的涌现能力,难度很大。

三、提示工程的概念

3.1 提示工程的理解误区

很多人以为的提示工程是这样的

  • 添加提示词尾缀:如 “请模型一步步思考、一步步解答…”。
  • 给出一份示例模版:请“参照示例进行回答”。
  • 做身份、角色设定:“请以XXX身份进行回答”…

几乎没有技术含量,主要靠记忆大量的提示词模板,或者网上导航站那些所谓的《几万个提示模板》,属于有手就会的技术。

实际上真实场景下的提示工程技术要做到:

  • 合理的引导思考
  • 复杂串联或嵌套的提示流程,高度依赖人工经验和技术灵感的提示示例设计

需要做到人工经验和复杂计算的完美结合,才能够大幅激发模型的涌现能力,解决业内很多复杂问题,是非常高价值的技术方向。

比如一个工业级的提示工程流程是这样的:

1

3.2 语言提示工程(LanguagePrompting)

提示工程可以进一步分为语言提示工程(LanguagePrompting)和代码提示工程(Code Prompting)。

对于语言提示工程来说,其实可以理解为使用ChatGPT的过程,通过自然语言表达复杂的问题和意图,进行多轮对话。

它比较友好,适合于非技术人员,但是缺点也是存在的,比如,自然语言存在歧义,可能导致模型理解错误或产生误导性的回答;可能存在语法错误或不规范的用词,导致模型难以正确理解问题;交互方式可能难以准确理解用户意图和推理过程,可解释性较差,这些问题都是存在的,所以优秀的提示工程应该具备以下的一些基本原则:

  1. 清晰明确的问题描述:提供清晰、明确的问题描述,使模型能够准确理解问题的意图并给出准确的回答。避免模糊、含糊不清或歧义性的问题描述,

比如:目的是希望输出是一个逗号分隔的列表,请要求它返回一个逗号分隔的列表。

Prompt思路:如果希望它在不知道答案时说“我不知道”,请告诉它“如果您不知道答案,请说“我不知道”。

  1. 提供必要的上下文信息:根据具体情况,提供适当的上下文信息,以帮助模型更好地理解问题。上下文信息可以是相关背景、之前提及的内容或其他相关细节。

  2. 将复杂任务拆分为更简单的子任务和提供关键信息:如果问题较为复杂或需要特定的答案,可以将复杂任务拆分为更简单的子任务,逐步提供关键信息,以帮助模型更好地理解和解决问题。

  3. 避免亢余或多余的信息:尽量避免提供亢余或不必要的信息,以免干扰模型的理解和回答。保持问题简洁明了,并提供与问题相关的关键信息

  4. 验证和追问回答:对于模型给出的答案,进行验证和追问,确保回答的准确性和合理性。如有需要,提供反馈或额外的说明,以进一步指导模型的回答。

  5. 尝试不同的表达方式:如果模型对于某个特定问题无法准确回答,尝试以不同的表达方式或角度提问,给出更多的线索,帮助模型理解并给出正确的回答。

  6. 生成多种输出,然后使用模型选择最好的一个

3.3 代码提示工程(Code Prompting)

对于代码提示工程来说,是指通过设计特殊的代码提示来激发模型的涌现能力。这种方法不需要对模型进行额外的训练,只需要通过设计合适的代码提示来引导模型完成特定任务,代码提示工程通常用于解决那些无法通过语言提示工程解决的问题,也是后续模型开发中的重中之重。后面会多篇幅解释,此处先不详细展开。

3.4 经典小样本提示(Few-shot)

最简单的提示工程的方法就是通过输入一些类似问题和问题答案,让模型参考学习,并在同一个prompt的末尾提出新的问题,依次提升模型的推理能力。这种方法也被称为One-shot或者Few-shot提示方法。

One-shot和Few-shot最早由OpenAI研究团队在论文《Language Models are Few-Shot Learners》中率先提出,这篇论文也是提示工程方法开山鼻祖,不仅介绍了提示工程的两大核心方法,同时也详细介绍这么做背后的具体原因。

这篇论文大致是这样:OpenAI研究团队增大了GTP3语言模型的规模,有175b参数,然后在这个模型上测了它的few-shot能力,没更新梯度,也没微调,纯纯的就是测试,得到的结果是猛地一匹。给了三个图一通分析:

2

论文结论大概一下两点:

  • 在zero-shot、one-shot、few-shot 上,规模越大,效果越好
  • few-shot只要参数够不比fine-tuned差

喜欢钻原理的可以自己看看论文,很精彩。

就具体应用来说。Few-shot提示方法并不复杂,只需要将一些类似的问题+答案作为prompt的一部分进行输入即可。

  • **先看下zero-shot **

Prompt 1 :

Classify the text into neutral, negative or positive.

Text: I think the vacation is okay

Sentiment:

结果如下:

image-20230718164615242

可以看到没有告诉 ChatGPT 任何情感分类的应该怎么做的描述,它就已经“理解”了“情绪分类”这件事。

Prompt 2:

准确的翻译文本如下:

Got this panda plush toy for my daughter’s birthday, who loves it and takes it

everywhere. It’s soft and super cute, and its face has a friendly look. It’s a bit small for what I paid though. I think there might be other options that are bigger for the same price. It arrived a day earlier than expected, so I got to play with it myself before I gave it to her.

翻译:

结果如下:

image-20230718165025952

对于Zero-shot 来说,它复杂任务上的表现不佳,

Prompt 3:

image-20230718165708098

  • **Few-shot **

Prompt 1:

文本:A “whatpu” is a small, furry animal native to Tanzania.

用 “whatpu” 造句:We were traveling in Africa and we saw these very cute whatpus.

文本:To do a “farduddle” means to jump up and down really fast.

用 "farduddle"造句:

结果如下:

image-20230718165435612

仅用一个示例就学会了如何进行一个任务

few-shot 虽然能解决了 zero-shot 的问题,如果遇到了需要推理的复杂任务时,依旧无能为力。

Prompt 2:

我现在有以下几个数字:1,3,5,23,69,70,10,84,923,32,这些数中,存在多少个奇数,存在多少个偶数?

image-20230718170115575

3.5 思维链(CoT)提示

思维链的本质是将复杂任务拆解为多个简单的子任务。

思维链(Chain of Thought)是指一个思维过程中的连续逻辑推理步骤或关联的序列。它是思维过程中一系列相互关联的想法、观点或概念的串联。思维链通常用于解决问题、做决策或进行推理。它可以按照逻辑顺序连接和组织思维,将复杂的问题分解为更简单的步骤或概念,从而更好地理解和解决问题。

人类在解决数学数学难题时,经过一步步推导,大概率能得出正确的答案,对于模型来说,也是这样,所以在这篇论文中提出了逐步 Zero-shot思想,

Large Language Models are Zero-Shot Reasoners

利用大模型进行两阶段推理的设想,即第一个阶段先进行问题的拆分并分段解答问题(Reasoning Extraction),然后第二阶段再进行答案的汇总(Answer Extraction),如图:

image-20230718171001735

image-20230718171217981

使用逐步 Zero-shot再次解决一下这个问题

Prompt 1:

在这些数字中1,3,5,23,69,70,10,84,923,32有多少个奇数多少个偶数?Let’s think step by step。

image-20230718171145035

3.6 CoT+Few-shot 提示

在某些情况下,两者结合能得到准确的推理。

单独使用zero-shot时:

prompt 1:

1356 乘以 2569 等于多少?

image-20230718171558999

使用CoT + Few-shot时:

prompt 2:

示例:

13乘以17等于多少?首先比较13和17的大小,13小于17,将17按数量级分解为10+7,再将13与17

按数量级分解后的结果相乘,13乘以(10+7)=221

256乘以36等于多少?首先比较256和36的大小,256大于36,将256按数量级分解为

200+50+6,再将36与256按数量级分解后的结果相乘,36乘以(200+50+6)=9216 325乘以

559等于多少?首先比较325和559的大小,320小于559,将559按数量级分解为500+50+9,再将325与559按数量级分解后的结果相乘,325 乘以(500+50+9)=181675

问题:1356 乘以 2569 等于多少?

image-20230718171803153

3.7 STaR Fine-Tune提示法

STaR Fine-Tune 提示法(Self-taught Reasoner)是通过 few-shot 的提示方式,产生大量可以用于微调模型的有标签的数据集

论文在这里

image-20230718172453232

其大致的过程是:

  1. 将少量有标签的样本作为示例

  2. 利用模型生成无标签数据的答案以及得出这个答案的理由

  3. 保留正确答案以及答案的理由作为微调数据集的一部分

  4. 对于没有回答正确的问题,重新将正确答案作为问题的一部分输入,重新使用 few-shot prompt 生成正确的答案以及相应的理由,汇总到微调数据集中

  5. 最终使用最后的数据集微调模型

这部分我还没研究,后续看微调的部分可能会搞这个,感兴趣的可以先自己看看。

四、模型的推理能力

模型的推理能力是指模型在面对新问题时,能够根据已有的知识和经验进行推理和判断的能力,也就是模型的逻辑理解能力。例如模型是否能够很好的解决一些逻辑推理题,或者根据语境中的提示,找到并挖掘背后隐藏的逻辑关系等。

从更加学术的角度进行理解,大模型的推理能力也被称为组合泛化能力,指的是模型能够理解并应用在训练数据中看到的概念和结构,以处理在训练数据中未曾见过的情况或问题。

**提示工程的根本目的就是提升模型的推理能力。**所以无论是语言提示工程,还是代码提示工程,是解决问题的关键因素。

五、总结

本文揭示了LLM模型的涌现能力,阐述了如何通过提示工程和微调来激发大模型的涌现能力。接着深入讨论了提示工程的各个方面,包括其误区、语言提示工程、代码提示工程,以及多种提示方法,如经典的小样本提示、思维链提示、CoT+Few-shot提示和STaR Fine-Tune提示法。对于理解和应用LLM模型来说,这些知识都具有重要的参考价值。

最后,感谢您阅读这篇文章!如果您觉得有所收获,别忘了点赞、收藏并关注我,这是我持续创作的动力。您有任何问题或建议,都可以在评论区留言,我会尽力回答并接受您的反馈。如果您希望了解某个特定主题,也欢迎告诉我,我会乐于创作与之相关的文章。谢谢您的支持,期待与您共同成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/769157.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 75 第四题(605)种花问题

题目: 示例: 分析: 给一个数组表示一个花园,其中0表示空地,1表示已经有花种下去了. 空地可以种花,但是花和花之间不能相邻,即数组中不能有两个连续的1. 给一个数n,问我们能不能在花园里种n朵花. 我们可以找出我们所能种的最多的数量(而不是只种n朵),然后比较我们最多能种的…

idea手动导入了包但编译运行还是报找不到xxx.jar包的问题

1、先把jar包放目录下并add as libary 2、在pom.xml中加入 <!--添加的本地的外部jar包依赖--><dependency><!--groupId、artifactId、version为自定义&#xff0c;groupId与artifactId但是不能重名--><groupId>JNative</groupId><artifactId…

搭建srt服务器

目录 1、下载和编译srt2、下载和编译srt-live-server3、编译工程,并把编程出来的可执行程序放到nfs4、板子上跑程序5、用ffplay从srt服务器上流6、srt中./configure遇到的问题解决方法1、下载源码2、下载好之后cp到ubuntu3、解压安装4、创建软链接:创建快捷名字tclsh,放到us…

2023-07-18力扣今日两题-太难了吧

链接&#xff1a; LCP 75. 传送卷轴 题意&#xff1a; 给一个正方形迷宫&#xff0c;主角是A&#xff0c;每次可以上下左右走一格子&#xff0c;有四种类型的格子&#xff1a;墙、初始位置、魔法水晶、空地 另一个人B&#xff0c;可以传送一次A&#xff0c;只能在空地传送&…

青岛大学_王卓老师【数据结构与算法】Week05_14_队列的顺序表示和实现2_学习笔记

本文是个人学习笔记&#xff0c;素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享&#xff0c; 另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权&#xff0c;请留言作删文处理。 课程视频链接&#xff1a; 数据结构与算法基础…

“掌握更多的快速排序技巧:三路划分、双路快排和非递归的深入理解”

快速排序是一种基于分治思想的排序算法&#xff0c;它能够以极快的速度将一个乱序的数组重新排列成有序的序列。不仅如此&#xff0c;快速排序还具有简洁的实现代码和良好的可扩展性&#xff0c;成为最受欢迎的排序算法之一。接下来&#xff0c;让我带你了解一下它的魅力吧&…

下半年的 58,准备疯狂内卷?

阅读本文大概需要 1.18 分钟。 关于 58同城&#xff0c;大家都很熟悉&#xff0c;最近看到它的相关信息&#xff0c;还是源于公司「毕业」的事情。 脉脉上在 5 月的时候就开始讨论说 58同城正在进行一波「毕业」&#xff0c;裁员比例在 30%至少。 紧接着&#xff0c;58的老总姚…

Openlayers实战:加载WKT文件

在OPenlayers的交互中,经常性的我们要加载一些数据,在这个实战中,演示的是加载WKT文件。 WKT格式是一种文本格式,用于描述二维和三维几何对象的空间特征。WKT是“Well-Known Text”的缩写,是一种开放的国际标准,由Open Geospatial Consortium(OGC)定义和维护。WKT格式…

vue实现左右布局(右侧超出的时候换行展示)

目录 vue实现左右布局(右侧超出的时候换行展示)code效果 vue实现左右布局(右侧超出的时候换行展示) code <ul class"body-detail"><li><div class"li-label">姓名</div><div class"li-value">XXXXXXXXXXXXXXXXXX…

ai绘画软件哪个好?这几款ai绘画图片生成器分享给你

近期我有个朋友过生日&#xff0c;我想画一幅动物图片绘画送给他&#xff0c;但是奈何我的绘画技巧实在是不堪入目。好在我有几个朋友刚好是ai绘画师&#xff0c;他们跟我说&#xff0c;现在有一些ai绘画工具&#xff0c;可以轻松帮助我画出非常优质的动物图片画作&#xff0c;…

汤臣倍健盈利水平再创新高,其爆品逻辑或可复制粘贴!

前几天&#xff0c;汤臣倍健官方发布了《2023年半年度业绩预告》&#xff0c;预计归母净利润约13.63亿元至15.72亿元。对比上年同期增长30%—50%&#xff0c;上半年盈利水平有望超过2021年中报业绩的13.71亿元&#xff0c;再创新高。 汤臣倍健最初成立于1995年&#xff0c;在20…

项目经理为什么越来越难做了?

作为项目经理&#xff0c;我们面临着来自各方的挑战和质疑。这个职位的困难度越来越高&#xff0c;越来越多的人开始对这个职位感到不满意。然而&#xff0c;要成为一名优秀的项目经理&#xff0c;我们需要深入思考并采取正确的策略。 1、明确项目目标 项目经理在接手一个项目…

类 和 对象

目录 1、面向对象编程 2、面向对象编程 2.1面向对象编程特征 3、类和对象的概念 3.1类的定义 3.11属性 3.12方法 3.13重载 3.14递归 3.13返回值return 3.2对象 3.2.1对象组合 4、jvm内主要三块内存空间 5、参数传值 1、面向对象编程 面向过程&#xff1a;关注的是步骤…

fastadmin 行内无刷新编辑editable插件使用方法详解

后台插件安装好后&#xff0c;只用设置js即可 define([jquery, bootstrap, backend, table, form,editable], function ($, undefined, Backend, Table, Form) {var Controller {index: function () {// 初始化表格参数配置Table.api.init({extend: {index_url: wd/guanli/in…

天意云RstudioServer使用教程

写在前面 Rstudio与R语言的关系就像汽车和引擎一样&#xff0c;两者相得益彰不可分割。在日常使用过程中&#xff0c;需要在Rstudio中进行代码边写、调试、运行&#xff0c;一般情况下这个过程是在自己的笔记本电脑完成的。 emmm...... 有没有一种更优雅的方式&#xff1f; Rst…

https重定向后协议变为http

如果使用了nginx&#xff0c;可以再nginx中配置proxy_redirect将http转为https proxy_redirect http:// https://;

python与深度学习(二):ANN和手写数字识别二

目录 1. 说明2. 手写数字识别的ANN模型测试2.1 导入相关库2.2 加载数据和模型2.3 设置保存图片的路径2.4 加载图片2.5 图片预处理2.6 对图片进行预测2.7 显示图片 3. 完整代码和显示结果4. 多张图片进行测试的完整代码以及结果 1. 说明 本篇文章是对上篇文章训练的模型进行测试…

SpringMVC学习笔记--下篇

SpringMVC学习笔记 文章目录 SpringMVC学习笔记1、JSON1.1、什么是JSON1.2、JSON 和 JavaScript 对象互转1.3、Controller返回JSON数据1.3.1、使用Jackson工具1.3.1.1、乱码问题的代码优化1.3.1.2、集合测试1.3.1.3、输出时间对象1.3.1.4、抽取为工具类 1.3.2、使用FastJson的工…

Java虚拟机——类加载的过程

接下来&#xff0c;我们会详细了解Java虚拟中类加载的全过程。即加载、验证、准备、解析和初始化这五个阶段所执行的具体动作。 加载 在加载阶段下&#xff0c;Java虚拟机需要完成三件事 通过一个类的全限定名来获取定义此类的二进制字节流将这个字节流所代表的静态存储结构…

Small Tip: 怎么找S4HANA所有的CDS View

1. SAP Business Accelerator Hub 到网址&#xff1a;https://api.sap.com 2. 到Categories底下找。如果没看见CDS View就去View all categories 3. 找到CDS Views之后&#xff0c;点击进去。 4. 按Package 分类来找&#xff1a;