文献阅读:Large Language Models as Optimizers

news2025/1/20 15:53:38
  • 文献阅读:Large Language Models as Optimizers
    • 1. 文章简介
    • 2. 方法介绍
      • 1. OPRO框架说明
      • 2. Demo验证
        • 1. 线性回归问题
        • 2. 旅行推销员问题(TSP问题)
      • 3. Prompt Optimizer
    • 3. 实验考察 & 结论
      • 1. 实验设置
      • 2. 基础实验结果
        • 1. GSM8K
        • 2. BBH
        • 3. 泛化性
      • 3. 消融实验
        • 1. meta-prompt
        • 2. 生成prompt的数目
        • 3. 起始点
        • 4. diversity
      • 4. 过拟合分析
      • 5. 与EvoPrompt的对比
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2309.03409

1. 文章简介

这篇文章是Google在23年9月发表的一个工作,在这篇文章当中,他们提出了一个OPRO的框架,在这个框架当中,他们使用LLM来模拟模型训练当中的optimizer,然后通过迭代的方式不断地预设的NLP问题进行持续迭代,从而获得最优的问题回答。

基于这个框架,文中首先在两个简单的问题上做了可行性验证:

  1. 线性回归问题
  2. 旅行推销员问题(TSP问题)

这个框架天然地适用于prompt的优化问题,因为这同样是一个有明确定义的文本优化问题,因此文中使用这个框架同样进行了LLM的prompt优化,然后在GSM8K和BBH两个NLP数据集当中获得了SOTA的结果。

在这里插入图片描述

以下就是OPRO获得的GSM8K上面的prompt与其他当前使用的主流的prompt的一些对比示例:

在这里插入图片描述

下面,我们来看一下OPRO的具体设计以及文中给出的实验及其效果。

2. 方法介绍

1. OPRO框架说明

OPRO的全称为Optimization by PROmpting,具体来说就是使用LLM来作为optimizer来通过另外一个prompt来持续迭代优化输入的文本。

我们首先回想一下模型训练当中的Optimizer是怎么工作的,对于一般的training过程,就是通过输入的训练数据,计算出来一个loss,然后计算出梯度之后通过optimizer来反向更新模型当中的参数值。

文中的OPRO框架也基本就是这么个思路,给出一段文本,然后计算出这段文本的score,然后通过一个meta prompt交给LLM来迭代优化这段文本,直到计算出来的score达到一个最大值。

我们给出文中的OPRO框架的整体示意图如下:

在这里插入图片描述

2. Demo验证

下面,我们来通过两个具体的case来说明一下OPRO框架的具体运行方式。

1. 线性回归问题

首先,文中在线性回归问题当中进行了一下考察,具体来说,就是用下述公式生成50个点:

y = k x + b + ϵ y = kx + b + \epsilon y=kx+b+ϵ

然后让OPRO进行 ( k , b ) (k, b) (k,b)的学习。

给出这个问题的meta prompt如下:

在这里插入图片描述

得到结果如下:

在这里插入图片描述

可以看到:

  • OPRO框架确实可以来拟合学习 ( k , b ) (k, b) (k,b)的值,且GPT4的效果优于其他模型。
2. 旅行推销员问题(TSP问题)

然后,文中还考察TSP问题,具体来说,就是给定一些点和边,求遍历所有点所需经过的边的权重总和最小值。

同样的,给出文中对于这个问题的meta prompt如下:

在这里插入图片描述

对应的实验结果如下:

在这里插入图片描述

可以看到:

  • OPRO同样可以一定程度上解决掉TSP问题,且GPT4模型效果优于其他模型。

3. Prompt Optimizer

有了上面的基础,我们来看一下如何使用OPRO框架来优化prompt,同样的,我们就是给出一个prompt,然后通过几个case考察以下这个prompt的效果,然后给出一个score,然后让LLM重新基于之前的一系列prompt以及其对应的打分score,去尝试迭代优化下一个版本的prompt。

给出文中在GSM8K下的prompt迭代优化的meta prompt的示例如下:

在这里插入图片描述

可以看到,整体上这个meta prompt就是包含了几个部分:

  1. prompt examples & scores
    • 过去给出prompt以及对应的打分结果
  2. problem examples
    • 一些具体的case以及给出prompt然后给出的答案
  3. instruction
    • instruction to optimize prompt

然后就是整体上不断地加入case进行迭代优化,直至获得最优的prompt内容即可。

下面,我们来看一下文中关于OPRO对prompt优化的实验结果。

3. 实验考察 & 结论

1. 实验设置

首先,我们来看一下文中给出的OPRO优化的prompt的实验设置。

在模型方面,文中使用的prompt优化模型和打分模型分别如下:

  1. Optimizer:
    • Pre-trained PaLM 2-L
    • instruction-tuned PaLM 2-L
    • text-bison
    • gpt-3.5-turbo
    • gpt-4
  2. Scorer:
    • Pre-trained PaLM 2-L
    • text-bison

而实验使用的测试数据方面,则主要为:

  1. GSM8K
  2. BBH

2. 基础实验结果

1. GSM8K

下面,我们首先来看一下文中给出的GSM8K上的实验结果如下:

在这里插入图片描述

可以看到:

  • 随着迭代的深入,prompt的效果确实可以得到持续地优化。

文中还给出了OPRO优化得到的GSM8K上的prompt示例如下:

在这里插入图片描述

2. BBH

下面,我们来看一下文中在BBH数据集上的实验结果。

在这里插入图片描述

可以看到,以"Let’s think step by step"作为baseline,OPRO获得的prompt在BBH数据集的各个子任务下基本都有明显的accuracy的提升。

另外,文中同样给出了accuracy与迭代的关系示意图:

在这里插入图片描述

可以看到,随着迭代的增加,prompt的效果确实是越来越好的。

最后,文中同样给出了一些BBH数据集下的OPRO的prompt例子如下:

在这里插入图片描述

3. 泛化性

除了上述两个数据集下的基础实验之外,文中还考察了一下OPRO生成的prompt的泛化能力,具体来说,就是使用在BBH上优化得到的prompt在其他数据集上测试效果,得到结果如下:

在这里插入图片描述

可以看到:

  • 在GSM8K上迭代得到的prompt在Multi-Arith以及AQuA数据集上同样有着优秀的效果。

3. 消融实验

下面,我们来看一下文中给出的消融实验的实验结果。

文中主要考察了以下几个部分的消融实验:

  1. meta-prompt的设计
  2. 每一步生成的prompt的数目
  3. 起始点
  4. Diversity per step

下面,我们具体来看一下各个部分对结果的影响。

1. meta-prompt

关于具体的meta prompt的设计方面,文中又细化到了以下三个部分的影响:

  • 输入之前prompt的顺序
  • scores
  • exampler的作用

得到实验结果如下:

在这里插入图片描述

可以看到:

  • 迭代中prompt历史的给出顺序最好是按照递增顺序给入,可以使模型得到最好的学习优化;
  • 评估时使用buckets越多,模型训练的效果往往越好;
  • 一定的examplar有利于模型的学习,但是过多的examplar会导致模型效果下滑,可能是由于prompt的混淆。
2. 生成prompt的数目

其次,我们考察一下文中对于单次迭代中生成的prompt数目的考察,类比到ML当中,可以视作learning rate的选择。

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  • 同样的,一定程度上增加生成数目有利于模型的学习,但也不是越大越好,文中给出的建议值是一轮生成8个prompt。
3. 起始点

然后,文中还考察了一下起始点对OPRO效果的影响,即最开始的prompt设置对效果的影响。

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  • 不同的起始点对于OPRO最终的收敛效果并不会有太大的影响。
4. diversity

最后,文中还考察一下迭代中diversity对迭代效果的影响。

具体来说,就是在生成中temperature参数对实验效果的影响,即调整生成过程中的随机性,看生成效果的影响,得到结果如下:

在这里插入图片描述

可以看到,这里也存在一个trade-off,当temperature取1.0时,可以获得一个最优的效果。

4. 过拟合分析

此外,由于文中将LLM视为一个optimizer进行prompt的优化,那么自然也可能会出现过拟合的现象,因此文中也对过拟合进行了一下考察,得到结果如下:

在这里插入图片描述

可以看到,在文中的两个case当中,过拟合现象并不明显,但是文中提到,确实存在一些case可能会有过拟合现象的发生,因此可以的话最好还是设置一下early stop机制比较好。

5. 与EvoPrompt的对比

最后,文中还和当前其他的一些类似工作进行了比较(EvoPrompt),得到结果如下:

在这里插入图片描述

可以发现:

  • OPRO的效果是明显优于EvoPrompt的。

4. 总结 & 思考

综上,文中给出了一个新的Prompt的调优方式,即将LLM视为一个optimizer来通过反向传播迭代的方式来自行优化prompt的方法。

坦率地说,还是比较巧妙的,感觉后面可以试试,或许真能获得一些惊喜也说不定,就是迭代成本文中没提,可能不太好搞,但是即便不好搞,直接使用文中给出的这个"Take a Deep Breath"或许也能获得一些意外的惊喜,毕竟按文中的意思,他们调出来的prompt是具有一定的泛化能力的。

不过还是得说,我是真的不喜欢prompt tuning啊,唉,不知道是不是只有我一个人这么想……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1384479.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis的配置及简单使用

1.配置myBatis 1.myBatis的作用 MyBatis 是一个开源的持久层框架,它的主要作用是简化数据库操作,使得开发者能够更方便地与数据库进行交互。 MyBatis 允许开发者使用简单的 XML 或注解配置 SQL 映射,从而实现数据库操作,而不需要…

解决“win11无法识别U盘“问题

在15.6寸笔记本上插上U盘,有时候出现U盘无法识别的现象,出现这种问题的原因有许多,比如U盘的格式不被当前电脑支持、电脑的USB接口电压过低、没有安装U盘驱动等等。     若是U盘格式不支持,则把U盘改成电脑能够识别的格式&#…

C++I/O流——(4)文件输入/输出(第一节)

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍 收藏⭐ 留言​📝 含泪播种的人一定能含笑收获&#xff…

Fiddler工具 — 13.AutoResponder应用场景

简单介绍几个应用场景: 场景一:生产环境的请求重定向到本地文件,验证结果。 例如:某网站或者系统修改了问题,但尚未更新到生产环境,可重定向到本地修改后的文件进行验证,这样能够避免更新到生产…

maven管理使用

maven基本使用 一、简介二、配置文件三、项目结构maven基本标签实践(例子) 四、pom插件配置五、热部署六、maven 外部手动加载jar打包方式Maven上传私服或者本地 一、简介 基于Ant 的构建工具,Ant 有的功能Maven 都有,额外添加了其他功能.本地仓库:计算机中一个文件夹,自己定义…

鸿蒙Harmony-层叠布局(Stack)详解

我们总是为了太多遥不可及的东西去拼命,却忘了人生真正的幸福不过是灯火阑珊处的温暖,柴米油盐的充实,人生无论你赚的钱,是多还是少,经历的事情是好还是坏,都不如过好当下的每一天! 目录 一&am…

5.2 Android BCC环境搭建(adeb版,下)

五,运行adeb shell adeb shell 其实这个配置比较简单,也就是5.1中的第三节“adeb prepare --full“和该节的”adeb shell",就可以连接我们的android设备,在android设备中或执行bcc工具,来对我们的android环境进行hook了。 六,其他指令 6.1 从开发机移除adeb adeb…

顶级Web应用程序测试工具列表

今天主要列举Web应用程序的工具。 今天的列表仅仅提供索引功能,具体要使用的同学,可以自行搜索哦。 通过web应用程序测试,在web应用程序公开发布之前,会发现网站功能、安全性、可访问性、可用性、兼容性和性能等问题。 Web应用程…

繁花的范总-UMLChina建模知识竞赛第5赛季第3轮

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 参考潘加宇在《软件方法》和UMLChina公众号文章中发表的内容作答。在本文下留言回答。 只要最先答对前3题,即可获得本轮优胜。 如果有第4题,第4题为附加题&am…

基于SSM的法律咨询系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

代码随想录 Leetcode242. 有效的字母异位词

题目&#xff1a; 代码&#xff08;首刷看解析 2024年1月14日&#xff09;&#xff1a; class Solution { public:bool isAnagram(string s, string t) {int hash[26] {0};for(int i 0; i < s.size(); i) {hash[s[i] - a];}for(int i 0; i < t.size(); i) {hash[t[i]…

第十六章 i18n国际化

第十六章 i18n国际化 1.什么是i18n国际化2.i18n国际化三要素介绍3.i18n国际化基础示例4.通过请求头实现国际化5.通过语言类型选择实现国际化6.通过JSTL标签库fmt实现国际化 1.什么是i18n国际化 2.i18n国际化三要素介绍 3.i18n国际化基础示例 如果我要准备一个国际化的信息&…

Windows10下 tensorflow-gpu 配置

越来越多的的人入坑机器学习&#xff0c;深度学习&#xff0c;tensorflow 作为目前十分流行又强大的一个框架&#xff0c;自然会有越来越多的新人&#xff08;我也刚入门&#xff09;准备使用&#xff0c;一般装的都是 CPU 版的 tensorflow&#xff0c;然而使用 GPU 跑 tensorf…

初始化数组

一、静态初始化格式&#xff1a; 数据类型[ ] 数组名 new 数据类型[ ]{元素1&#xff0c;元素2&#xff0c;元素3......} 等号后面的new 数据类型可以省略 注意&#xff1a;什么类型的数组只能存放什么类型的数据 直接打印a或b会显示其地址 数组的元素个数&#xff1a;arr…

【JAVA】哪些集合类是线程安全的

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;JAVA ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 Vector&#xff1a; HashTable&#xff1a; Collections.synchronizedList()、Collections.synchronizedSet()、Collections.syn…

【Python小技巧】安装ImageMagick配置环境变量解决moviepy报错问题

文章目录 前言一、报错ImageMagick 找不到二、解决步骤1. 安装ImageMagick2. 配置IMAGEMAGICK_BINARY环境变量 总结 前言 抽空玩玩moviepy&#xff0c;结果合成视频时报错&#xff0c;看着网上的解决办法&#xff0c;真是复杂&#xff0c;这里就给出个简单便捷的方法。 一、报…

架构师-软件系统架构图学习总结

--- 后之视今&#xff0c;亦犹今之视昔&#xff01; 目录 早期系统架构图 早期系统架构视图 41视图解读 41架构视图缺点 现代系统架构图的指导实践 业务架构 例子 使用场景 画图技巧 客户端架构、前端架构 例子 使用场景 画图技巧 系统架构 例子 定义 使用场…

ES自动补全

安装IK分词器 要实现根据字母做补全&#xff0c;就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。地址&#xff1a;GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is used to do conversion between Chinese characte…

Spring Boot 3 + Vue 3实战:引入数据库实现用户登录功能

文章目录 一、实战概述二、实战步骤&#xff08;一&#xff09;创建数据库&#xff08;二&#xff09;创建用户表&#xff08;三&#xff09;后端项目引入数据库1、添加相关依赖2、用户实体类保持不变3、编写应用配置文件4、创建用户映射器接口5、创建用户服务类6、修改登录控制…

LeetCode讲解篇之216. 组合总和 III

文章目录 题目描述题解思路题解代码 题目描述 题解思路 使用递归回溯算法&#xff0c;当选择数字num后&#xff0c;在去选择大于num的合法数字&#xff0c;计算过程中的数字和&#xff0c;直到选择了k次&#xff0c;如果数组和等于n则加入结果集 从1开始选择数字&#xff0c;直…