符尧最新研究：大语言模型玩砍价游戏？技巧水涨船高！

符尧最新研究：大语言模型玩砍价游戏？技巧水涨船高！

news2026/2/15 11:39:30

深度学习自然语言处理原创
作者：鸽鸽

若干年前，AlphaGo Zero用两个AI代理切磋围棋技艺，打败了人类。今早，符尧的一篇论文刷新了我的认知：让大语言模型相互对弈，再加一个评论家提供建设性意见，提高菜市场砍价技巧！这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF)，即来自AI反馈的上下文学习，使用评论家的反馈以及前几轮对话历史作为上下文。

没错，就是让GPT和Claude扮演卖家和买家，开展一场价格厮杀的对决！

论文：Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
地址：https://arxiv.org/abs/2305.10142
代码：https://github.com/FranxYao/GPT-Bargaining

我们先来简单介绍游戏玩法：

任务是卖气球，交易价格设定为10美元至20美元，卖家要以更高的价格销售，而买家要以更低的价格购买！对于每轮交易，论文作者硬编码卖方以“这是一个好气球，价格为20美元”开始协商，买方则以“你是否考虑以10美元的价格出售它？”开始协商，协商结束后会有批评家提供反馈，改善买家或卖家的行为。衡量玩家表现的是最终成交价格。

图：谈判游戏的设置

哪些模型参与游戏呢？

筛选条件是可通过API调用的聊天机器人，包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根据chain-of-thought hub和HeLM 之类的基准测试，这些模型的大致排名是：gpt-4和claude-v1.3大致相似，优于gpt-3.5-turbo和claude-instant-v1.0，也优于cohere-command和j2-jumbo-instruct。作者表示将在未来考虑更多的模型，例如Google的PaLM-2。

但是，由于cohere-command不能理解谈判规则、AI21的j2-jumbo-instruct不能整合AI反馈，所以这两个模型被剔除。只考虑剩下的三个模型：gpt-3.5-turbo，claude-instant-v1.0和claude-v1.3。从表1看出，这三个模型在人类和AI反馈方面都表现出相当的改进，这证明了这个游戏设置对于更强的LLM引擎是有效的。

表：使用AI反馈与从预定义池中随机选择的人类反馈相比，卖家的平均交易价格

有哪些有意思的实验结果？

由于这篇工作只是一个初步探索，我们先窥探一些模型表现方面有意思的成果吧：

1. 角色差异

像claude-instant-v1.0和gpt-3.5-turbo这样较弱的代理，作为卖方通过AI反馈进行改进比作为买方更容易，这表明买方角色比卖方角色更难扮演。但更强的代理（claude-v1.3 / gpt-4）作为买家，仍然可以从AI反馈中获得改进。

图：500场游戏的交易价格频率，反馈前v.s.反馈后。X轴是价格，Y轴是价格的频率

2. 迭代改进

将游戏展开到多轮，看看模型是否可以从先前的对话历史和迭代AI反馈中持续改进，会发现gpt-3.5-turbo可以在多轮中改进，但claude-instant-v1.0只能在最多一轮中改进。

图：多回合设置中，不同的模型在扮演卖/买家时有不同的行为

3. 成交价格和成交率的平衡

当扮演买家时，有些模型无法进行改进（claude-instant-v1.0），或在三轮之后趋于饱和（claude-v1.3），而gpt-4和gpt-3.5-turbo可以不断改进，gpt-4取得了比gpt-3.5-turbo更低的成交价格和更高的成交率。

图:GPT和Claude模型在多轮游戏中的交易价格及成交率

4. 语言复杂性

通过绘制每轮之后的平均响应长度（以字符数度量），可以看到，claude-v1.3和gpt-4在迭代AI反馈后回答变长。从具体的卖家回答示例也可以看到，经过多轮谈判，措辞也更加得体。但比起claude-v1.3，gpt-4能使用更少的词语实现更好的价格和成功率。

图：平均响应长度随着模型的多轮学习而增加

结论

大语言模型的确可以根据AI反馈迭代改进谈判策略，且更强的模型效果更明显！这个研究是否意味着，大语言模型可以在最少的人类干预下实现自我改进呢？只需给它一个评论家分身即可！

进NLP群—>加入NLP交流群

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/550354.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

自动控制原理备考-1题-传递函数

自动控制原理备考-1题-传递函数

首先致敬西北工业大学自动控制原理的无冕之王张科老师。期末考试，先下手为强，后下手遭殃。今天我们就开始一起针对期末考试有关题型一一梳理，突破解决。给你一个系统结构图，让你求R（s)和N(s)同时作用下的C(s)。基本…

阅读更多...

机器学习项目实战-能源利用率 Part-5（模型解释）

机器学习项目实战-能源利用率 Part-5（模型解释）

博主前期相关的博客可见下： 机器学习项目实战-能源利用率 Part-1（数据清洗） 机器学习项目实战-能源利用率 Part-2（探索性数据分析） 机器学习项目实战-能源利用率 Part-3（特征工程与特征筛选） 机…

阅读更多...

匿名通信 Windows 客户端的设计与实现

匿名通信 Windows 客户端的设计与实现

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 本课题基于 U-TRI 匿名通信系统，设计一个 Windows 匿名通信客户端。该客户端在匿名通信系统中扮演了重要角色，实现了两个重要功能：第一，实现匿名通信协议，拦截/修改主…

阅读更多...

TCP 三次握手与四次挥手

TCP 三次握手与四次挥手

1 三次握手三次握手的过程如下图： 一开始，客户端和服务端都处于 CLOSE 状态。先是服务端主动监听某个端口，处于 LISTEN 状态客户端会随机初始化序号（client_isn），将此序号置于 TCP 首部的「序号」字段中…

阅读更多...

如何在 iPhone 上恢复已删除的应用程序数据

如何在 iPhone 上恢复已删除的应用程序数据

您是不小心删除了重要应用程序并且似乎无法在您的设备上找到它的 iPhone 用户吗？别担心，你并不孤单。在 iPhone 上丢失应用程序可能会令人沮丧，但幸运的是，有一些方法可以恢复它们。在本文中，我们将通过分步说明向您展…

阅读更多...

你真的懂Java中的Cloneable接口和深拷贝么？

你真的懂Java中的Cloneable接口和深拷贝么？

Cloneable接口和深拷贝 💐文章导读这篇文章就为大家讲讲什么是Cloneable接口，接口的用法以及什么是深拷贝和浅拷贝，如果有不足的地方，还望读者在评论区提出！！！ 上篇文章讲过用Comparable接口…

阅读更多...

$单模光纤的特征方程以及MATLAB求解$

单模光纤的特征方程以及MATLAB求解

在之前的文章中，我们写出了单模光纤的特征方程以及对应的导波模式这里我们在MATLAB中求解特征方程并表示出几个归一化参数的变化曲线用到的公式是单模光纤导波模式的特征方程： clear close all tic Vmax 10; N 100;for j 1:NV(j) j/N*Vmax;Vtemp …

阅读更多...

电脑微信占用100多GB空间解决办法来了：重回清爽流畅

电脑微信占用100多GB空间解决办法来了：重回清爽流畅

这几天微信吃内存的话题又上热搜了，作为一款10亿用户的国民级APP，微信的真是让人又爱又恨，不用几乎不可能，用起来槽点又多，光是磁盘占用就是个头疼的问题。不论是工作还是日常沟通，微信里面的文件及语音、…

阅读更多...

python中的类型转换

python中的类型转换

文章目录类型转换简介int()float()str()bool() 类型转换简介所谓的类型转换，将一个类型的对象转换为其他对象。类型转换不是改变对象本身的类型，而是将对象的值转换为新的对象。类型转换四个函数 int() 、 float() 、 str() 、 bool() int() int()…

阅读更多...

cpp11实现线程池(一)——项目介绍

cpp11实现线程池(一)——项目介绍

项目介绍线程池是库的形式提供给用户，是必须放到代码中，不能单独运行，亦称为基础组件第一版线程池任务对象使用继承技术，提供一个抽象基类Task，里面有一个纯虚函数run()，使用时继承该类，并重…

阅读更多...

第二篇：强化学习中的7个基础概念

第二篇：强化学习中的7个基础概念

你好，我是zhenguo（郭震） 这是强化学习第二篇：强化学习7个基础概念在强化学习中，智能体需要在不断尝试和错误的过程中学习，通过观察环境的反馈（奖励或惩罚）来调整自己的行为&#xf…

阅读更多...

windows系统安装curl

windows系统安装curl

下载安装包 https://curl.se/windows/ 2.如图所示，把下载的zip包解压到C盘某个目录下把bin目录配置到系统环境变量Path里在命令行里直接输入curl即可开始使用 5.curl测试访问百度 6.curl 测试ip端口连通性用法：curl -v ip:port

阅读更多...

推荐一款C端的低代码产品

推荐一款C端的低代码产品

目录写在前面低代码平台平台怎么选各平台区别为什么选它写在前面大家都知道低代码这个叫法是从B端叫起来的，也就是说不管是业务人员还是开发人员，都是企业内部使用。那么有没有C端的，且免费使用的低代码产品呢？ 低代码…

阅读更多...

Matlab论文插图绘制模板第93期—带类别标签的散点图

Matlab论文插图绘制模板第93期—带类别标签的散点图

在之前的文章中，分享了很多Matlab散点图的绘制模板： 进一步，再来分享一种特殊的散点图：带类别标签的散点图。先来看一下成品效果： 特别提示：本期内容『数据代码』已上传资源群中，加群的朋友请…

阅读更多...

数据库基础5-复合查询

数据库基础5-复合查询

文章目录多表查询自连接子查询合并查询基础查询中，再补充一个点： 在使用年薪进行降序排序中，我们有以下语句 //A: select ename, sal*12ifnull(comm,0) as 年薪 from emp order by 年薪 desc;查询到的结果： //B: select ename,…

阅读更多...

Leetcode 剑指 Offer II 027. 回文链表

Leetcode 剑指 Offer II 027. 回文链表

题目难度: 简单原题链接今天继续更新 Leetcode 的剑指 Offer（专项突击版）系列, 大家在公众号算法精选里回复剑指offer2 就能看到该系列当前连载的所有文章了, 记得关注哦~ 题目描述给定一个链表的头节点 head ，请判断其是否为回文链表…

阅读更多...

ROS 开发环境搭建（虚拟机版本）（一）

ROS 开发环境搭建（虚拟机版本）（一）

相关工具，以及镜像（以后有用） 链接：https://pan.baidu.com/s/1xgtp-XGFFNCACV_-0TJO2A 提取码：ar1w 1. 下载vm虚拟机（我选择的官方最新的vm虚拟机），安装好 2.安装百度网盘里面的…

阅读更多...

办公智慧化风起云涌，华为MateBook X Pro 2023是最短距离

办公智慧化风起云涌，华为MateBook X Pro 2023是最短距离

今年以来，我们几乎每个月，甚至每星期都可以看到大模型应用，在办公场景下推陈出新。办公智慧化已成必然，大量智力工作正在被自动化。一个普遍共识是：AI能力范围之内的职业岌岌可危，AI 能力范围之外的职业欣…

阅读更多...

【TES710D】基于复旦微的FMQL10S400全国产化ARM核心模块

【TES710D】基于复旦微的FMQL10S400全国产化ARM核心模块

板卡概述 TES710D是一款基于上海复旦微电子FMQL10S400的全国产化核心模块。该核心模块将复旦微的FMQL10S400（兼容FMQL20S400）的最小系统集成在了一个50*70mm的核心板上，可以作为一个核心模块，进行功能性扩展，特别是用…

阅读更多...

MAYA室外建模

MAYA室外建模

阅读更多...

推荐文章

最新文章