ShareGPT平替!利用苏格拉底提问模拟器更好地蒸馏ChatGPT对话能力

news2024/11/25 16:53:11

5fb9ff07908b4df0ba7cdc42831d5c2c.gif

©PaperWeekly 原创 · 作者 | 孔楚伊

单位 | 深圳市大数据研究院

研究方向 | 自然语言处理

b9f3ef1bd40ee84576c251f10753d78c.png

引言

基于真实用户与 ChatGPT 的互动,通过反转学习目标(从学习回复到学习提问),训练更贴近真实用户的模拟器,更好的提问质量可以激发 ChatGPT 的更大潜力。在流行的 Alpaca Eval benchmark 超过 GPT 3.5,在 MT-bench 上得分 6.33,强于 Vicuna 新版。在这两个 benchmark 都是是基于 LLaMA 2 7B 底座的 SOTA。

ChatGPT 的多轮对话能力和指令理解能力让公众更广泛地接受来这一产品,但是因其闭源,社区在努力做民主化 ChatGPT 的尝试。例如,Vicuna 通过利用真实用户和 ChatGPT 对话的 ShareGPT 数据集来快速开源大模型的对话能力,效果显著。然而,由于近期 ShareGPT 官方不再允许用户从其上爬取数据,最近的工作则(如 Baize 和 UltraLM 等)通过提示的方式让 ChatGPT 进行角色扮演,以模拟用户和助手模型,自动生成对话数据。

粗略地讲,影响训练助手模型性能的因素有两方面。一方面,用户问题的质量是可以影响模型的效果,例如 Wizard 中用户的复杂指令可以比 Alpace 指令可以更好地训练助手模型。ChatGPT 用户模拟器并不能保证可以足够激发 ChatGPT 助手模型的足够的潜力。

即使可以设计一些精细的 prompt 来让 ChatGPT 所扮演的用户模拟器提供某种类型的问题,其在提问过程中也是即兴的,难以保证 ChatGPT 所扮演的用户模拟器的提问能够达到满意的程度。并且,用户模拟器用来激发大模型能力的提问方式一定程度上是抽象,难以通过文本 prompt 来具象化。

另一方面,用于训练数据的分布是否贴近真实的使用场景同样影响训练后的助手模型能性。通过角色扮演,ChatGPT 作为用户模拟器可能不能贴切地模拟真实用户的信息需求,特别是在和 ChatGPT 这种助手模型提问时的思路。

这使得训练出的助手模型并不能和与真实用户交互时 ChatGPT 的表现一致。因此,需要构建一个用户模拟器通过建模用户的真实意图和提问思路,以此充分激发助手模型的回复能力。

777e61a52425bdfdcdda1412288bc820.png

考虑到以上两个方面,我们联想到利用苏格拉底式提问来命名我们的方法,苏格拉底式提问是老师教学生的一个经典方法,通过连续提问来充分激发学生的能力,促进学生的思考。在大模型训练的场景是,学习一个用户模拟器专门去给 ChatGPT/GPT4 助手模型连续提问,通过学习助手模型的输出来高效蒸馏一个开源模型。在苏格拉底式提问中,苏格拉底的下一轮问题可以比上一轮更复杂,更具体或者联想到更高层次,以此充分帮助学生思考并做出更好的回复。

受此启发,我们尝试将此方法迁移到用户模拟器激发 ChatGPT 更好回复的场景中。同时,为了保证拟合真实的用户信息需求和相应的分布,我们通过构建 Vicuna 的对称模型 Anuciv 作为苏格拉底模拟器。Vicuna 是学习 ShareGPT 中的助手模型,而 Anuciv 则是学习 ShareGPT 中的用户模型。通过 Anuciv,我们就可以构建任意规模的贴近真实用户-ChatGPT 对话的数据集。

香港中文大学(深圳)和深圳市大数据研究院所在的王本友教授团队,通过在高质量的人机对话数据集 ShareGPT 上,仅计算人类提问的损失来反转学习目标,基于 LLaMA 基座,全微调训练出一个名为 “Socratic(苏格拉底的信徒)”的用户模拟器(也就是上文中的 Anuciv)。随后,通过迭代调用 Socratic 与 ChatGPT 获得了高度类人的人机对话数据集 SocraticChat,并在该数据集上训练出表现优越的助手模型 PlatoLM。

abc8a0d0b4ab1d56b0be2aaf8d68fa6c.png

论文地址:

https://arxiv.org/abs/2308.11534v4

代码地址:

https://github.com/FreedomIntelligence/PlatoLM

huggingface数据集地址:

https://huggingface.co/datasets/FreedomIntelligence/SocraticChat

huggingface模型地址:

https://huggingface.co/FreedomIntelligence/PlatoLM-7B

该论文提出的模拟器训练方法,可以使用户模拟器在基于上下文背景下持续追问,与在无上下文背景下自主提问之间灵活切换,这使其不仅具有良好的迁移领域的能力,将任何单轮对话扩展成多轮形式,还能够扩展 ShareGPT 数据集的规模和多样性。

此外,他们发现,Socratic 提出的问题的复杂性可以随着多轮对话的进行循序渐进地提高,并由此激发 ChatGPT 自动 ICL 的能力,这与苏格拉底式质疑——通过提问者由浅入深地提问来启发回答者思考的过程——不谋而合:

他们认为经过人类高超的 prompting 技术微调知识丰富的 llama backbone 后的高度类人的模拟器 Socratic 可以类比为苏格拉底,模拟器与 ChatGPT 之间的对话所形成的数据集 SocraticChat 可以类比为对话录(柏拉图所记载的苏格拉底启发人类思考的对话体文集),学习 ChatGPT 的回答的助手模型 PlatoLM 可以类比为柏拉图,整个 pipeline 可以类比为苏格拉底式教学。

1ed41e7351e60c32893126eae62e77ae.png

9d605d1875e0c7ef46fe2174415c462f.png

教学方法论

基于苏格拉底式质疑的用户模拟器的教学方法论分为三步,如方法论对比图所示,他们的第一步与第三步是对称的。

9776f9e10f3d3ea22868732b32bb5d7b.png

1. 训练用户模拟器

与训练助手模型相反,他们遮蔽了用户的提问,计算其损失,修改学习目标为人类的提问,并基于 llama 基座,使用与训练助手模型对偶的提示模板,微调模型 Socratic。在切割 ShareGPT 数据集中超过 2048 最大上下文长度的多轮对话样本时,使切割后的 segments 以 gpt 开头。最终 human 和 gpt 开头的多轮对话样本的分布大致平衡,这使模拟器可以在基于上下文背景下持续追问,与在无上下文信息下自主提问之间灵活切换。

2. 合成对话SocraticChat

在推理时,他们引入了两种教学方法,分别为自由模式和种子模式的教学。对于前者,苏格拉底可以无需任何上下文作为引导,自由提出质疑;而种子模式则是指,以其他数据集的单轮对话作为种子,继续追问。

此外,他们指出,当迭代调用用户模拟器和 ChatGPT API 时,会不可避免地出现何时终止对话的问题。由于 ShareGPT 数据集的特殊性 —— 即无从判断一个对话的结束是否为一个话题的结束 —— 他们采用了硬控制的方法,换句话说,当上下文长度超过最大长度 2048 后,结束对话。

3. 训练助手模型PlatoLM

与大多数训练助手模型的方法一致,他们遮蔽了助手的回答,计算损失,并基于 llama 基座微调模型。

866aadb37a730344feb9abd5d39ff5d3.png

实验结果

为了评估该范式的优越性,他们分别根据模拟器的教学方式,对基线和消融的结果模型和各模拟器合成的数据集进行了评估。

aa3cd3605fd1393a6c08d9ddf540e75b.png

对于基线模型,首先保证使用同等数量的样本(10K)、同样的训练方式(SFT)、同样的基座模型(llama1)进行评估,结果证明:自由模式的PlatoLM在单轮 benchmark(Vicuna-Bench、Alpaca-Eval)上超越了基线模型(Vicuna、Baize、UltraLM),在多轮 benchmark——MT-Bench 的双评中超越了所有基线模型,在单评中仅次于 Vicuna(由于 MT-bench 对于分差较大的 domain 采用了惩罚机制)。人评与双评有较高的一致性。

之后,他们使用 ScoraticChat 的全部数据集,基于 llama2 进行训练,在 MT-bench 和 Alpaca-Eval benchmark 上,以更少的样本量(50K)、更短的上下文长度(2048)超越了同等规模的基线模型,最终在两个榜单的 7B 规模模型中排名第一(现在第二),在 Alpaca-Eval 榜单中,甚至打败了 GPT3.5 和一些 13B 模型(LLaMA2 Chat 13B 等)。

对于消融模型,他们以对话两端分别为人机、人人、机机的数据集的单轮对话 ShareGPT、Dolly、Evol-instruct 作为种子,引导模拟器,发现经过引导的模拟器的后续提问具有对应数据集域的特性,这证明了模拟器 Socratic 具有可迁移性。

此外,他们也发现,尽管 Evol-instruct 的种子问题为人类所提出,但经过 WizardLM 多轮的改写后,提问的类人性大大降低,因此以 Evol-instruct 引导的 PlatoLM 表现不如经过 Dolly 和 ShareGPT 引导的 PlatoLM。最后,他们指出,尽管种子模式的模拟器 Scoratic 容易受限于种子的规模,自由模式的模拟器不受该限制,但种子的规模问题可以通过 ensemble 来解决。

f08797ad7ed1599c188dfb94f07f8c21.png

对于蒸馏出来的 ScoraticChat 数据集,他们以同等规模的样本对其进行了统计,发现:ScoraticChat 相较于 Baize、UltraChat、Vicuna 在语料库层面的统计量(词库大小、平均轮数、平均 session 长度、平均 utterance 长度)上表现最好,在提问层面的统计量上,提问的复杂性、相关性(使用 ChatGPT 评估)第一,提问的类人性(使用 ChatGPT 检测器评估)与话题多样性(使用降维后的余弦相似度评估)仅低于 ShareGPT。

d88d0feeb2e6c312b3ef29ede3fa051f.png

样例参考

从例子中,用户第二个问题是第一个问题的进一步的问题,以及第三个问题也是基于前面问题的更深入的问题,类似于苏格拉底提问的风格。以第三个问题为例,它要求答题者不只是简单地列举服务,而是深入思考和评估这些服务的重要性。这样的问题鼓励答题者深入反思、评估和对比不同的服务,从而得出结论。这正是苏格拉底提问法追求的目标:通过提问促使人们深入思考和自我探索。

5b3fdc0fc496b766a755facbcda04f34.png

更多阅读

87a18d87b377e064719d1bb0ebeb417f.png

c2b977c89e26d4dfb5647377bf14569c.png

ff55faeef42f54c59f2ec585ef69a627.png

4f86a819b49266270f28ee0b7210ee18.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

b470d2cb116f60f2fa6ea5fddf6cff4c.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

d8de2f2bced7c7db24a7cb8b0aea6d91.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1169855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电子产品上架Temu平台需要做什么认证?UL测试报告

2022年8月17日报道,TEMU正在筹备跨境电商平台。9月1日,TEMU跨境电商平台正式在海外上线,首站将面向北美市场,该平台命名为TEMU,App Store应用详情页显示意为“Team Up,Price Down”,即买得人越多…

3.线性神经网络-3GPT版

#pic_center R 1 R_1 R1​ R 2 R^2 R2 目录 知识框架No.1 线性回归基础优化算法一、线性回归1、买房案例2、买房模型简化3、线性模型4、神经网络5、损失函数6、训练数据7、参数学习8、显示解9、总结 二、 基础优化算法1、梯度下降2、学习率3、小批量随机梯度下降4、批量大小5、…

欧盟网络安全威胁:虚假与错误信息

如今,数字平台已是新闻媒体的主战地。社交网站、新闻媒体、甚至搜索引擎都是现在大多数人的信息来源。由于这些网站的运作方式是通过吸引人们来产生网站流量,这些抓人眼球的信息通常是推广广告,有些甚至没有经过审查。 国际现状 恶意攻击者现…

机器视觉行业最大的污点是什么?99%机器视觉公司存在测量项目数据造假,很遗憾,本人不没有恪守技术的本分

机器视觉行业最大的污点是什么?99%机器视觉公司存在测量项目数据造假,很遗憾,本人没有恪守技术的本分。 1%是没做过机器视觉测量项目,我们应该具体分析和具体判断,更应该提高自己的认知能力和技术能力。 那我们​在现场…

linux+python3.6.8+uwsgi+postgresql+django部署web服务器

linuxpython3.6.8uwsgipostgresqldjango部署web服务器 1.查看系统信息2.配置postgresql数据库2-1.安装postgresql数据库2-2.设置密码2-3.修改postgresql数据库配置文件 3.Python虚拟环境激活虚拟环境 4.Django4-1.Python 安装Django4-2.创建Django项目4-3.配置Django 5.uwsgi5-…

polarismesh安装

polarismesh安装 1.安装须知2.安装方式 1.安装须知 1.官方安装文档:https://polarismesh.cn/docs/%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/%E6%9C%8D%E5%8A%A1%E7%AB%AF%E5%AE%89%E8%A3%85/%E5%8D%95%E6%9C%BA%E7%89%88%E5%AE%89%E8%A3%85/ 2.下载地址 .github下载…

新形势下芯片研发如何实现数智化转型,革“芯”未来?龙智即将携手Perforce及Atlassian亮相ICCAD 2023

11月10-11日,龙智即将亮相中国集成电路设计业2023年会(ICCAD),呈现集成了Perforce与Atlassian产品的芯片开发解决方案,帮助企业实现数智化转型,革“芯”未来。 龙智资深顾问、技术支持部门负责人李培将带来…

thinkphp的路径参数(RESTFul风格),把参数写在路径里

thinkphp官方文档 https://www.kancloud.cn/manual/thinkphp5_1/353969 有一个Blog控制器,里面的read方法是固定的,不能该 route.php里添加如下代码,访问 blog对应的就是 android/blog Route::resource(blog,android/blog);然后访问路径

招聘小程序源码 招聘网源码 人才网源码 招聘求职小程序源码

招聘小程序源码 招聘网源码 人才网源码 招聘求职小程序源码 功能介绍: 1、发布招聘,建立企业人才库 支持企业入驻发布招聘职位,建立人才库; 2、发布简历,在线投简历 支持用户发布简历,向意向职位在线投简…

LeetCode算法题解(回溯)|LeetCode216. 组合总和 III、LeetCode17. 电话号码的字母组合

一、|LeetCode216. 组合总和 III 题目链接:216. 组合总和 III 题目描述: 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。该列表不能包含相同…

【小白专用】微信小程序个人中心、我的界面(示例一)23.11.04

微信小程序使用button按钮实现个人中心、我的界面(示例一) 微信小程序个人中心、我的界面,使用button按钮实现界面布局,更好的将分享好友、获取头像等功能展现出来,更多示例界面,请前往我的主页哦。 1、js…

电子凭证会计数据标准试点深化后,企业管理的关键点在于什么?

为了加快建设数字中国、发展数字经济发展,并推动经济社会绿色化、低碳化发展,政府部门一直大力推动企业的数字化转型。 企业的经营活动也越来越活跃。企业在经营中产生了大量的票据,由于电子凭证分属不同的部门管理,数据不兼容&am…

黔院长 | 贵州四部门联合发文加强新时代中医药人才工作!

近日,贵州省中医药管理局、省教育厅、省人力资源社会保障厅和省卫生健康委联合印发《关于加强新时代中医药人才工作的实施意见》,《意见》强调培训”能中会西“的基层医生! 《意见》提出,要加强中医药高层次人才队伍建设&#xff…

Day19力扣打卡

打卡记录 填充每个节点的下一个右侧节点指针 II(BFS层序遍历) 链接 采用BFS层序遍历,将每一层的节点遍历之后存入数组中,再对数组中一层中的所有节点遍历来进行next连接,再同时更新下一层的所有节点到数组当中。 /*…

如何在知识付费系统小程序开发中实现社区互动和用户参与

在知识付费系统小程序的开发中,实现社区互动和用户参与可以通过以下步骤实现: 1. 建立用户身份验证和管理系统 // 后端示例代码(Node.js) // 用户注册 app.post(/register, (req, res) > {const { username, email, passwor…

前端性能分析工具

前段时间在工作中,需要判断模块bundle size缩减对页面的哪些性能产生了影响, 因此需要了解前端的性能指标如何定义的,以及前端有哪些性能分析工具, 于是顺便整理了一篇笔记, 以供前端小白对性能这块知识点做一个入门级的了解. 页面渲染 在了解性能指标和分析工具之前,有必要先…

软件开发项目文档系列之十如何撰写测试用例

目录 1 概述1.1 编写目的1.2 定义1.3 使用范围1.4 参考资料1.5 术语定义 2 测试用例2.1 功能测试2.1.1 用户登录功能2.1.2 商品搜索功能 2.2 性能测试2.2.1 网站响应时间2.2.2 并发用户测试 附件: 测试用例撰写的要素和注意事项附件1 测试用例要素附件2 测试用例的注…

IDEA集成Docker插件打包服务镜像与运行【附Docker命令汇总】

Docker官网 Docker官网:https://www.docker.com/ Docker Hub官网:http://hub.docker.com/ 什么是Docker Docker 是一个开源的容器引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者和系统管理员在笔记本上编…

ATFX汇市:英国央行维持基准利率不变,至此“美欧英”三大央行均宣布暂停加息

ATFX汇市:英国央行11月份利率决议上,货币政策委员会以 6 票对 3 票的多数投票决定将银行利率维持在 5.25%,原因在于,央行认为英国 GDP 在 2023 年第三季度将持平,弱于 8 月报告中的预测,另外,一…

windows11本地安装部署langchain-chatchat api接口报错

Langchain-chatchat 提示:Langchain服务已经正常启动,swagger-ui页面也正常访问的情况下出现接口调试报错问题 文章目录 Langchain-chatchat前言问题分析解决问题方案 前言 报错接口如下: 2023-11-03 15:23:50 | INFO | stdout | INFO: …