[阅读笔记18][CITING]LARGE LANGUAGE MODELS CREATE CURRICULUM FOR INSTRUCTION TUNING

news2024/11/15 13:28:50

这篇论文是23年10月提交到arxiv上的,也是用大模型蒸馏小模型的思路。

作者在这篇论文中提出了课程指令微调,大体流程如下图所示,教师模型给出一个问题,让学生模型回答一下,这时候学生回答大概率不够准确,这时候把学生的回答以及评价该问题的标准输入给教师模型,让教师模型给出一个修改后的回答,然后让学生根据修改过的回答进行微调,持续这个过程若干轮就能得到一个不错的学生模型。
作者的灵感来自于导师帮学生修改论文这个场景,学生把写好的论文发给导师,导师把修改版返回去,然后学生可以比较原版和修改版之间的差异,以此来提升自己的写作水平。
最终得到的小模型经过GPT-4评估,对比大部分模型都有70%以上的胜率。这些模型都是在LLaMA-7B的基础上训练得到的。

整个系统分为两部分,第一部分是根据教师LLM确定不同指令的评价标准,第二部分是对学生模型使用之前提到的课程指令微调。

对于第一部分确定不同指令评价标准时又分两步,首先是不同的指令众多,如果每个指令对应一个单独的标准是不现实的,作者将指令进行了分类,对于同一类指令使用相同的评价标准,分类这件事也是交给LLM处理的,使用的prompt如下图所示,顺便还让LLM把该类别标准一起生成了。
然后就是对于测试集中没见过的指令如果确定它的类别呢,这里使用sentence-BERT模型来对训练集中每条指令编码为embedding,然后新来的指令也同时编码为embedding,对于每个指令类都和其中每个指令计算内积,然后这条指令和每个类别的相似度就是内积的均值,最后这条指令类别就是相似度最高的那个类别。类别确定了那这条指令对应的标准也就确定了。

课程指令微调这部分直接看伪代码会好理解一些,上面那张图就是论文中的伪代码。一共有若干轮,每轮先直接让学生模型输出回答,然后把问题、标准还有学生回答拿给教师模型,让教师模型生成一个修改版的回答,再把问题、标准、学生回答还有教师回答拿给学生模型微调,教师生成回答和微调学生的prompt如下图所示。

这里展示了这篇论文的一些细节,这部分内容还是挺重要的。首先模型使用的是LLaMA-7B作为基座模型,然后使用了Alpaca数据集来训练,将划分训练集、验证集和测试集为8:1:1,然后在训练集和验证集上用LoRA框架微调学生模型得到SFT,之后就是抽取了1000条问题,以GPT-3.5为教师模型,逐步改进学生的回答。

最后是结果展示,作者在四个数据集上比较了CITING和SFT、RLHF、RRHF(Rank responses to align language models with human feedback without tears)和RAFT(Reward ranked finetuning for generative foundation model alignment)的胜率,由GPT-4给出从回答清晰度、回答深度和综合性三方面的得分。可以看到无论哪项比较CITING都保持着优势。

接下来是对于迭代轮数的消融实验,可以看到第四轮开始模型性能就开始退化了。作者解释到这是因为重复指令微调(毕竟一直是那1000个指令,如果每次重新抽样会不会好点?)导致了灾难性遗忘,微调后的模型忘记了最早的SFT的知识,导致模型性能下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4.2冰达机器人:视觉实例-机器人视觉循线、视觉实例-调整循线颜色

4.2.10a视觉实例-机器人视觉循线 本节内容演示一个机器人视觉的视觉循线实例 准备工作:布置一块区域作为循线场所,如下图所示。用蓝色胶带在地面贴一条路线(机器人极限转弯半径0.5m,不要贴得过于曲折),将…

MINIO安装的方法(WindowsLiunx)

2 minio安装教程 注:官方中文文档:MinIO对象存储 Windows — MinIO中文文档 | MinIO Windows中文文档 Liunx 安装方:MinIO对象存储 Linux — MinIO中文文档 | MinIO Linux中文文档 2.1 下载地址 https://dl.min.io/server/minio/…

vlan 和 trunk实验

VLAN(Virtual Local Area Network),即虚拟局域网,是一种网络技术,它的主要原理是将物理网络划分为多个逻辑子网,每个子网形成一个独立的广播域。这样,VLAN内的主机间通信就像在同一个局域网内一…

第二届 Oceanbase 开发者大会 实录

第二届 Oceanbase 开发者大会 实录 今天很有幸参加了Oceanbase 开发者大会,我是真的我一开始还不知道什么是Oceanbase ,直到我开了会才知道。看来真的需要多参加一些这样活动。 会议议程 我们科普一下什么是Oceanbase OceanBase 是阿里巴巴集团推出…

Junit 高级-ApiHug准备-测试篇-011

🤗 ApiHug {Postman|Swagger|Api...} 快↑ 准√ 省↓ GitHub - apihug/apihug.com: All abou the Apihug apihug.com: 有爱,有温度,有质量,有信任ApiHug - API design Copilot - IntelliJ IDEs Plugin | Marketplace 涉及到 …

MYSQL之增删改查(下)

前言: 以下是MySQL最基本的增删改查语句,很多IT工作者都必须要会的命令,也 是IT行业面试最常考的知识点,由于是入门级基础命令,所有所有操作都建立在单表 上,未涉及多表操作。 4.3 高级查询 4.3.1 聚合函…

【python】使用python和selenium实现某平台自动化上传作品的全步骤

第一,我们需要下载python并安装 下载地址:https://www.python.org/downloads/release/python-3123/ 3.x版本的python自带pip工具,因此不需要额外下载。 ModuleNotFoundError: No module named seleniumpip用于下载python适用的各类模块&…

最小化横穿北达科他州的直排轮滑补水次数

最小化横穿北达科他州的直排轮滑补水次数 问题定义算法设计伪代码C代码示例策略的正确性和运行时间分析结论 问题定义 Gekko教授计划使用直排轮滑从明尼苏达州东部边境的大福克斯市出发,横穿北达科他州,抵达靠近蒙大拿州西部边境的威利斯顿市。他计划携…

24华中杯ABC题更新完成,B题将提供论文参考,AC题将在下午完成论文

以下内容,将在文章最后放置链接 2024华中杯A题12页思路数据可执行代码参考论文https://mbd.pub/o/bread/ZZ6am5dw 2024华中杯B题24页思路数据可执行代码参考论文https://mbd.pub/o/bread/ZZ6am5hp 2024华中杯C题10页思路数据可执行代码参考论文https://mbd.pub/o/br…

Nginx part2.1

目录 搭建目录网页 为网页设置用户登录 做一个文件目录网页,并进行登陆 示范 搭建目录网页 启动nginx: systemctl start nginx 开机自启动nginx: systemctl enable nginx 启动完服务后,查看自己的nginx的状态:sys…

volatility内存取证

记录一道volatility内存取证的题目,第一次遇到,现场把环境搞出来,现记录一些操作指令。 一、安装volatility3 1、新建一个kali虚拟机 新建的过程不再赘述。 2、下载volatility3 GitHub - volatilityfoundation/volatility3: Volatility …

基于Springboot的职称评审管理系统

基于SpringbootVue的获取源码 联系方式 👇🏻的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 评审条件 论坛信息 系统公告 后台登录…

CTFshow-PWN-前置基础(pwn26-pwn31)

目录 1、pwn26 2、pwn27 3、pwn28 4、pwn29 5、pwn30 6、pwn31 1、pwn26 设置好 ASLR 保护参数值即可获得flag 首先我们需要知道什么是 ASLR? ASLR(Address Space Layout Randomization)是一种操作系统级别的安全功能,它通…

【VSLAM】VINO-Mono安装部署与运行

😏★,:.☆( ̄▽ ̄)/$:.★ 😏 这篇文章主要介绍VINO-Mono安装部署与运行。 学其所用,用其所学。——梁启超 欢迎来到我的博客,一起学习,共同进步。 喜欢的朋友可以关注一下,下次更新不迷…

数学建模--非线性规划模型+MATLAB代码保姆式解析

目录 1.简单介绍 2.求解方法 3.适用赛题 4.典型例题及相关分析 (1)问题引入 (2)决策变量&约束条件 (3)确定目标函数 (4)建立数学模型 5.MATLAB代码祝逐字句讲解 1.简单…

什么是AIoT?

什么是AIoT? AIoT,即人工智能物联网,是一种将人工智能(AI)技术与物联网(IoT)相结合的新型应用形态。它不仅实现了设备之间的互联互通,还赋予了它们更智能化的特性。AIoT的核心在于通过AI的数据…

Ubuntu 系统安装 VS Code 并配置 C++ 环境

Linux 系列教程: VMware 安装配置 Ubuntu(最新版、超详细)FinalShell 远程连接 Linux(Ubuntu)系统Ubuntu 系统安装 VS Code 并配置 C 环境 ➡️➡️ ➡️VS Code 官方教程:Using C on Linux in VS Code&…

掌握字幕艺术:pysrt 库指南

文章目录 掌握字幕艺术:pysrt 库指南第一部分:背景介绍第二部分:库是什么?第三部分:如何安装这个库?第四部分:库函数使用方法第五部分:场景应用第六部分:常见Bug及解决方…

基于Kubernetes集群构建MongoDB

基于Kubernetes集群构建MongoDB 作者:行癫(盗版必究) 一:基础环境 1.Kubernetes集群正常运行 2.Harbor私有仓库正常运行 二:MongoDB项目部署 ​ MongoDB项目对应Kubernetes的yaml文件: --- apiVersion: v1 kind: Namespace metadata:name: m

深入了解PBKDF2:密码学中的关键推导函数

title: 深入了解PBKDF2:密码学中的关键推导函数 date: 2024/4/20 20:37:35 updated: 2024/4/20 20:37:35 tags: 密码学对称加密哈希函数KDFPBKDF2安全密钥派生 第一章:密码学基础 对称加密和哈希函数 对称加密:对称加密是一种加密技术&…