LLM - 理解 多模态大语言模型(MLLM) 的 对齐微调(Alignment) 与相关技术 (五)

news2025/1/10 14:06:53

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142354652

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


完备(Full-Fledged) 的 多模态大语言模型(MLLM) 经历 3 个阶段的训练,即 预训练(Pre-training)、指令微调(Instruction-Tuning) 和 对齐调优(Alignment Tuning)。每个训练阶段都需要不同类型的数据,并且实现不同的目标。本篇介绍,对齐微调(Alignment Tuning) 部分。

对齐微调 (Alignment Tuning),通常用于需要将模型与特定人类偏好对齐的场景中,例如,在响应中包含更少的幻觉。目前,基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)直接偏好优化(Direct Preference Optimization, DPO) 是对齐微调的两种主要技术。依次介绍这两种技术的主要思想,提供用于解决实际问题的示例,最后,给出相关数据集的汇总。

Alignment tuning is more often used in scenarios where models need to be aligned with specific human preferences, e.g. response with fewer hallucinations. Currently, Reinforcement Learning with Human Feedback (RLHF) and Direct Preference Optimization (DPO) are two main techniques for alignment tuning. In this section, we introduce the main ideas of the two techniques in sequence and offer some examples of how they are utilized in addressing practical problems, and finally, give a compilation of the related datasets.

RLHF 使用强化学习算法,将 大语言模型(LLMs) 与 人类偏好 对齐,在训练循环中,以人类注释作为监督,参考 InstructGPT 中的示例,RLHF 主要包含 3 个关键步骤,即:

  1. 有监督的微调(Supervised Fine-Tuning, SFT),即微调预训练模型,实现初步期望的输出行为。在 RLHF 设置中,微调模型被称为策略模型(Policy Model)。注意,这一步可能会被跳过,因为 监督策略模型 π S F T \pi^{SFT} πSFT,可以是指令微调的模型。

  2. 奖励建模,即使用 偏好对(Preference Pairs) 训练奖励模型,输入 多模态的提示(例如,图像和文本) x x x 和 响应对 ( y w , y l ) (y_{w},y_{l}) (yw,yl),奖励模型 r θ r_{\theta} rθ 学习给予首选响应 y w y_{w} yw 更高的奖励,相比于 y l y_{l} yl,根据以下训练目标:
    L ( θ ) = − E x , y w , y l [ l o g ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] L(\theta)=-E_{x,y_{w},y_{l}}[log(\sigma(r_{\theta}(x,y_{w}) - r_{\theta}(x,y_{l})))] L(θ)=Ex,yw,yl[log(σ(rθ(x,yw)rθ(x,yl)))]
    其中 D = { ( x , y w , y l ) } D = \{(x, yw, yl)\} D={(x,yw,yl)} 是由人类标注的对比数据集。在实践中,奖励模型 r θ r_{\theta} rθ 与策略模型结构相似。

  3. 强化学习,即采用 近端策略优化(Proximal Policy Optimization, PPO) 算法来优化 RL 策略模型 π ϕ R L \pi^{RL}_{\phi} πϕRL。通常,在训练目标中,每个令牌添加 KL 惩罚,以避免偏离原始策略太远,从而得到训练目标:
    L ( ϕ ) = − E x ∼ D , y ∼ π ϕ R L ( y ∣ x ) [ r θ ( x , y ) − β D K L ( π ϕ R L ( y ∣ x ) ∣ ∣ π R E F ( y ∣ x ) ) ] L(\phi)=-E_{x \sim D, y \sim \pi_{\phi}^{RL}(y|x)}[r_{\theta(x,y)}-\beta D_{KL}(\pi_{\phi}^{RL}(y|x) || \pi^{REF}(y|x))] L(ϕ)=ExD,yπϕRL(yx)[rθ(x,y)βDKL(πϕRL(yx)∣∣πREF(yx))]
    其中 β \beta β 是 KL 惩罚项的系数。通常,RL 策略 π ϕ R L \pi_{\phi}^{RL} πϕRL 和参考模型 π R E F \pi^{REF} πREF 都是从监督模型 π S F T \pi^{SFT} πSFT 初始化的。通过这个调整过程,所获得的 RL 策略模型预计将与人类偏好对齐。

研究人员已经探索了使用 RLHF 技术进行更好的多模态对齐。例如,LLaVA-RLHF 收集人类偏好数据,根据 LLaVA 调整模型,以减少幻觉。

DPO 使用简单的二元分类损失,从人类偏好标签中学习,与基于 PPO 的 RLHF 算法相比,DPO 无需学习显式的奖励模型,从而将整个流程简化为两个步骤,即人类偏好数据收集和偏好学习。学习目标如下:
L ( ϕ ) = − E ( x , y w , y l ) ∼ D [ l o g σ ( β l o g π ϕ R L ( y w ∣ x ) π R E F ( y w ∣ x ) ) − β l o g π ϕ R L ( y l ∣ x ) π R E F ( y l ∣ x ) ) ] L(\phi)=-E_{(x,y_w,y_l) \sim D}[log\sigma(\beta log \frac{\pi_{\phi}^{RL}(y_{w}|x)}{\pi^{REF}(y_{w}|x)}) - \beta log \frac{\pi_{\phi}^{RL}(y_{l}|x)}{\pi^{REF}(y_{l}|x)})] L(ϕ)=E(x,yw,yl)D[logσ(βlogπREF(ywx)πϕRL(ywx))βlogπREF(ylx)πϕRL(ylx))]

RLHF-V 通过纠正模型响应中的幻觉,收集 细粒度(段落级) 偏好数据对,使用获得的数据执行密集 DPO。或者,通过提示 GPT-4V 收集偏好数据,通过 DPO 将偏好监督蒸馏到指令调整模型中。

相关数据集,对齐调整的数据收集要点是收集对模型响应的反馈,即决定哪个响应更好。通常,收集这类数据的成本更高,而且这一阶段使用的数据显示通常甚至比前一阶段还要少,即:

  • LLaVA-RLHF,包含 10K 个基于诚实度和有用性从人类反馈中收集的偏好对,主要用于减少模型响应中的幻觉。
  • RLHF-V,包含 5.7K 个通过段落级幻觉纠正收集的细粒度人类反馈数据。
  • VLFeedback,利用人工智能对模型响应提供反馈,数据集包含了超过 380K 个由 GPT-4V 根据有用性、忠实度和伦理问题评分的比较对。

对齐调整的数据集汇总,对于输入/输出模态,I: 图像,T: 文本:

Dataset

参考论文:

  • InstructGPT - Training language models to follow instructions with human feedback

InstructGPT 的 RLHF 相关步骤:

  1. 有监督的微调(Supervised Fine-Tuning, SFT)
  2. 训练 奖励模型(Reward Model, RW)
  3. 通过 近端策略优化(Proximal Policy Optimization, PPO),在奖励模型上,进行强化学习。

蓝色箭头通过这些数据训练模型。在第 2 步中,A~D是模型输入的样本,由标注者进行排序。即:

RLHF

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2151014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue scoped解析

不加scoped 加上scoped 从上面的图可以看出,给style加上scoped之后,会给这个模块的所有元素都加上一个自定义属性data-v-xxxx,这个xxxx就是这个文件的相对路径加上文件名生成的hash值,这样就能保证自定义属性独一无二 给所有元…

windows打开可选功能窗口的方式(呜呜设置里面找不到可选功能只能这样找了)

打开方式 winR打开运行窗口,输入fodhelper,按下回车键 即可快速打开可选功能窗口

手动部署并测试内网穿透

文章目录 手动部署并测试内网穿透1、原理2、下载 frp 文件3、配置对应的配置文件4、启动 frp 服务5、效果 手动部署并测试内网穿透 1、原理 原理就是让你需要访问的内网可以被其他内网访问到。 其实就是让内网经过一个公网服务器的转发,使得能够被访问。 这里我们需…

算法课习题汇总(2)

整数划分问题 将正整数n表示成一系列正整数之和&#xff0c;nn1n2…nk(n1>n2>…>nk,k>1)。正整数n的这种表示称为正整数n的划分。 思路&#xff1a; n表示待划分数&#xff0c;m表示最大减数。 #include<iostream> using namespace std;int q(int n, int…

MySQL:库表的基本操作

库操作 查看 查看存在哪些数据库&#xff1a; show databases;查看自己当前处于哪一个数据库&#xff1a; select database(); 由于我不处于任何一个数据库中&#xff0c;此处值为NULL 查看当前有哪些用户连接到了MySQL&#xff1a; show processlist; 创建 创建一个数据库 语…

【JAVA入门】Day48 - 线程池

【JAVA入门】Day48 - 线程池 文章目录 【JAVA入门】Day48 - 线程池一、线程池的主要核心原理二、自定义线程池三、线程池的大小 我们之前写的代码都是&#xff0c;用到线程的时候再创建&#xff0c;用完之后线程也就消失了&#xff0c;实际上这是不对的&#xff0c;它会浪费计算…

【源码+文档+调试讲解】健身房管理平台小程序

摘 要 随着健康意识的增强和移动互联网技术的普及&#xff0c;健身房管理平台小程序应运而生&#xff0c;为健身爱好者提供便捷的健身服务和管理。本设计针对传统健身房会员管理混乱、课程预约不便利、用户互动缺乏等问题&#xff0c;开发了一款集教练、预约教练、会员、健身…

正也科技-辖区与指标管理系统 强化决策支持

正也科技的“辖区与指标管理系统”设计理念先进&#xff0c;旨在通过科学合理的组织架构和精细化的指标管理&#xff0c;帮助企业实现更高效的市场布局、人员配置及业绩监控。以下是对该系统核心功能的进一步阐述及其对企业运营带来的优势&#xff1a; 正也科技辖区管理 1. 组…

基于SpringBoot+Vue+MySQL的社区医院管理系统

系统展示 系统背景 在当前医疗体系日益完善的背景下&#xff0c;社区医院作为基层医疗服务的重要一环&#xff0c;其管理效率和服务质量直接关系到居民的健康福祉。为了提升社区医院的管理水平&#xff0c;优化患者就医体验&#xff0c;我们设计了一套基于SpringBoot、Vue.js与…

深兰科技荣获“2024年度人工智能最具商业合作价值企业”奖

9月19日&#xff0c;以“释放AI应用价值&#xff0c;发展新质生产力”为主题的“AIAC2024人工智能应用大会”在北京隆重举行。大会揭晓了“AI卓智奖”年度人工智能创新评选的获奖榜单&#xff0c;深兰科技荣获“2024年度人工智能最具商业合作价值企业”称号&#xff0c;同时&am…

【高分系列卫星简介——高分一号(GF-1)】

高分一号卫星&#xff08;GF-1&#xff09; 高分一号&#xff08;GF-1&#xff09;是中国高分辨率对地观测系统&#xff08;简称“高分专项”&#xff09;的第一颗卫星&#xff0c;具有里程碑式的意义。以下是对高分一号卫星的详细介绍&#xff1a; 一、基本信息 发射时间&…

标签云效果

产品要求&#xff0c;词云要实现动态滚动。查资料&#xff0c;改写效果。 echarts词云效果 传统的echarts-wordCloud不能满足需求。 标签云 换了标签云&#xff0c;以下是代码 <template><div class"mx-auto" :style"{ width: width px }"&g…

平凉锅盔,真的绝绝子

平凉&#xff0c;这座古老的城市&#xff0c;孕育出了一种令人赞叹的美食 —— 平凉锅盔。平凉锅盔&#xff0c;那是一种能瞬间勾起人们食欲的存在。远远望去&#xff0c;它如同一座金色的小山&#xff0c;散发着诱人的光泽。其外形圆润饱满&#xff0c;厚实的面饼给人一种踏实…

时代变了,MySQL 早已不是最流行的数据库了

以下文章来源于古时的风筝 &#xff0c;作者风筝 在StackOverflow 上看到2024年技术趋势&#xff0c;关于数据库的部分&#xff0c;PostgreSQL 是开发人员使用最多的数据库&#xff0c;超过 MySQL 了。虽然在国内好像不是这样。 PostgreSQL 在 2018 年的开发者调查中首次亮相…

极越联手百度这你受得了吗!SU7还能稳坐“7字辈”头把交椅?

文/王俣祺 导语&#xff1a;自从今年上半年小米SU7标榜为“年轻人的第一台纯电轿车”&#xff0c;各家车企全都坐不住了。尤其是与小米“颇有渊源”的吉利&#xff0c;从极氪再到领克&#xff0c;目标已经可以说是路人皆知了。现在极越07也来了&#xff0c;可以看出吉利也是下了…

Python游戏开发中的16个关键概念

大家好&#xff01;今天我们要聊的是Python游戏开发中的一些关键概念。无论是初学者还是有一定经验的开发者&#xff0c;了解这些概念都将有助于你更好地掌握游戏开发的基础。接下来&#xff0c;我们将从简单的概念入手&#xff0c;逐步过渡到更复杂的技巧。 文末有惊喜福利 1.…

如何选择适合客户运营团队的帮助中心搭建工具?8款工具盘点

在竞争激烈的商业环境中&#xff0c;客户运营团队需要高效、便捷的工具来搭建帮助中心&#xff0c;以提升客户服务质量和用户体验。选择合适的帮助中心搭建工具&#xff0c;不仅能提高团队工作效率&#xff0c;还能增强客户满意度和忠诚度。本文将为您盘点八款适合客户运营团队…

FC优化配置

1.集群扩容CNA时打开bmc 2.给rhel7虚拟机安装tools-需要重启虚拟机 3.FC上创建集群 资源池右击创建集群&#xff08;物理机大于10台&#xff0c;分业务类型创建集群&#xff09; &#xff08;解决集群内主机挂了&#xff0c;动态调整&#xff09; &#xff08;解决集群内个别…

vulnhub(11):derpnstink(hydra爆破用户名和密码、验证的文件上传)

端口 nmap主机发现 nmap -sn 192.168.159.120/24 ​ Nmap scan report for 192.168.159.120 Host is up (0.00020s latency). ​ 120是新出现的机器&#xff0c;他就是靶机 nmap端口扫描 nmap -Pn 192.168.159.120 -p- --min-rate 10000 -oA nmap/scan 扫描开放端口保存到 nma…

C#为任意组件开发登录功能的记录

非常简单&#xff0c;直接给出代码&#xff1a; 数据库操作类 这个无需多言就是简单的包含了数据操作的内容&#xff0c;允许你在这一个类中写完关于本地数据库或者云数据库操作的逻辑&#xff0c;与登录逻辑分开哦。 注意&#xff0c;如果你的软件要给别人运行使用&#xf…