RLHF(带有人类反馈的强化学习)初探

news2024/9/22 3:54:51

我的目标是,在决策游戏上学习某人风格,可以让人对战“带有某人风格”的AI,比如你可以在这里对战“sky风格的AI”,这样的效果。

我最开始受到的启发来源于xbox的广告《爸爸的幽灵车》,已故人在游戏中留下的速度记录的固定轨迹。

万般皆是命。感谢这个时代,我如果2020年底那次考研成功了,可能就等不到LLM在2023年的爆发出现,就等不到2024的RLHF的概念的炒热,如果没有我导师的再三问我想做什么题目我也难以转到这个题目上来。

以上于2024-01-14 21:30:01


下图左侧是 监督学习(数据+loss+模型),右侧是强化学习(环境+回报+agent)

RLHF这方面现在在大语言模型LLM中用的比较多,因为文字易于获取,RHLF作为文字的微调手段更加易于操作,就像聊天和打分一样就完成了。

大模型 | 通俗理解RLHF基础知识以及完整流程_大模型rlhf-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_59614665/article/details/141313659

RLHF(人类反馈强化学习)是什么? - 知乎 (zhihu.com)icon-default.png?t=N7T8https://www.zhihu.com/question/644676855/answer/3399879430

RLHF在agent智能体操作上的资料相对LLM来说是极少的,我就找到几篇相关的论文与代码:

opendilab/awesome-RLHF: A curated list of reinforcement learning with human feedback resources (continually updated) (github.com)icon-default.png?t=N7T8https://github.com/opendilab/awesome-RLHF陈传玺.基于RLHF策略的无人车个性化决策控制研究[D].华东交通大学,2023.

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

还有一点,RLHF提及最多的是PPO算法,需要研究一下

在深入研究和思考后发现,现有的比较接近的解决方案是【强化学习中的“模仿学习”】,但是这需要大量的对战数据。

其次,对战数据是死的。比如用相同的策略“过同一个迷宫”是可以的,但如何在双方都有决策,对双方来说都是“动态迷宫” 的环境,就完全不一样了。

还有,怎么样才叫“拥有某人的操作风格”?这个很难去在复杂的RTS游戏中界定,不像赛车游戏那样有限的操作空间——后来我想到了“策略的提取”,这样能体现一个人的相关思想(比如让某个人年轻时的思维来处理现在的问题,与当下的新思维碰同一个问题,一定很有趣。)

我感觉大数据推荐算法的“同一类人”的方法是十分有效的,这个可否在同一局游戏中找到频繁前后相似的地方来进行数据挖掘?

我又想过过去听说过的“心智模式”,人生道路就是这个处事方式决定的,这种成功学论调难以检验,但放到了计算机中,我现在有了“智能体agnet”作为试验的实体,这些猜想就都可以被证明或证伪了!一些概念对应到“心智模式——模型”,“每次都得到这样结果的心智模式——固定的道路”,实体对应就像遗传因子对应到了DNA上那样找到了实体……

……最后,我一直纠结的是最后的硕士成果应该落实到什么上面,是一个软件?是一个更好的方法?还是一个结论?这个我想不清楚。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2102934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

传统CV算法——仿射变换原理及应用

可以理解一下常规的翻转和平移。“线性变换”“平移”空间变换中的仿射变换对应着五种变换,平移,缩放,旋转,翻转,错切。而这五种变化由原图像转变到变换图像的过程,可以用仿射变换矩阵进行描述。而这个变换…

异地多活架构计算设计

随着互联网的飞速发展,企业对业务连续性和高可用性的需求日益增加。异地多活架构作为一种高可靠性的系统设计方案,通过在地理上分散的多个数据中心部署应用和数据,有效降低了单一故障点对整个系统的影响,确保业务在灾难发生时能够持续运行。 架构设计策略 业务解耦:将系…

Servelet学习-24.9.3

文章目录 前言一、Servelet概述1.1 简单入门:2.2 生命周期 二、HttpServletRequest对象2.1 常用方法 三、HttpServeletResponse对象 前言 九月,加油 一、Servelet概述 Servelet: server applet servelet就是一个接口,定义了Java类被浏览器访…

《大道平渊》· 廿壹 —— 杀心篇:何谓 “杀心”?本质上,就是寻求杀心的一个过程。

《大道平渊》 "行有不得,反求诸己。" ——《论语 学而》 指的是遇事遭困,须在自身寻因,而非怨天尤人,一味地归咎于外因。 凡事向内求也,多多自省,提高自身的修养和能力,取得成功。…

基于yolov8的106种鲜花识别花朵检测系统python源码+onnx模型+评估指标曲线+精美GUI界面

【算法介绍】 基于YOLOv8的106种鲜花识别花朵检测系统是一项融合了先进深度学习技术的创新应用。该系统利用YOLOv8算法,这一目前最先进的目标检测模型之一,实现了对106种不同花卉的快速、准确识别。 YOLOv8以其速度快、准确性高和鲁棒性强的特点&#…

模拟算法专题——算法介绍算法讲解力扣实战应用

目录 1、模拟算法介绍 2、算法应用【leetcode】 2.1 替换所有的问号 2.1.1 算法思想 2.1.2 算法代码 2.2 提莫攻击 2.2.1 算法思想 2.2.2 算法代码 2.3 Z字形变换 2.3.1 算法思想 2.3.2 算法代码 2.4 外观数列 2.4.1 算法思想 2.4.2 算法代码 2.5 数青蛙 2.5.1 算…

复旦NLP团队新作:大规模语言模型从理论到实践PDF版

2022 年 11 月,Chat GPT 的问世展示了大语言模型的强大潜能,并迅速引起了广泛关注。Chat GPT 能够有效理解用户需求,并根据上下文提供恰当的回答。它不仅可以进行日常对话,还能够完成复杂任务,如撰写文章、回答问题等。…

测试工程师学历路径:从功能测试到测试开发

现在软件从业者越来越多,测试工程师的职位也几近饱和,想要获得竞争力还是要保持持续学习。基本学习路径可以从功能测试-自动化测试-测试开发工程师的路子来走。 功能测试工程师: 1、软件测试基本概念: 学习软件测试的定义、目的…

Cubase里如何使用效果器插件?

Cubase里如何使用效果器插件?具体操作步骤如下: 1、首先,在你的电脑上打开Cubase软件。进入页面后,单击菜单栏上的设备以进入插件管理器,如下所示,然后继续下一步。 2、接下来,弹出插件管理器窗…

银行业智能化转型:智能客服的崛起与挑战

更多内容个人网站:孔乙己大叔 在当今这个科技日新月异的时代,银行业作为传统金融业的支柱,正经历着一场前所未有的变革。智能客服的兴起,不仅重塑了银行的服务模式,也深刻影响着银行员工的职业生涯。这场由技术驱动的变…

遥控器显示分别对应的无人机状态详解!!

1. 电量显示 遥控器电量:遥控器上通常会显示自身的电池电量,以提醒用户及时充电。 无人机电量:部分高端遥控器还会显示无人机的电池电量,以进度条或百分比的形式表示,帮助用户了解无人机的续航能力。 2. 飞行模式与…

24并发设计模式——线程池模式

一、线程池模式介绍 线程池模式(Thread Pool Pattern)是一种并发设计模式,用于管理和循环使用线程资源以处理大量任务。它旨在提高系统性能和资源利用率,特别是在需要频繁创建和销毁线程的环境中。 1、线程池模式结构图 线程池管…

弱通联条件下的人机混合控制

弱通联条件下的人机混合控制指的是在通信连接不稳定或不可靠的情况下,如何有效地将人工控制与自动化/智能化系统结合起来进行操作。这种情况下,控制系统需要设计得既能在网络问题时维持基本功能,又能充分利用人工输入来补充自动系统的不足。下…

Win10提示输入网络凭据解决方法(Win10 Prompts for Entering Network Credentials Solution)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

什么?!新版 Node.js V22.5 自带 SQLite 模块啦

前言 2024年7月,Node.js V22.5.0 版本发布,自带了 SQLite 模块,意味着开发者可以直接在程序中使用 SQLite 数据库,而无需引入第三方库👍。 话不多说,感觉来体验一波✈。 安装/升级 我现在用的是21.4.0版…

xss.haozi.me

0x03 审查源码我们发现,括号, 方括号都被过滤了 这段代码是一个简单的 JavaScript 函数,名为 render。它接受一个字符串 input 作为参数,并返回一个新的字符串,其中所有圆括号 ( 和 ) 都被移除了。 函数内部定义了一个正则表达式…

三级_网络技术_58_应用题

一、 请根据下图所示网络结构回答下列问题。 1.填写RG的路由表项。 目的网络/掩码长度输出端口__________S0(直接连接)__________S1(直接连接)__________S0__________S1__________S0__________S1 (2)如果在不改变路由表项的前提…

notepad++将换行替换成空

将多行里的换行置为一行,例如将下面的6行置为3行 crrlH打开替换框, 替换目标为【,\r\n】,替换成空,勾选循环查找和 正则表达式,全部替换即可。 替换后的效果

三级_网络技术_59_应用题

一、 请根据下图所示网络结构回答下列问题。 1.填写RG的路由表项。 目的网络/掩码长度输出端口__________S0(直接连接)__________S1(直接连接)__________S0__________S1__________S0__________S1 2.如果需要监听该网络内子网10…

SpringBoot 项目集成 xxl-job

1. xxl-job 官网 https://www.xuxueli.com/xxl-job/ 2. git 拉取 xxl-job 源码 2.1 源码仓库地址 https://github.com/xuxueli/xxl-job http://gitee.com/xuxueli0323/xxl-job 2.2 git 拉取源码 git clone https://gitee.com/xuxueli0323/xxl-job.git 2.3 git拉取源码时&…