Learning to summarize from human feedback导读（1）

Learning to summarize from human feedback导读（1）

news2025/7/16 17:03:21

总结：

（1）生成摘要等模型，虽然有评估方法，但是人类总结的质量依旧难以相比

总结：

（1）在各种NLP任务中，大规模语言模型的预训练以及取得了很高的性能

（2）当把大模型用于下游任务的时候，通常需要监督数据进行微调，数据一般来源于人类总结的证据，来最大化似然函数

（3）这些方法提高了性能，但是呢存在无法对其的问题，微调最大化似然的结果，和人类作出的高质量回答是不一致的

（4）导致问题的主要是：1、未区分重要错误和非重要错误 2、模型选取的数据有低质量的，且shuffle后导致低性能

总结：

（1）我们的目标就是让最终结果接近我们所希望的，然后现阶段集中在英文文本摘要上面，现存ROUGE等评估手段，一直遭受不准确的批评

（2）我们首先收集成对摘要之间的人类偏好数据集，然后通过监督学习训练奖励模型(RM)来预测人类偏好的摘要。最后，我们通过强化学习(RL)来训练策略，以最大化RM给出的分数;该策略在每个“时间步骤”生成一个文本令牌，并使用基于RM“奖励”的PPO算法[58]更新整个生成的摘要

总结（四个贡献）：

（1）我们发现，在英语总结方面，有人类反馈的训练显著优于非常强的基线

（2）我们发现人类反馈模型比监督模型更好地推广到新领域

（3）我们对我们的政策和奖励模式进行了广泛的实证分析，优于ROUGE评价

（4）我们公开发布我们的人类反馈数据集，以供进一步研究

总结：

（1）高级方法

（2）从现有的政策中收集样本，并将比较结果发送给人类

（3）从人类的比较中学习奖励模式

（4）针对奖励模式优化策略

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/419073.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

PHP快速入门09-正则相关，附一定要学会的20个高频使用案例

PHP快速入门09-正则相关，附一定要学会的20个高频使用案例

文章目录前言一、正则表达式介绍二、正则高频案例20个2.1 检查字符串是否以字母开头2.2 检查字符串是否以数字开头2.3 检查字符串是否包含特定字符2.4 检查字符串是否以特定字符结尾2.5 检查字符串是否为纯数字2.6 检查字符串是否为纯字母2.7 检查字符串是否为有效的电子邮件地…

阅读更多...

Bean对象的作用域和生命周期

Bean对象的作用域和生命周期

文章目录：一.Bean的作用域 (1)Bean作用域的含义 （2)Bean的6种作用域二.Bean的生命周期（1）开辟内存空间 （2） 属性注入 （3）初始化 （4）使用Bean （…

阅读更多...

【CSDN｜每日一练】运输石油

【CSDN｜每日一练】运输石油

目录运行结果题目描述输入描述：输出描述：示例代码结语运行结果题目描述某石油公司需要向A、B两地运输石油。两地的需求量不同，而一辆车只能装载一定量的石油。经过计算A地需要a辆车，B地需要b辆车运输才能满足需求。现在一共有n辆车分布在各地，每辆车前往A、B两地…

阅读更多...

HFSS一些使用技巧总结

HFSS一些使用技巧总结

1. 快捷键： CTRLH，隐藏选择的object、face 字母E，选择edge（线） alt左键双击九个区域，切换9个不同的视角（与789组合使用) 2. 复制： 这样的复制好处在于：复制完的物体相…

阅读更多...

使用Excel打造一款个人日志系统

使用Excel打造一款个人日志系统

写在前面我很多年前看过晨间日志的奇迹这一本书，我深受启发，这本书的中心思想就是通过九宫格的方式写连体日志，自己可以方便查找而有而且有激情去完成这个日志，书中推荐的方法是使用excel写日志。但是自己总感觉用excel过于麻烦…

阅读更多...

Java 源码中的＜? extends U＞与＜? super L＞是什么？

Java 源码中的＜? extends U＞与＜? super L＞是什么？

目录 ? extends U ? super L 总结一下: ? extends U 其中extends意思为：扩大;扩展;延长，？我们可以把他看作一个通配符，匹配所有的接口，U就一个泛型占位符，所以连在一起可联想到，从U…

阅读更多...

前后端分离下的-SpringSecurity

前后端分离下的-SpringSecurity

前后端分离下的SpringSecurity 项目创建使用SpringBoot初始化器创建SpringBoot项目修改项目依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2…

阅读更多...

电容笔和Apple pencil的区别是什么？好用电容笔推荐

电容笔和Apple pencil的区别是什么？好用电容笔推荐

Apple Pencil与目前市场上常见的电容笔最大的不同之处在于，普通电容笔并不具备苹果Pencil特有的重力压感，而仅仅是一种倾斜的压感。不过，其在其它方面的表现也很出色，与Apple Pencil相似，而且价格仅为200元。现在&…

阅读更多...

项目管理中的冲突是什么？

项目管理中的冲突是什么？

项目管理中的冲突可以采取多种不同的形式。团队成员在创意愿景上存在分歧，与高层管理人员就期望和时间表发生争执，甚至与第三方供应商发生争执，都是项目冲突的主要例子。冲突的常见原因是什么？ 基于项目的组织内部冲突的典型原因…

阅读更多...

【记录】Git连接gitee、新建仓库

【记录】Git连接gitee、新建仓库

学习记录1.连接gitee2.新建仓库1.连接gitee https://www.cnblogs.com/cokefentas/p/14727592.html git安装与卸载 apt-get install git apt-get remove gitgit配置配置用户名 git config --global user.name "your name" 配置邮箱 git config --global user.email…

阅读更多...

2023都说测试行业饱和了，为什么我们公司新招的的测试开了15K?

2023都说测试行业饱和了，为什么我们公司新招的的测试开了15K?

其实每年都有人说测试行业饱和了，但依旧有很多人找到了薪资不错的工作。来说说我的看法吧，我认为不用担心测试会饱和的问题，我们人口基数大，任何一个行业都有竞争，这是非常正常的情况。而且在有技术能力的人面前永远没…

阅读更多...

Vue3通透教程【十一】初探TypeScript

Vue3通透教程【十一】初探TypeScript

文章目录🌟 写在前面🌟 TypeScript是什么？🌟TypeScript 增加了什么？🌟TypeScript 初体验🌟 写在最后🌟 写在前面专栏介绍： 凉哥作为 Vue 的忠实粉丝输出过大量的 Vue …

阅读更多...

什么是进程,线程,协程

什么是进程,线程,协程

一.进程1.简介计算机的核心是CPU，它承担了所有的计算任务；而操作系统是计算机的管理者，它负责任务的调度、资源的分配和管理，统领整个计算机硬件；应用程序则是具有某种功能的程序，程序是运行于操作系统之上…

阅读更多...

十分钟验证一个轻量化车联网解决方案

十分钟验证一个轻量化车联网解决方案

智能网联汽车在车联网的应用上，通常是以智能传感器、物联网、GIS技术为基础，结合大数据、人工智能技术，通过OT（Operation tecnology）和IT（information tecnology）融合的方式，实现智能…

阅读更多...

使用Ubuntu22.04搭建k8s环境和一些k8s基础知识

使用Ubuntu22.04搭建k8s环境和一些k8s基础知识

minikube搭建基本环境我使用virtualBox构建的ubuntu，选择4核4G内存minikube是一个K8S集群模拟器，可以快速构建一个单节点的集群，用于在本地测试和开发首先使用官方脚本安装docker curl -fsSL https://test.docker.com -o test-docker.sh…

阅读更多...

nacos源码服务注册

nacos源码服务注册

nacos服务注册序言1.源码环境搭建1.1idea运行源码1.2 登录nacos2.服务注册分析2.1 客户端2.1.1容器启动监听2.1.2注册前初始化2.1.3注册服务2.2 服务端2.2.1注册2.2.2重试机制3.注意事项序言本文章是分析的是nacos版本2.2 这次版本是一次重大升级优化，由原来&#…

阅读更多...

【MySQL | 基础篇】02、MySQL 函数详解

【MySQL | 基础篇】02、MySQL 函数详解

目录一、字符串函数 1.1 concat : 字符串拼接 1.2 lower : 全部转小写 1.3 upper : 全部转大写 1.4 lpad : 左填充 1.5 rpad : 右填充 1.6 trim : 去除空格 1.7 substring : 截取子字符串 1.8 案例二、数值函数 2.1 ceil：向上取整 2.2 floor&#xff…

阅读更多...

【Java版oj】day34收件人列表、养兔子

【Java版oj】day34收件人列表、养兔子

目录一、收件人列表 （1）原题再现 （2）问题分析 （3）完整代码二、养兔子 （1）原题再现 （2）问题分析 （3）完整代码一、收件人列表 …

阅读更多...

Python机器学习：支持向量机2

Python机器学习：支持向量机2

昨天是简单的了解了一下支持向量机要干什么以及线性可分支持向量机是怎么一回事，今年来看另一种：线性支持向量机： 我们昨天说的，线性可分支持向量机的目的就是找到一个超平面来吧一个数据集分成正负两个部分，但是实际…

阅读更多...

一天学完C++的标准模板库STL

一天学完C++的标准模板库STL

标准模板库STLstring字符串如何对string字符串的初始化（声明）？如何遍历string对象进行访问？如何对string类型的字符串进行增删改查？对string字符串增加一些字符对string字符串删除一些字符对string字符串改动一些字符在…

阅读更多...

推荐文章

最新文章