Re78 读论文：GPT-4 Technical Report

Re78 读论文：GPT-4 Technical Report

news2026/2/13 9:45:56

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名：GPT-4 Technical Report

官方博客：GPT-4 | OpenAI

appendix懒得看了。

文章目录

1. 模型训练过程心得
2. scaling law
3. 实验结果
- 减少风险

1. 模型训练过程心得

模型结构还是Transformers，训练目标还是语言模型（预测下一个token），我写过GPT-1/2/3的博文了直接看之前的博文吧。

增加了后训练对齐过程/用Reinforcement Learning from Human Feedback (RLHF)微调，提升模型回答的真实性，使其更符合人类偏好。

训练过程验证了scaling law，也就是有效的架构和优化方案在小模型上跑过之后，它们在大尺度模型上的效果提升是可预期的，这样只需在小模型上验证方案，就可以在大模型上放心去做了。

GPT-4仍然具有如下缺点（这也是现在很多大模型工作在致力于干掉的）：幻觉，上下文长度限制，训练后就无法更新知识（does not learn from experience），偏见

GPT-4模型可以根据用户偏好实现一定程度的定制化。

针对风险的解决方案：

safety-relevant RLHF training prompts
rule-based reward models (RBRMs)：若干GPT-4零样本分类器，输入是prompt、模型回复和人工评估的标准，输出是这个问答对是否安全

更多安全问题可以看System Card。

2. scaling law

损失函数与计算量遵循幂函数，高度可预测
指标也是
但也有例外：

3. 实验结果

对于数据污染情况，又做了一个把测试集中泄露数据去掉的新数据集，报告两个测试集上比较差的结果。

考试：
在这里插入图片描述

在这里插入图片描述

标准LM benchmark：
在这里插入图片描述

在用户偏好方面，相比GPT-3.5，人工标注者对GPT-4的回答打分更高。

GPT-4的跨语言能力：
在这里插入图片描述

多模态示例：
在这里插入图片描述

遵从事实的能力得到了提升：
在这里插入图片描述

在这里插入图片描述

上图任务所用的数据示例：
在这里插入图片描述

后训练（PPO）影响calibration（评估模型对可能性高的答案给出更高的置信度的能力）：
在这里插入图片描述

减少风险

找了专家来进行对抗式提问

示例：
在这里插入图片描述

在这里插入图片描述

改进误杀的示例：
在这里插入图片描述

安全性提升效果：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2277391.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

LeetCode | 图文详细描述动态规划DP算法及经典题型

LeetCode | 图文详细描述动态规划DP算法及经典题型

本文将用简单直白的方式，从零开始带你掌握动态规划的精髓。你会发现： 动态规划其实没那么难——它就是递归的“记性”版。状态转移方程不再玄学——从题目思路到实现，手把手教你推导。经典题型剖析——从“爬楼梯”到“背包问题”&#xff0…

阅读更多...

学习threejs，使用RollControls相机控制器

学习threejs，使用RollControls相机控制器

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：threejs gis工程师文章目录一、🍀前言1.1 ☘️THREE.RollControls 相机控…

阅读更多...

期权懂|场内期权合约行权价格是如何设定制度的？

期权懂|场内期权合约行权价格是如何设定制度的？

锦鲤三三每日分享期权知识，帮助期权新手及时有效地掌握即市趋势与新资讯！ 场内期权合约行权价格是如何设定制度的？ 场内期权合约的行权价格是期权合约中的一个关键要素，它决定了期权买方在期权到期日或之前买入（对于…

阅读更多...

设计模式相关面试

设计模式相关面试

设计模式工厂方法模式简单工程模式工厂方法设计模式抽象工厂设计模式工厂方法小结策略模式案例（工厂模式策略模式） 责任链设计模式概述常见使用方式常见技术场景单点登录如何实现权限认证如何实现上传数据的安全如何控制遇到了那些比较棘…

阅读更多...

C#轻松实现ModbusTCP服务器接口

C#轻松实现ModbusTCP服务器接口

大家好！我是付工。通透！终于把ModbusRTU弄明白了这样看来，ModbusTCP协议太简单了太简单了！C#轻松实现Modbus通信前面给大家介绍了一系列关于Modbus和ModbusTCP的知识，主要针对的是ModbusTCP客户端。在实际开…

阅读更多...

比较之舞，优雅演绎排序算法的智美篇章

比较之舞，优雅演绎排序算法的智美篇章

大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！ 本文目录引言正文一、冒泡排序：数据海…

阅读更多...

mysql-5.7.18保姆级详细安装教程

mysql-5.7.18保姆级详细安装教程

本文主要讲解如何安装mysql-5.7.18数据库： 将绿色版安装包mysql-5.7.18-winx64解压后目录中内容如下图，该例是安装在D盘根目录。在mysql安装目录中新建my.ini文件，文件内容及各配置项内容如下图，需要先将配置项【skip-grant-tab…

阅读更多...

2025年华数杯国际赛B题论文首发+代码开源数据分享+代码运行教学

2025年华数杯国际赛B题论文首发+代码开源数据分享+代码运行教学

176项指标数据库任意组合千种组合方式 14页纯图无水印可视化 63页无附录正文 3万字 1、为了方便大家阅读，全文使用中文进行描述，最终版本需自行翻译为英文。 2、文中图形、结论文字描述均为ai写作，可自行将自己的结果发给ai&#xff0c…

阅读更多...

unity学习17：unity里的旋转学习，欧拉角，四元数等

unity学习17：unity里的旋转学习，欧拉角，四元数等

目录 1 三维空间里的旋转与欧拉角，四元数 1.1 欧拉角比较符合直观 1.2 四元数 1.3 下面是欧拉角和四元数的一些参考文章 2 关于旋转的这些知识点 2.1 使用euler欧拉角旋转 2.2 使用quaternion四元数,w,x,y,z 2.3 使用quaternion四元数,类 Vector3.zero 这种…

阅读更多...

深度剖析RabbitMQ：从基础组件到管理页面详解

深度剖析RabbitMQ：从基础组件到管理页面详解

文章目录一、简介二、Overview2.1 Overview->Totals2.2 Overview->Nodesbroker的属性2.3 Overview->Churn statistics2.4 Overview->Ports and contexts2.5 Overview->Export definitions2.6 Overview->Import definitions 三、Connections连接的属性四、C…

阅读更多...

机器学习中的凸函数和梯度下降法

机器学习中的凸函数和梯度下降法

一、凸函数在机器学习中，凸函数和凸优化是优化问题中的重要概念，许多机器学习算法的目标是优化一个凸函数。这些概念的核心思想围绕着优化问题的简化和求解效率。下面从简单直观的角度来解释。 1. 什么是凸函数？ 数学定义一个函数 f…

阅读更多...

使用 WPF 和 C# 绘制覆盖网格的 3D 表面

使用 WPF 和 C# 绘制覆盖网格的 3D 表面

此示例展示了如何使用 C# 代码和 XAML 绘制覆盖有网格的 3D 表面。示例使用 WPF 和 C# 将纹理应用于三角形展示了如何将纹理应用于三角形。此示例只是使用该技术将包含大网格的位图应用于表面。在类级别，程序使用以下代码来定义将点的 X 和 Z 坐标映射到 0.0 - 1.…

阅读更多...

深入Android架构(从线程到AIDL)_32 JNI架构原理_Java与C的对接05

深入Android架构(从线程到AIDL)_32 JNI架构原理_Java与C的对接05

1、EIT造形观点基于熟悉的EIT造形，很容易理解重要的架构设计决策议题。前言 2、混合式EIT造形一般EIT造形是同语言的。也就是<E>、 <I>和<T>都使用同一种语言撰写的，例如上述的Java、 C/C等。于此，将介绍一个EIT造…

阅读更多...

数字普惠金融对新质生产力的影响研究（2015-2023年）

数字普惠金融对新质生产力的影响研究（2015-2023年）

基于2015—2023年中国制造业上市公司数据，探讨了数字普惠金融对制造业企业新质生产力的影响及作用机理。研究发现，数字普惠金融有助于促进制造业企业新质生产力的发展，尤其是在数字普惠金融的使用深度较大的情况下，其对新质生产力…

阅读更多...

装备制造业：建立项目“四算”管理：以合同为源头，以项目为手段实现合同的测算、预算、核算与决算的管控体系

装备制造业：建立项目“四算”管理：以合同为源头，以项目为手段实现合同的测算、预算、核算与决算的管控体系

尊敬的各位管理层： 大家好！作为装备制造业的 CFO，我今天要向大家汇报的是如何建立项目“四算”管理，即以合同为源头，以项目为手段实现合同的测算、预算、核算与决算的管控体系。在当前市场竞争激烈、成本压力不断增大…

阅读更多...

自建RustDesk服务器

自建RustDesk服务器

RustDesk服务端下面的截图是我本地的一个服务器做为演示用，你自行的搭建服务需要该服务器有固定的ip地址 1、通过宝塔面板快速安装 2、点击【安装】后会有一个配置信息，默认即可 3、点击【确认】后会自动安装等待安装完成 4、安装完成后点击【打开…

阅读更多...

前端实现doc文件预览的三种方式

前端实现doc文件预览的三种方式

文章目录 1、docx-preview 实现（推荐）2、vue-office 实现3、mammoth 实现（不推荐） 需求：有一个docx文件，需要按其本身的格式，将内容展示出来，即：实现doc文件预览。本文…

阅读更多...

final修饰的用法

final修饰的用法

1、final修饰类被final修饰的类不可以在被继承。比如在Java中String就是final修饰的不可以被继承 2、final修饰成员变量同时final也可以修饰局部变量 final int N5; 3、final修饰静态变量 final修饰静态的成员变量，（在方法中不能定义静态的属性…

阅读更多...

Windows 11 安装GTK+3.0 和VScode开发GTK+3.0配置

Windows 11 安装GTK+3.0 和VScode开发GTK+3.0配置

Windows 11 安装GTK+3.0 和VScode开发GTK+3.0配置安装msys2下载msys2安装安装msys2安装编译器gcc安装调试器gdb安装GTK+3.0安装C/C++开发GTK+3.0工具配置路径验证GTK+3.0安装验证配置运行GTK DemoVScode配置测试代码文件test.c任务配置文件tasks.jsongdb调试配置文件launch.js…

阅读更多...

鸿蒙-页面和自定义组件生命周期

鸿蒙-页面和自定义组件生命周期

页面生命周期，即被Entry装饰的组件生命周期，提供以下生命周期接口： onPageShow：页面每次显示时触发一次，包括路由过程、应用进入前台等场景。onPageHide：页面每次隐藏时触发一次，包括路由过程、…

阅读更多...

推荐文章

最新文章