ChatGPT原理简明笔记

news2024/9/21 5:19:11

学习笔记,以李宏毅的视频讲解为主,chatGPT的官方博客作为补充。
自己在上古时期接触过人工智能相关技术,现在作为一个乐子来玩,错漏之处在所难免。
若有错误,欢迎各位神仙批评指正。

chatGPT的训练分为四个阶段:

  1. 给一段不完整的话,让基线模型(GPT3)学习怎么接话茬子。这个步骤基于GPT3进行fine-tuning。
  2. 弄一个人工标注的数据集,对1中的模型进行训练,通过人工数据集让GPT3了解人类的喜好。
  3. 基于另一个人工标注的数据集(包括问题、答案和人类打的分)训练一个打分模型,其功能主要在于:输入问题和答案,让打分模型根据排序进行打分。
  4. 用PPO让基线模型和打分模型进行对抗,优化GPT3,得到chatGPT。
    在这里插入图片描述

首先,chatGPT从网上找大量的语料学习怎么说话,其方式为文字接龙,即根据前面已有的句子成分来说下面的话。这个过程是无监督的。
在这里插入图片描述
但是,即使我们知道了半句话,这半句话的后面也可以接很多东西,所以输出的是一个概率分布。GPT模型要输出字的话,就从概率分布里采样。
在这里插入图片描述

学习文字接龙的用处在于,给GPT一段话它就可以续写,续写的一种可能就是回答问题了。
在这里插入图片描述

但是,GPT的输出是随机的,通过网上的语料进行学习,什么话都可能被这玩意拿来接。一个典型的例子是下图:

于是问题变成引导GPT产生有用的输出。
在这里插入图片描述
如何进行引导?让人类引导文字接龙的方向。通过引入一个人工标注的数据集,里面都是问题-答案,从而告诉GPT人类的偏好是什么。

在这里插入图片描述
这样的人工标注的问题-答案不需要太多,几万个足够。
本来chatGPT就有能力生成这些答案,但是需要让它知道并模仿人类的喜好。

第三步,训练一个新的Teacher model,数据集中的元素主要包括:一个问题和几个针对这个问题的答案,每个答案都打了分。
在这里插入图片描述

最后,用强化学习PPO算法让GPT和Teacher model进行对抗。

在这里插入图片描述
chatGPT仍然不是完美的。本质上,它还是学习了两点:人类怎么说话和人类的偏好。ChatGPT根据人的偏好来说话。
在使用中的一个比较致命的点:让它找文献的时候它存在一定的概率瞎编几个。
再比如,可以用一些冷门问题(没有涵盖在2和3的数据集中的问题)来头吸:
在这里插入图片描述
下图是openAI给出的插头GPT的训练图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/341817.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据技术原理与应用

一、大数据概述 1.1大数据时代 三次信息化浪潮 1.2大数据的概念和影响 大数据的4v特征 volume大量化、velocity快速化、variety多样化、value价值化 数据量大数据类型繁多 – 大数据是由结构化和非结构化数据组成的处理速度快价值密度低,商业价值高 – 连续不间…

二十种题型带你复习《概率论与数理统计》得高分(高数叔)

题型一 事件及概率的运算 知识点 注意: 1 互斥与对立事件 2 事件的差 注意: 1 德摩根律注意: 1 加法公式 2 减法公式(事件的差)题目 注意: 1 填空题注意: 1 德摩根律 2 三个事件的和的公式 3 两个事件的积事件为…

数据库关系模型

关系模型简述 形象地说,一个关系就是一个table。 关系模型就是处理table的,它由三个部分组成: 描述DB各种数据的基本结构形式;描述table与table之间所可能发生的各种操作;描述这些操作所应遵循的约束条件&#xff1…

你是真的“C”——详解指针知识

你是真的“C”——详解指针知识😎前言🙌1、 指针是什么?🙌2、指针和指针类型🙌2 、1指针-整数2 、 2指针的解引用3、 野指针🙌3、 1野指针成因3、 2如何规避野指针4、指针运算🙌4、1 指针-整数4…

Flutter WebView 性能优化,让 h5 像原生页面一样优秀

大家好,我是 17。 WebView 的文章分两篇 在 Flutter 中使用 webview_flutter 4.0 | js 交互Flutter WebView 性能优化,让 h5 像原生页面一样优秀 本篇和大家一起讨论下性能优化的问题。 WebView 页面的体验上之所以不如原生页面,主要是因…

c#数据结构-有序列表和有序字典

有序列表和有序字典 有序列表和有序字典都是是一个键值对容器,像字典一样。 从习惯和描述推测, 列表控制一个数组有序列表使用比有序字典更少的内存如果一次性添加一堆数据,且这堆数据有序。那么有序列表比有序字典更快 有序列表大概长这样 …

最后一个单词的长度-力扣58-java

一、题目描述给你一个字符串 s,由若干单词组成,单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。示例 1:输入:s "Hello World"输出&#x…

聊聊火出圈的ChatGPT

前言 OpenAI 近期发布聊天机器人模型 ChatGPT,迅速火爆各大技术网站,就像一个突然激起的巨浪打破了沉寂已久的水面。它的出现无论是对人工智能的资本圈还是技术圈都感受到了春风回暖,前兔似锦的未来。 尤记得2015年谷歌开源的Tensorflow&am…

2.19、读者-写者问题

有读者和写者两组并发进程,共享一个文件,当两个或两个以上的读进程同时访问共享数据时不会产生副作用, 但若某个写进程和其他进程(读进程或写进程)同时访问共享数据时则可能导致数据不一致的错误。 因此要求: ①允许…

新专利:苹果笔可充当VR游戏控制器,智能笔与Find My结合将成为趋势

根据美国商标和专利局(USPTO)公示的清单,苹果获得了一项关于 Apple Pencil 的技术专利。根据专利描述,Apple Pencil 可以和混合现实头显、iPad、Mac 显示器等设备进行交互和操作,可以充当 VR 游戏的控制器。 该专利的…

Three.js 3D建模必备基础

在 three.js 中,可见对象由几何体和材质构成。 我们已经了解了如何创建适用于点和线图元的简单几何图形,并且遇到了各种标准网格几何图形,例如 THREE.CylinderGeometry 和 THREE.IcosahedronGeometry。 在本节中,我们将了解如何从…

【Unity 代码相关】实现脚本之间动态变量传递

这是我在做作品的过程中遇到的问题,大概阐述一下遇到的问题及解决思路。 1 问题阐述 因为是做天空盒,有很多变量需要控制,shader之间又想实现颜色、变量的传递,所以整个项目的所有暴露出来的可调整变量,我都汇总在了…

算法训练营DAY53|392.判断子序列、115.不同的子序列

392. 判断子序列 - 力扣(LeetCode)https://leetcode.cn/problems/is-subsequence/ 判断子序列这道题目,和上一期的题解法几乎完全相同,只是递推公式有一点差别,但是要是完全用之前的代码也是可行的。…

模拟信号隔离放大器直流信号转换0-20mA/ 4-20mA/2-10V/0-±5V/0-±10V

概述:导轨安装DIN11 IPO EM系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要电量隔离测控的行业。该模块内部嵌入了一个高效微功率的电源,…

【Linux系统编程】02:文件操作

文件IO 系统调用&#xff08;不带缓冲的IO操作&#xff09;库函数&#xff08;默认带用户缓冲的IO操作&#xff09; 一、非缓冲IO 系统调用&#xff1a;即为不带缓冲的IO 1.打开文件open 2.读取文件read NAMEread - read from a file descriptorSYNOPSIS#include <unist…

Spring Boot HTTP 400排查

背景 前段时间朋友咨询他们公司某个HTTP接口偶现400错误&#xff0c;有没有什么好的分析方法和解决方案&#xff0c;使用的是Spring Cloud体系。最近有时间总结下这个问题的处理过程。 为了分析问题&#xff0c;笔者使用 Spring Boot 3.0.2还原报错场景进行讲解。 问题分析 …

OM | 强化学习 + 约束规划求解组合优化问题

组合优化在航空航天、交通规划以及经济学等众多学科领域中有广泛应用&#xff0c;其目标是在有限集中寻找最优解。然而状态空间过大的问题让目前组合优化变得棘手。在过去的几年中&#xff0c;使用深度强化学习&#xff08;deep reinforcement learning&#xff0c;DRL&#xf…

SharpSCCM:一款利用SCCM实现横向渗透的强大工具

关于SharpSCCM SharpSCCM是一款功能强大的横向渗透和凭证收集工具&#xff0c;该工具主要利用了微软终端配置管理器&#xff08;SCCM&#xff09;来实现其功能&#xff0c;并能够通过访问SCCM管理终端GUI来实现横向渗透和凭证收集。 功能介绍 1、后渗透功能&#xff0c;支持横…

QT入门Input Widgets之QSlider

目录 一、界面布局功能 1、界面位置介绍 2、控件界面基本属性 2.1horizontalSlider界面属性 2.2设置步进 2.3打开或关闭滑块跟踪&#xff08;setTracking&#xff09; 二、属性功能介绍 1、常用信号 2、调用信号 3、鼠标点击QSlider滑块定在点击位置 三、Demo展示 …

2.8、调度算法的评价指标

1、CPU 利用率 由于早期的 CPU 造价极其昂贵&#xff0c; 因此人们会希望让CPU尽可能多地工作\color{red}希望让 \texttt{CPU} 尽可能多地工作希望让CPU尽可能多地工作 CPU利用率\color{red}\texttt{CPU}利用率CPU利用率&#xff1a;指 CPU “忙碌” 的时间占总时间的比例。 利…