基于GPT3.5模型搭建的聊天系统BAIChat

news2025/1/10 12:14:38

1. 使用chatgpt前提条件

需要特殊的网络环境。如果是小白,不会搭建网络环境,可以关注我私信我,在线帮你搭建网络环境。

2.BAIChat链接

https://chatbot.theb.ai/#/chat/1686535596065


GPT3

研究背景

最近的研究表明,在 pretrain+finetune 模型中,当模型适应了下游任务的训练集后,往往会失去对下游任务的 OOD(out-of-distribution)泛化能力,这种能力也被称为Zero-shot能力。由于训练集不可能涵盖整个真实分布,而且预测数据的分布也随时间变化而变化,因此模型需要具备 OOD 的能力。通过构建 OOD 测试集,并与 IID(Independent Identically Distribution 指训练集和测试集是同分布但是互相独立)上的表现进行比较,进行了一些实验研究:

1. 传统 NN 衰减很大,甚至只有 30%,而 PTM 衰减很小;

2. 更大 size 的 PTM,并不一定表现更好;

3. PTM 使用的训练数据的规模越大、多样性越强,表现越好,这点在ChatGPT的训练集构建中也体现出来了。


训练数据

GPT-3的训练数据包括低质量的Common Crawl,高质量的WebText2,Books1,Books2和Wikipedia。GPT-3根据数据集的不同的质量赋予了不同的权值,权值越高的在训练的时候越容易抽样到相比之下,GPT-2的训练数据包括了WebText、BooksCorpus、Stories、Wikipedia和Project Gutenberg等。为了清理脏数据,OpenAI做了以下的数据处理部分:

1. 使用高质量数据作为正例,训练LR分类算法,对 CommonCrawl 的所有文档做初步过滤;

2. 利用公开的算法做文档去重,减少冗余数据;

3. 加入已知的高质量数据集;

其中“高质量数据”主要是指 BERT、GPT、GPT-2 使用过的数据,最终处理完成后使用的数据规模约 570G。

如上图所示,在实际实验过程中,对不同数据集按照一定的比例进行采样,这个比例不是按照原始数据量多少来划分的,不然这里基本采样到的就都是 common crawl 的数据了,可以看到这里 common crawl 的数据量比其他几个多很多。进行采样的原因主要考虑到,就算做了一些数据清洗还是觉得 common crawl 的数据质量不如其他几个。最终采样的时候,虽然 common crawl 的数据量是其他几个数据集的上百倍,但是实际占比是 60%,有 40% 的数据是能够保证质量的。

训练方法

Step1-预训练:

在模型结构上,GPT-3 延续使用 GPT 模型结构,但是引入了 Sparse Transformer 中的 sparse attention 模块(稀疏注意力)。

sparse attention 与传统 self-attention(称为 dense attention) 的区别在于:

dense attention:每个 token 之间两两计算 attention,复杂度 O(n²)。 sparse attention:每个 token 只与其他 token 的一个子集计算 attention,复杂度 O(n*logn)。

具体来说,sparse attention 除了相对距离不超过 k 以及相对距离为 k,2k,3k,... 的 token,其他所有 token 的注意力都设为 0,如下图所示:


我们来具体观察一下,实际上图中的第二行就是涉及到的attention的token内容,可以看出首先关注了附近四个token,其次是2k,3k距离的token,那么为什么这么做呢?使用 sparse attention 的好处主要有以下两点:

1. 减少注意力层的计算复杂度,节约显存和耗时,从而能够处理更长的输入序列;

2. 具有“局部紧密相关和远程稀疏相关”的特性,对于距离较近的上下文关注更多,对于距离较远的上下文关注较少;

但是批判性的角度来讲,肯定是有缺点的,NLP语言中内容都是有上下文关系的,如此依赖必定会对长文本建模的效果变差。关于 sparse attention 详情可参考《Generating Long Sequences with Sparse Transformers》。最终 GPT-3 在训练过程中得到了如下不同规模的模型:

其中规模最大的模型称为 GPT-3,模型参数量为 1750 亿。


Step2-下游任务:zero-shot/few-shot

GPT-3是一种语言模型,它可以通过少量的样本进行学习,因此被称为“Few-Shot Learner”。和人类一样,GPT-3不需要完全不看任何样例就能学习,只需要看一小部分样例就能学会更多的知识。GPT-3的体量非常庞大,因此在下游任务中进行fine-tune的成本很高。为了解决这个问题,GPT-3使用了“In-Context Learning”的方式,在不进行梯度更新或fine-tune的情况下,直接在上下文中进行学习。


如上图所示,GPT-3 在下游任务的评估与预测时,提供了三种不同的方法:

Zero-shot:仅使用当前任务的自然语言描述,不进行任何梯度更新; One-shot:当前任务的自然语言描述,加上一个简单的输入输出样例,不进行任何梯度更新; Few-shot:当前任务的自然语言描述,加上几个简单的输入输出样例,不进行任何梯度更新;

其中 Few-shot 也被称为 in-context learning,虽然它与 fine-tuning 一样都需要一些有监督标注数据,但是两者的区别是:

1. fine-tuning 基于标注数据对模型参数进行更新,而 in-context learning 使用标注数据时不做任何的梯度回传,模型参数不更新;

2. in-context learning 依赖的数据量(10~100)远远小于 fine-tuning 一般的数据量;


最终通过大量下游任务实验验证,Few-shot 效果最佳,One-shot 效果次之,,Zero-shot 效果最差,这是合乎情理的事情。

上图中,横坐标为模型参数量,纵坐标为任务精度,图中大量灰色线表示不同下游任务,橙色/绿色/蓝色线是下游任务效果的平均值。


这张图显示了随着测试案例数量的增加,模型大小对最终效果的影响。虚线代表没有使用Prompt(自然语言描述)。可以看到,模型越大,测试案例数量越多,最终效果越好。当测试案例很多时,Prompt变得不那么重要,因为从案例中也可以推断出任务类型。


这张图显示了任务精度与计算量(模型规模或数据量)之间的关系。要实现线性提高任务效果,通常需要指数级增加模型规模和数据量。也就是说,为了获得更好的效果,我们需要投入更多的计算资源和数据量。


GPT-3虽然很强悍,但是仍旧有局限性:

1)数据量和参数量的骤增并没有带来智能的体感。从参数量上看,从GPT2 1.5B到GPT3 175B约116倍参数量的增加,从数据量上看,GPT2 40G到GPT3 570G近15倍训练数据增加,带来的“更”智能,或者简单点说“更few/zero-shot”的能力。

2)GPT-3的训练数据是从互联网上爬取的,因此可能存在一些错误或不准确的数据。

3)GPT-3在处理某些任务时可能会出现错误或不准确的结果,以及不合理或不合逻辑的结果。


GPT3.5 (Instruct GPT)

GPT-3纵然很强大,但是对于人类的指令理解的不是很好,这也就延伸出了GPT3.5诞生的思路。在做下游的任务时,我们发现GPT-3有很强大的能力,但是只要人类说的话不属于GPT-3的范式,他几乎无法理解。例如,我们说把句子A变成句子B,这种到底是机器翻译呢,还是同语言的转述,都需要让GPT-3学习到才是可以的。


ChatGPT 是基于 GPT3.5 的基础模型框架,核心变化在于通过真实的调用数据以及人类反馈的强化学习进行训练。ChatGPT3.5 主要用于自然语言处理、机器翻译等任务,而 ChatGPT3.5-Turbo 拥有更强大的强度,可用于更复杂的语言分析,比如情感分析、语法结构分析。所以,ChatGPT 和 GPT3.5 是同一系列的产品,但 ChatGPT 是在 GPT3.5 的基础上进行了改进和优化。


InstructGPT采用基于人类反馈的强化学习(RLHF)来不断微调预训练语言模型(LLM),旨在让模型能够更好地理解人类的命令和指令含义,如生成小作文、回答知识问题和进行头脑风暴等。该方法不仅让模型学会判断哪些答案是优质的,而且可以确保生成的答案富含信息、内容丰富、对用户有帮助、无害和不包含歧视信息等多种标准。因此,RLHF是一种有效的方法,可以帮助LLM不断提升性能和适应各种用户需求。


关于 InstructGPT 的技术方案,原文分为了三个步骤:有监督微调,奖励模型训练,强化学习训练;实际上可以把它拆分成两种技术方案,一个是有监督微调(SFT),一个是基于人类反馈的强化学习(RLHF),下面我们简单介绍下。


Step1 监督策略模型 (SFT supervised fine-tuning)

尽管GPT-3具有强大的语言处理能力,但它很难理解人类不同类型指令中蕴含的不同意图,并且很难判断生成内容是否是高质量的结果。为了解决这个问题,采取了以下步骤:首先,从测试用户提交的 prompt 中随机抽取一批,然后请专业的标注人员为这些 prompt 给出高质量答案。接下来,我们使用这些<prompt,answer>数据来Fine-tune GPT-3模型,以使其初步具备理解人类prompt中所包含意图,并根据这个意图给出相对高质量回答的能力。这一步骤中包含了1.2万条训练数据。虽然这个过程是有效的,但显然这还不足以解决所有问题。


在这里使用余弦学习率衰减和残差 dropout 为0.2进行了16个epoch的训练。根据验证集上的RM分数进行最终的SFT模型选择。论文发现SFT模型在第1个epoch后会出现过拟合情况,然而,后来实验发现训练更多的epoch会提高RM分数和人类偏好评分,尽管会出现这种过拟合情况。所以看来过拟合即使出现也不影响最终的学习结果。

Step2 训练回报模型(Reward Model,RM)


在这个阶段,论文中的研究者的主要目的是通过人工标注训练数据来训练回报模型。对用户提交的prompt进行随机抽样,并使用第一阶段Fine-tune好的冷启动模型,生成K个不同的回答,形成<prompt,answer1>,<prompt,answer2>….<prompt,answerK>数据。然后,标注人员根据相关性、信息性和有害信息等标准,对K个结果进行排序,生成排序结果数据。接下来,研究者使用这个排序结果数据进行pair-wise learning to rank训练模式,训练回报模型。RM模型接受一个输入<prompt,answer>,给出评价回答质量高低的回报分数Score。对于一对训练数据<answer1,answer2>,假设人工排序中answer1排在answer2前面,那么Loss函数则鼓励RM模型对<prompt,answer1>的打分要比<prompt,answer2>的打分要高。


实际上船长在这里插一嘴,GPT3.5的RM标注数据,会使用到一些硬性的,主观性不是那么强的指标,例如是否回答问题,是否为低俗色情等等,但是不会完全依赖于这些指标,为什么呢?因为人类的标注都是有很强主观性的,有的人认为是好的答案,有的人就是认为不好,所以并不能通过分数来衡量。那怎么办呢?所以才提出了排名的方式,排名越靠前的越好,这就相当于默认考虑了这些潜在因素。


Step3-强化学习来增强预训练模型

在这个阶段,研究者不需要人工标注数据,而是利用之前学习好的RM模型,通过PPO强化学习来更新预训练模型参数。从用户提交的命令中,随机选择一些新的命令,让PPO模型来生成回答。接着,用RM模型对这些回答进行评估,并给出一个分数作为回报。研究者的目标是训练LLM模型生成的答案能够获得高分数,也就是符合RM标准的高质量回答。最后,根据得到的回报分数来更新PPO模型的参数,以便让LLM模型生成更好的回答。


其实上面说的也是比较笼统的,大致意思是需要强化学习,还有奖励函数来更新语言模型,这么做的原因纯粹是为了让模型知道用户的指令。下面我们来详细的讨论下:


既然是强化学习,那么我们势必需要强化学习的三要素:策略(policy)、动作空间(action space)和奖励函数(reward function)等基本要素。


显然,策略就是基于该语言模型,接收 prompt 作为输入,然后输出一系列文本(或文本的概率分布);而动作空间就是词表所有 token 在所有输出位置的排列组合(单个位置通常有50k左右的token候选);观察空间则是可能的输入token序列(即prompt),显然也相当大,为词表所有token在所有输入位置的排列组合;而奖励函数(reward)则是基于训好的RM模型计算得到初始reward,再叠加上一个约束项来。整个过程如下图所示:



那么具体来说,是如何根据PPO来进行网络更新呢?实际上核心在于新旧两个网络,通过不断拉大新旧两个网络的距离,来让最终的新网络越好。下面是通俗易懂的操作步骤:

1. 定义“旧”的策略和“新”的策略。这两个策略都是我们用来指导智能体行动的指南。

2. 通过与环境交互,我们可以收集到从当前状态开始采取不同动作所得到的奖励,并计算每个动作的概率比例、价值函数以及优势函数等。这些都是用于评估策略表现的指标。

3. 接着,我们会计算新旧策略之间的差异,并使用一个剪切函数来约束更新幅度,以最大程度地提高未来预期回报。

4. 将该变化量应用于模型参数中,以更新模型并改进策略。

5. 重复上述步骤多次,直到模型收敛为止。


举个例子,假设我们正在训练一个自主驾驶汽车,希望它能够在城市道路上安全地行驶。我们可以使用PPO算法来训练它,让它从当前位置出发,不断采取不同的驾驶决策(如加速、刹车、转弯等),并根据所得到的奖励来调整模型参数。通过重复这个过程,我们可以逐渐改进模型,让自主驾驶汽车学会更好地行驶。


那么问题来了,为什么使用PPO方法来更新GPT3呢?实际上是因为有限的Prompt导致的,我们不能够训练无限多的Prompt,类似于强化学习中无限的环境,所以只能够通过新旧模型预测的差别来进行学习速度上的提升。那么PPO究竟如何应用在GPT-3中呢?


从上图中可以看到,base模型是绿色的,RL Policy是灰色的,他们两个都会根据同样的Prompt来输出不同的结果,而接下来就是把两个模型的Reward分数拉的尽可能的大,使得两个的差别越大越好,所以在下面的公式当中,利用了KL DIvergence来衡量两个模型之间分布的差异。而之后,这个分数会用来更新RL 模型,也即是GPT-3,所以RLHF的核心就是利用强化学习的思路来更新GPT的网络。


如果研究者一直重复第二和第三步骤,那么每一轮迭代过后,LLM模型的能力都会变得更强。这是因为第二步骤使用人工标注数据来提高RM模型的能力,第三步骤则利用增强的RM模型对新问题的答案作出更准确的评分,并使用强化学习来鼓励LLM模型学习新的高质量内容。这就像是使用伪标签来扩充高质量训练数据一样,进一步增强了LLM模型的能力。显然,第二和第三步骤相互促进,这就是为什么不断迭代会有持续增强效果的原因。


训练数据

接下来的问题是,如果应用如此多的方法,那强化学习所需要的训练数据是多少呢?实际上很少,只有几万的规模,详细的数据如下图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/696885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

docker命令创建 Portainer容器

Portainer控制台可查看docker中各个容器的相关信息&#xff0c;实时查看容器启动日志以及对各个容器进行重启、删除&#xff0c;重建等代替命令的一列操作&#xff0c;使用起来非常方便。 创建目录data并赋权限 # 数据目录 mkdir -p /software/docker/portainer/data # 赋权限…

线性代数高级--二次型--特征值与特征向量--特征值分解--多元函数的泰勒展开

目录 二次型 概念 示例 性质和特点 特征值与特征向量 概念 示例 注意 性质和特点 特征值分解 注意 多元函数的泰勒展开 回顾一元函数泰勒展开 多元函数的泰勒展开 二次型 概念 二次型是一个关于向量的二次多项式&#xff0c;通常用矩阵表示。 考虑一个n维向量…

Oracle 实现A表B表字段/表名不同,定时任务+存储过程,定期执行增删改查

说明 假设Oracle A表B表 &#xff0c;表字段不同&#xff0c;表名也不同&#xff0c; 通过存储过程 定时任务(Jobs)&#xff0c; 定期去执行业务逻辑的增删改查 。 1、定时同步 创建一个存储过程&#xff0c;用于比较两张表中的数据&#xff0c;并根据状态决定需要同步的数据。…

java开发必备技能之Spring常用注解(重点)

参考了尚硅谷注解版&#xff0c;注解版后面的源码没看&#xff0c;雷神讲的太散了 Spring注解 AnnotationConfigApplicationContext 组件添加相关注解 1、ConfigurationBean (基础) 1-1 XML文件方式实现组件添加 public class Person { private String name;private Integ…

五个漂亮的 Arch Linux 发行版

导读本文将介绍几个漂亮的 Arch Linux 发行版&#xff0c;这些发行版将设计的优雅之美与 Arch Linux 强大的底层框架相结合。 Arch Linux 提供滚动更新模型、强大的 pacman 软件包管理器&#xff0c;以及通过其软件仓库提供的成千上万的应用程序。它非常受欢迎&#xff0c;因为…

多线程之wait()和notify()详解

1.每个Java对象都有一个监视器&#xff08;monitor&#xff09;&#xff0c;它是用来控制对该对象的访问的。一个线程要想进入某个对象的监视器区域&#xff0c;必须先获得该对象的锁。然后可以通过wait方法来释放该对象的锁并进入等待状态&#xff0c;直到其他线程调用notify或…

python读取.ann文件编码格式

encoding‘latin1.(gbk和utf-8均报错) 【还是chatpgt告诉我的呢】

oracle查看当前实例与切换实例

查看实例 select name from v$database;切换实例 sqlplus /ORCL as sysdba

【前端工程化】深入浅出vite(二)--vue3全家桶+ts构建后管系统

安装基础包 npm create vitelatest # 这里选择的是VueTypescript的组合 cd vue-admin npm install# 先安装基础包 npm install vue-router4 npm i pinia npm i axios npm install sass --save-dev npm install element-plus --save npm install element-plus/icons-vue npm in…

全志V3S嵌入式驱动开发(spi-nor image制作)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 其实&#xff0c;我们之前就讨论过怎么把image烧入到v3s的spi-nor当中去。当时使用的方法是借助于sunxi-fel工具&#xff0c;烧入的image也比计较小…

2. 计算点到平面的投影

参考 https://www.cnblogs.com/nobodyzhou/p/6145030.html 所以用各种平面提取算法后&#xff0c;得到的平面方程, 注意此处的平面方程abcd已经是归一化了。 a x b y c z d 0 ax by cz d 0 axbyczd0 此时的原点到该平面点的投影点为 C P ( − a d , − b d , − c …

渗透测试内网基础知识

点赞后看&#xff0c;养成习惯 喜欢的话 可以点个关注哟 你们的点赞支持对博主们来说很重要哦 &#xff01;&#xff01;&#xff01; 为方便您的阅读&#xff0c;可点击下方蓝色字体&#xff0c;进行跳转↓↓↓ 01 内网概述02 工作组03 域04 活动目录05 域控制器和活动目录的…

【C/C++】使用类和对象 设计点和圆的关系案例

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

误删除boot目录 修复办法

误删除boot目录 修复办法 本次演示系统为kylin-v10-sp3-20230324&#xff0c;kernel&#xff1a;4.19.90-52.22.v2207.ky10.x86_64 文章目录 误删除boot目录 修复办法1.报错现象2.正常机器boot目录结构3.误删除boot目录4.故障修复挂载光盘&#xff0c;进入救援模式 5.非正常情况…

mysql8.0.26忘记密码后重置(centos8)

1、查看配置文件地址 mysql --help|grep my.cnf 2、编辑/etc/my.cnf配置文件 vim /etc/my.cnf增加跳过密码配置 [mysqld] skip-grant-tables 3、重启mysql service mysqld restart4、修改密码 use mysql; update user set authentication_string where userroot; FLUSH pr…

NoSQL之Redis配置与优化(初级)理论较多

目录 一、关系数据库与非关系型数据库 1、 关系型数据库 2、 非关系型数据库 二、关系型数据库和非关系型数据库区别 1、 数据存储方式不同 2、 扩展方式不同 3、 对事务性的支持不同 三、非关系型数据库产生背景 1、可用于应对Web2.0纯动态网站类型的三高问题&#xf…

大数据Doris(五十一):Export语法和结果

文章目录 Export语法和结果 一、语法 二、结果 Export语法和结果 一、语法 Export 需要借助 Broker 进程访问远端存储&#xff0c;不同的 Broker 需要提供不同的参数&#xff0c;这里以导出到HDFS为例介绍Export 写法&#xff0c;也可以通过"help export "命令查…

Azure CLI - Premium SSD V1磁盘迁移至Premium SSD V2

目录 1.从服务器卸载Premium SSD V1 磁盘 2.创建Premium SSD V1磁盘snapshot 3.创建Premium SSD V2磁盘 4.挂载Premium SSD V2磁盘到服务器 已经在生产使用的Premium SSD V1磁盘&#xff0c;通过制作快照后&#xff0c;购买Premium SSD V2磁盘。 1.从服务器卸载Premium SSD…

Intellij IDEA detected unusually high memory use

一、IDEA如图 二、解决 2.1 修改IDEA的内存堆 运行IntelliJ IDEA的Java虚拟机&#xff08;JVM&#xff09;分配一些预定义的内存量。默认值取决于平台。如果您遇到速度减慢&#xff0c;可能需要增加内存堆。 为运行IDE分配的堆大小与编译应用程序的堆大小不同。如果要为编译代…

服务行业的企业所得税高,这是为何,该如何解决?

服务行业的企业所得税高&#xff0c;这是为何&#xff0c;该如何解决&#xff1f; 《税筹顾问》专注于园区招商、企业税务筹划&#xff0c;合理合规助力企业节税&#xff01; 服务行业的发展历程&#xff0c;源远流长。它是为了满足我们生活中的需要应运而生&#xff0c;大家眼…