ChatGPT发展与技术基础

ChatGPT发展与技术基础

news2024/12/27 14:57:05

一、ChatGPT发展

【ChatGPT——GPT3.5】

诞生于：2022 年 11 月

类型：对话场景的大语言模型

特点：更贴近人的方式与使用者互动；在理解人类意图、精准回答问题、流畅生成结果方面远超人类预期。

功能：可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求，同时拥有惊艳的思维链推理能力和零样本下处理问题能力。

热度：据瑞银数据，ChatGPT 产品推出 2 个月后用户数量即过亿，而上一个现象级应用 TikTok 达到 1 亿用户花费了 9 个月时间。

能力：强大的上下文连续话能力 ：ChatGPT 可以实现几十轮连续对话，能够比较准确地识别省略、指代等细粒度语言现象、记录历史信息，而且似乎都可以保持对话主题的一致性和专注度。

智能的交互修正能力：无论是用户更改自己之前的说法还是指出ChatGPT的回复中存在的问题，都能够捕捉到修改意图，并准确识别出需要修改的部分，最后做出正确的修改。

【ChatGPT——GPT4.0】

诞生于：2023年 3 月

类型：对话场景的大语言模型

特点：具备多模态能力，可以同时支持文本和图像输入。

支持的文本输入数量提升至约 32000 个 tokens，对应约 2.5 万单词。

性能：

理解/推理/多语言能力增强。
理解能力显著增强，可以实现“看图说话”。
可靠性相比 GPT3.5 大幅提升 19%。
对不允许和敏感内容的错误反应显著下降。

二、ChatGPT技术基础

ChatGPT由生成式预训练模型（Generative Pretrained Transformer，GPT）GPT-3.5 微调而来，在GPT-3.5的基础上，引入了基于人类反馈的强化学习技术（Reinforcement Learning from Human Feedback，RLHF）对模型进行微调。

参考：ChatGPT 为代表的大模型对信息资源管理的影响

ChatGPT 的能力来源于：大规模预训练 + 指令微调 + 基于人类反馈的强化学习

1、通过大规模的预训练，通过让拥有 1750 亿参数的大模型去学习包含 3000 亿单词的语料，大模型已经具备了基础能力。

大模型基础能力：语言生成、情景学习（in-context learning，遵循给定的示例为新的测试应用生成解决方案）、世界知识（事实性知识和常识）、指令遵循（Instruct following）、思维链（Chain of thought）可逐步解决问题。

2、通过指令微调（Instruction tuning），帮助大模型“解锁”特定领域的能力如遵循指令来实现问答式的聊天机器人，或泛化到其他新的任务领域。

3、基于人类反馈的强化学习（RLHF，Reinforcement Learning with Human Feedback）则让大模型具备了和人类“对齐”的能力，即给予提问者详实、公正的回应，拒绝不当的问题，拒绝其知识范围外的问题等特性。

2.1 大规模的预训练

ChatGPT基于Transformer进行特征提取，采用Decoder-Only方式，由两阶段到一阶段：单向语言模型预训练+zero shot/ few shot prompt/ Instruct。

解释一下GPT的含义：生成式预训练（Generative Pre-Train，GPT）。

Transformer 结构由编码器和解码器构成，而单独基于编码器或者解码器均可构建大语言模型，因此业内形 成三类大模型路线：

Decoder-Only（仅解码器）——GPT
Encoder-Only（仅编码器）——谷歌的Bert、Deberta
Encoder-Decoder（编码器-解码器）——Meta的Bart、T5、ChatGLM

采用 Decoder-Only 的有 GPT 等，其采用“预测下一个单词”的方式进行预训练，之后通过指令微调等实现特定领域功能的激发。

采用 Encoder-Only 的有谷歌的 Bert、微软的 Deberta 等，其采用 “完形填空”式的预训练，再根据所需的应用领域用少量标注过的数据进行 Fine-tuning（微调）。

采用Encoder-Decoder 架构的模型如谷歌的 T5、Meta 的 Bart、清华大学的 ChatGLM 等。

大模型预训练：

参考：《A Survey of Large Language Models》（Zhao Wayne Xin 等）、开源证券研究所

2.2 模型微调

模型微调将赋予模型在特定领域的能力，预训练好的基础模型进行微调：

1、采用人工标注好的数据来训练模型；
2、通过人类对模型答案的排序训练一个奖励模型；
3、使用奖励模型通过强化学习的方式训练 ChatGPT。其中后两个步骤称为 RLHF（基于人类反馈的强化学习）。

在 GPT4 的训练过程中，OpenAI还进一步加入了基于规则的奖励模型（RBRMs）来帮助模型进一步生成正确的回答，
拒绝有害内容。可以看出模型微调对模型最终的效果实现至关重要，玩家独特的训练和微调方法会让自己的模型形成独特的性能。

2.3 基于人类反馈的强化学习

基于人类反馈的强化学习（RLHF）则让大模型具备了和人类“对齐”的能力，即给予提问者详实、公正的回应，拒绝不当的问题，拒绝其知识范围外的问题等特性。

三、ChatGPT对科研思路的影响

1、资源富集的实验室会开始进一步投入大模型竞争，短期内将会以探索 RLHF 的不同方向和规模为主。

2、部分子任务的快速消失和被整合。大量之前存在的子任务/小任务会并入大任务，构造有监督数据集并微调不再是小任务的第一选择。大模型无法取得好结果的小任务将成为研究热点。

3、跨模态知识的挖掘和自监督学习将成为新的热点研究方向。大量基于RLHF的跨模态知识的生成方法将被快速提出并实践，相关成果将在短期内大量发表。主流热点将主要聚焦在知识的数量、质量以及运用知识的方法。

参考文献：

[1] 赵朝阳,朱贵波,王金桥.ChatGPT给语言大模型带来的启示和多模态大模型新的发展思路[J].中国科学院自动化研究所.2023

[2] 《A Survey of Large Language Models》（Zhao Wayne Xin 等）

[3] ChatGPT 为代表的大模型对信息资源管理的影响

本文只供大家参考与学习，谢谢~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/708481.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

bug--两个表格，数据来自于同一个抽屉表格，现在让两个表格的数据不能一样--处理checked 和 disabled

bug--两个表格，数据来自于同一个抽屉表格，现在让两个表格的数据不能一样--处理checked 和 disabled

步骤一、拿到表格数据步骤二、处理 checked，要区分是A表还是B表，这个区分要在 A表、B表数据展示的组件里（根源）区分 ： 点击A表，抽屉表格中A 已选的状态是 checked 且 disabled，B 已选的抽…

阅读更多...

HCIA复习一

HCIA复习一

OSI七层模型 7.应用层： 用于人机交互，将抽象语言转化为编码； 6.表示层： 将编码转换为二进制；（加解密，压缩解压缩） 5.会话层： 管理通信双方的会话，细分为…

阅读更多...

数模笔记6.30

数模笔记6.30

目录一、基础建模步骤： 论文格式： 写作过程： 赛题类型： 二、优化类模型 2.1简单的优化模型 2.2数学规划模型三、Lingo 一、基础建模步骤： 找目标找条件（变量、常量、自己的假设&#xff09…

阅读更多...

Tomcat的优化多实例部署

Tomcat的优化多实例部署

一.tomcat核心组件模块 1.web容器：接受.响应请求 2.展示动态页面 2..JSP容器：翻译java---》servlet 3.serverlet容器：serverlet代码格式是用于JSP容器处理简述： web容器 ：1.接受、响应请求 2.展示动态页面 JSP容…

阅读更多...

python之 flask 框架

python之 flask 框架

创建安装虚拟环境两种方法第二种 # 先打开cmd 中断 # 查看virtual是否安装过 pip show virtualenv # 安装 pip install virtualenvwrapper-win # workon 查看虚拟环境 vorkon # 切换虚拟环境 # workon 虚拟环境 # mkvirtualenv 创建新的虚拟环境 mkvirtualenv falsk2…

阅读更多...

MySQL 字符集与比较规则

MySQL 字符集与比较规则

字符集与比较规则一. 字符集相关操作1. 查看字符集1.1 查看数据库当前字符集配置1.2 查看某数据库/数据表字符集 2. 修改字符集2.1 全局修改字符集2.2 修改已有库表字符集 3. 字符集级别二. 比较规则1. 后缀表示含义2. 查看指定数据集比较规则3. 查看/修改数据库/表比较规则一…

阅读更多...

计算机视觉：窥探数字世界的眼睛

计算机视觉：窥探数字世界的眼睛

目录简介： 一. 计算机视觉的起源与发展二. 计算机视觉的应用领域三. 计算机视觉的挑战与未来发展结论： 简介： 计算机视觉（Computer Vision）是人工智能（AI）领域中的一个重要分支&#…

阅读更多...

同一VLAN不同交换机之间的数据转发

同一VLAN不同交换机之间的数据转发

实验环境： 思科模拟器，Cisco Packet Tracer 实验拓扑： 配置步骤： （1）配置四台PC的IP地址双击PC选择Desktop，然后选择IP Configuration配置ip （2）配置交换机双击交换…

阅读更多...

登录校验-interceptor/拦截器

登录校验-interceptor/拦截器

Interceptor 概念：拦截前端对后端的某些请求使用步骤自定义拦截器类，实现HandlerInterceptor接口，重写所有的方法（preHandle方法在controller执行之前执行、【postHandle、afterCompletion】在controller执行后执行&#xff0…

阅读更多...

基于java,springboot的零食零售系统设计与实现

基于java,springboot的零食零售系统设计与实现

背景本系统实现管理员：首页、个人中心、用户管理、零食分类管理、零食信息管理、订单评价管理、系统管理、订单管理，用户；首页、个人中心、订单评价管理、我的收藏管理、订单管理，前台首页；首页、零食信息、零食资讯…

阅读更多...

Vue工程创建及应用

Vue工程创建及应用

🙈作者简介：练习时长两年半的Java up主 🙉个人主页：程序员老茶 🙊 ps:点赞👍是免费的，却可以让写博客的作者开兴好久好久😎 📚系列专栏：Java全栈，…

阅读更多...

Python Pandas之loc、iloc

Python Pandas之loc、iloc

df.loc 通过标签索引获取数据 df.iloc 通过位置索引获取数据

阅读更多...

Airtest：Windows桌面应用自动化测试二【Airtest基于图像识别自动控制手机App流程】

Airtest：Windows桌面应用自动化测试二【Airtest基于图像识别自动控制手机App流程】

Airtest基于图像识别自动控制手机App流程一、Airtest基于图像识别自动控制手机App流程二、基于图像识别生成脚本有两种操作：三、Airtest基于Poco的UI组件自动化控制App流程四、Airtest实现手机群控操作 Airtest介绍与脚本入门 Airtest相关api操作一、Airtest基于…

阅读更多...

暑期学JavaScript【第三天】

暑期学JavaScript【第三天】

事件流很多时候，一个事件可能会被多个元素监听。那么这些元素应该按什么顺序响应呢？从父到子称为捕获，从子到父称为冒泡。事件捕获可选参数，true or fause，带true代表按捕获方式响应 obj.addEventListener(cli…

阅读更多...

短视频seo源码部署打包分享---开源

短视频seo源码部署打包分享---开源

功能概要： 1. 按关键词搜索账号排名 2. 按关键词布局查询视频排名 3. 按天计费功能开发 4. 达标天数及关键词数量统计开发概要： 区别于其他开发者，同类产品多用第三方，如：站长之家，本系统代码开发使…

阅读更多...

| 从头打造个人网站（超详细）

| 从头打造个人网站（超详细）

哈喽🤗，这篇博客从0开始教大家创建自己的网站，包含个人网站，商用网站等，并且提供模板类型，提供修改模块样本~ 看完本博客你将会收获：一个想要的类型网站学习React解答过程中遇到的问题最终效果那就开始吧👩‍💻👨‍💻 ********************************…

阅读更多...

AutoSAR系列讲解（入门篇）4.9-BSW小结

AutoSAR系列讲解（入门篇）4.9-BSW小结

首先，要恭喜各位，最为枯燥难懂的一章你已经看完了。也许现在你还是一头雾水，但是相信大部分人都差不多，不必着急，因为AutoSAR单纯看理论最终也就只能看到这个程度了。所以看不太懂的小伙伴在这里先给自己一个定位&…

阅读更多...

POLARDB IMCI 白皮书云原生HTAP 数据库系统一主体架构与接口

POLARDB IMCI 白皮书云原生HTAP 数据库系统一主体架构与接口

开头还是介绍一下群，如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题，有需求都可以加群群内有各大数据库行业大咖，CTO，可以解决你的问题。加群请联系 liuaustin3 ，在新加的朋友会分到2群（共…

阅读更多...

Python dict keys方法：获取字典中键的序列【将keys转为list】

Python dict keys方法：获取字典中键的序列【将keys转为list】

描述 dict.keys()方法是Python的字典方法，它将字典中的所有键组成一个可迭代序列并返回。使用示例 >>> list({Chinasoft:China, Microsoft:USA}.keys()) [Chinasoft, Microsoft] >>> test_dict {Chinasoft:China, Microsoft:USA, Sony:Japan,…

阅读更多...

JetBrains goland、pycharm、webstorm、phpstorm 对比两文件内容是否一致

JetBrains goland、pycharm、webstorm、phpstorm 对比两文件内容是否一致

对比文件 JetBrains goland、pycharm、webstorm、phpstorm 对比两文件内容是否一致第一种打开文件，按住键盘上的CTRL键，然后鼠标右键，点击菜单中的”Compare with Clipboard”，左侧就可以粘贴文件内容对比第二种在编辑器窗口中…

阅读更多...

推荐文章

最新文章