聊聊ChatGPT的本质

news2025/1/11 6:01:05

这是鼎叔的第九十八篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。

阶段性总结下我对ChatGPT的基础理解,算是一篇学习思考笔记吧。其中难免有很多不准确的,或过于简略的地方,将来再迭代学习。

OpenAI做ChatGPT的底层逻辑

一句话描述,就是大力出奇迹。为什么会产生这种结果呢?

这要从AI发展的两大流派说起,就是符号主义和连接主义。前者基于逻辑推理的智能模拟方式,通过专家对于符号的深入研究来完善逻辑推理。这种方式的最大局限性是在真实场景中要考虑的逻辑推理过于复杂了,想达到用户的高满意度极其困难。

连接主义就是从脑神经的结构受到启发,主要神经元数量足够多,训练的输入量足够庞大,训练出来的神经元连接效果就有可能达到人类思考的水平。人的大脑形成认知,就是某些神经元的链接输出被固化了。

OpenAI在这个方面下的赌注成功了,海量参数、极其庞大的训练文本和巨大算力,最终产生了涌现的进化效果,复杂常识的理解能力急剧提升。垂直小模型的推理难题被轻松解决。

一夜之间很多老AI人觉得以往的研究白干了,但是新模型的前景又让从业人员无比兴奋。

ChatGPT训练成功的要素

个人观点,这是非专业初学者更应该努力理解的:ChatGPT训练成功,主要做对了哪几件事(除了“大”),继承了什么好的遗产。

1 预训练。

ChatGPT对互联网上的海量信息进行了无监督学习,这些庞大的已有信息显然绝大部分都没有被人工标注过,也不可避免夹带了大量低质量的信息,包括网络上常见的阴谋论,偏见等。

ChatGPT从未标注数据中自动推导出预训练数据,使预训练变得更有扩展性。

预训练也是迁移学习在深度学习中实现的主要方法,通过在替代性任务上训练模型,然后将其适配到下游任务中,实现了跨任务的知识迁移。

2 RLHF 基于人类反馈的强化学习

RLHF解决的核心问题是,让大模型生成内容和人类的常识、认知、需求和价值观保持一致。

OpenAI团队首先从海量数据集中,搜集包含有“问题”和“答案”的数据对,然后用它们来训练一个奖励模型,当输入文本的质量越高(即更符合人类评价标准),奖励分数越高。最后让大语言模型能够根据这个奖励模型给出的奖励分数来自我生成更高质量的回答。

这个技术方案依然面对大量伦理监管和局限性挑战,还在不断演进中。

3 模型微调。

多数组织其实是无法满足预训练和微调基础模型的计算要求的,以共生为关联和标准模型训练,会产生虚假关联和东拼西凑的合成结果。

每家公司不可能都从头训练一个自己的大模型,要想在自己服务接口中提供大模型能力,推理成本是必须考虑的要素,微调相对来说就是一个更优的方案。轻量级的微调模型也能够针对每个用户的数据进行训练,同时满足数据安全的需求。

4 Transformer和自注意力机制

ChatGPT的技术基础就是谷歌的Transformer深度学习模型。传统的自然语言处理模型难以进行并行计算,导致长文本处理时性能下降非常明显。

Transformer模型是基于自注意力机制来构建的,包含编码器和解码器两个部分,前者负责将输入序列转换为定长的向量表示,后者将向量解码为输出序列,自注意力机制能够建立长距离的依赖关系,即使经过多轮对话,还能够保持对前文指代的正确理解。Transformer的并行计算能力让它在长序列处理时具有更高的效率。

5 Token机制

Token是ChatGPT这种大语言模型最重要的概念。Token就是文本处理的最小单位,英文中就是一个单词,中文中就是一个分词。输入的每个token都会对应一个唯一的数字ID,以便让模型进行编码和解码。

对于包含了数亿甚至数十亿参数的大模型,要实现高效的训练和推理,模型的输入必须进行限制,长文本就会基于Token进行分割。这种表示形式既有利于大模型的处理,也有利于通过token之间关系的学习来获取更多语义信息。

最近爆火的视频生成大模型Sora,也使用了类似的概念-最小视频单位Patch。当微观学习尺度是统一的,不管什么尺寸、分辨率和帧率的输入视频都可以统一进行学习和输出。

ChatGPT的商业机会

商业机会按产业细分类型,可以分为这几类受益领域:

1 提供AI算力的公司,提供定制化,合理计费的算力服务。

2 提供上游数据服务的公司,包括对数据进行查询、转换、标注和治理。

3 提供中间算法定制模型的公司和研究机构。具备真正基础大模型研发能力的公司非常少,但是提供垂直能力封装的、体验强化的中间模型,还是很有市场的,但这块需要有足够强的垂直行业能力或者客户服务嗅觉,或者建设活跃的AI交流社区。

4 提供热门应用拓展能力的公司。这样的公司有两类,一类是在某类应用上已经有先发优势,有大量的忠实用户,然后把大模型能力引入到特定的用户场景,成功地形成口碑效应,增加了付费意愿。

还有一类创业型公司,快速利用大模型的能力提供尝鲜产品,利用自己的“快”赶在大公司的前面,在应用场景上截胡用户。这类公司的员工非常少,非常精,容易获得高估值,对同类“老”公司带来不少威胁。这类公司的核心灵活打法就是疯狂地采集免费训练数据,趁平台大公司反击之前训练好基础模型,拉到初期的用户群,因为员工极少,发展惊人,能进一步扩大估值和融资。

ChatGPT目前的局限

实时性不足,肯定是现阶段ChatGPT的主要问题。大模型是基于已有海量内容的预训练来升级的,时效性暂时还有很大的短板。

创造力有限。ChatGPT能够自我优化内容质量,根据用户兴趣进行调整,但生成内容依然缺乏原创性,也缺乏可控制的个性化内容。长此以往会降低使用者的热情和工作能力,部分使用者会依赖大模型工具,自身能力会退化。

全新任务的迁移能力不佳。ChatGPT能够连贯地输出有逻辑性的文本,但它在理解语境和情感时可能会受到数据偏差和模型偏移的影响,导致在新的场景任务中表现不佳。大模型学习掌握了一定的语言规律和人类的思维方式,但在创造文本时存在语法逻辑瑕疵,需要后期纠正。

人类文明的思维复杂性是在多维度的,体现了其多样性,这远不是让计算机求解问题这么单纯直接。

ChatGPT重塑沟通效率

ChatGPT带来的自然语言表达效率空前提升,给我们的启发是,可以利用ChatGPT把需要大量沟通的业务重做一遍。

对于沟通表达可能比较弱的工程师,ChatGPT可能是帮助工程师对外沟通的利器,工程师可以按心目中的标准训练特定产品,让非技术人员和该产品先行互动,节约自己的人工沟通时间。

这也是鼎叔在团队敏捷实践中引入大模型解决手段的初衷。技术人员和非技术人员不一定都能不厌其烦地面对面交流,理解对方意图的初级AI可能是不错的预沟通桥梁。

还有一类沟通困难场景,是因为某一方(客户或者员工)比较羞涩,尴尬。借助ChatGPT问答,不用操心自己的隐私暴露,比如心理/生理问题的咨询服务。

此外,教育界对于ChatGPT在学校的使用会严防死守,但它确实可以大幅提高老师的日常效率,节约大量批改作业和教学杂活的时间,同时为学生的个性化教育带来了可能性。

ChatGPT的进化方向

一 和搜索技术更好的整合,比如RAG技术。搜索技术和ChatGPT看起来有相似性,但也有很多本质的不同。

搜索引擎由搜索器,索引器,检索器,用户接口组成,搜索产品对于结果的实时性要求高。但搜索产品的结果体验始终不佳,满屏的搜索结果还夹杂着大量广告,让普通用户无从选择。

ChatGPT的体验是革命性的,让用户眼前一亮,并且能够顺利地聊下去,得益于长效的注意力机制,前后连贯的推理和互动,让用户活跃度暴涨。

两者互相印证,互为补充,可以大幅提升大模型答案的实时性,还可以降低回答的幻觉率。

二 和知识图谱更好的结合。这点有待更多学习。

三 多模态的发展。四大模态(文本,音频,图片,视频)的商业机会在互相渗透,虎视眈眈,对用户而言分界线并不明显,多模态提供了更多强者通吃的机会。

四 AI伦理有关的技术管理体系。

大模型的数据标注训练,本身就存在人为错误可能,如果被恶意标注,会产生极大偏离主流价值观的结果。

恶意引入大量的“特殊语料”或者加大其权重,也可以起到扭曲价值观的目的。

不怕一眼假的幻觉,就怕看不出真假的幻觉,把产品快速被调教成“坏人”。

可以想见,AI伦理的破坏者手段更加隐蔽,难以追查,这也对管理制度和体系化能力提出了更高要求。

因为大模型本身的不可解释性,黑产团伙也可能操纵训练数据集,生成他们想要的对抗样本。

五 具身智能。就像最近OpenAI和机器人公司合作,在短短时间就给机器人进行了认知赋能,机器人本身精准的控制力,又能把AI指令和行动近乎完美的融合在一起。

图片

六 AI Agents群体智能,ChatGPT是其中当仁不让的大脑。

大模型实体是由不同公司,不同资源和不同技能团队负责的,在AGI(通用人工智能)真正成熟之前,每个大模型产品都有自己擅长的垂直能力和不擅长的短板。

当我们要输出一个用户满意的智能方案,完全可以调用多个不同的大模型实体来完成,它们就叫Agents。

比如一个自动生成的金融报告平台,会需要擅长写报告的agent,擅长分析商业数据的agent,擅长绘制金融图片的agent,以及擅长做风险和收益分析的agent,这四个agent在后台共同协作,前台由ChatGPT直接和用户对话和反馈。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1697511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mfc140.dll丢失原因和mfc140.dll丢失修复办法分享

mfc140.dll是与微软基础类库(Microsoft Foundation Classes, MFC)紧密相关的动态链接库(DLL)文件。MFC是微软为C开发者设计的一个应用程序框架,用于简化Windows应用程序的开发工作。以下是mfc140.dll文件的一些关键属性…

spring boot 整合j2cache 项目启动警告 Redis mode [null] not defined. Using ‘single‘

好 之前的文章 spring boot 整合j2cache 基础操作 在spring boot环境中整合了 j2cache 我们 项目启动时 日志会有一个关键信息 Redis的模式 没有定义 默认使用 single Redis 的这个模式有四种 大家可以自己去网上找一下 做个了解 不用很纠结 我们直接在 j2cache.properties …

医院门诊互联电子病历|基于SSM+vue的医院门诊互联电子病历管理信息系统的设计与实现(源码+数据库+文档)

医院门诊互联电子病历管理信息系统 目录 基于SSM+vue的医院门诊互联电子病历管理信息系统的设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2后台登录模块 5.2.1管理员功能 5.2.2用户功能 5.2.3医生功能 四、数据库设计 五、核心代码…

requests_html使用介绍

文章目录 一、requests_html 基本介绍二、requests_html 基本使用三、发送带有参数的请求四、图片抓取实战案例 一、requests_html 基本介绍 A、装库: pip install requests_html B、介绍: requests 和 requests_html 是同一个作者 二、requests_html 基本使用 A、导包: fro…

辐射度技术在AI去衣中的魅力与科学

引言: 在当今的数字化时代,人工智能正逐渐渗透到我们生活的方方面面。其中,AI去衣技术作为一项颇具争议但又不失其科技创新的应用,正引起越来越多的关注和讨论。而在实现高质量图像渲染的过程中,辐射度技术凭借其卓越的…

Linux指令初识

ls:显示当前目录底下的指定文件或目录 ls -l更详细的信息 ls -a显示当前目录下的所有文件 命令中的选项可以一次传递多个 ,例如:ls -al 命令和选项有必须一个或多个空格 以.开头的文件,为隐藏文件ls -a可以看到,ls -l看不见 支持命令拼在一起&#…

Rust开源Web框架Salvo源码编译

1.克隆源码: https://github.com/salvo-rs/salvo.git 2.进入salve目录并运行cargo build编译 编译成功 3.编译生成的库 4.安装salve-cli git clone --recursive https://github.com/salvo-rs/salvo-cli.git 编译salve-cli

stm32-PWM输出比较配置

配置流程 1.RCC开启时钟 2.时钟源选择和配置时基单元 这一部分上一篇有写,可以参考一下上一篇的内容,此处不多赘述了。 原文链接:https://blog.csdn.net/m0_74246768/article/details/139048136 3.配置输出比较单…

链表类型的无界阻塞线程安全队列-ConcurrentLinkedQueue(FIFO)

ConcurrentLinkedQueue是非阻塞线程安全(volatile不能完全保证线程安全)的队列,适用于“高并发”的场景。是一个基于链表节点的无界线程安全队列,按照 FIFO(先进先出,尾先进头先出)原则对元素进行排序。队列元素中不可以放置null元素(内部实现的特殊节点除外)。 volati…

【WEEK13】 【DAY5】Shiro第五部分【中文版】

2024.5.24 Friday 接上文【WEEK13】 【DAY4】Shiro第四部分【中文版】 目录 15.7.Shiro请求授权的实现15.7.1.修改ShiroConfig.java15.7.1.1.添加一行验证授权的代码15.7.1.2.重启 15.7.2.修改MyController.java15.7.3.修改ShiroConfig.java15.7.4.重启15.7.5.修改UserRealm.ja…

风电机组的振动控制

文章目录 0. 背景1. 原文记录 0. 背景 混塔机组的频率大概是目前业内遇见的比较普遍的通病。最近在了解风电机组振动控制的知识,看到一篇科普性质的文章,感觉不错,所以记录下来。想要看原文的点击这里。感谢原作者。 1. 原文记录

在IDEA中配置servlet(maven配置完成的基础下)

在IDEA中配置servlet&#xff08;maven配置完成的基础下&#xff09; 1.先新建一个项目 2.选择尾巴是webapp的&#xff0c;名称自定义 3.点击高级设置&#xff0c;修改组id 点击创建&#xff0c;等待jar包下载完成。在pom.xml中配置以下 <dependency><groupId>ja…

【C++算法】BFS解决拓扑排序问题相关经典算法题

1.铺垫概念 ⭐有向无环图&#xff08;DAG图&#xff09; 有向无环图是一种特殊的图数据结构。在这样的图中&#xff0c;节点之间通过有向边连接&#xff0c;表示从一个节点到另一个节点的单向关系&#xff0c;并且不存在任何形式的环路&#xff0c;即没有路径可以让你从一个节…

CLIP 论文的关键内容

CLIP 论文整体架构 该论文总共有 48 页&#xff0c;除去最后的补充材料十页去掉&#xff0c;正文也还有三十多页&#xff0c;其中大部分篇幅都留给了实验和响应的一些分析。 从头开始的话&#xff0c;第一页就是摘要&#xff0c;接下来一页多是引言&#xff0c;接下来的两页就…

PMBOK® 第六版 项目经理的角色

项目经理普遍是一个责任大但权力有限的角色&#xff0c;是一个综合的中层领导者&#xff0c;负责项目从启动到收尾的全过程。他需要整合项目管理的各个方面&#xff0c;以确保项目目标的实现&#xff0c;并满足相关方的期望和需求。在工作中&#xff0c;项目经理大部分时间都用…

【全开源】海报在线制作系统源码(ThinkPHP+FastAdmin+UniApp)

打造个性化创意海报的利器 引言 在数字化时代&#xff0c;海报作为一种重要的宣传媒介&#xff0c;其设计质量和效率直接影响着宣传效果。为了满足广大用户对于个性化、高效制作海报的需求&#xff0c;海报在线制作系统源码应运而生。本文将详细介绍海报在线制作系统源码的特…

MVCC 原理分析、MySQL是如何解决幻读的

文章目录 一、前言回顾1.1 事务四大特性ACID1.2 并发事务问题1.3 事务隔离级别 二、MVCC2.1 为什么使用MVCC2.2 基本概念——当前读、快照读、MVCC2.2.1 当前读2.2.2 快照读2.2.3 MVCC 2.3 隐藏字段—— TRX_ID、ROLL_PTR2.4 undo log2.4.1 介绍2.4.2 版本链 2.5 Read View读视…

tensorflow2.0 -- 介绍及环境配置

文章目录 机器学习的框架tensorflow 2.0环境配置 机器学习的框架 scikit-learn, 传统的机器学习框架&#xff0c;不支持深度学习和GPU加速计算&#xff1b; caffe, 深度学习框架&#xff0c;发展到pytorch keras, 深度学习的包裹器 tensorflow&#xff0c;google开源的深度学习…

【Linux部署】【pig前端部署】Linux安装- docker/docker-compose/nginx (使用docker优雅部署nginx)

&#x1f338;&#x1f338; Linux安装- docker/docker-compose/nginx 优雅部署 &#x1f338;&#x1f338; 一、一键安装jdk yum install -y java-1.8.0-openjdk.x86_64验证 二、安装docker yum list docker-ce --showduplicates | sort -rsudo yum install -y yum-utils …

RocketMq局部顺序消息

package com.ldj.rocketmq.producer;import org.apache.rocketmq.client.producer.DefaultMQProducer; import org.apache.rocketmq.common.message.Message;import java.nio.charset.StandardCharsets;/*** User: ldj* Date: 2024/5/26* Time: 15:09* Description: 局部顺序消…