大模型的发展历程

news2025/1/11 6:54:08

1、早期模型的探索与局限性

        1.1早期模型的探索与局限性

       从早期的符号逻辑到现代的深度学习 1 模型,AI 领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和 AI 计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为 AI 领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。1956 年 6 月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段:

        早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(Recurrent Neural Network,“RNN”)卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。

        快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer架构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT和BERT等预训练模型逐渐成为主流。

        全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。

机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。

        1) 监督学习(Supervised Learning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。

        分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗;

        回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。

        2)无监督学习(Unsupervised Learning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。

        聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户型的规律,并自动将相同类型的房屋进行汇总。

        降维:例如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。

        3)强化学习(Reinforcement Learning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。

       在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性: 早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低: 由于模型的简单性,其在计算上相对高效,不需要大量的计算资源: 表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。

大模型早期所面临的主要局限性包括:

        1)存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。

        2)缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。

        3)泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。

        4)存在环境和任务依赖:早期的AI模型通常需要根据特定任务定制和调整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。

        5)模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。

        6)安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。

        以上局限性不仅为 AI 领域的研究者和工程师带来挑战,也为 AI 技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。

2、深度学习的崛起 

       深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。

        神经网络的早期探索。1957 年,FrankRosenblatt 提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19 世纪 80 年代,Rumelhart、Hinton及其团队引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。

        数据与计算能力的融合。21 世纪初,互联网的广泛传播和智能设备的普及,使得数据呈现指数级增长,为深度学习提供丰富的训练数据。同时,硬件技术也在飞速发展,NVIDIA 等厂商投入 GPU 研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。

        关键技术突破与模型创新。1997 年Hochreiter 和 Schmidhuber 提出长短时记忆网络(LongShort-TermMemory,LSTM),解决了循环神经网络的梯度消失 / 梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处理开辟了新天地。1998 年YannLeCun 及其团队提出 LeNet-5,但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet,其在 ImageNet 挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014 年生成式对抗网络 (GenerativeAdversarialNetworks,“GAN”) 被提出。GAN的原理是通过竞争机制来逐步提高生成器的准确性。2016年横空出世击败围棋世界冠军李世石的AlphaGo就是基于 GAN架构训练的模型。2017 年Google 提出Transformer 架构,此后 BERT、GPT 等模型皆以其为基础,在自然语言处理任务中达到新高度。

3、GPT等代表性大模型的影响

        一个原始的 Transformer 架构由编码器 (Encoder) 和解码器 (Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容——编码器——解码器——输出内容。如果给编码器输入一句英语“She is a student”,解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量,并通过多头注意力机制(Multi-Head Attention)和前馈神经网络(Feed-Forward Network)两个子层进行处理”。

第一步:模型对接收到的输入序列文本Token化,Token可以被理解为文本的基本单元,短单词可能是一个Token,长单词可能是多个Token。Token是GPT的收费单元也是源于此。

第二步:将Token转换成一个数字成为 Token ID,因为计算机语言只能存储和运算数字。

第三步:将 Token ID传入嵌入层 (Embedding Layer),转换为词向量 (Word Embedding),词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中,每个数字就表达了这个单词某个维度的含义,一串数字所能表达和蕴含的信息量多于Token ID的一个数字,可以记载这个单词的词义、语法和不同语境、语序中的变化关系。

第四步:对词向量的语序和语境进行位置编码形成位置向量。上文提到语境和语序对理解词义至关重要。之后将词向量合并位置向量,将合并后的结果传给编码器,这样模型既能理解词义也能理解语境和语序。

第五步:接收到上述信息后,编码器中的多头注意力机制将会运作,捕捉其中的关键特征,编码器在处理时不仅会关注这个词与临近的词,还会关注输入序列中所有其他词,将输入的信息根据上下文进行调整输出了降维后的向量

第六步:进入编码器的前馈神经网络处理,前馈神经网络“思考”之前步骤中收集的信息,并增强模型的表达能力尝试进行预测。

第七步:降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制,解码器在处理时仅关注这个词及其之前的词,遮盖输入序列中后面的内容,并结合已经生成的文本,保持未来输出文本的时间顺序及逻辑连贯性

第八步:进入解码器的前馈神经网络处理,解码器中的前馈神经网络与第六步类似,也是增强模型的表达能力。

第九步:解码器的最后处理环节经过 linear 层和 softmax 层,这两个子层将解码器输出内容转换为词汇表的概率分布,概率分布反映下一个 Token 生成概率。通常模型选择概率最高的 Token 作为输出,生成输出序列。因此解码器本质上是在做“单词接龙”的游戏,猜下一个输出单词。

从上图可以看出,经过演变,大模型大致分为三种:

        其一是舍弃 Decoder、仅使用 Encoder 作为编码器的预训练模型,以 Bert 为代表,但 Bert 未突破Scaling Laws,Encoder-Only 分支在 2021 年后逐渐没落。

        其二是同时使用Encoder、Decoder 的预训练模型,代表模型有清华大学的chatGLM。

        其三是舍弃Encoder、仅使用 Decoder 作为编码器的预训练模型,以 GPT 为代表,其通过预测下一个单词,基于给定的文本序列进行训练。GPT 最初主要被视为文本生成工具,而 GPT-3 的推出成为该分支发展的历史性时刻。自 GPT-3 问世后,不断涌现出诸多如ChatGPT、PaLM、GPT-4等优秀的大模型,Decoder-Only分支现发展势头强劲。

        3.1 大模型带来的效率与准确度革命 

       大模型的出现也标志着信息处理和知识推断的准确性革命。大模型代表了可以更深入、更广泛地理解和处理人类语言的能力,使得很多任务的执行准确性得到前所未有的提高。大模型背后的深度学习算法使得系统能够从大量数据中提取规律和关系。与此同时,模型的庞大规模意味着它们能够记忆和处理的细节越来越丰富,这确保了其在诸如文本解析、情感分析和复杂问题回答等任务中的出色表现。传统的机器学习模型通常需要针对特定任务进行训练,而GPT 之类的模型由于其通用性,可以被微调以适应特定的领域或任务,从而在医学、法律、工程等专业领域中展现出惊人的准确性。在机器翻译、图像识别等许多应用场景中,大模型相较过去错误率显著降低,准确性的提高对于如医疗诊断和自动驾驶汽车等关键领域具有特殊重要性。

        3.2 大模型带来的机会与挑战

       大模型当前已经覆盖了许多领域,为我们的日常生活、工作和娱乐带来了深刻的变革。例如,在零售业,大模型能够根据消费者的购买记录和浏览习惯为其生成个性化的购物推荐;在新闻和媒体领域,它可以快速地为记者生成初稿或摘要,加速新闻的传播速度;在娱乐领域,音乐、艺术和电影制作人开始尝试利用 AI 生成原创作品。同时,大模型在医疗、金融和交通领域的应用也都在逐步展开,为我们的健康、财富和出行安全提供了前所未有的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1805860.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring运维之业务层测试数据回滚以及设置测试的随机用例

业务层测试数据回滚 我们之前在写dao层 测试的时候 如果执行到这边的代码 会在数据库 里面留下数据 运行一次留一次数据 开发有开发数据库,运行有运行数据库 我们先连数据库 在pom文件里引入mysql的驱动和mybatis-plus的依赖 在数据层写接口 用mybatis-plus进…

使用Python在Word中创建和提取表格

目录 安装Python Word库 使用Python在Word中创建预定义行和列的表格 使用Python在Word中动态创建表格 使用Python在Word中提取表格数据 Word 文档中的表格是一种强大且灵活的数据组织和展示工具,它能将信息以行和列的形式有序地排列,使文档内容更加清…

SQL Developer迁移第三方数据库单表到Oracle

在SQL Developer中,除可用Migration Wizard迁移第三方数据库到Oracle外,单表的迁移可以用Copy To Oracle ...菜单。右键单击源表即可。 本例的源表为MySQL数据库employees中的表:departments。 Options页面:指定目标库&#xff…

如何将 Windows图片查看器的背景颜色改成浅色(灰白色)?

现在大家基本都在使用Win10系统,我们在双击查看图片时,系统默认使用系统自带的图片(照片)查看器去打开图片。图片查看器的背景色默认是黑色的,如下所示:(因为大家可能会遇到同样的问题&#xff…

pxe自动装机与无人值守

一、pxe与无人值守 pxe:c/s 模式,允许客户端通过网络从远程服务器(服务端)下载引导镜像,加载安装文件,实现自动化安装操作系统。 pxe的优点: 1、规模化 同时装配多台服务器(20多&…

Hive知识体系保姆级教程

一. Hive概览 1.1 hive的简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了h…

【wiki知识库】06.文档管理页面的添加--前端Vue部分

📝个人主页:哈__ 期待您的关注 目录 一、🔥今日目标 二、🐻前端Vue模块的改造 BUG修改 1.wangeditor无法展示问题 2.弹窗无法正常关闭问题 2.1 添加admin-doc.vue 2.1.1 点击admin-ebook中的路由跳转到admin-doc 2.2.2 进入…

【DrissionPage】Linux上如何将https改为http

最近有个老板找我做一个自动化的程序,要求部署到Linux上 这是一个http协议的网站,chrome在默认设置下,会将http的网站识别成不安全的内容,然后自动将http转化成https访问 但是,这个http的网站它的加载项里既有http的…

Java | Leetcode Java题解之第132题分割回文串II

题目&#xff1a; 题解&#xff1a; class Solution {public int minCut(String s) {int n s.length();boolean[][] g new boolean[n][n];for (int i 0; i < n; i) {Arrays.fill(g[i], true);}for (int i n - 1; i > 0; --i) {for (int j i 1; j < n; j) {g[i]…

Centos X系统yum安装mysql数据库

安装之前需要将系统自带的mariadb-libs软件包删除。 检查是否存在mariadb-libs包。 yum list installed|grep mariadb-libs 删除mariadb-libs包 yum -y remove mariadb-libs 声明&#xff1a; 系统&#xff1a;CentOS-7-x86_64-DVD-2009 安装为最小化安装&#xff0c;没…

[线程与网络] Java虚拟机常考面试题(线程与网络完结)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏:&#x1f355; Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 &#x1f9c0;线程与…

MySQL: 表的增删改查(基础)

文章目录 1. 注释2. 新增(Create)3. 查询(Retrieve)3.1 全列查询3.2 指定列查询3.3 查询字段为表达式3.4 别名3.5 去重: distinct3.6 排序: order by3.7条件查询3.8 分页查询 4. 修改 (update)5. 删除(delete)6. 内容重点总结 1. 注释 注释&#xff1a;在SQL中可以使用“–空格…

【React】Redux与React - 环境准备

配套工具 在React中使用redux&#xff0c;官方要求安装俩个其他插件 - Redux Toolkit 和 react-redux 配置基础环境 使用 CRA 快速创建 React 项目 npx create-react-app react-redux安装配套工具 npm i reduxjs/toolkit react-redux启动项目 npm run start

python中while循环实现九九乘法表

i 1while i < 9: # 控制行的循环j 1while j < i: # 控制每行的输出print(f"{j}*{i}{j * i}\t", end"")j 1print()i 1运行截图&#xff1a;

图解 Python 编程(12) | 文件和编码方式

&#x1f31e;欢迎来到Python 的世界 &#x1f308;博客主页&#xff1a;卿云阁 &#x1f48c;欢迎关注&#x1f389;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f31f;本文由卿云阁原创&#xff01; &#x1f4c6;首发时间&#xff1a;&#x1f339;2024年6月9日&am…

《编译原理》期末考试复习手写笔记(二)+真题(第四、五、六章)+课后习题答案

第四章考试题型【自顶向下语法分析】 考点梳理&#xff1a; 1.语法分析程序的设计 2.确定的自顶向下分析思想2.1 FIRST集合 2.2 FOLLOW集合 2. 3 SELECT集合 2. 4 LL(1)文法 3.LL(1)文法的判别 如何消除左公因子? 如何消除左递归? 4.非LL(1)到LL(1)文法的等价变换 5.LL(1)分…

Web后端开发(请求-简单参数)(一)

原始方式&#xff1a; 在原始的web程序中&#xff0c;获取请求参数&#xff0c;需要通过HttpServletRequest 对象手动获取。 RequestMapping("/simpleParam") public String simpleParam(HttpServletRequest request){//获取请求参数String name request.getParame…

物资材料管理系统建设方案(Word)—实际项目方案

二、 项目概述 2.1 项目背景 2.2 现状分析 2.2.1 业务现状 2.2.2 系统现状 三、 总体需求 3.1 系统范围 3.2 系统功能 3.3 用户分析 3.4 假设与依赖关系 四、 功能需求 4.4.11.7 非功能性需求 五、 非功能性需求 5.1 用户界面需求 5.2 软硬件环境需求 5.3 产品质量需求 5.4 接口…

springAOP 使用aop代替SqlsessionUtil业务层操作

在Maven框架pom配置文件中导入spring相关依赖&#xff1a; <dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.33</version></dependency><dependency…

爬虫可以不必自己写,使用ChatGPT编写抓取电影评论数据脚本

经常去新华书店看看有没有什么新书上架&#xff0c;还是更新挺及时的&#xff0c;可以反映新的技术趋势。这不&#xff0c;最近就看到了这本《巧用 ChatGPT 快速搞定数据分析》&#xff0c;作者是个大牛&#xff0c;第一次看到prompt可以这么写&#xff0c;得写这么长&#xff…