大型语言模型(LLM)历史简介

news2025/1/19 12:52:02

大型语言模型(LLM)历史简介

在 DALL-E 2 中生成的图像。

介绍

当我们谈论大型语言模型 (LLM) 时,我们实际上指的是一种能够以类似人类的方式进行交流的高级软件。这些模型具有理解复杂上下文并生成连贯且具有人情味的内容的惊人能力。

如果您曾经与 AI 聊天机器人或虚拟助手聊天,那么您可能实际上在与 LLM 进行交互,甚至可能没有意识到这一点。这些模型的用途远远超出聊天机器人,并且具有广泛的应用范围,例如文本生成、自动翻译、情感分析、文档摘要以及许多其他场景!

LLM 已成为人工智能 (AI) 领域不可或缺的一部分。在本文中,我们将深入探讨 LLM 的世界,探索其历史和 LLM 的演变。

什么是大型语言模型?

大型语言模型 (LLM) 是指大型通用语言处理模型,这些模型首先在涵盖广泛主题的大量数据集上进行预训练,以学习和掌握人类语言的基本结构和语义。此处的“大型”一词既表示训练所需的大量数据,也表示模型包含数十亿甚至数万亿个参数。预训练使模型能够处理常见的语言任务,例如文本分类、问答和文档摘要,从而展示其多功能性。

经过预训练后,这些模型通常会针对特定应用进行微调,例如针对金融或医疗等特定领域的较小、专门的数据集,以提高解决特定问题的准确性和效率。这种先进行预训练,然后进行微调的方法使 LLM 不仅能够解决广泛的一般问题,而且还能够适应特定的应用要求。

大型语言模型的演进

大型语言模型(LLM)历史简介

大型语言模型 (LLM) 时间线。来源:大型语言模型和生成式 AI 简史 | NLP 从 Eliza 到 ChatGPT 的演变

上图概述了 LLM 的时间表。我们将在以下部分详细讨论每个重要阶段。

早期:聊天机器人和基于规则的系统(20 世纪 60 年代)

1966 年,世界见证了 ELIZA 的诞生,它被认为是人类有史以来制造的第一个聊天机器人。ELIZA 由麻省理工学院的 Joseph Weizenbaum 创建,是当时的一项开创性实验,实现了人机交互。虽然它无法像人类或如今的 ChatGPT 那样理解对话背景,但它可以通过使用模式匹配和替换方法将用户语句改写为问题来创建对话的幻觉。当时,聊天机器人有很多变体,其中最著名的一种叫做 DOCTOR,它的回答方式就像罗杰斯心理治疗师一样。在这种情况下,治疗师通过将问题转回到患者身上来“反思”问题。虽然 ELIZA 起步不大,但这无疑为未来几年聊天机器人和自然语言处理领域的进一步研究铺平了道路。要试用 ELIZA,请使用以下链接:ELIZA。

循环神经网络的兴起(20 世纪 80 年代)

进入 20 世纪后期,我们看到了神经网络的出现,它深受人类大脑及其相互连接的神经元的启发。其中,循环神经网络 (RNN) 于 1986 年首次出现,并立即受到全世界的欢迎。与信息流单向的传统前馈神经网络不同,RNN 可以在其内部状态或记忆中记住先前的输入,并根据上下文回答问题。它们经过训练可以处理并将顺序数据输入转换为特定的顺序数据输出,并具有反馈回路,使其适合自然语言处理 (NLP) 任务。虽然 RNN 向前迈出了重要的一步,但它们也有局限性,尤其是在处理长句时。简而言之,它们不擅长保留记忆,并且会遭受长期记忆丧失。从技术角度来看,RNN 存在梯度消失的问题。有关 RNN 的一般描述,您可以访问以下链接:RNN。

长期短期记忆的兴起(20 世纪 90 年代)

长短期记忆 (LSTM) 于 1997 年问世。LSTM 是一种特殊的 RNN。它们的主要优势在于能够记住长序列中的信息。因此,它克服了 RNN 的短期记忆限制。LSTM 具有独特的架构:它们具有输入门、遗忘门和输出门。这些门决定了每一步应该记忆、丢弃或输出多少信息。这种选择性记忆或遗忘的能力帮助 LSTM 在记忆中保留相关信息,使它们能够更有效地从句子中捕获长期依赖关系。例如,与 RNN 相比,它能够解决共指消解问题。

门控循环网络(2010 年代)

2014 年,门控循环单元 (GRU) 问世。它们旨在解决与 LSTM 相同的一些问题,但结构更简单、更精简。与 LSTM 一样,GRU 旨在解决消失梯度问题,允许它们保留句子中的长期依赖关系。GRU 仅使用两个门来简化门控:一个更新门,它决定保留多少先前的信息以及考虑多少新信息;以及一个重置门,它决定忘记多少先前的信息。GRU 中门控的减少使其在计算方面更加高效。

注意力机制的兴起(2014年)

事实证明,RNN 以及基于 RNN 的变体 LSTM 和 GRU 在保留遥远的上下文方面表现不佳。NLP 世界及其问题需要更多的东西,这催生了注意力的概念。注意力机制的引入标志着序列建模的重大范式转变,与以前的架构相比,它提供了一个全新的视角。RNN 将处理具有固定大小上下文向量的句子,这些句子试图将源句子的所有信息(无论其长度如何)塞进单个固定长度的向量中,因此,它们的性能会随着句子长度的增加而下降。相比之下,注意力允许模型动态回顾整个源序列,根据输出的每个步骤中的相关性选择不同的部分。这确保不会丢失或稀释关键信息,尤其是在较长的序列中。

大型语言模型(LLM)历史简介

性能比较。来源:大型语言模型与生成式人工智能简史 | NLP 从 Eliza 到 ChatGPT 的演变

上图说明了随着输入句子的长度增加,RNN 性能与 Attention Model 相比有所下降。

Transformer 架构的发明(2017 年)

Transformer 于 2017 年问世,由 Vaswani 和 Google 团队的同事发表的论文《Attention is all you need》中提出。这种新型架构依靠注意力机制来处理序列。它的核心由编码器和解码器组成,每个编码器和解码器都具有多层堆叠的自注意力和前馈神经网络。一个突出的特点是“多头”注意力,允许它同时关注输入句子的不同部分,捕捉各种上下文细微差别。另一个优势是它能够并行而不是顺序处理序列。这些优势使 Transformer 为 BERT、GPT 等后续模型奠定了基础,推动我们进入 LLM 的新时代。

大型语言模型的出现(2018 年至今)

随着 Transformer 的成功,下一个合乎逻辑的步骤就是扩展。这始于谷歌于 2018 年发布的 BERT 模型。与之前从左到右或从右到左处理文本的模型不同,BERT 被设计为同时考虑两个方向,因此得名:Transformer 的双向编码器表示 (BERT)。BERT 经过大量文本的预训练,是第一个可以针对特定任务进行微调的适当的基础语言模型,为各种基准设定了新的性能标准。随着 Open AI 于 2019 年发布其 GPT-2 模型,谷歌于 2019 年发布其 T5 模型,随后 GPT-3 于 2020 年问世,等等。这些 LLM 可以执行无数任务,标志着人工智能能力的范式转变。

大型语言模型(LLM)历史简介

近年来大型语言模型的时间表

结论

语言模型从简单的基于规则的系统演变为复杂的智能模型,表明人工智能技术取得了重大进步。如今,大型语言模型 (LLM) 不仅仅是增强基于文本的应用程序的工具,它们越来越能够理解人类并与人类交流。

此外,这些语言模型不仅能够处理文本,还能处理图像和声音,被称为多模态 LLM。这些模型能够处理和生成多模态数据,将文本、图像、音频和视频整合在一起,全面理解和分析不同形式的数据。多模态 LLM 有多种应用,包括从数字图像中提取文本、理解复杂符号、破译古代手写体、分析语音文件以进行总结、转录。

通过简化复杂的文本,多模态大型语言模型改变了我们与技术互动的方式,并使其更易于访问和响应人类需求。简而言之,这些大型语言模型正在成为人类的强大伙伴,帮助我们处理多项任务并以多种方式简化我们的生活。

欢迎前往我们的公众号,资讯

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2059624.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搜维尔科技:【研究】Haption Virtuose外科手术触觉视觉学习系统的开发和评估

Haption面临挑战 除此之外,外科医生有时会对骨组织进行非常复杂的手术,其中一个例子是人工耳蜗的手术植入。重要的是要避免神经或血管等危险结构受伤,并尽可能轻柔地进行手术。在外科医生能够安全、无差错地进行此类手术之前,需要…

WKWebView加载项目中网页的资源图片路径异常

问题原因,将含有html的文件通过如下方式引入到工程中: 这种处理方式,当应用程序变以后,引入的文件会被全部放在Resources目录下,而忽略你原本的文件路径信息。因此导致出问题。 解决方案: 采用如下方式引…

输入一个列表,返回手动反转后的新列表

import math def deverseHanshu(*nums):listAlist(nums)for i in range(0,math.ceil(len(listA)/2)): #math.ceil(3.14) #4clistA[-(i1)]listA[-(i1)]listA[i]listA[i]creturn listA print(deverseHanshu(45,3,89,45,56,2,22,10))#方法2 def getReverse(listAttr):resultList[…

第133天:内网安全-横向移动域控提权NetLogonADCSPACKDC永恒之蓝

案例一:横向移动-系统漏洞-CVE-2017-0146 这个漏洞就是大家熟悉的ms17-010,这里主要学习cs发送到msf,并且msf正向连接后续 原因是cs只能支持漏洞检测,而msf上有很多exp可以利用 注意msf不能使用4.5版本的有bug 这里还是反弹权…

国自然放榜在即!用这种方法或可抢先查询...

【SciencePub学术】本期热点 国自然 昨日国自然网站提示:系统将于8月20日12:00-12:30进行维护,请您避开该时间段使用,由此给您造成的不便,敬请谅解。 根据往年的经验,这预示着基金评审结果即将公布,应该就…

Apache Dolphinscheduler Standalone 部署教程

Standalone 仅适用于 DolphinScheduler 的快速体验. 如果你是新手,想要体验 DolphinScheduler 的功能,推荐使用Standalone方式体检。 如果你想体验更完整的功能,或者更大的任务量,推荐使用伪集群部署。如果你是在生产中使用&…

安卓开发:基础返回按钮代码

我们在大部分页面都会配一个返回按钮。虽然实现起来非常简单&#xff0c;但是很多开发者不想动这个脑筋。这边给出通用的基础代码&#xff0c;可以直接复制粘贴使用。 <androidx.appcompat.widget.Toolbarandroid:id"id/<>"android:layout_height"wra…

Java中“final、finally、finalize”三者的区别

Java中的"final"、"finally"和"finalize"是三个不同的关键字&#xff0c;它们各自有不同的用途和含义&#xff1a; 1. final - 用于声明一个变量、方法或类是不可变的。 - 被声明为final的变量一旦被初始化后&#xff0c;其值不能被改变。 …

5、并发锁机制之synchronized

并发锁机制之synchronized i/i--引起的线程安全问题分析原因分析i的JVM字节码指令i--的JVM 字节码指令结论 解决方案 synchronized的使用加锁方式使用synchronized解决之前的共享问题方式一方式二 synchronized底层实现原理分析查看synchronized的字节码指令序列重量级锁实现之…

国富基金入股的关联性与奇瑞依赖症,大昌科技业务独立性引关注

《港湾商业观察》廖紫雯 日前&#xff0c;安徽大昌科技有限公司&#xff08;以下简称&#xff1a;大昌科技&#xff09;更新招股书并完成三轮问询&#xff0c;公司冲刺深交所创业板得到进一步进展。此前&#xff0c;2023年6月&#xff0c;大昌科技IPO获深交所受理&#xff0c;…

Qt使用开发板上的按键-思维导图-学习笔记-基于正点原子阿尔法开发板

Qt使用开发板上的按键 出厂内核设备树中注册的按键 I.MX6U设备树路径为arch/arm/boot/dts/imx6ull-14x14-evk.dts 如何看这个按键的键值对应键盘中的按键 键值宏定义是在<linux/input.h>头文件中 资源简介 ALPHA 开发板的 KEY0 按键原理图 应用实例 按键注册 正点…

浅谈【网络编程】之Unix与多路复用

目录 1、Unix域协议 2、多路复用 select poll / epol 谢谢帅气美丽且优秀的你看完我的文章还要点赞、收藏加关注 没错&#xff0c;说的就是你&#xff0c;不用再怀疑&#xff01;&#xff01;&#xff01; 希望我的文章内容能对你有帮助&#xff0c;一起努力吧&#xff01;…

Spring理论知识(Ⅰ)——Spring分层结构,Spring模块数据访问与继承

1. Spring是什么&#xff1f; Spring是于2003 年兴起的一个轻量级的Java开发框架&#xff0c;由Rod Johnson在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层…

C和C++实现互调的方法

先解释一下C和C为什么不能直接互相调用&#xff1a; C支持函数重载&#xff0c;所以在编译的时候&#xff0c;函数名会发生变化。C语言不存在这个问题。那么在调用的时候&#xff0c;C找的是变化后的函数名&#xff0c;而C语言找的是原始的函数名。所以两者不能直接调用。 举个…

浅析KHD-厨帽检测算法从源码到实际应用的方案

厨帽检测算法&#xff0c;作为计算机视觉技术在食品安全领域的一项重要应用&#xff0c;其实际应用过程涉及多个方面。 厨帽检测算法主要基于深度学习技术&#xff0c;特别是卷积神经网络&#xff08;CNN&#xff09;和目标检测框架&#xff08;如YOLO、Faster RCNN等&#xff…

部署webdav工具alist

1、下载部署包&#xff08;根据自己的环境下载对应包&#xff09; #进到指定目录下 cd /usr/local #下载部署包 wget https://github.com/alist-org/alist/releases/download/v3.35.0/alist-linux-arm64.tar.gz #加压包 tar zxf alist-linux-arm64.tar.gz2、进行部署安装 # 授…

海莲花活跃木马KSRAT加密通信分析

1.概述 自2023年8月至今&#xff0c;海莲花组织多次利用KSRAT远控木马对我国发起攻击。KSRAT通过HTTP协议与C&C服务器进行通信&#xff0c;每个样本都使用了不同的URL。其心跳包采用XOR算法进行加密&#xff0c;而控制指令包和数据回传包则使用了XOR以及“XORAES-128-CBC”…

Gaussian Splatting 在 Ubuntu22.04 下部署

代码:graphdeco-inria/gaussian-splatting (github) 论文:[2308.04079] 3D Gaussian Splatting for Real-Time Radiance Field Rendering (arxiv.org) 1. 禁用自带驱动 Nouveau Ubuntu 自带的显卡驱动,是非 Nvida 官方版。在后面装 CUDA 的时候,会报驱动不兼容问题。 1.…

浅析海思 3520DNVR源代码和网络硬盘录像机NVR全套源码方案

通过海思3520D实现NVR&#xff08;网络视频录像机&#xff09;芯片方案及硬盘录像机的算法功能&#xff0c;主要依赖于海思3520D芯片的强大性能和丰富的功能特性。 基于海思3520D芯片的NVR芯片方案&#xff0c;主要实现了以下功能&#xff1a; 视频接入与存储&#xff1a; 支…

Ultrascale/+的SYSMON获取温度值

XADC与SYSMON SYSMON结构框图 参考电压 有两种形式提供参考电压&#xff1a;外部供电和内部供电。 源语结构 温度计算 SYSMONE1 使用内部参考电压的话&#xff0c;计算公式如下&#xff1a; 通过ADC Code来计算温度的公式&#xff1a; 通过温度来计算ADC Code的公式&#x…