文言一心,ChatGLM-6B和ChatGPT等模型概述

news2024/12/23 13:24:07

原文首发于博客文章大语言模型概况

定义

(个人理解的)大语言模型(Large Language Model)是一种基于深度学习技术的自然语言处理通用模型,它可以通过学习大规模文本数据的模式和规律,从而实现对自然语言的理解和生成。通用型:在广泛的任务中表现出色,而不是针对一项特定任务,规模大:参数数量在数十亿或更多数量级的深度学习模型。

大模型在 NLP 任务中的出色表现确实为人工智能领域带来了新的发展和探索方向。语言作为思想的符号,是人类交流和表达的主要方式,因此理解和生成自然语言是通往通用人工智能(AGI)之路的一个重要方向。大模型的出现和不断优化,使得计算机能够更好地理解自然语言的含义和上下文,进而提供更准确、更自然的语言交互和信息处理。然而,要实现真正的通用人工智能,还需要解决许多挑战和问题,例如:如何将机器学习模型从“短期记忆”转变为“长期记忆”,如何让机器具备更深入的理解和推理能力,以及如何解决数据隐私和安全等问题。

关键概念说明

  • Transformer 架构:Transformer 是 Google 于 2017 年提出的一种全新的神经网络架构,主要用于自然语言处理。它抛弃了 RNN 和 CNN,而是引入了注意力机制,实现 Encoder-Decoder 架构。Transformer 结构清晰,计算效率高,并可以进行并行计算,这使其在 NLP 任务上表现优异。

  • 编码器模型:Encoder 用于理解输入的句子表达,输出向量表示输入句子的特征信息,例如输入“I love NLP”,输出[0.1, 0.2, 0.3, 0.4]

  • 解码器模型:Decoder 则基于 Encoder 的输出以及自身的上下文信息生成输出句子。例如输入[0.1, 0.2, 0.3, 0.4],输出”I love machine learning“。编码器和解码器通过注意力机制交互。

  • 注意力机制:下面的例子演示了编码器和解码器通过注意力机制的交互过程,在这个过程中,编码器输出一次编码向量,代表输入句子信息。解码器每生成一个词,就会查询一次编码器的输出。并生成注意力分布,指出当前最重要的编码器输出内容。解码器结合注意力信息和自己的上下文,产生新的预测词。解码器每预测一个词,就将其加入到上下文,用于生成下个词。这个动态查询-生成的过程,就是编码器和解码器通过注意力机制进行交互。

    输入句子:I love NLP。
    
    编码器:
    输入:I love NLP。
    输出:向量[0.1, 0.2, 0.3, 0.4] 表示输入句子的特征信息。
    
    解码器:
    输入:[0.1, 0.2, 0.3, 0.4]  
    输出:I 
    (此时解码器只生成了第一个词 I,将其作为上下文信息。)
    
    注意力:解码器的注意力机制会查询编码器的输出[0.1, 0.2, 0.3, 0.4],并生成注意力分布[0.6, 0.2, 0.1, 0.1],表示解码器当前更关注编码器第1个输出元素。
    
    解码器:
    输入:[0.1, 0.2, 0.3, 0.4],[0.6, 0.2, 0.1, 0.1]  
    上下文:I
    输出:love  
    (解码器利用注意力分布所强调的编码器输出信息,以及自己的上下文I,生成love为当前最佳输出。)
    .....
    解码器最终生成:I love machine learning。
    
  • 自回归模型:Transformer 的 Decoder 需要每步生成一个词元,并将当前生成的词元信息加入到上下文中,用于生成下一个词元,例如模型输入“I love”,输出“I love NLP”,然后基于“I love NLP”生成“I love natural language processing”,每一步都基于前面生成的内容生成新的输出,这一生成策略被称为自回归(Auto-regressive)。典型的 autoregressive 模型有 GPT-2、GPT-3 等。

  • 掩码模型:掩码语言模型(MLM)需要对输入文本中的一些词元进行掩码,然后训练模型基于上下文来预测被掩码的词元,例如输入句子“I love [MASK] learning”,输出“I love machine learning”,模型需要填充[MASK]来预测掩码词,实现对上下文的理解。BERT 就是一种典型的掩码语言模型。

发展

大语言模型进化树追溯了 LLM 的发展历程,重点统计了相对知名的模型,同一分支上的模型关系更近。不基于 Transformer 的模型用灰色表示,decoder-only模型是蓝色分支,encoder-only模型是粉色分支,encoder-decoder模型是绿色分支。模型在时间轴的竖直位置表示其发布时间。实心方块表示开源模型,空心方块则是闭源模型。右下角的堆积条形图是指各家公司和机构的模型数量。

大语言模型进化树

encoder-only 模型

掩码语言模型是一种常用的训练方法,它基于上下文来预测句子中被遮掩的词,使得模型能够更深刻地理解词与其上下文之间的关系。这些模型使用 Transformer 架构等技术在大型文本语料上训练,并在许多 NLP 任务中取得了最佳表现,如情感分析和命名实体识别。著名的掩码语言模型有 BERT、RoBERTa 和 T5。由于其在多种任务上的成功表现,掩码语言模型已成为自然语言处理领域的一种重要工具,但这些方法需要基于具体下游任务的数据集进行微调。在 LLM 的早期发展阶段,BERT 为仅编码器模型带来了初始的爆发式增长。(BERT主要用于自然语言理解任务:双向预训练语言模型+fine-tuning(微调))

decoder-only 模型

扩增语言模型的规模就能显著提升其在少样本或零样本时的表现,最成功的模型是自回归语言模型,它的训练方式是根据给定序列中前面的词来生成下一个词。这些模型已被广泛用于文本生成和问答等下游任务。自回归语言模型包括 GPT-3、PaLM 和 BLOOM。变革性的 GPT-3 首次表明通过提示和上下文学习能在少 / 零样本时给出合理结果,并由此展现了自回归语言模型的优越性。另外还有针对具体任务优化的模型,比如用于代码生成的 CodeX 以及用于金融领域的 BloombergGPT。在 2021 年GPT-3 的出现之后,仅解码器模型经历了爆发式的发展,仅编码器模型却渐渐淡出了视野。(GPT主要用于自然语言生成任务:自回归预训练语言模型+Prompting(指示/提示))

适用方向

  • 自然语言理解:当实际数据不在训练数据的分布范围内或训练数据非常少时,可利用 LLM 那出色的泛化能力。
  • 自然语言生成:使用 LLM 的能力为各种应用创造连贯的、上下文相关的和高质量的文本。
  • 知识密集型任务:利用 LLM 中存储的广博知识来处理需要特定专业知识或一般性世界知识的任务。
  • 推理能力:理解和利用 LLM 的推理能力来提升各种情形中制定决策和解决问题的能力。

参考链接

  1. 大型语言模型的实用指南:如果想了解在自己的业务中使用大语言模型,这里是一些最佳实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/670826.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试】你知道数据库能抗多大并发压力吗?

文章目录 前言一、一般业务系统运行流程图二、一台4核8G的机器能扛多少并发量呢?三、高并发来袭时数据库会先被打死吗?四、数据库架构可以从哪些方面优化?4.1、根据业务系统拆分多个数据库机器优化方案4.2、读写分离架构优化方案4.3、分库分表…

华为手表上架(1)HarmonyOS应用 打包 .app

华为手表上架(1)HarmonyOS应用 打包 .app 初环境与设备先找到配置项目结构的地方: Project Structure配置证书打包 .app 在本文中,我们介绍探讨华为手表上架的流程,并重点介绍HarmonyOS应用的打包过程。了解如何将应用…

locust学习教程(5) - 分布式执行

目录 前言 1、基础 2、操作步骤 2.1、启动主节点 2.2、启动从节点 2.2.1、启动自己电脑的从节点 2.2.2、启动同事电脑的从节点 2.3、开始并发 3、无web界面,定时运行,数据存储在csv中、等待4个节点连接后自动开始 4、有web界面,定时运…

5年测试老鸟整理,企业自动化测试经验,不要再走弯路了...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 2023年&#xff0…

vue-antdesign——实现table单元格合并+换行展示+滚动到指定位置+行样式设置——技能提升

最近在写后台管理系统,遇到一个需求,就是要实现表格table组件的合并单元格,并实现编辑等功能。 效果图如下: 下面做一下记录: 1.表格table组件实现单元格合并 之前写过一篇文章关于单元格合并的功能,这…

倒谱和同态去卷积

本文首发于算法社区,转载请注明出处,谢谢。 前言 倒谱的内容比较少,比较相关的就是同态系统去卷积了,所以把这两个放在一起了。 倒谱 我们考虑一个具有 z z z 变换的序列 { x n } \left \{ x_{n} \right \} {xn​} 。我们假设…

Elasticsearch(十一)搜索---搜索匹配功能②--range查询和exists查询

一、前言 继上一节学习了ES的搜索的查询全部和term搜索后,此节将把搜索匹配功能剩余的2个学习完,分别是range搜索和exists搜索 二、range范围搜索 range查询用于范围查询,一般是对数值型和日期型数据的查询。使用range进行范围查询时&…

创建多线程的四种方式

目录儿 一、创建线程的四种方式1. 继承Thread类2. 实现Runnable接口3. 实现Callable接口4. 线程池禁止使用 Executors 构建线程池构建线程池的正确方式 一、创建线程的四种方式 1. 继承Thread类 ① 创建一个类继承Thread类,重写run()方法 ② 调用start()方法启动线…

AI卷入618战场;印象AI开放次数限制;2023 AIGC人才趋势洞察报告;员工瞒着老板悄悄用AI;超好用的AI头像生成教程 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 澳洲游戏媒体 Gamurs 招聘AI编辑,被各路媒体口诛笔伐 上周,澳洲知名游戏媒体集团 Gamurs 在官网招聘「AI Edit…

负载测试和压力测试有何区别?资深测试老鸟总结,一篇搞定...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 负载与压力测试 …

js中数组对象去重的几种方式

js中数组对象去重的几种方式 1、方法一:双层for循环2、对象访问属性的方法3、Map()方法4、reduce方法 首先我们定义数组的形式 let arrObj [{ name: "张三", key: 1 },{ name: "李四", key: 2 },{ name: "王五", key: 3 },{ name: &…

基于langchain+chatGLM搭建部署本地私有化知识库系统

前言 一、 自主GPT 所谓自主(autonomous)GPT是设计一个Agent,让它自己做计划、决策和动作,通过源源不断的迭代,去完成设定的目标。比如 AutoGPT 。 AutoGPT把GPT的能力推向了更高的应用层次。设定一个任务&#xff…

mac下qtcreator代码格式化

代码开发:qtcreator qtcreator 插件:Beautifier 格式化工具:clang-format 1、Beautifier插件安装 将复现框勾选后重启qtcreator即可。 2、安装clang-format工具 (1)打开终端输入下面命令等待安装完成 brew install…

Python基础(19)——Python函数讲解一

Python基础(19)——Python函数讲解一 文章目录 Python基础(19)——Python函数讲解一目标一. 函数的作用二. 函数的使用步骤2.1 定义函数2.2 调用函数2.3 快速体验 三.函数的参数作用四.函数的返回值作用4.1 应用 五.函数的说明文档…

大快人心,华为EDA领域的新突破,关联软件已取得全面适配

EDA被称为“芯片之母”,是集成电路、电子信息,甚至是全球数字经济的赋能者,是许多电子产业链的基石。 一直以来,就被国际的三大巨头占领:美国Synopsys、美国Cadence、德国Mentor Graphics,市场份额高达90%。…

locust学习教程(6)- 使用更快的http客户端:FastHttpUser

目录 1、概念 2、估算电脑允许的最大并发数 3、fasthttpuser的使用 🎁更多干货 完整版文档下载方式: 1、概念 Locust 的默认 HTTP 客户端使用的是 python-requests 库。如果我们需要运行非常高的吞吐量测试,去判断吞吐量是否达到预期值&…

免费文字转语音软件哪个好?推荐这三款文字转语音软件给你

文字转语音软件可以将我们输入的文字内容转化为人声朗读出来,这在很多场合都非常实用。比如,在开车或者做家务时,无法手持手机进行阅读,但是通过文字转语音功能,就可以轻松地听取所需内容。然而,市面上的文…

贴吧私信辅助软件工具开发

贴吧私信辅助软件工具开发,贴吧无线私信,用好贴吧也是一个大流量途径 【引流必备】最新外面卖1000多一套的贴吧私信机,日发私信十万条【详细视频操作教程软件】 服务时间:(8:00—23:00&#xf…

MySQL数据库——事务

MySQL数据库——事务 一、事务的概念二、事务的ACID特点1.原子性2.一致性3.隔离性4.持久性5.事务隔离级别的作用范围 三、事务级别的查看与设置1.查询全局事务隔离级别2.查询会话事务隔离级别3.设置全局事务隔离级别4.设置会话事务隔离级别 四、事务控制语句1.测试提交事务2.测…

ssm 疫情防控数据可视化平台-计算机毕设 附源码87063

ssm 疫情防控数据可视化平台 摘要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对疫情防控数据可…