00 目前大模型介绍

news2024/11/26 10:41:56

1 大模型种类

        目前 主流的开源模型体系 分三种: 第一种: prefix Decoder 系 代表模型: ChatGLM 、ChatGLM2,第二种: causal Decoder 系 LLaMA-7B LLaMa 衍生物、Bloom,第三种:Encoder-Decoder 代表模型: T5 Flan-T5 BART ;
        prefix Decoder 和 causal Decoder Encoder-Decoder 区别是 attention mask 不同;

Encoder-Decoder
  1.  在输入上采用双向注意力,对问题的编码理解更充分
  2. 适用任务:在偏理解的 NLP 任务上效果好
  3. 缺点:在长文本生成任务上效果差,训练效率低;
causal Decoder
  1.   自回归语言模型,预训练和下游应用是完全一致的,严格遵守只有后面的token才能看到前面的 token的规则
  2. 适用任务:文本生成任务效果好;
  3. 优点:训练效率高,zero-shot 能力更强,具有涌现能力;
prefix Decoder:
  1. 特点:prefix部分的token互相能看到causal Decoder Encoder-Decoder 折中;
  2. 缺点:训练效率低

  • Prefix Decoder 系:主要用于需要额外上下文信息引导生成内容的场景,如对话系统。
  • Causal Decoder 系:主要用于生成连续的文本序列,每个生成的词依赖于前面的词。
  • Encoder-Decoder 系:主要用于需要双向上下文信息的任务,如机器翻译、文本摘要等。

可入手下面的模型进行微调: 

        目前,主流的开源大语言模型主要有三个:LLaMA、ChatGLM 和 BLOOM。基于这三个开源模型,业界进行了指令微调或强化学习,衍生出了许多不同的大模型。下面从训练数据、tokenizer 和模型结构上对这三个大语言模型进行比较。

1.1 ChatGLM 

        ChatGLM借助编码器-解码器架构思想,前半部分采用类似于Bert的双向注意力,后半部分采用类似于GPT的自回归架构进行预测;ChatGPT采用的是仅解码器架构。

        ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

        在 ChatGLM 的预训练过程中,使用掩码片段(masked spans)作为预训练任务的一部分,可以帮助模型学习更长距离的上下文依赖关系。具体来说,可以将输入文本分割成多个片段,并从中随机选取若干片段进行掩码,然后将这些掩码片段的位置打乱,形成 Part A 和 Part B 的输入。

ChatGLM的输入:

1   随机采样2个片段,将其mask,作为part A。
2、被mask的2个片段(各自开头加上起始符)的位置随机打散,作为part B。【为何要随机打散呢?我的理解是:因为被mask的片段间实际上attention是单向的,打散可以完整的捕捉到不同片段之间的依赖关系】
3、part A和part B拼接作为输入序列。
4、为了区分part A和part B的token的位置信息,GLM采用了二维位置编码,也就是每个token用两个位置id来表示,这样一来就可以将token embedding和其对应的两个position embedding相加了。

那么,为兼具encoder和decoder的优势,GLM对attention mask做了如下改进:

1、A 部分的字符可以注意到A 部分的所有字符(双向),但是不能注意到 B部分的任何字符。
2、B 部分只能注意到B自身之前的字符(单向);但可以注意到A 部分的所有字符。
3、其他部分就是mask了。

为兼顾下游自然语言理解和自然语言生成任务的性能,GLM设计了三种不同的基于自回归填空的预训练目标。

针对自然语言理解任务:

  1. 从一个均值为3的泊松分布中采样片段的长度0直到原始文本中 15%的字符被掩盖,然后在文本中随机排布填空片段的位置这个目标我们称为 token-level objective。(实际中,GLM发现15%的填空比例对于下游自然语言理解任务的良好表现非常重要)

针对文本生成任务设计了另外两种预训练目标:

  1. document-level obiective: 我们采样了一个长度从原始文本长度的 50% 到100%的均匀分布中采样的片段。这个预训练目标针对的是无条件的长文本生成任务。
  2. sentence-level objective: 我们限制了每个被掩盖的片段必须是完整的句子,采样多个句子直到覆盖了原始文本中15%的字符。这个预训练目标针对的是输出目标常常是句子或者段落的有条件文本生成任务。

1.2 Bloom

       bloom是一种基于变换器网络(Transformer)架构的自回归语言模型。该模型除了176B 之外,还提供了几个较小的模型,其模型参数规模为:560M,1.1B,1.7B,3B 和7.1B。46 种口语和 13 种编程语言,其中包括中文。

ref:https://zhuanlan.zhihu.com/p/630134021

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2128740.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业ESG表现、制造业的数字化转型及其高质量发展(2011-2022年)

在当今全球经济一体化的背景下,企业不仅要追求经济效益的最大化,还要关注环境、社会和治理(ESG)的表现,以及通过数字化转型实现高质量的发展。本文将基于2011-2022年的数据,探讨企业ESG表现与制造业数字化转…

pcs升压变流一体机

在当今全球积极推进能源转型的大背景下,新能源技术的发展日新月异。其中,PCS 升压变流一体机作为一种关键的能源转换设备,正发挥着越来越重要的作用。它一般可分为10KV与35KV等级的。 PCS 升压变流一体机,全称为 Power Conversion…

外卖跑腿APP开发详解:基于同城O2O系统源码的实现路径

近年来,随着O2O(OnlinetoOffline)模式的普及和发展,外卖跑腿服务已经成为了生活中不可或缺的一部分。外卖跑腿APP通过将用户、商家和骑手三方紧密连接,解决了用户日常所需的各种服务需求,为企业提供了新的商…

web基础之RCE

简介:RCE称为远程代码执行漏洞;是互联网的一种安全漏洞;攻击者可以直接向后台服务器远程注入操作系统命令;从而操控后台系统;也是CTF比较常考的一个方面 1、eval执行 (1)分析后端代码&#xf…

价值共创撬动产业增量,用友交出一份共赢的“生态答卷”

前言 在企业服务赛道,什么样的生态是产业更需要,伙伴更欢迎的? 看营收,伙伴数量还是伙伴收益? 用友的答案是:客户价值。 用客户价值这把标尺重新审视,企业服务生态值得重塑一遍。 尽管相比…

排班系统|基于Springboot+vue的医护人员排班系统(源码+数据库+文档)

排班系统|医护人员排班系统 目录 基于Springbootvue的医护人员排班系统 一、前言 二、系统设计 三、系统功能设计 医护类型管理 排班类型管理 科室信息管理 医护信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&…

【文件系统】Linux ext2

目录 1. 认识磁盘1.1 结构组成1.2 抽象磁盘结构1.3 磁盘内的寄存器 2. Linux ext2 文件系统2.1 Data blocks && inode Table2.2 Block Bitmap && inode Bitmap2.3 Group Descriptor Table && Super Block 1. 认识磁盘 虽然我们现在个人计算机基本都使…

安卓手机如何轻松设置代理IP?IPXProxy详细步骤指南!

​对于一些安卓用户来说,使用代理IP不仅能有效提高网络连接的速度,还能访问特定地区的网站或内容。不过,大部分人都会通过电脑或浏览器来配置代理IP,对于手机设置代理IP的步骤不太了解。本文将为大家详细介绍安卓手机设置代理IP的…

html+css+js网页设计 旅游 龙门石窟4个页面

htmlcssjs网页设计 旅游 龙门石窟4个页面 网页作品代码简单,可使用任意HTML辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑等操作)。 获取源码 1&#…

ADL电源维修GX120/200离子源放电电源维修

ADL溅射电源维修;ADL镀膜电源维修;直流溅射电源维修全系列型号。 GX50–GX150特点:GX溅射电源能够自动擦除达每秒80000个弧。很好的性能,加上小尺寸,是GX系列的突出标志。同时设备可以全额定功率运行,不切…

未来五年,掌握IPD的产品团队将引领创新潮流

在激烈的市场竞争中,企业要保持稳健发展,必须建立敏锐的市场感知能力和灵活的应对策略。团队需要培养对市场变化的洞察力,及时识别潜在风险和新兴机遇,以确保能够在行业内部树立典范。面对市场的快速变化,企业需精确把…

MacOS Catalina 从源码构建Qt6.2开发库之01: 编译Qt6.2源代码

安装xcode, cmake, ninja brew install node mac下安装OpenGL库并使之对各项目可见 在macOS上安装OpenGL通常涉及到安装一些依赖库,如MGL、GLUT或者是GLEW等,同时确保LLVM的OpenGL框架和相关工具链的兼容性。以下是一个基本的安装…

细说STM32F407通用定时器的基础知识

目录 一、通用定时器功能概述 二、细说2通道定时器的功能 1.时钟信号和触发控制器 2.时基单元工作原理 (1)计数寄存器(CNT) (2)预分频寄存器(PSC) (3)自动重载寄存器(ARR) (4)时基单元的控制位 3.捕获/比较通道 三、生成PWM波 1.生成PWM波的原理 2.与生成PWM波相关的HA…

B2C营销策略:Wishpond加持的全面指南

在当今竞争激烈的市场中,制定有效的B2C(企业对消费者)营销策略比以往任何时候都更为重要。B2C公司直接向消费者销售产品和服务,因此他们的营销策略必须在个人层面产生共鸣,以鼓励直接和即时的行动。此外,将…

【C++】关键字、命名空间、输入和输出、缺省参数的深入了解

目录 一、C关键字二、命名空间2.1 为什么存在命名空间?2.2 命名空间定义2.3 命名空间使用 三、C输入&输出四、缺省函数4.1 缺省函数分类 总结 一、C关键字 C一共有63个关键字 其中红色圈出来的32个关键字同时也是C语言的 二、命名空间 2.1 为什么存在命名空间…

超简单访问群晖NAS的方法,安装一个SPK套件即可

目录 准备工作 下载与安装神卓NAS公网助手 使用神卓NAS公网助手实现远程访问 我们都知道群晖NAS放在家里,人在外面的话是无法访问的,因为有家庭NAT的限制,但是使用的NAS的场景比较多,在外面又…

PyTorch----模型运维与实战

一、PyTorch是什么 PyTorch 由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程。 二、PyTorch安装 首先确保你已经安装了GPU环境,即Anaconda、CUDA和CUDNN 随后进入Pytorch官网​​​​​​PyTorch 官…

【C++】深度解析C++的四种强制转换类型(小白一看就懂!!)

目录 一、前言 二、C风格的强制类型转换 🥝隐式类型转换 🍉显示类型转换 三、为什么C需要四种类型转换 四、C强制类型转换 🍓 静态转换(static_cast) ✨用法 ✔️语法 🌱例子 &#x1f34…

oracle数据库安装和配置:详细教程

安装和配置Oracle数据库是一个较为复杂的过程,需要按照一定的步骤来操作。以下是基于Oracle Database 19c的安装和配置教程,适用于Windows环境。请根据你的具体环境和版本进行适当的调整。 1. 下载Oracle数据库软件 访问Oracle官方网站下载Oracle Data…

2.C++入门2(函数重载与引用)

⭐本章主要介绍c中的函数重载,重载的原理,和引用(参数引用,返回值引用) ⭐本人c代码的Gitee仓库:c学习 橘子真甜/yzc的c学习 - 码云 - 开源中国 (gitee.com) 一.函数重载 1.1 什么是函数重载 函数重载是函…