大语言模型-GLM-General Language Model Pretraining

news2024/11/14 3:48:17

一、背景信息:

GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。
GLM是一种基于自回归空白填充的通用预训练语言模型。
GLM 通过添加二维位置编码允许任意顺序预测空白区域,改进了空白填充预训练,在NLU任务上超越了 BERT 和 T5。
GLM的网络架构使用的是多层Transformer Decoder改的结构。

二、整体结构:

  • Pre-Norm,前归一化:将Layer Normalization步骤放置在各模块之前进行。
  • DeepNorm, 归一化函数的调整:GLM的Layer Normalization使用了DeepNorm方式。
  • RoPE, 位置编码的调整: GLM不再位置向量合成输入向量,而是在每次Attention时进行RoPE的位置向量编码。
  • GLU, FFN层激活函数调整:FFN使用具有GeLU激活的GLU作为激活函数。

三、GLM训练

GLM是一种基于自回归空白填充的通用预训练语言模型。

(1)自回归空白填充

自回归空白填充目标

在这里插入图片描述

  1. 给定输入 X = [x1, x2, x3, x3, x5, x6]
  2. 将选择掩码的片段 [x3], [x5, x6] 进行MASK,得到 Part A,表示损坏后的文本( 见图中的(a) )
  3. 将选择掩码的片段抽取出,并且随机排序 / shuffle,得到 Part B,表示被掩盖、需要填充的文本( 见图中的(b) )
  4. 将 PartA 与 PartB 拼接成一个sequence,Part A部分采用双向注意力,PartB部分采样自回归预测。( 见图中的© )

从λ = 3的泊松分布中随机抽取MASK的片段长度。反复采样新的跨度片段长度,直到至少15%的原始令牌被屏蔽。根据经验,我们发现15%的比例对于下游NLU任务的良好表现至关重要

attention mask的设计
  • Part A作为初始输入,其tokens之间应该互相可见,但是不能见到被MASK的(下文即Part B中的tokens)
  • PartB中的tokens肯定是要能看见Part A的tokens的(文本生成需要能看到上文)
  • PartB中应该能见到历史生成的token,但不可见尚未生成的token。
  • 这里其实是组合了双向的attention(Part A)和causal attention(Part B)。

(2)多任务预训练

对词汇级别的短文本区域进行Mask,适合于 NLU 任务; 要达到NLU任务目标的同时具备一定的长文本生成能力,设定了下面两个任务训练目标,来同时优化文本任务与空白填充任务。

• 文档级别。随机抽样一个片段,其长度从原始长度的50%到100%的均匀分布中抽样。该目标旨在进行长文本生成。

• 句子级别。限制掩蔽片段必须是完整的句子。随机抽样多个片段(句子)以覆盖15%的词汇。此目标旨在进行seq2seq任务,其预测通常为完整的句子或段落。

这两个新目标与原始目标相同。唯一的区别在于遮掩片段的数量和长度。

Reference

1、GLM: General Language Model Pretraining with Autoregressive Blank Infilling

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

游泳耳机品牌前十名大盘点:最值的10大精品游泳耳机实测分析

随着健康生活方式的普及,游泳已成为许多人首选的运动方式之一。在碧波荡漾的泳池中,或是在波涛汹涌的大海里,游泳不仅能够锻炼身体,还能让人心情愉悦。当运动与音乐相遇,一款优质的游泳耳机便成为了不可或缺的装备。它…

Maven的相关配置和语法解释

Maven的配置: Maven的配置和Java差不多,从镜像站下载相关的Maven版本压缩包,然后解压到自己的D盘,在进行系统变量的配置,新建变量Maven_HOME,然后值设置为Maven的地址,一定是点开文件后就能出现…

运动耳机哪个品牌好用?揭秘最值得购买的五大品牌!

开放式耳机设计不堵耳道,让用户听歌或打电话时还能听到周围的声音,这对喜欢户外运动的人很好。这种耳机戴着稳,舒服,也更安全。根据我自己的试戴体验,我挑出了几款不错的开放式耳机。接下来,让我们一起探讨…

RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术

RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术 在大模型爆发的时代,快速准确地从大量数据中检索出有价值的信息变得至关重要。检索增强生成(RAG)技术,结合了传统的信息检索和最新的大语…

更改了ip地址怎么改回来

在日常的网络使用中,‌我们有时会因为特定的需求更改设备的IP地址,‌比如解决IP冲突、‌访问特定网络资源或进行网络测试等。‌然而,‌更改IP地址后,‌我们可能又因为某些原因需要将IP地址改回原来的设置。‌本文将详细介绍如何改…

挑选适合的项目协同软件?看看这10款

文章主要介绍了以下10款项目协同进度软件:1.PingCode;2.Worktile;3.万户OA;4.小步外勤;5.智办事;6.万里牛;7.轻流;8.Toggl Track;9.Trello;10.Todoist。 在如…

程序员转行方向推荐

对于程序员转行方向的推荐,可以基于当前的技术趋势、市场需求以及程序员的个人技能和兴趣来综合考虑。以下是一些推荐的转行方向: 伴随着社会的发展,网络安全被列为国家安全战略的一部分,因此越来越多的行业开始迫切需要网安人员…

盘点国内热门的低代码/零代码平台,看看你用的哪一款?

什么是“低/零代码平台” “低/零代码平台”是一种应用开发工具,它们允许非开发人员,甚至完全没有编程背景的用户,通过可视化界面和预构建的模块,不需要或少量编写代码,通过拖拽组件、配置参数等方式快速搭建应用程序…

云服务器搭建网站安全性是至关重要

在特网科技云主机上搭建网站时,确保安全性是至关重要的,可以帮助你增强云主机的安全性,防止网站受到攻击和数据泄露。 1. 更新和维护系统 定期更新: 确保操作系统和所有已安装的软件(如Web服务器、数据库等)都保持最新…

Linux系统性能大提升:从网络到内存,全面调优技巧讲解!打造超高效服务器环境!

Linux 系统性能调优是一个复杂但至关重要的课题,对于确保系统稳定、高效运行至关重要。以下是一些关键的 Linux 系统性能调优技巧。 一、了解系统性能基准 在开始调优之前,首先需要建立系统的性能基准。这意味着了解系统在正常和高负载下的表现。可以使…

中资优配:金融审计进入“主审+参审”新模式

被“四大”会计师业务所独占多年的国有大行审计业务,正逐渐迎来国内本乡业务所的参与。近来,我国银行、邮储银行等多家国有大行确定了2024年的审计安排,虽主审安排仍为“四大”,但立信、天健等本乡会计师业务所初度有了部分参与的…

人工智能在病理组学中的优质开源项目推荐|文献速递·24-08-28

小罗碎碎念 今天这期推文是6月份前半个月的文献总结,从90篇文章中挑了12个与病理AI相关的开源项目。 这一期推文先介绍6个项目,明天再介绍剩下的6个,信息量比较大,建议反复阅读。 一个项目的完成,无非就三个要素——人…

果粉注意:这些苹果产品即将绝版,新品功能全面升级

随着科技的快速发展,苹果公司也在不断地推陈出新,为消费者带来更加先进的产品体验。然而,这也意味着一些旧款产品即将退出市场。对于忠实的果粉来说,这可能是一个令人既兴奋又感伤的时刻。根据最新消息,以下五款苹果产…

年度精选热门骨传导耳机分享,让你分分钟避免踩雷的风险

作为一个数码测评博主,我以前接触过很多种不同型号的骨传导耳机产品,骨传导耳机在传输声音时不直接经过内耳膜和外耳道,而是通过振动骨骼来传导声音,说明我们的耳朵是开放式的状态,时刻耳道保持清爽,可以避…

闲置物品|基于SprinBoot+vue的校园闲置物品交易平台(源码+数据库+文档)

校园闲置物品交易平台 目录 基于SprinBootvue的校园闲置物品交易平台 一、前言 二、系统设计 三、系统功能设计 5.1系统功能实现 5.2管理员模块实现 5.3用户模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xf…

适合学生价格的耐用耳机选哪个品牌?四大高分蓝牙耳机品牌盘点

对于学生群体而言,在选择蓝牙耳机时,价格因素通常是首要考虑的要点,但除此之外,耐用性也同样重要,毕竟学生使用的电子产品常常伴随着他们度过漫长的学习时光,那么适合学生价格的耐用耳机选哪个品牌&#xf…

如果你想转行程序员,千万不要犹豫不决

到底要不要转行程序员?这是个问题。 对于大部分萌生想要转行程序员的朋友来说,大概是因为他们认为做程序员有一点好处:钱多。 而挡在他们面前的阻碍,就像驱使他们去获取高收入的动力一样强劲有力。 首先,是技术问题…

企业信息化之路

企业信息化之路 问题 互联互通 统一访问 统一身份管理 数据管理模型 企业数据集成业务架构 业务流程框架 业务流程模型 个性流程支持 跨业务的业务流程组合 EBS总线 ] SOA架构上视图 BI商业智能架构 技术服务架构

spring中的一点理解

一、IOC容器理解 平常在一个方法当中,若要用到外部另一个类里的非静态方法,首先,需要先通过new一个对象,再根据这个对象去调用其方法。若只需要一两个对象还好,一旦涉及的外部对象多了,就要创建一大堆new&…

linux查看系统安装时间命令,找出Linux操作系统(OS)安装日期和时间

你可能想知道你的计算机上何时安装了Linux操作系统,即OS的安装日期和时间,使用tune2fs、dumpe2fs、ls、basesystem、setup、setuptool命令能出来结果。请注意,如果你从模板安装了操作系统,那么它将显示模板生成日期,而不是实际操作系统安装日期。 方法1:如何使用tune2fs…