GLM：ChatGLM的基座模型

GLM：ChatGLM的基座模型

news2025/4/6 17:49:05

介绍

ChatGLM-6B：https://github.com/THUDM/ChatGLM-6B ，主要是能够让我们基于单卡自己部署。ChatGLM的基座是GLM: General Language Model Pretraining with Autoregressive Blank Infilling论文中提出的模型。

动机

预训练语言吗模型大体可以分为三种：自回归（GPT系列）、自编码（BERT系列）、编码-解码（T5、BART），它们每一个都在各自的领域上表现不俗，但是，目前没有一个预训练模型能够很好地完成所有任务。GLM是一个通用的预训练语言模型，它在NLU（自然语言理解）、conditional（条件文本生成） and unconditional generation（非条件文本生成）上都有着不错的表现。

GLM的核心是：Autoregressive Blank Infilling
在这里插入图片描述
即，将文本中的一段或多段空白进行填充识别。

在这里插入图片描述

在这里插入图片描述

GLM 的多任务训练

NLU 和 NLG 的训练方式是存在差异的，GLM 对于文档和句子采用不同的空白填充方式：

文档：span的长度从原始长度的50%-100%的均匀分布中抽取。该目标旨在生成长文本；
句子：限制masked span必须是完整的句子。多个span(句子)被取样，以覆盖15%的的原始标记。这个目标是针对seq2seq任务，其预测往往是完整的句子或段落。

GLM 模型架构

GLM 主要在 Transformer 的架构上进行修改：

调整layer normalization和residual connection的顺序；
使用单一线性层进行输出token预测；
将ReLU激活函数替换为GeLUs；

在 NLG 中，GLM 如何让模型不知道生成query 长度？

两个位置id通过可学习嵌入表投影到两个向量，这两个向量都被添加到输入标记嵌入中。
该编码方法确保模型在重建时不知道被屏蔽的跨度的长度。
这种设计适合下游任务，因为通常生成的文本的长度是事先未知的。

GLM 微调

在这里插入图片描述

1 对 NLU任务进行微调

对于 NLU任务，在模板后面预测类别。

It’s a beautiful day, I’m in a great mood. it is [MASK]. [S] good
I failed in the exam today. I was very depressed. it is [MASK] [S] bad

2 对 NLG任务进行微调

对于 NLG任务，输入的文本视为A部分，在该部分后面添加[MASK]，使用自回归来生成文本。

GLM 微调方式的优点

微调方式的优点在于能够预训练和微调是保持一致的。

参考

THUDM/ChatGLM-6B
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
NLP 百面百搭
THUDM/GLM

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/479947.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【MySQL约束】数据管理实用指南

【MySQL约束】数据管理实用指南

1、数据库约束的认识数据库约束的概念：数据库的约束是关系型数据库的一个重要的功能，它提供了一种“校验数据”合法性的机制，能够保证数据的“完整性”、“准确性”和“正确性” 数据库的约束： not null：不能存储 nul…

阅读更多...

最强Http缓存策略之强缓存和协商缓存的详解与应用实例

最强Http缓存策略之强缓存和协商缓存的详解与应用实例

HTTP缓存是指浏览器或者代理服务器将已经请求过的资源保存到本地，以便下次请求时能够直接从缓存中获取资源，从而减少网络请求次数，提高网页的加载速度和用户体验。缓存分为强缓存和协商缓存两种模式。一. 强缓存强缓存是指浏览器直接从本…

阅读更多...

javaweb权限管理简单实现_javaweb管理系统项目

javaweb权限管理简单实现_javaweb管理系统项目

最近在做一个网站类型项目，主要负责后台，ui框架选型为jquery easy ui，项目架构为spring mvc spring jdbc，简单易用好上手！搭建好框架后开始了第一个任务，设计并实现一套简单的权限管理功能。一套最基本的…

阅读更多...

深度学习第J8周:Inception v1算法实战与解析

深度学习第J8周:Inception v1算法实战与解析

目录一、Inception v1 1.简介 2. 算法结构二、pytorch代码复现1.前期准备 2.代码复现 3.训练运行 3.2指定图片进行预测三、总结 🍨 本文为[🔗365天深度学习训练营]内部限免文章（版权归 *K同学啊* 所有） 🍖 作…

阅读更多...

ChatGPT登陆方法及常见问题

ChatGPT登陆方法及常见问题

Chatgpt现在推出ChatGPT Plus服务，所以对注册账号限制比较大 Plus账号有什么优势？ 我们可以看到官方介绍： 优势1 Available even when demand is high 当访问量大时，依旧可以访问优势2 Faster response speed 更快的回复速度…

阅读更多...

无云服务器，Linux本地快速搭建web网站，并内网穿透发布上线

无云服务器，Linux本地快速搭建web网站，并内网穿透发布上线

文章目录前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道，指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点转载自cpolar文章：Linux CentOS本地搭建…

阅读更多...

医疗器械的分类与查询

医疗器械的分类与查询

我国根据医疗器械产品安全性对医疗器械进行分类管理。分类目录由国家食品药品监督管理部门依据医疗器械分类规则制定： 第一类是风险程度低，实行常规管理可以保证其安全、有效的医疗器械。如：外科用手术器械（刀、剪、钳、镊、钩&a…

阅读更多...

RabbitMQ 工作队列模式 Work Queue Demo

RabbitMQ 工作队列模式 Work Queue Demo

工作队列模式,一个消息只能有一个消费者消费生产者发送20条消息消费者有两个第一个消费睡一秒取一个第二个睡2秒取 public class WorkConsumerTest1 {public static void main(String[] args) throws IOException, TimeoutException {//1 创建连接工厂ConnectionFactor…

阅读更多...

「华熙生物」发来感谢信，企企通赋能生物科技领域数字化采购建设

「华熙生物」发来感谢信，企企通赋能生物科技领域数字化采购建设

近日，华熙生物科技股份有限公司（以下简称“华熙生物”）携手企企通打造的数字化采购管理平台成功上线。为感谢企企通在采购数字化项目上的付出和努力，华熙生物特意发来暖心感谢信。在感谢信中，华熙生物表示&#xff1a…

阅读更多...

【目标检测实验系列】YOLOv5改进实验：结合VariFocal Loss损失函数，减少小目标漏检问题，高效提升模型检测的召回率（超详细改进代码流程）

【目标检测实验系列】YOLOv5改进实验：结合VariFocal Loss损失函数，减少小目标漏检问题，高效提升模型检测的召回率（超详细改进代码流程）

目录 1. 文章主要内容2. VariFocal Loss损失函数（原理：简单介绍，可自行详细研究）2.1 VariFocal Loss损失函数2.2 博主数据集实验效果 3. 代码详细改进流程(重要)3.1 新建varifocalLoss.py文件3.2 修改hyp.scratch-low.yaml文件3.3…

阅读更多...

【MATLAB图像处理实用案例详解（20）】——利用BP神经网络实现人脸朝向判断

【MATLAB图像处理实用案例详解（20）】——利用BP神经网络实现人脸朝向判断

目录一、问题描述二、算法步骤2.1 读入数据并提取特征2.2 创建神经网络并训练2.3 测试三、结果分析一、问题描述 BP神经网络利用输出后的误差来估计输出层的直接前导层的误差，再用这个误差估计更前一层的误差，如此一层一层的反传下去，就获…

阅读更多...

4_用dockerfile制作镜像

4_用dockerfile制作镜像

Docker 镜像原理思考： Docker 镜像本质是什么？ Docker 中一个centos镜像为什么只有200MB，而一个centos操作系统的iso文件要几个个G？ Docker 中一个tomcat镜像为什么有500MB，而一个tomcat安装包只有70多MB&#xff…

阅读更多...

JavaScript中的Concurrency并发：异步操作下的汉堡制作示例

JavaScript中的Concurrency并发：异步操作下的汉堡制作示例

这篇文章想讲一下JavaScript中同步与异步操作在一个简单的示例中的应用。我们将以制作汉堡为例，展示如何使用同步方法、回调函数（callbacks）和Promise与async/await来实现该过程。 Let’s imagine we’re trying to make a burger: 1. Get …

阅读更多...

基于simulink使用混合波束成形对射频毫米波发射器进行建模

基于simulink使用混合波束成形对射频毫米波发射器进行建模

一、前言本例说明了一种使用66元件混合波束成形天线对32 GHz QPSK射频发射和接收系统进行系统级建模和仿真的方法。该系统包括射频缺陷、发射阵列辐射效应、窄带接收阵列和基带接收器，可校正系统损伤和消息解码。天线波束形成方向使用方位角和仰角定义，…

阅读更多...

C语言CRC-16 USB格式校验函数

C语言CRC-16 USB格式校验函数

C语言CRC-16 USB格式校验函数 CRC-16校验产生2个字节长度的数据校验码，通过计算得到的校验码和获得的校验码比较，用于验证获得的数据的正确性。基本的CRC-16校验算法实现，参考： C语言标准CRC-16校验函数。不同应用规范通过对输…

阅读更多...

计算机图形辐照度学、光度学

计算机图形辐照度学、光度学

文章目录前言：一、什么是辐照度学二、什么是光度学前言： 在计算机图形学中是把辐射(Radiance)等概念和亮度(Luminance)等概念不做区分的。辐射是辐照度学的概念，而亮度则是光度学上的概念。辐照强高度并不意味着亮度就强，就比如…

阅读更多...

VTK 几何体连通区域分析 vtkPolyDataConnectivityFilter

VTK 几何体连通区域分析 vtkPolyDataConnectivityFilter

前言： vtkPolyDataConnectivityFilter 使用过，但网上没有看到完事的教程；这里整理一下； 提取数据集中连通的多边形数据。该类是一个滤波器，提取cell（区域） - 拥有公共点或者满足某个阈值该类…

阅读更多...

Soft-RoCE部署及通信测试

Soft-RoCE部署及通信测试

Soft-RoCE部署及通信测试 Soft-RoCE是一种基于软件的RoCE（RDMA over Converged Ethernet）实现。RoCE是一种在以太网上实现RDMA（Remote Direct Memory Access）的技术，它允许数据在网络中直接传输，而无需CPU…

阅读更多...

【ElasticSearch】几点优化及面试相关

【ElasticSearch】几点优化及面试相关

文章目录硬件选择分片策略合理设置分片数推迟分片分配路由选择写入速度优化(磁盘优化)批量数据提交优化存储设备合理使用合并减少 Refresh 的次数加大 Flush 设置减少副本的数量内存设置ES配置文件解析Elasticsearch 面试题为什么要使用 Elasticsearch?Elasticsearch 的 ma…

阅读更多...

【Java网络编程】基于UDP-Socket 实现客户端、服务器通信

【Java网络编程】基于UDP-Socket 实现客户端、服务器通信

哈喽，大家好~我是你们的老朋友：保护小周ღ 本期为大家带来的是网络编程的 UDP Socket 套接字，基于 UDP协议的 Socket 实现客户端服务器通信，Socket 套接字可以理解为是，传输层给应用层提供的一组 API，…

阅读更多...

推荐文章

最新文章