ChatGLM的模型架构

news2026/2/8 10:27:36

ChatGLM的部署微调等，很多资料，不再赘述。

P-tuning V2

以P-Turing V2为例，介绍ChatGLM的网络结构。P-tuning V2方法训练时冻结模型的全部参数，只激活prefix_encoder的参数。

1、prefix encoder

初始化pre_len，代表prompt的最大长度
1）模型的输入为[0, 1, 2, …, pre_len-1]，复制，维度为[B, pre_L]
2) 经prefix_encoder层，输出维度 [B, pre_L, 2*layer_num*E]。layer_num和下面GLMBlock的数量一致。prefix_encoder是embedding层和MLP的组合。
3) 变换维度，令P=维度为[B, pre_L, 2*E]的张量

2、主模型

1）模型输入：[B, L]
2）经embedding层，输出embed:= [B, L, E]，E为embedding的维度
3）经过多层GLMBlock层，输出维度[B, L, E]
GLMBlock是一个类Transformer的层，做改变的地方在Attention层。

在第i层，embed经若干变换，可以得到Q、K、V三个张量，维度如下 $(Q, V) K : [B, L, h e a d, E / h e a d]$
对每个K和V，添加prefix_encoder层的张量P $V)K=K+P:[B, L+pre\_L, head, E/head]$ 后面就是softmax函数那一套，输出张量hidden维度[B, L, E]
令embed=hidden，开启下一轮

4）最后一层的hidden，经layer_norm层，输出 [B, L, E]，后面做损失。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/623221.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Apple pencil平替哪款好？平价电容笔测评

Apple pencil平替哪款好？平价电容笔测评

现今，使用电容笔的人越来越多，各大品牌厂商对电容笔各种性能的设计也愈发用心。那么，电容笔哪个品牌好用呢？下面，我来给大家推荐几款质量好的Apple pencil平替，需要的小伙伴可以当个参考。一、如何挑选到…

阅读更多...

Vue3+TS+Vite开发组件库并发布到npm

Vue3+TS+Vite开发组件库并发布到npm

Vue2开发插件并发布到npm 使用VitePress静态网站生成器创建组件库文档网站并部署到GitHub 目标：创建 vue-amazing-ui 组件库 ，并发布到npm 该组件库已发布到 npm，直接安装即可使用： pnpm i vue-amazing-ui #or yarn add vue-a…

阅读更多...

（十一）K8S可视化工具Rancher学习、安装

（十一）K8S可视化工具Rancher学习、安装

1.Rancher背景概述在过去几年中，容器技术如 Docker 和容器编排引擎如 Kubernetes 受到了广泛关注和采用，它们为应用程序的部署、可扩展性和管理带来了革命性的变化。然而，随着容器技术的快速发展，容器集群的管理和操作变得越来…

阅读更多...

【笔试强训选择题】Day21.习题（错题）解析

【笔试强训选择题】Day21.习题（错题）解析

作者简介：大家好，我是未央； 博客首页：未央.303 系列专栏：笔试强训选择题每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！ 文章目录前言一、…

阅读更多...

hadoop搭建、mysql、hive部署

hadoop搭建、mysql、hive部署

写在前面： 本篇文章基于linux系统Centos7环境下进行搭建、操作仅作为学习参考借鉴，欢迎大家交流学习！一、 HDFS安装搭建 1.1 关闭虚拟机防火墙在之后的学习、操作中，经常会遇到在宿主机中通过程序去访问虚拟机中的相关软件&am…

阅读更多...

再获肯定！Coremail入选2023网络空间安全大会优秀案例！

再获肯定！Coremail入选2023网络空间安全大会优秀案例！

6月2日-3日，在中国电子学会主办的“2023网络空间安全大会”上，由广东盈世计算机科技有限公司申报的“Coremail邮件安全解决方案”获评2023网络空间安全大会优秀案例，再次获得行业权威认可！ 本次大会由中国电子学会主办&#xff0c…

阅读更多...

hudi系列-append写过程

hudi系列-append写过程

前言 Append模式每次都生成新的parquet文件，不涉及数据修改、去重。cow+insert一直是append模式，mor+insert在0.13.1后也统一走append写流程(HUDI-6045) 在0.13.1之前，mor+insert存在着写parquet和写log两种情况：写parquet：compaction.schedule.enabled = false & …

阅读更多...

Loadrunner和JMeter、Locust三款性能测试工具全面对比

Loadrunner和JMeter、Locust三款性能测试工具全面对比

随着软件技术的发展，软件应用越来越普遍，不仅仅是互联网大厂的应用需要进行性能测试了，就连一些中小型的互联网应用也越来越需要对软件项目进行性能测试了。所以本文就将通过Loadrunner、JMeter和Locust三款性能测试工具从以下几个方面进行介…

阅读更多...

QML学习二：Doxygen为qml工程生成代码文档

QML学习二：Doxygen为qml工程生成代码文档

效果如下：设置后能够支持.js和.qml文档。 QML学习二：Doxygen为工程生成注释文档前言一、安装doxyqml二、Doxygen设置1.文档目录设置2.文档目录设置三、添加注释总结前言好的代码必须配一个好的文档说明，方便以后维护以及学习。前提条件: 1.安装好了Doxygen代码生成工…

阅读更多...

快速搭建，降低成本！了解低代码平台适用的五大场景

快速搭建，降低成本！了解低代码平台适用的五大场景

对于希望简化应用程序开发流程的公司来说，低代码平台已经成为一种有效的解决方案。这些平台使创建和部署应用程序成为可能，而不需要广泛的编码技能或知识，从而使过程更快、更高效、更具成本效益。但是，低代码平台适用于哪些场景呢…

阅读更多...

《操作系统》by李治军 | 实验6 - 信号量的实现和应用

《操作系统》by李治军 | 实验6 - 信号量的实现和应用

目录一、实验目的二、实验内容 （一）用信号量解决生产者—消费者问题 （二）实现信号量，用生产者—消费者程序检验三、实验准备 1、信号量 2、多进程共享文件 3、终端也是临界资源 4、原子操作、睡眠和唤醒 …

阅读更多...

接口测试 —— 接口测试定义

接口测试 —— 接口测试定义

1、接口测试概念 （重点） 接口测试是测试系统组件间接口的一种测试，它界于单元测试与系统测试中间。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过…

阅读更多...

pinia 持久化插件pinia-plugin-persistedstate 安装、使用(图文详解)

pinia 持久化插件pinia-plugin-persistedstate 安装、使用(图文详解)

序： 1、博主vue3、ts 5.x、pinia 2.1.3版本， 2、所以如果试了不行的你看看是不是自己版本和博主的对不上 3、其实就是省略掉localStorage 这一步，会自己写的小伙伴自己写个也是蛮快的 4、放个中文文档》Home | pinia-plugin-persistedstate 5…

阅读更多...

【Verilog】汉明码

【Verilog】汉明码

文章目录汉明码定义校验位个数编码规则一个例子编码解码 C实现功能编写测试结果 Verilog实现.v功能代码testbench波形汉明码定义在传输的信息流中插入验证码，侦测单一比特错误只能发现和修正一位错误，对于两位或两位以上的错误无法发现与修正校验…

阅读更多...

iSCSI共享存储搭建

iSCSI共享存储搭建

1.简介 iSCSI：Internet Small Computer System Interface，Internet小型计算机系统接口，又称为IP-SAN，是一种基于因特网及SCSI-3协议下的存储技术。 2.iSCSI的作用基于客户端和服务端架构的虚拟磁盘技术，服务端提供…

阅读更多...

如何让url在新页面打开路由页面，并脱离vue-admin-template的壳，即不包裹在侧边栏和顶栏中

如何让url在新页面打开路由页面，并脱离vue-admin-template的壳，即不包裹在侧边栏和顶栏中

文章目录一、打开的页面不包裹在侧边栏和顶栏中二、新窗口打开（_blank）三、最终效果一、打开的页面不包裹在侧边栏和顶栏中在使用vue-admin-template新建的页面中，打开的页面都是在框架内的内容区。但假如我需要在左侧点击一个链接&…

阅读更多...

面试题丨android面试问题合集

面试题丨android面试问题合集

1、项目里静态分析和基于xposed动态工具介绍一下，如果不使用xposed，怎么实现动态分析工具？ 静态分析工具是指在不运行程序的情况下，通过对程序文件进行源代码分析，从而对程序的安全性、可靠性、性能等进行分析的工具。…

阅读更多...

HOOPS技术如何助力企业数字化转型？

HOOPS技术如何助力企业数字化转型？

近年来，随着科技的迅速发展，数字技术的应用已经深入到各个行业和领域。云计算、人工智能、物联网、大数据分析等技术的成熟和普及，为企业提供了丰富的数字化工具和解决方案。企业意识到利用这些技术可以提高效率、降低成本、创新业务模式&…

阅读更多...

学习中心上新丨Python教程-Django框架快速入门到实战

学习中心上新丨Python教程-Django框架快速入门到实战

腾讯云千锋教育强强联手，一同研发重磅推出全新课程《千锋图片云存储》Python 教程-Django 框架从入门到实战-基于腾讯云 COS Django框架实战教程发布腾讯云开发者社区“学习中心”直达： 腾讯云开发者社区-腾讯云扫码加入“腾讯云开发者社区学习中心交…

阅读更多...

618小红书推广种草达人，品牌运营4大块是什么

618小红书推广种草达人，品牌运营4大块是什么

当今电商行业的竞争越来越激烈，品牌宣推变得尤为重要。其中，小红书是一个备受关注的电商平台之一。618小红书推广种草达人，品牌运营4大块是什么，今天和大家一起分享下。 618期间的小红书推广落地，应从关键词优化、内容…

阅读更多...

推荐文章

最新文章