大模型-模型架构-主流架构

news2024/9/20 13:39:37

一、发展历史

1、早期
  • 训练方式:预训练+微调
  • 主流架构:
    • 编码器架构:BERT
    • 解码器架构:GPT
    • 编码器+解码器架构:T5
2、当前
  • 训练方式:解码器为主流
  • 变种架构:
    • 因果解码器架构
    • 前缀解码器架构

二、架构简介

1、编码器-解码器架构
  • 特点
    • 编码器端使用双向自注意力机制对输入信息进行编码处理,在解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式进行生成
    • 当前使用较少
2、因果解码器架构
  • 特点
    • 当前绝大部分大模型均采用此架构
    • 没有显示的区分输入和输出部分
    • 采用单向的掩码注意力机制,每个输入的词元只关注它前面的和它本身的词元,进而自回归的预测输出词元
    • 由于不包含解码器,因果解码器架构删除了关注编码器表示的交叉注意力模块
    • 经过自注意力模块后的词元表示将直接进入到前馈神经网络中
  • 代表大模型
    • GPT、LLaMA
3、前缀解码器架构(又称非因果解码器架构)
  • 特点
    • 对因果解码器的掩码机制进行了调整,跟因果解码器一样,只保留了解码器部分
    • 参考了编码器-解码器架构设计,对输入输出都进行了特殊处理,输入使用双向注意力进行编码,输出使用单向的掩码注意力利用词元本身和前面的词元进行自回归的预测
    • 与编码器-解码器架构相比,前缀解码器在编码与解码的过程中是共享参数的
    • 可以基于因果解码器继续训练转换成前缀解码器
  • 代表大模型
    • GLM-130B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2149052.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringCloud微服务实现服务降级的最佳实践

Spring Cloud是一种用于快速构建分布式系统的框架,它提供了许多有用的功能,其中包括服务降级。 服务降级是一种保护机制,它可以在面临高并发或故障时保持服务的稳定性。当系统资源不足或服务出现故障时,服务降级可以通过关闭一些功…

2.计算机网络基础

2. 计算机网络基础 (1) 计算机网络的定义 计算机网络是指将地理位置不同、具有独立功能的多个计算机系统通过通信线路和设备连接起来,以功能完善的网络软件实现网络中资源共享的系统。最简单的定义是:计算机网络是一些互相连接的、自治的计算机系统的集合。最庞大的计算机网…

MATLAB系列03:分支语句和编程设计

MATLAB系列03:分支语句和编程设计 3. 分支语句和编程设计3.1 自上而下的编程方法简介3.2 伪代码的应用3.3 关系运算符和逻辑运算符3.3.1 关系运算符3.3.2 小心和~运算符3.3.3 逻辑运算符3.3.4 逻辑函数 3.4 选择结构3.4.1 if结构3.4.2 switch结构3.4.3 try/catch结构…

c++的decltype关键字

它可以将变量声明为表达式指定的类型

C语言程序二级 之知识点 程序填空 程序设计 程序修改

一 知识点 宏定义是指用一个宏名(名字)来代表一个字符串。宏定义的功能是在编译预处理时,对程序中所有出现的"宏名"都用宏定义中的字符串去代换,这称为"宏代换"或"宏展开"。无参宏定义的一般格式:#define 标识…

中国光刻机突破28nm?进步巨大但前路漫漫

在近期的报道中,中国国产光刻机进入推广目录的消息引发了广泛关注,其中提到的一款氟化亚光刻机的分辨率达到了65nm,被视作具备28nm制程节点的生产能力。那么,国产光刻机真的已经突破了28nm制程节点了吗?本文将对相关技…

Mysql梳理6——order by排序

目录 6 order by排序 6.1 排序数据 6.2 单列排序 6.3 多行排列 6 order by排序 6.1 排序数据 使用ORDER BY字句排序 ASC(ascend):升序DESC(descend):降序 ORDER BY子句在SELECT语句的结尾 6.2 单列排序 如果没有使用排序操作,默认…

第157天: 安全开发-Python 自动化挖掘项目SRC 目标FOFA 资产Web 爬虫解析库

案例一:Python-WEB 爬虫库&数据解析库 这里开发的内容不做过多描述,贴上自己写的代码 爬取数据 要爬取p标签,利用Beautyfulsoup模块 import requests,time from bs4 import BeautifulSoup#url"https://src.sjtu.edu.cn/rank/firm…

教你建设智慧数字乡村如何选供应商,如何落地项目

说到数字乡村建设,大家都有自己的思路和想法,那么如果现在让你来做这个项目你又如何来实施?都需要什么方式?都要具备什么条件? 下面我来说一下我的个人思路,要做数字乡村我觉得前提是必须满足几个条件&…

可视化工具Gephi安装要求和特点

Gephi是进行社会图谱数据可视化分析的工具,不但能处理大规模数据集并且Gephi是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。 Gephi安装要求 ① gephi是一个可多平台使用的绘图软件,能在Windows,OS,Lin…

平价头戴式蓝牙耳机有哪些?四款公认平价性能超强品牌机型推荐

在追求高品质音乐体验的同时,许多消费者希望找到价格亲民的头戴式蓝牙耳机,市场上不乏性能卓越、价格实惠的产品,它们凭借出色的音质、舒适的佩戴体验和可靠的续航能力赢得了用户的青睐,那么在众多的头戴式蓝牙耳机内,…

英伟达:AI时代的领跑者,引领智能计算的未来@附149页PDF文件下载

在人工智能的浪潮中,英伟达(NVIDIA)以其卓越的GPU技术,成为了这个时代的领跑者。从游戏显卡的霸主到AI计算的领导者,英伟达的转型之路充满了创新与突破。今天,我们将深入探讨2024年英伟达如何通过其战略布局…

Python 中的异步编程:从入门到实践

在现代编程实践中,异步编程已经成为一个不可或缺的技能,尤其是在处理高并发和I/O密集型应用时。Python,作为一种动态、解释型的高级编程语言,提供了强大的异步编程支持,使得开发者能够有效地编写高效、可扩展的应用程序…

虹科技术 | Linux环境再升级:PLIN驱动程序正式发布

Linux驱动程序领域再添新成员,PLIN驱动程序现已正式发布。这一新驱动程序为使用LIN接口的用户提供了一个便捷、高效的解决方案。本文将展示如何安装PLIN驱动程序,以及如何在Linux环境下进行基本的PLIN通信操作,确保您能够快速掌握并应用这一新…

寄存器二分频电路

verilog代码 module div2_clk ( input clk, input rst,output clk_div);reg clk_div_r; assign clk_div clk_div_r;always(posedge clk) beginif(rst)beginclk_div_r < 1b0;endelsebeginclk_di…

射击靶标检测系统源码分享

射击靶标检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

pytorch-AutoEncoders实战之VAE

目录 1. VAE回顾2. KL的计算公式3. 构建网络4. 模型训练 1. VAE回顾 VAE Variational Auto Encoder&#xff0c;变分自编码器。是一种常见的生成模型&#xff0c;属于无监督学习的范畴。它能够学习一个函数/模型&#xff0c;使得输出数据的分布尽可能的逼近原始数据分布&…

CCRC-CDO首席数据官:未成年人首次上网年龄持续降低

近日&#xff0c;中国社会科学院新闻与传播研究所联合社会科学文献出版社发布了《青少年蓝皮书&#xff1a;中国未成年人互联网运用报告(2024)》&#xff0c;该报告对中国未成年人的互联网使用情况进行了全面的研究和专项汇报。 调查数据透露&#xff0c;未成年人接触网络的年…

光耦选型 | 充电领域使用光耦型号推荐——晶体管光耦KL3H7

在充电领域&#xff0c;光耦作为一种常见的光电耦合器件&#xff0c;通常用于电气隔离、信号传输、电池保护和充电控制等方面。 电源气隔离&#xff1a;光耦可用于实现电源气隔离&#xff0c;将输入和输出电路进行隔离&#xff0c;提高系统的安全性和稳定性。 信号传输&#…

0基础也可以转行做产品经理吗?

转行成为产品经理&#xff0c;即使没有相关工作经验或技术背景&#xff0c;仍然是一个可行的目标。产品经理的职责多样&#xff0c;但成功的产品经理通常需要具备一系列的技能和素养&#xff0c;包括项目管理、市场分析、用户体验设计等。在没有相关经验的情况下&#xff0c;通…