大模型之语言大模型技术

news2025/1/11 20:04:34

本文作为大模型综述第篇,介绍语言大模型基本技术。

近年来,在 Transformer 架构基础上构建的预训练语言模型为自然语言处理领域带来了一系列突破式进展,成为人工智能主流技术范式。预训练语言模型采用“预训练+微调”方法,主要分为两步: 1)将模型在大规模无标注数据上进行自监督训练得到预训练模型, 2)将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型。由于预训练语言模型参数越大模型表现越好,这激发了语言大模型(Large Language Model, LLM)研究热潮。

目录:

1.Transformer 架构

2.语言大模型架构

3.语言大模型关键技术

1.Transformer 架构

Transformer 架构是目前语言大模型采用的主流架构, 其基于自注意力机制(Self-attention Mechanism)模型。其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。标准的 Transformer 如图所示,是一个编码器-解码器架构,其编码器和解码器均由一个编码层和若干相同的 Transformer 模块层堆叠组成,编码器的 Transformer 模块层包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来。与编码器模块相比,解码器由于需要考虑解码器输出作为背景信息进行生成,其中每个 Transformer 层多了一个交叉注意力层。相比于传统循环神经网络(Recurrent Neural Network, RNN)和长短时记忆神经网络(Long Short-Term Memory Network, LSTM), Transformer 架构的优势在于它的并行计算能力,即不需要按照时间步顺序地进行计算。Transformer 架构包含编码层与 Transformer 模块两个核心组件。

编码层

主要是将输入词序列映射到连续值向量空间进行编码,每个词编码由词嵌入和位置编码构成,由二者加和得到:

1) 词嵌入

在 Transformer 架构中,词嵌入是输入数据的第一步处理过程, 它将词映射到高维空间中的向量, 可以捕获词汇的语义信息,如词义和语法关系。每个词都被转化为一个固定长度的向量,然后被送入模型进行处理。

                                                             Transformer 架构

2)位置编码

由于自注意力机制本身对位置信息不敏感,为了让模型能够理解序列中的顺序信息,引入了位置编码。标准Transformer 架构的位置编码方式是使用正弦和余弦函数的方法。对于每个位置 i,对应的位置编码是一个长度为 d 的向量,其中 d 是模型的嵌入维度。这个向量的第 j 个元素由以下公式计算:如果 j 是偶数,那么编码的第 j 个元素为sin( i/10000 ) j/ d ; 如果 j 是奇数,那么编码的第 j 个元素为 cos( i/10000 ) j/ d 。

         Transformer 自注意力网络

Transformer模块

通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递, 包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来 ,Transformer 模块,由自注意力层、全连接前馈层、残差连接和层归一化操作等基本单元组成:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1969001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

No static resource favicon.ico.问题解决

一,问题 Spring Boot项目调用接口时报错 org.springframework.web.servlet.resource.NoResourceFoundException: No static resource favicon.ico. at org.springframework.web.servlet.resource.ResourceHttpRequestHandler.handleRequest(ResourceHttpReques…

餐饮卫生数字化防线:EasyCVR明厨亮灶/透明厨房/阳光厨房视频监管方案

近期有新闻报道,某互联网大厂办事处发生了一起大规模食物中毒事件,导致近60人住院。餐饮食品卫生安全直接关系到人民群众的身体健康和生命安全,是社会关注的焦点。 传统的监管方式往往依赖于人力巡查和抽检,存在效率低、覆盖面窄…

企业邮箱安全稳定吗?

企业邮箱安全稳定吗?企业邮箱通过GDPR等国际标准保护数据,采用加密技术、反垃圾邮件、身份验证等措施确保安全。服务器全球分布,灾难恢复和备份确保稳定。Zoho邮箱提供多种版本和注册流程,支持邮件协作、备份与恢复等功能。 一、…

成为一名月薪 2 万的 web 安全工程师需要掌握哪些技能?

现在 web 安全工程师比较火,岗位比较稀缺,现在除了一些大公司对学历要求严格,其余公司看中的大部分是能力。 有个亲戚的儿子已经工作 2 年了……当初也是因为其他的行业要求比较高,所以才选择的 web 安全方向。 资料免费分享给你…

“电商兴农 走进柳湖”明天赵堡准时启动,邀您一起来采摘

为了进一步推动农村电子商务普及应用,营造农村电商发展浓厚氛围,培育电商新业态、新模式,宣传推广崆峒农特产品,推动城乡生产与消费有效对接,拓宽农特产品销售渠道,释放农村消费潜能,挖掘乡村文…

凡图公益行|温暖新庞村:“守护童心、预防霸凌”公益活动圆满落幕!

凡图公益行|温暖新庞村:“守护童心、预防霸凌”公益活动圆满落幕! 在当今社会,霸凌这一现象如同阴霾般笼罩在部分孩子的生活之中,成为了一个不容忽视的社会问题。 它不仅给受害者带来深重的身心伤害,还对整个社会的和…

Haption力反馈设备在核工业遥操作机器人中的应用探讨

核工业作为能源领域的重要组成部分,其安全性和工作效率的提升越来越受到人们的关注。在核工业环境中,由于存在高辐射、高风险等特性,传统的人工操作方式并不适用于该领域,因此遥操作机器人技术应运而生。Haption力反馈设备作为虚拟…

springboot报错

springboot报错:g.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException: Input length 1 解决办法: file->settings 搜索encoding 然后选择File encodings 也可以直接找 File encodings 全部都更改整utf-8&#xff…

Midjourney咒语之风景大片极简抽象神秘特效

风景大片 Himalayas, landscape, very detailed, --ar 16:9 --style raw --v 5.1 Serene blue mountains landscape. hills, mist, morning fog, Wide-angle lens, Low ISO, EOS 5D Mark IV, --ar 16:9

Vue2中渲染功能,添加功能,删除功能,统计功能

上述是代码运行结果&#xff0c;完整代码如下 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport"…

防近视台灯有效果吗?家长们要注意台灯怎么选才靠谱

近年来&#xff0c;电子产品的广泛应用进一步加重了学生的用眼负担。平板电脑、智能手机和笔记本电脑成为日常学习不可或缺的一部分&#xff0c;而长时间使用这些设备无疑加剧了视力疲劳。根据权威机构的预测&#xff0c;到2050年&#xff0c;全球近视人数将达到约49.49亿人&am…

Spring Boot 动态数据源

目录 前言 前置环境 pom yml Entity Dao 枚举类 数据源 AOP Controller 启动类 演示 前言 大多数系统中&#xff0c;都需要数据库来持久化数据&#xff0c;在大多数情况下&#xff0c;一个系统只需要配置一个数据源便能够完成所有业务的查询&#xff0c;保存操作。…

Interceptor拦截器开发

因为1登录后的接口都需要token验证代码,会出现重复代码;2当前的接口不防刷,会被恶意攻击 所以在controller层增加请求拦截,如果你的token不合法,就不让你做后续的处理了 拦截器的作用是什么 作用: 1、对controller层代码的访问进行拦截,合法的请求,那此层代码就处理,反…

三好夫人是正规牌子吗?99%不知道的秘密:三好夫人竟成宠夫神器

三好夫人是正规品牌&#xff0c;是2023年在中国国家商标局注册的第30类商标。所属公司为苏州好夫人健康科技有限公司。 当下的社会&#xff0c;健康与爱情成为了现代人追求的两大宝藏。在众多养生品牌中&#xff0c;“三好夫人”如同一股清流&#xff0c;悄然间成为了许多家庭中…

【华为战报】2024年7月 HCIA-HCIP-HCIE考试,通过率100%

了解更多往期考试→点击 【考试战报】 HCIA 华为认证工程师 7月 微思 | HCIA 考试战报 HCIP 华为认证高级工程师 7月 微思 | HCIP 考试战报 HCIE 华为认证专家 7月 微思 | HCIE 考试战报 END 微思网络&#xff0c;始于2002年 专业IT认证培训22年&#xff0c;面向全国招生&a…

智能体互联网IoA架构核心思想解读

零、常用概念 智能体&#xff1a;融合了大模型能力&#xff0c;具有感知记忆、自主规划、调用工具、执行任务能力的AgentInternet of Agents &#xff08;IoA&#xff09;—— “智能体互联网”&#xff1a;Agent 之间互相发现&#xff0c;大规模连接、协作。 一、现状问题 生…

hadoop学习笔记4-mapreduce

5.MapReduce 5.1Linux中安装IDEA IDEA官网&#xff1a;https://www.jetbrains.com.cn/idea/ 点击右上角的下载 选择Linux进行下载压缩包 下载完成后找到压缩包并解压压缩包到当前目录下 tar -zxvf ideaIC-2024.1.4.tar.gz 运行idea ./idea.sh 5.2配置开发环境 1.mapreduce简…

公司运营数据分析大屏,非专业者也能轻松上手

在这个数据洪流的时代&#xff0c;企业的每一步发展都深深刻画在数字的轨迹之中。如何精准捕捉这些瞬息万变的信息&#xff0c;将其转化为推动企业前行的智慧力量&#xff1f;答案&#xff0c;或许就藏在一面高效、直观的公司运营数据分析大屏之中。 想象一下&#xff0c;当晨光…

软件工程-期末考试

目录 1.数据流图例题 2.工程网络 3.详细设计阶段图形工具 程序流程图&#xff0c;盒图 PAD图&#xff08;冒泡排序&#xff09; 判定树、判定表 4.合理地设计测试方案 5.能用jackson图表达问题的数据结构 6.能建立问题的对象模型--->&#xff08;类图&#xff09; …

shell脚本自动化部署

1、自动化部署DNS [rootweb ~]# vim dns.sh [roottomcat ~]# yum -y install bind-utils [roottomcat ~]# echo "nameserver 192.168.8.132" > /etc/resolv.conf [roottomcat ~]# nslookup www.a.com 2、自动化部署rsync [rootweb ~]# vim rsync.sh [rootweb ~]# …