【LLM学习之路】9月25日26日27日 第十二、十三、十四天 Transformer Encoder

news2024/9/27 23:58:55

【LLM学习之路】9月25日26日27日 第十二、十三、十四天 Transformer Encoder

Encoder 负责将输入的词语序列转换为词向量序列,Decoder 则基于 Encoder 的隐状态来迭代地生成词语序列作为输出,每次生成一个词语。transformer

王木头

词向量,使用高维向量的码

如何得到高维向量的码?

tokenizer标记器 和 独热编码

标记器是给每一个不同的token分配一个独立的id,相当于把所有token投射在一维的数轴上

​ 信息过于密集,很难体现词之间的关系

独热编码,有多少词就有多少维度,信息过于稀疏,信息都是正交的,很难体现出词与词之间的联系

升维降维的例子

做中英文翻译的时候,把中英文的内容都升维到一个连续的浅空间

Word2Vec

别的模型是为了完成某个任务,比如识别猫和狗。Word2Vec是为了得到嵌入矩阵,目标不是得到模型的结果,而是模型的参数,得到Token投射到嵌入空间的方法。

编码和解码的原理

输入一个token编码成词向量,词向量又可以解码变成token

CBOW

有5个(奇数个)词向量,扣去中间那个词向量,剩下的词向量与同一个嵌入矩阵相乘,变成浅空间的词向量,再把4个向量加在一起变成一个向量,再对这个和向量进行解码,损失函数就会定量去看解码的token和挖掉的token是不是一样的,如果是一样的就不需要修改参数。(类比力的合成和分解)

skip-gram

把CBOW的原理反过来,已知一个token,求出上下文token的分量

Transformer代码

The Feed-Forward Layer

它单独地处理序列中的每一个词向量,常见做法是让第一层的维度是词向量大小的 4 倍,然后以 GELU 作为激活函数。

class FeedForward(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.linear_1 = nn.Linear(config.hidden_size, config.intermediate_size)
        self.linear_2 = nn.Linear(config.intermediate_size, config.hidden_size)
        self.gelu = nn.GELU()
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, x):
        x = self.linear_1(x)
        x = self.gelu(x)
        x = self.linear_2(x)
        x = self.dropout(x)
        return x

在 Transformer 中,前馈子层的基本流程如下:

  1. 输入经过第一层线性变换:将输入从 hidden_size 映射到 intermediate_size,通常 intermediate_sizehidden_size 大得多(例如,BERT 中常用 intermediate_sizehidden_size 的 4 倍)。
  2. 激活函数:一般使用 GELU 或 ReLU 来引入非线性。
  3. 第二层线性变换:将经过激活的输出重新映射回 hidden_size,以保证输入输出维度一致。
  4. Dropout:用于正则化,防止模型过拟合。

总的来说,前馈子层在 Transformer 中的角色

  • 增强特征表示能力。
  • 提供非线性变换来改善模型的表达能力。
  • 通过 Dropout 减少过拟合风险。

Layer Normalization

是一种用于深度学习模型的正则化技术,旨在提高训练的稳定性和加速收敛

超强动画演示,一步一步深入浅出解释Transformer原理!这可能是我看到过最通俗易懂的Transformer教程了吧!

https://www.bilibili.com/video/BV1tSHVeYEdW/?spm_id_from=333.337.search-card.all.click&vd_source=bbed391c708140d6846630627f7576d8

位置编码

词义信息和位置信息合成为一个合成向量,输入到transformer的编码器encoder

词嵌入加入词义信息

位置编码加入位置信息

除了跟踪词义和位置以外,跟踪词与词之间的关系也非常重要

词义信息和位置信息加入编码器

注意力机制query向量和key向量来计算词与词之间的关系

还有词义和位置信息的编码信息得到value向量

注意力分数和每个词的词向量加权平均,就得到新的自注意力向量head向量,包含了词义、位置、词与词之间关系的三重信息的向量

多头注意力机制

512个维度拆成8个,8个不同的角度来观察数据

最终获得了8个头向量,组装成一个新的长向量,

长向量再为给神经网络,再来一次神经变换

最终获得多头注意力向量

残差链接和层归一化是训练神经网络的常规操作

残差链接就是加原始向量,至少数据不会被嚼坏

层归一化

前馈神经网络

先升维 512维升2048维

引入非线性

降维 2048维降至512维度

为了反向传播梯度下降更稳定

掩码多头自注意力机制,将遮盖部分设置为负的很大的数字,softmax就会忽略掉

一个词就会有768个维度

GPT-3有12288维度

ai已经是黑盒,无法解释

前馈神经网络

就是简单的神经网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171555.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

教师工作量|基于springBoot的教师工作量管理系统设计与实现(附项目源码+论文+数据库)

私信或留言即免费送开题报告和任务书(可指定任意题目) 目录 一、摘要 二、相关技术 三、系统设计 四、数据库设计 五、核心代码 六、论文参考 七、源码获取 一、摘要 传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff…

论文笔记(四十七)Diffusion Policy: Visuomotor Policy

Diffusion Policy: Visuomotor Policy 文章概括摘要1. 介绍2. 扩散策略的公式化2.1 去噪扩散概率模型2.2 DDPM 训练2.3 用于视觉运动策略学习的扩散模型 3 关键设计决策3.1 网络架构选项3.2 视觉编码器3.3 噪声计划3.4 加速实时控制的推理 4. 扩散策略的四个引人入胜的特性4.1 …

Meta号称替代程序员的LlamaCoder效果被CodeFlying秒杀,来看实测!

在讲LlamaCoder之前咱先浅聊一下Meta 这两天Meta凭借着Connect 2024大会可谓是风头正盛,刚刚发布的全新开源多模态大模型Llama3.2,热度是一路赶超咱的小草莓啊。 作为一款开源大模型能够和闭源的4o-mini、Claude3 Haiku打的有来有回, 甚至L…

protobuf编码方式

protobuf编码方式 一个简单的例子 message Test1 {optional int32 a 1; }上述的proto文件,设置a 150,那么将其序列化后,得到的数据就是08 96 01,然后你使用protoscope工具去解析这些数据,就得到1 : 150&#xff0c…

labview更换操作系统后打开原VI闪退

labview更换操作系统后打开原VI闪退 问题描述: Windows11由家庭版更换为专业版后,重新安装labview2021,打开原来的项目,项目管理器可以正常打开,但是打开VI却闪退,并报错如下 出现这种原因主要是labview在…

Kubernetes深入详解(一)

目录 第一部分 K8s概念和架构 1、k8s概述和特性 2、K8s架构组件 3、k8s核心概念 第二部分 从零搭建k8s集群 1、搭建k8s环境平台规划 2、服务器硬件配置要求 3、搭建k8s集群部署方式 (1) 基于客户端工具kubeadm 1、安装Docker 2、添加阿里云YUM软件源 3、安 装kubea…

16.第二阶段x86游戏实战2-发包函数和怎么去找改写过的发包函数

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…

Stable Diffusion 优秀博客转载

初版论文地址:https://arxiv.org/pdf/2112.10752 主要流程图: Latent Diffusion Models(LDMs) DDPM是"Denoising Diffusion Probabilistic Models"的缩写, 去噪扩散概率模型 博客: https://ja…

【CSS in Depth 2 精译_041】6.4 CSS 中的堆叠上下文与 z-index(上)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结)第二章 相对单位(已完结)第三章 文档流与盒模型(已完结)第四章 Flexbox 布局(已…

AT89C51 利用SBIT寻址,并且在内存中实现伪动态密码的混淆

前置发现 && 分析 char bdata DB[2]; //char sbit x bdata DB[0]^7; //取内存地址数组[0]地址的的七位 这样我们可以对数组DB中索引0的位置进行修改… 例如,将密码A映射到真实密码C,这样做的好处是你的程序被逆向分析的时候,攻击者无法真正知道密码到底是什么…因为…

C语言-线程

一,线程的概念 1,线程的定义 在 C 语言中,线程是程序执行的最小单位,它是进程中的一个实体,是被系统独立调度和分派的基本单位。 2、线程的特点 轻型实体:线程是一个轻型实体,它只拥有必不可少的资源,如程…

学生党有福了!分享5个免费的AI论文生成工具

学生党在学术写作方面常常面临时间紧迫和写作能力不足的问题。幸运的是,随着人工智能技术的发展,市面上出现了许多免费的AI论文生成工具,极大地提高了写作效率和质量。今天,我将向大家推荐五款免费的AI论文生成工具,并…

再也不用担心内容重复!在线伪原创工具,让创作更自由!

大家好,今天我们将讨论一个对网络写作非常有益的辅助工具——在线内容转换工具。不论您是需要更新您的博客,还是希望在社交平台上保持活跃,我们都频繁面临着迅速生成新内容的挑战。利用一个有效的工具来改写现有内容,可以极大地提…

一次实践:给自己的手机摄像头进行相机标定

文章目录 1. 问题引入2. 准备工作2.1 标定场2.2 相机拍摄 3. 基本原理3.1 成像原理3.2 畸变校正 4. 标定解算4.1 代码实现4.2 详细解析4.2.1 解算实现4.2.2 提取点位 4.3 解算结果 5. 问题补充 1. 问题引入 不得不说,现在的计算机视觉技术已经发展到足够成熟的阶段…

Python画笔案例-067 绘制配乐七角星

1、绘制橙子 通过 python 的turtle 库绘制 配乐七角星,如下图: 2、实现代码 绘制 配乐七角星 ,以下为实现代码: """配乐七角星.py本程序需要coloradd模块支持,安装方法:pip install coloradd""" import turtle from coloradd import color…

制造企业如何提升项目管理效率?惠科股份选择奥博思PowerProject项目管理系统

全球知名的显示方案综合服务商 - 惠科股份有限公司与北京奥博思达成合作,基于奥博思 PowerProject 搭建企业级项目管理平台。满足惠科多产品多业务领域的项目全周期管理。助力企业在技术研发、产品创新等方面继续取得行业领先优势。 同时,PowerProject …

如何进行u盘拷贝文件管控?5个方法一文详情告诉你!

小李:老王,最近我们部门经常提到数据安全的问题,特别是U盘拷贝文件带来的风险。 你有什么好办法可以管控一下吗? 老王:小李啊,你问对人了。 U盘拷贝文件管控确实是个头疼的问题,但我们可以从…

C++入门day5-面向对象编程(终)

C入门day4-面向对象编程(下)-CSDN博客 本节是我们面向对象内容的最终篇章,不是说我们的C就学到这里。如果有一些面向对象的基础知识没有讲到,后面会发布在知识点补充专栏,全都是干货满满的。 https://blog.csdn.net/u…

【中级通信工程师】终端与业务(九):市场细分与选择

【零基础3天通关中级通信工程师】 终端与业务(九):市场细分与选择 本文是中级通信工程师考试《终端与业务》科目第九章《市场细分与选择》的复习资料和真题汇总。本章的核心内容涵盖了市场细分的概念与方法、目标市场选择策略以及市场定位的原则和步骤。通过本节的…

​fl studio21.2.3.4004中文版永久2024最新下载安装图文详细使用教程​

随着数字音乐制作的快速发展,越来越多的音乐制作软件涌现出来,而FL Studio无疑是其中的佼佼者。作为一款功能强大、易于上手的音乐制作软件,FL Studio V21中文版在继承了前代版本优秀基因的基础上,进一步提升了用户体验&#xff0…