【LLM学习之路】9月25日26日27日第十二、十三、十四天 Transformer Encoder

【LLM学习之路】9月25日26日27日第十二、十三、十四天 Transformer Encoder

news2025/7/4 5:16:00

【LLM学习之路】9月25日26日27日第十二、十三、十四天 Transformer Encoder

Encoder 负责将输入的词语序列转换为词向量序列，Decoder 则基于 Encoder 的隐状态来迭代地生成词语序列作为输出，每次生成一个词语。 transformer

王木头

词向量，使用高维向量的码

如何得到高维向量的码？

tokenizer标记器和独热编码

标记器是给每一个不同的token分配一个独立的id，相当于把所有token投射在一维的数轴上

信息过于密集，很难体现词之间的关系

独热编码，有多少词就有多少维度，信息过于稀疏，信息都是正交的，很难体现出词与词之间的联系

升维降维的例子

做中英文翻译的时候，把中英文的内容都升维到一个连续的浅空间

Word2Vec

别的模型是为了完成某个任务，比如识别猫和狗。Word2Vec是为了得到嵌入矩阵，目标不是得到模型的结果，而是模型的参数，得到Token投射到嵌入空间的方法。

编码和解码的原理

输入一个token编码成词向量，词向量又可以解码变成token

CBOW

有5个（奇数个）词向量，扣去中间那个词向量，剩下的词向量与同一个嵌入矩阵相乘，变成浅空间的词向量，再把4个向量加在一起变成一个向量，再对这个和向量进行解码，损失函数就会定量去看解码的token和挖掉的token是不是一样的，如果是一样的就不需要修改参数。（类比力的合成和分解）

skip-gram

把CBOW的原理反过来，已知一个token，求出上下文token的分量

Transformer代码

The Feed-Forward Layer

它单独地处理序列中的每一个词向量,常见做法是让第一层的维度是词向量大小的 4 倍，然后以 GELU 作为激活函数。

class FeedForward(nn.Module):
    def __init__(self, config):
        super().__init__()
        self.linear_1 = nn.Linear(config.hidden_size, config.intermediate_size)
        self.linear_2 = nn.Linear(config.intermediate_size, config.hidden_size)
        self.gelu = nn.GELU()
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, x):
        x = self.linear_1(x)
        x = self.gelu(x)
        x = self.linear_2(x)
        x = self.dropout(x)
        return x

在 Transformer 中，前馈子层的基本流程如下：

输入经过第一层线性变换：将输入从 hidden_size 映射到 intermediate_size，通常 intermediate_size 比 hidden_size 大得多（例如，BERT 中常用 intermediate_size 是 hidden_size 的 4 倍）。
激活函数：一般使用 GELU 或 ReLU 来引入非线性。
第二层线性变换：将经过激活的输出重新映射回 hidden_size，以保证输入输出维度一致。
Dropout：用于正则化，防止模型过拟合。

总的来说，前馈子层在 Transformer 中的角色：

增强特征表示能力。
提供非线性变换来改善模型的表达能力。
通过 Dropout 减少过拟合风险。

Layer Normalization

是一种用于深度学习模型的正则化技术，旨在提高训练的稳定性和加速收敛

超强动画演示，一步一步深入浅出解释Transformer原理！这可能是我看到过最通俗易懂的Transformer教程了吧！

https://www.bilibili.com/video/BV1tSHVeYEdW/?spm_id_from=333.337.search-card.all.click&vd_source=bbed391c708140d6846630627f7576d8

位置编码

词义信息和位置信息合成为一个合成向量，输入到transformer的编码器encoder

词嵌入加入词义信息

位置编码加入位置信息

除了跟踪词义和位置以外，跟踪词与词之间的关系也非常重要

词义信息和位置信息加入编码器

注意力机制query向量和key向量来计算词与词之间的关系

还有词义和位置信息的编码信息得到value向量

注意力分数和每个词的词向量加权平均，就得到新的自注意力向量head向量，包含了词义、位置、词与词之间关系的三重信息的向量

多头注意力机制

512个维度拆成8个，8个不同的角度来观察数据

最终获得了8个头向量，组装成一个新的长向量，

长向量再为给神经网络，再来一次神经变换

最终获得多头注意力向量

残差链接和层归一化是训练神经网络的常规操作

残差链接就是加原始向量，至少数据不会被嚼坏

层归一化

前馈神经网络

先升维 512维升2048维

引入非线性

降维 2048维降至512维度

为了反向传播梯度下降更稳定

掩码多头自注意力机制，将遮盖部分设置为负的很大的数字，softmax就会忽略掉

一个词就会有768个维度

GPT-3有12288维度

ai已经是黑盒，无法解释

前馈神经网络

就是简单的神经网络

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2171555.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

教师工作量|基于springBoot的教师工作量管理系统设计与实现(附项目源码+论文+数据库）

教师工作量|基于springBoot的教师工作量管理系统设计与实现(附项目源码+论文+数据库）

私信或留言即免费送开题报告和任务书（可指定任意题目） 目录一、摘要二、相关技术三、系统设计四、数据库设计五、核心代码六、论文参考七、源码获取一、摘要传统信息的管理大部分依赖于管理人员的手工登记与管理&#xff…

阅读更多...

论文笔记（四十七）Diffusion Policy: Visuomotor Policy

论文笔记（四十七）Diffusion Policy: Visuomotor Policy

Diffusion Policy: Visuomotor Policy 文章概括摘要1. 介绍2. 扩散策略的公式化2.1 去噪扩散概率模型2.2 DDPM 训练2.3 用于视觉运动策略学习的扩散模型 3 关键设计决策3.1 网络架构选项3.2 视觉编码器3.3 噪声计划3.4 加速实时控制的推理 4. 扩散策略的四个引人入胜的特性4.1 …

阅读更多...

Meta号称替代程序员的LlamaCoder效果被CodeFlying秒杀，来看实测！

Meta号称替代程序员的LlamaCoder效果被CodeFlying秒杀，来看实测！

在讲LlamaCoder之前咱先浅聊一下Meta 这两天Meta凭借着Connect 2024大会可谓是风头正盛，刚刚发布的全新开源多模态大模型Llama3.2，热度是一路赶超咱的小草莓啊。作为一款开源大模型能够和闭源的4o-mini、Claude3 Haiku打的有来有回， 甚至L…

阅读更多...

protobuf编码方式

protobuf编码方式

protobuf编码方式一个简单的例子 message Test1 {optional int32 a 1; }上述的proto文件，设置a 150，那么将其序列化后，得到的数据就是08 96 01，然后你使用protoscope工具去解析这些数据，就得到1 : 150&#xff0c…

阅读更多...

labview更换操作系统后打开原VI闪退

labview更换操作系统后打开原VI闪退

labview更换操作系统后打开原VI闪退问题描述： Windows11由家庭版更换为专业版后，重新安装labview2021，打开原来的项目，项目管理器可以正常打开，但是打开VI却闪退，并报错如下出现这种原因主要是labview在…

阅读更多...

Kubernetes深入详解(一)

Kubernetes深入详解(一)

目录第一部分 K8s概念和架构 1、k8s概述和特性 2、K8s架构组件 3、k8s核心概念第二部分从零搭建k8s集群 1、搭建k8s环境平台规划 2、服务器硬件配置要求 3、搭建k8s集群部署方式 (1) 基于客户端工具kubeadm 1、安装Docker 2、添加阿里云YUM软件源 3、安装kubea…

阅读更多...

16.第二阶段x86游戏实战2-发包函数和怎么去找改写过的发包函数

16.第二阶段x86游戏实战2-发包函数和怎么去找改写过的发包函数

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全本人写的内容纯属胡编乱造，全都是合成造假，仅仅只是为了娱乐，请不要…

阅读更多...

Stable Diffusion 优秀博客转载

Stable Diffusion 优秀博客转载

初版论文地址：https://arxiv.org/pdf/2112.10752 主要流程图： Latent Diffusion Models（LDMs） DDPM是"Denoising Diffusion Probabilistic Models"的缩写， 去噪扩散概率模型博客： https://ja…

阅读更多...

【CSS in Depth 2 精译_041】6.4 CSS 中的堆叠上下文与 z-index（上）

【CSS in Depth 2 精译_041】6.4 CSS 中的堆叠上下文与 z-index（上）

当前内容所在位置（可进入专栏查看其他译好的章节内容） 第一章层叠、优先级与继承（已完结）第二章相对单位（已完结）第三章文档流与盒模型（已完结）第四章 Flexbox 布局（已…

阅读更多...

AT89C51 利用SBIT寻址,并且在内存中实现伪动态密码的混淆

AT89C51 利用SBIT寻址,并且在内存中实现伪动态密码的混淆

前置发现 && 分析 char bdata DB[2]; //char sbit x bdata DB[0]^7; //取内存地址数组[0]地址的的七位这样我们可以对数组DB中索引0的位置进行修改… 例如,将密码A映射到真实密码C,这样做的好处是你的程序被逆向分析的时候,攻击者无法真正知道密码到底是什么…因为…

阅读更多...

C语言-线程

C语言-线程

一,线程的概念 1,线程的定义在 C 语言中，线程是程序执行的最小单位，它是进程中的一个实体，是被系统独立调度和分派的基本单位。 2、线程的特点轻型实体：线程是一个轻型实体，它只拥有必不可少的资源，如程…

阅读更多...

学生党有福了！分享5个免费的AI论文生成工具

学生党有福了！分享5个免费的AI论文生成工具

学生党在学术写作方面常常面临时间紧迫和写作能力不足的问题。幸运的是，随着人工智能技术的发展，市面上出现了许多免费的AI论文生成工具，极大地提高了写作效率和质量。今天，我将向大家推荐五款免费的AI论文生成工具，并…

阅读更多...

再也不用担心内容重复！在线伪原创工具，让创作更自由！

再也不用担心内容重复！在线伪原创工具，让创作更自由！

大家好，今天我们将讨论一个对网络写作非常有益的辅助工具——在线内容转换工具。不论您是需要更新您的博客，还是希望在社交平台上保持活跃，我们都频繁面临着迅速生成新内容的挑战。利用一个有效的工具来改写现有内容，可以极大地提…

阅读更多...

一次实践：给自己的手机摄像头进行相机标定

一次实践：给自己的手机摄像头进行相机标定

文章目录 1. 问题引入2. 准备工作2.1 标定场2.2 相机拍摄 3. 基本原理3.1 成像原理3.2 畸变校正 4. 标定解算4.1 代码实现4.2 详细解析4.2.1 解算实现4.2.2 提取点位 4.3 解算结果 5. 问题补充 1. 问题引入不得不说，现在的计算机视觉技术已经发展到足够成熟的阶段…

阅读更多...

Python画笔案例-067 绘制配乐七角星

Python画笔案例-067 绘制配乐七角星

1、绘制橙子通过 python 的turtle 库绘制配乐七角星，如下图： 2、实现代码绘制配乐七角星，以下为实现代码： """配乐七角星.py本程序需要coloradd模块支持,安装方法:pip install coloradd""" import turtle from coloradd import color…

阅读更多...

制造企业如何提升项目管理效率？惠科股份选择奥博思PowerProject项目管理系统

制造企业如何提升项目管理效率？惠科股份选择奥博思PowerProject项目管理系统

全球知名的显示方案综合服务商 - 惠科股份有限公司与北京奥博思达成合作，基于奥博思 PowerProject 搭建企业级项目管理平台。满足惠科多产品多业务领域的项目全周期管理。助力企业在技术研发、产品创新等方面继续取得行业领先优势。同时，PowerProject …

阅读更多...

如何进行u盘拷贝文件管控？5个方法一文详情告诉你！

如何进行u盘拷贝文件管控？5个方法一文详情告诉你！

小李：老王，最近我们部门经常提到数据安全的问题，特别是U盘拷贝文件带来的风险。你有什么好办法可以管控一下吗？ 老王：小李啊，你问对人了。 U盘拷贝文件管控确实是个头疼的问题，但我们可以从…

阅读更多...

C++入门day5-面向对象编程（终）

C++入门day5-面向对象编程（终）

C入门day4-面向对象编程（下）-CSDN博客本节是我们面向对象内容的最终篇章，不是说我们的C就学到这里。如果有一些面向对象的基础知识没有讲到，后面会发布在知识点补充专栏，全都是干货满满的。 https://blog.csdn.net/u…

阅读更多...

【中级通信工程师】终端与业务(九)：市场细分与选择

【中级通信工程师】终端与业务(九)：市场细分与选择

【零基础3天通关中级通信工程师】终端与业务(九)：市场细分与选择本文是中级通信工程师考试《终端与业务》科目第九章《市场细分与选择》的复习资料和真题汇总。本章的核心内容涵盖了市场细分的概念与方法、目标市场选择策略以及市场定位的原则和步骤。通过本节的…

阅读更多...

fl studio21.2.3.4004中文版永久2024最新下载安装图文详细使用教程

fl studio21.2.3.4004中文版永久2024最新下载安装图文详细使用教程

随着数字音乐制作的快速发展，越来越多的音乐制作软件涌现出来，而FL Studio无疑是其中的佼佼者。作为一款功能强大、易于上手的音乐制作软件，FL Studio V21中文版在继承了前代版本优秀基因的基础上，进一步提升了用户体验&#xff0…

阅读更多...

推荐文章

最新文章