transformer与beter

news2025/1/15 7:33:16

transformer与beter

  • 解码和编码器含义
  • tokizer标记器和one-hot独热编码
  • 编码解码--语义较好的维度空间
  • 矩阵相乘--空间变换
  • 编码理解
  • 如何构造降维的嵌入矩阵--实现到达潜空间
  • 上面是基础,下面是transformer正文
    • 自注意力机制
      • 注意力分数--上下文修正系数
      • 为什么需要KQ两个矩阵,并且还是转置,进行相乘?
    • 交叉注意力机制
    • 绝对位置编码--对输入的数据进行修饰
    • 相对位置编码--修饰在注意力分数上面
    • 多头注意力机制
  • 解码器掩码---正则残差
    • 模型框架

入门1:从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN) - YouTube

中英文翻译大概原理就是:把中文的token和英文的token,分别投射到对应的潜空间中(embeding),之后将两个潜空间进行统一

潜空间里面每个位置代表不同的语义,如果单看位置上面的值,不能获得详细的语义。需要将所有特征(也就是不同位置的语义)合起来看,才能代表详细的语义,同理图片的特征也是一样,需要将不同通道(也就是不同特征)上面的点合起来。才能知道图片该店的具体含义
Pasted image 20240418204819

解码和编码器含义

主要是解的码:是语义也就是上下文关系
Pasted image 20240418200314

如图,相当于存在一种上下文语义密切的话,在高维空间具有更近的模长之类的关系

tokizer标记器和one-hot独热编码

实现对token(也就是单位词)做数字化

Pasted image 20240418200606

大概关系就是前者给id,后者给种类标记

但不过这种简单的表示方法不能产生语义关系,也就是
假设手机是(1)苹果是2.这样虽然很近,但其实没有具体的语义关系

前者信息过于密集无法区分语义,后者信息过于稀疏,每个token基本都占据了一个维度

编码解码–语义较好的维度空间

这样既能利用好高维度空间也能利用空间的长度

因此想法有两个:
想法一:使用分词器(tokzier)获得,密集信息,在进行升高维度
想法二:使用独热编码(one-hot)获得稀疏信息,在进行降低维度(压缩数据)

主要是运用想法二的思想

矩阵相乘–空间变换

Pasted image 20240418202059

![[images/Pasted image 20240418202413.png]]

如果只是向量和矩阵的乘法,那么只会出现向量在新的坐标系下面的旋转和伸缩,也就是空间的变换,但不过值任然是一一对应的

如果采用矩阵相乘这个二次型的方式,就会像函数一样,向量出现形状的变化

下图演示
Pasted image 20240418202602

代表三个向量,也就是三个数据经过空间变换(矩阵),得到新空间的数据,所以规则(矩阵)和数据不能够进行颠倒

编码理解

先把一个文本里面的token(词元)变成独热码(获取稀疏信息),之后在进行降维(获取词元之间的语义关系(这里可以采用之前理解的距离))

总结:这个相当于把输入的一句话根据语义映射到到高维(独热编码),在把它投射到低维空间,这个也就是嵌入过程(embeding)(这个嵌入维度也就是潜空间)

相当于一个token被映射到潜空间之后,向量上面的位置,代表了不同的语义
例如
Pasted image 20240418204314

潜空间里面向量的不同值代表是该语义的程度,我们无法人为可知

如何构造降维的嵌入矩阵–实现到达潜空间

word2vec下面的:
第一个CBOW(邻字模型)
Pasted image 20240418205347

相当于用上下文的token(词元)(可能需要先升维度——独热编码),通过嵌入矩阵,获得嵌入向量,之后进行相加,将结果作为中间词元的嵌入向量,这样就可以于真实的词元向量进行比较了,进行修正

第一个跳字模型同理
Pasted image 20240418205907

最终的目的就是为了获得嵌入矩阵

转化为神经网络如下
Pasted image 20240418210117

只需要训练一个w即可,因为解码过程是一个逆过程,但实际过程好像是都要训练

不需要激活函数,因为只是对向量进行见简单的相加和分解

上面是基础,下面是transformer正文

Pasted image 20240418210513

核心是如何将得到的潜空间(embeding),去理解它的语义–注意力机制

自注意力机制

Pasted image 20240418210739

由于我们需要上下文语义的关系,输入到注意力那块的时候,不能是单个词的词嵌入向量,需要输入多个(T个,嵌入向量维度是Din)

  1. 按照原理,输入的词向量组,需要和三个矩阵进行空间变化得到KQV,三个状态矩阵
  2. 之后将K,Q其中一个转置相乘,得到T X T的矩阵,之后对改矩阵进行缩放,其实就是缩放它的方差到1上面
    Pasted image 20240418211436
  3. 之后缩放的矩阵进行softmax,这里是按照行进行概率归一(这样获得了注意力分数),最后将其和V相乘,得到输出注意力结果T X Dout

总结:这个注意力分数相当于是该词在上下文关联的修改系数,而V就是该词在嵌入空间的客观语义。

注意力分数–上下文修正系数

Pasted image 20240418212618

转置相乘得到的矩阵是:所有词向量之间的关联性,之后被转化为概率权重(上下文关系),最后用来修正次元的客观语义

为什么需要KQ两个矩阵,并且还是转置,进行相乘?

Pasted image 20240418213042
因为这样就构造了,二次型,能够更好的表达模型的复杂情况,更好的理解语义

需要K和Q,也是因为在上下文语义中,我们需要区分该词的设定语义和表达语义,也就是前后关系,所以猜测需要两个矩阵,KQ

交叉注意力机制

Pasted image 20240418214656
相当于拿到解码器的主观语义里面的设定语义,与解码器的KV,进行操作

其实是相当于有了一份主观语义里面设定语义的参考资料,相当于不需要理解主观语义,学起来很被动,但在机器翻译上面就没有问题

绝对位置编码–对输入的数据进行修饰

Pasted image 20240418220501

将0-n这些数字,通过傅里叶变换到相同嵌入向量的维度
Pasted image 20240418221408

不同语义(特征)之间相互正交,且不同token之间的编码也不相同

相对位置编码–修饰在注意力分数上面

Pasted image 20240418222102

多头注意力机制

Pasted image 20240418222330

Pasted image 20240418222727

大概就是一个token(嵌入向量)进去,经过多头,一个小语义会被学习到更多相似的语义或者更大的跨度,最后通过多头相加综合起来,相当于学习到相似语义的综合语义

解码器掩码—正则残差

在推理过程需要屏蔽掉之后词语的影响
Pasted image 20240418223811

屏蔽掉一个词之后的注意力分数

正测残差
把数据加起来在正则化

残差能够学习到变化的程度

模型框架

Pasted image 20240418215357

每一个解码器的输出,都要拿着解码器的参考去更新差异

推理部分
Pasted image 20240418215938

可能最后的softmax部分的输出是一个,形状确实不变都是,T X Dout,解码器部分提供的是K

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1668716.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

KAN 笔记

1 Title KAN: Kolmogorov–Arnold Networks(Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark)【2024】 2 Conclusion Inspired by the Kolmogorov-Arnold representat…

函数式接口-闭包与柯里化

闭包 定义 示例 注意 这个外部变量 x 必须是effective final 你可以生命他是final,你不声明也会默认他是final的,并且具有final的特性,不可变一旦x可变,他就不是final,就无法形成闭包,也无法与函数对象一…

《Python编程从入门到实践》day26

# 昨日知识点回顾 添加Play按钮创建Button类绘制按钮开始游戏、游戏结束重制游戏影藏鼠标光标 # 今日知识点学习 14.2 提高等级 14.2.1 修改速度设置 # Settings.py# 加快游戏节奏的速度self.speedup_scale 1.1self.initialize_dynamic_settings()def initialize_dynamic_se…

Linux中的fork与进程地址空间

目录 前言 一、进程地址空间 二、fork的值返回 三、高清图链接 总结 前言 在博主的《进程状态解析》一文中,在讨论进程创建时,提到了一个系统调用接口fork,它在使用过程中表现出对于父子进程不一致的返回结果,而且似乎还具有…

动手学机器学习15 实战kaggle比赛

动手学机器学习15 实战kaggle比赛 1. 实战kaggle比赛:预测房价代码结果 2. 课程竞赛:加州2020年房价预测3. QA4. 用到的代码1. hashlib.sha1()2. sha1.update(data)3. train_data.iloc4. fillna(0)5. pd.get_dummies()6. nn.MSELoss()7. torc…

医疗行业面临的网络安全挑战及应对策略

网络攻击已经成为各行各业日益严重的威胁,但医疗行业尤其容易受到影响。2023年,医疗领域的黑客事件占数据泄露的79.7%。 医疗领域 虽然患者、医疗服务提供者和决策者都对保护医疗信息有所关注,但关键的弱点在于提供电子健康记录(…

何为小波变换?

一、数学基础 小波 变换脱胎于傅里叶变换,但是有着傅里叶变换的优点。 1.1 点乘(内积) a 6; b 8; 点乘的作用:衡量两个事物的相似度(Similarity) 夹角变小,点乘结果变大,结果越…

Vscode----远程服务器改名

问题描述 一开始Autodl服务器机子很多,但是我使用vscode的时候他们的名字都一样,导致每次要打开机子是都需要重新输入ssh和密码 解决方法 修改vscode端服务器的名字即可解决 打开远程设置,选择你的ssh配置文件 将Host改为你想要的名字,保存刷新即可 点击访问博客查看更多…

全国药品价格目录数据库-药品价格查询

药品定价是一个复杂且多维的问题,它涉及到医疗保健系统、政府政策、市场需求、研发成本以及药品效果等多个因素。随着中国医疗改革的不断深入,药品定价机制也在逐步调整和完善。本文将详细探讨我国药品定价机制,包括其发展历程、定价方法、影…

【顺序程序设计-谭浩强适配】(适合专升本、考研)

无偿分享学习资料,需要的小伙伴评论区或私信dd。。。 无偿分享学习资料,需要的小伙伴评论区或私信dd。。。 无偿分享学习资料,需要的小伙伴评论区或私信dd。。。 完整资料如下:纯干货、纯干货、纯干货!!…

其他的 框架安全:Apache Solr 远程代码漏洞.(CVE-2019-0193)

什么是 Apache Solr Apache Solr是一个开源的搜索服务,便用Java语言开发,主要基于 HTTP 和ApacheLucene 实现的。Sor是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。 目录: 什么是 Apache Solr 生成的漏…

在统计上城乡是如何划分的

城乡二元结构,是长期以来我国经济社会发展的显著特点之一,党和政府高度重视统筹城乡发展,缩小城乡差距。为了对城乡发展予以准确反映和动态监测,提高在统计上划分城乡工作的一致性,国家统计局开展了统一的统计用区划代…

Redis 的 SDS 和 C 中字符串相比有什么优势?

C 语言使用了一个长度为 N1 的字符数组来表示长度为 N 的字符串,并且字符数组最后一个元素总是 \0,这种简单的字符串表示方式 不符合 Redis 对字符串在安全性、效率以及功能方面的要求。 C语言的字符串可能有什么问题? 这样简单的数据结构可…

vs2019 cpp20 规范的线程头文件 <thread> 注释并探讨两个问题

(1)学习线程,与学习其它容器一样,要多读 STL 库的源码。很多知识就显然而然的明白了。也不用死记硬背一些结论。上面上传了一份注释了一下的 源码。主要是补充泛型推导与函数调用链。基于注释后的源码探讨几个知识点。 STL 库的多…

LeetCode100题总结

LeetCode100题总结 前言LeetCode100题总结题型梳理双指针11. 盛最多水的容器234.回文链表75.颜色分类206.反转链表142.环形链表215.三数之和 滑动窗口3. 无重复字符的最长子串209. 长度最小的子数组438. 找到字符串中所有字母异位词 广搜102. 二叉树的层序遍历200. 岛屿数量617…

Mysql 8.0.33 迁移至 Postgresql 16.2

小伙伴们,你们好,我是老寇,我又回来,几个月不见,甚是想念啊!!!! 这不,云平台需要改造,将Mysql替换成Postgresql,话说回来&#xff0c…

中国速度!滑湿人自己的MFC第一课!

前言: 这!是一个!新的专栏! 因为!面向对象的程序设计!已经!学的差不多了! 我谭哥那本大厚书!也快!学完了! 于是!sgq!为…

利用爬虫解决数据采集难题

文章目录 安装为什么选择 BeautifulSoup 和 requests?安装 BeautifulSoup 和 requests解决安装问题 示例总结 在现代信息时代,数据是企业决策和发展的关键。然而,许多有用的数据分散在网络上,且以各种格式和结构存在,因…

二.基础篇: 面向对象进阶

1. 基础篇语法篇:一.基础篇:基础语法-CSDN博客 面向对象进阶 本章主要学习内容: static继承包,final,权限修饰符,代码块抽象类接口多态内部类 1. static static翻译过来就是静态的意思static表示静态&am…

wordpress增加谷歌分析

wordpress增加谷歌分析 为了更好的浏览体验,欢迎光顾勤奋的凯尔森同学个人博客 http://www.huerpu.cc:7000 一、创建谷歌分析账号与媒体应用 谷歌分析地址:https://analytics.google.com/analytics 创建一个账号,如果你没有的话。 在该账…