从前端角度快速理解Transformer

news2024/11/15 5:54:41

从前端角度快速理解Transformer

  • Transformer的三步曲
  • 从前端角度(SEO和TDK)理解Transformer
    • SEO与TDK
    • 一个例子来理解
  • 总结

声明:本文为原创,未经同意请勿转载或爬取,感谢配合😄

chatGPT今年年初的时候是非常火爆的,现在也有很多相关的应用和插件。当然现在也有很多新的技术出现,比如autoGPT,它实际上就是嵌套chatGPT。但它们也都涉及到19年20年很火的Transfomer模型,所以这里笔者我希望通过通俗易懂的语言描述一下Transformer的原理。并从前端的角度谈谈Transformer这里模型怎么理解,希望入门读者也可以快速抓住要点。相信Transformer的原理很多博客都有介绍,这里笔者我希望以笔者我的新角度来讲讲Transformer的注意力机制。也欢迎各位小伙伴或者大佬来指正交流,互相学习与讨论🤗。

在前面我会先介绍一下Transformer的核心点,然后在从前端的角度,说说我是怎么从前端的角度来理解Transformer这个模型的。

Transformer的三步曲

首先,Transformer是在自然语言处理NLP领域提出的一个基于自注意力机制self-attention的模型,主要由编码器和解码器两个部分构成。其中,编码器和解码器也是采用多头的注意力机制来进行构建的。所以,Transformer这个模型的核心其实就是自注意力机制。而这种自注意力机制它的核心其实就是通过Q(query 查询),K(key,健/关键词),V(value,键值)三个特征张量来进行构建的。具体来说可以分为三步:

  • 第1步:先对原始的特征张量分别进行三次变换得到Q,K,V三个特征张量
  • 第2步:利用查询张量Q和健张量K进行点积得到注意力分数张量A,这个A代表的就是重要性,也就是对键值张量V的贡献程度
  • 第3步:利用注意力分数张量A与键值张量V进行加权求和得到新的特征张量,以此更新原始的特征张量。
    在这里插入图片描述

从前端角度(SEO和TDK)理解Transformer

如果看到这里,你觉得上面的描述仍然不够通俗的话,我们其实可以从SEO(搜索引擎优化)和meta标签的角度来理解Transformer。如果你对上面这两个概念不是很理解的话建议看我的另外一篇博客笔记《【图-注意力笔记,篇章1】Graph Transformer:包括Graph Transformer 的了解与回顾且其与GNN、Transformer的关联》。这里有关Transformer公式的理解。

SEO与TDK

言归正传,先介绍一下SEO与<meta>之前的关系吧。

如果对这一部分了解的可以跳到下一部分

前端网页中<meta>标签的内容设计对SEO来说是非常重要的,它主要通过TDK来影响。简单来说,就是搜索引擎会根据HTML中title标签和meta标签的Keywords、Description属性来进行结果进行一个排序。其中,网页的title标签可以被浏览器显示在顶端菜单栏上,而meta标签的话对用户是不可见的,拿CSDN首页做一个例子吧。打开网页开发工具,我们可以看到:
在这里插入图片描述head标签下面有title标签和meta标签两个子标签。其中的话,meta标签下有keywords和description两个属性,content表示对应的内容。所以搜索引擎可以通过抓取TDK来进行优化排序。所以TDK三个的设置对网页开发是重要的,这决定你的网站能否对优先展示在用户面前,这一般是由专门做SEO相关岗位的人来做的。

一个例子来理解

了解完前面的SEO和TDK,那我们就拿《Attention is all you need》(Transformer原论文)这篇文章做一个例子进行理解与解释吧。下面是我从arXiv网站《Attention is all you need》这篇文章打开的网页源码:
在这里插入图片描述这里og是一个协议,不用过分去细究。自己打开网页源码看看,你会发现它竟然没有keywords属性!!!不过笔者我回去看了一眼文章,文章里面的确也没有keywords:
在这里插入图片描述不过,没有关系,上面我们仅仅是做一个展示而言😂。这里我们可以先做一个假设,
假设Transformer这篇文章的特征张量K是【Attention, Transformer, NLP】三个词构成的,原始的特征张量是这篇文章本身的内容。

  • 那我们先讲一下🤔为什么Transformer首先在第一步会继续一个线性变换
    这是因为我们搜索时,可能在搜索框输入的查询张量是【transformer,原论文,链接】。那它跟文章的原始特征向量其实就是不一样的。而且每个人搜索都不会不一样,所以也有了线性变换和多头的想法。K和V也是同样的道理,所以第一步一般是先对原始的特征向量分别进行一个变换,得到Q,K,V三个特征张量。
    在这里插入图片描述

  • 第二步,当我们点击搜索按钮后,那搜索引擎就会利用这些查询值Q,和数据库文章里面的关键词K进行匹配,并返回搜索结果,这个搜索结果会按照贡献度也就是重要性进行一个排序。这里相当于上面说的Q和K点积之后得到的注意力分数A的排序。可以看到对应标红的部分与查询值是匹配的。
    在这里插入图片描述

  • 第三步,当得到注意力分数之后,就需要对键值V也就是相当于文章的特征(这里可以看作title标签和meta标签的Description属性里面地内容,相当于文章的主题和标题特征合并为文章的特征)来进行一个加权求和,才能得到跟当前查询值最匹配的特征,最其实就是搜索引擎优化做的事情。通过不断地优化来满足用户地搜索需求。所以你也会发现不同搜索引起搜索出来地结果会不一样。

总结

上面讲的主要是Transformer的注意力机制是怎么做的以及怎么理解地。在Transformer结构中,它其实就在它的编码器和解码器都使用了多头的注意力机制来实现对不同特征子空间的关注,而且它还采用了位置编码、残差连接、层归一化和前向全连接网络等。简单来说就是Transformer就是基于位置编码和输入,来利用多头注意力机制进行编码和解码,从而得到模型的输出。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/443084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统实验一 并发程序设计

1.实验目的 掌握Linux环境下&#xff0c;多进程之间并发程序设计方法&#xff0c;并通过程序的运行结果来验证分时系统和并发程序设计的优越性。 2.实验要求 熟悉Linux操作系统子进程创建方法以及任务执行时间测量方法 3.实验内容 在单进程&#xff08;单用户、单任务&#xff…

【MYSQL索引失效的场景有哪些】

创建一张表&#xff1a;id为主键&#xff08;primary key&#xff09;name为普通建&#xff08;index&#xff09; 插入数据&#xff1a; 用主键索引查询&#xff1a; 用普通建索引查询 对于执行计划&#xff0c;参数有&#xff1a; possible_keys 字段表示可能用到的索引&am…

KMM初探与编译过程详解

本文字数&#xff1a;22817字 预计阅读时间&#xff1a;58分钟 简介 KMM&#xff0c; 即Kotlin Multiplatform Mobile&#xff0c;是由Kotlin发布的移动端跨平台框架。相比于其他跨平台框架&#xff0c;KMM是原生UI逻辑共享的理念&#xff0c;共享重复逻辑性的工作来提升开发效…

Maven配置国内源以及jar下载失败处理详解

目录 1&#xff0c;配置Idea的Maven xml文件不存在&#xff1a; xml文件存在&#xff1a; 2&#xff0c;重新下载jar包 3&#xff0c;注意事项总结 1&#xff0c;配置Idea的Maven 需要配置的项目有两个&#xff0c;一个是当前项目&#xff0c;一个是新项目&#xff1a; 打…

抖音账号矩阵搭建管理获客系统

抖音矩阵号管理系统是一款企业矩阵运营管理工具&#xff0c;能够有效地帮助企业管理多个矩阵账号&#xff0c;并实现批量管理。在短视频矩阵系统中&#xff0c;自动获客工具和智能AI的帮助下&#xff0c;一个人也能轻松地管理多个账号。 一、矩阵账号管理&#xff1a; 首先&a…

leetCode算法第三天

继续练习leetcode中关于字符串的算法题&#xff0c;越练越觉得自己编码思想还很欠缺&#xff0c;继续努力。 文章目录 有效的括号括号生成串联所有单词的子串最长有效括号 有效的括号 leetcode链接&#xff1a;https://leetcode.cn/problems/valid-parentheses/ 解题思路&…

SPI协议

SPI数据接口 SPI&#xff08;Serial Peripheral Interface&#xff09;串行外设接口的简称&#xff0c;它是一种同步全双工通信协议。有 3根或者 4根数据线组成&#xff0c;包括 CLK、SOMI、SIMO、STE&#xff1a; CLK为时钟线&#xff0c;由主机控制输出。 SOMI…

国产数字温度传感芯片M117 Pin to Pin替代PT100和PT1000

高精度数字温度传感芯片 - M117&#xff0c;可Pin to Pin替代PT100/PT1000&#xff0c;且具功能差异化优势&#xff0c;支持行业应用的定制化需求。高测温精度0.1℃&#xff0c;用户无需进行校准。芯片感温原理基于CMOS半导体PN节温度与带隙电压的特性关系&#xff0c;经过小信…

电脑开机进不了系统卡在加载界面怎么办?

电脑开机进不了系统卡在加载界面怎么办&#xff1f;有用户电脑弹出需要进行系统更新&#xff0c;不小心点到了系统更新的选项。因为自己不想进行系统更新&#xff0c;所以马上将电脑关机了。但是关机之后却发现系统一直卡在开机的界面中&#xff0c;无法进入桌面中了。那么这个…

如何在Anaconda下安装pytorch(conda安装和pip安装)

前言 文字说明 本文中标红的&#xff0c;代表的是我认为比较重要的。 版本说明 python环境配置&#xff1a;jupyter的base环境下的python是3.10版本。CUDA配置是&#xff1a;CUDA11.6。目前pytorch官网提示支持的版本是3.7-3.9 本文主要用来记录自己在安装pytorch中…

乙肝80%以上由妈妈传给孩子 5岁以下治愈率超六成

中国是乙肝大国。目前&#xff0c;乙肝病毒感染人数仍超过7000万。通过医务人员多年的努力&#xff0c;母婴传播感染率明显下降。到目前为止&#xff0c;已降至0.3%左右。每年仍有5万名儿童感染乙肝病毒。目前&#xff0c;儿童慢性乙肝仍在180万左右&#xff0c;绝对数仍是世界…

Node【模块系统】

文章目录 &#x1f31f;前言&#x1f31f;Nodejs模块系统&#x1f31f;为什么需要模块化&#x1f31f;什么是Nodejs模块&#x1f31f;Nodejs模块分类&#x1f31f;文件模块的分类&#x1f31f;调用内置模块&#x1f31f;调用文件模块 &#x1f31f;Nodejs模块使用&#x1f31f;…

2023年网络安全的发展趋势是怎样的?

数据安全越来越重要。 我国《数据安全法》提出“建立健全数据安全治理体系”&#xff0c;各地区部门均在探索和简历数据分类分级、重要数据识别与重点保护制度。 数据安全治理不仅是一系列技术应用或产品&#xff0c;更是包括组织构建、规范制定、技术支撑等要素共同完成数据…

PACS/RIS影像管理系统源码,支持图像后处理与重建

PACS/RIS影像管理系统源码&#xff0c;功能强大&#xff0c;文档齐全&#xff0c;有演示。 文末获取联系&#xff01; 系统特点&#xff1a; 符合国内医院影像中心/放射科的典型工作管理流程。 开放式体系结构&#xff0c;完全符合DICOM3.0标准&#xff0c;提供HL7标准接口&a…

MyBatis(十四)MyBatis的逆向工程

前言、 所谓的逆向工程是&#xff1a;根据数据库表逆向生成Java的pojo类&#xff0c;SqlMapper.xml文件&#xff0c;以及Mapper接口类等。 要完成这个工作&#xff0c;需要借助别人写好的逆向工程插件。 思考&#xff1a;使用这个插件的话&#xff0c;需要给这个插件配置哪些…

2023年淮阴工学院五年一贯制专转本退役士兵大学语文考试大纲

2023年淮阴工学院五年一贯制专转本退役士兵大学语文考试大纲 一、考试目标 淮阴工学院五年一贯制高职专转本入学考试秘书学专业《大学语文》考试是我校为招收五年一贯制高职专转本学生设置的具有选拔性质的考试科目。其目的是科学、公平、有效地测试考生是否具备攻读秘书学本…

【论文总结】V-Shuttle:可扩展和语义感知的 Hypervisor 虚拟设备模糊测试

介绍 这是来自2021 CCS的一篇论文&#xff0c;作者有GaoningPan, Xingwei Lin, Xuhong Zhang, Yongkang Jia, Shouling Ji, Chunming Wu, Xinlei Ying, Jiashui Wang, Yanjun Wu。该论文提出V-shuttle的新框架来执行管控程序的模糊测试&#xff0c;该框架执行可扩展和语义感知…

LDR6328 PD诱骗(取电)芯片概述,支持定制化取电

PD充电需要在供电端&#xff08;充电器&#xff09;和受电端&#xff08;产品上&#xff09;都要有协议通信&#xff0c;一般充电器内有PD供电协议芯片&#xff0c;产品上有PD协议受电芯片&#xff0c;两者连接后会进行通信握手&#xff0c;连接成功后充电器才会输出需要的电压…

银行数字化转型导师坚鹏:商业银行对公业务数字化风控

商业银行对公业务数字化风控 课程背景&#xff1a; 数字化背景下&#xff0c;很多银行存在以下问题&#xff1a; 不清楚商业银行数字化风控发展现状&#xff1f; 不清楚对公业务数字化风控工作如何开展&#xff1f; 不知道零售业务数字化风控工作如何开展&#xff1f; …

探索五大机器学习技术及其应用

没有一种机器学习算法可以解决所有类型的机器学习问题。机器学习任务可能千差万别&#xff0c;算法的选择将取决于数据的大小、维数和稀疏性等因素。目标变量、数据的质量以及特征内部以及特征与目标变量之间存在的相互作用和统计关系。 在本文中&#xff0c;我将提供机器学习…