探究 ChatGPT 的心脏--Transformer(基础知识第一篇)

news2025/1/27 13:06:15

        

        Transformer 是 ChatGPT 的核心部分,如果将 AI 看做一辆高速运转的汽车,那么 Transformer 就是最重要的引擎。它是谷歌于 2017 年发表的《Attention is All You Need》中提出的 Sequence-to-sequence 的模型,诞生之后便一统江湖,在 NLP, CV, Audio, Video 多个模态领域成为了遥遥领先。

  1. 如果你之前不了解 Transformer, 或者只知道大概的知识,那么这篇文章可以让你通过自己动手写代码深刻地理解 Transformer 的结构、训练方法以及实际用例等;

  2. 如果你了解 Transformer,这篇文章可以让你温习 Transformer 的知识,所谓温故而知新;

        由于内容很多,因此拆分为几篇文章的内容。

模型结构

总体流程:

        分为 输入(Input), 模型(Model), 输出(Output) 三部分。接下来详细说明每一个部分。

输入

        输入:"我有一只猫"

        分词:用某种分词方法输出 ["我",“有”,“一只”, “猫”],常用的中文分词方法有 jieba 分词,THULAC分词等(想要详细了解这些分词方法可以问 悟空 AI 助手,支持 GPT 3.5, GPT 4),这里每个词也叫做 token(token 的概念很重要,后面反复用到)

        转 Embedding: 将 ["我“,“有”,“一只”, “猫”] 的每一个词转为一个实数向量,常见的是 512 维的向量,因为有 4 个词,每个词变成 512 维向量,所以得到 4*512 维的矩阵,一般用 tensor 存储,简单的就记作 x。具体的转换方法可以问悟空AI,但是本文后面会详细讲到的。

        添加位置 Embedding: 位置 embedding 是对 token 顺序的一种表示,因为 token 顺序很重要。例如:

["我",“爱”,“你”] 跟 ["你",“爱”,“我”],token 顺序变一下含义就完全不同!那么最简单的顺序表示方法就是 1,2,3,...N,用数组索引表示位置,但是 Transformer 没有这么干而是用正弦/余弦函数来表示:

        其中,PE 就是位置编码(Positional Embedding),pos 表示单词在句子中的位置,d 表示 PE的维度 (与词 Embedding 一样),2i 表示偶数的维度,2i+1 表示奇数维度 (即 2i≤d, 2i+1≤d)。画图看一下就是这样:

        脑经急转弯:为什么位置 embedding 不用 [1,2,3,...N] 来表示顺序?

        请认真思考 5 分钟后再看下面的答案。

        有两个原因:

  1. 保证模型训练稳定性和快速收敛性:类似于 data normalization, 原始数据的取值可以是负无穷到正无穷,但是一旦输入到模型就要强制归一化到一个固定区间,常见的是 [-1, 1] 区间,这样做可以大幅加速模型收敛并减少训练误差,但是 1,2,3,...,N 是没有界限的,如果简单的除以 N 来归一化,那么 N 取多少比较合适呢?实际上很难选择 N 的值,所以一个比较合适的选择就是周期性函数,最经典好用的就是正弦/余弦,为啥嘞?因为它们很常见而且求导巨简单,忘了它们导数的去问问 悟空 AI 助手

  2. 要遵循文本结构的周期性:任何一个句子,任何一个段落都是具有周期性的。为啥呢,因为所有的句子都有固定的结构,最常见的是:主语 + 谓语 + 宾语,所以一段话的结构其实类似于这样子的:

 主语 + 谓语 + 宾语 + 标点符号 + 主语 + 谓语 + 宾语 + 标点符号, ......

        很自然地,就想到了用周期性函数来表示位置了。

        网上有人说其中一个原因是可以让模型容易地计算出相对位置,对于固定长度的间距 k,PE(pos+k) 可以用 PE(pos) 计算得到。因为 Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。这个我个人表示不认同,因为 1,2,3,...N 也符合这个性质,不信你算一下。

        然后,将文本的 embedding 和位置的 embedding 加起来就是模型的输入了,如下:

    

        到这里 Transformer 的输入就讲完了,下一篇将介绍模型的结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1586581.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【考研数学】《660》+《880》高分搭配方法

📝《660题》和《880题》高效刷题方法 1️⃣做题要有针对性,不要为了做题而做题 💪660和880题虽然多,但是你不用全都做完,你可以把它当成是题源,里面的每一道题都很经典,如果搞懂一道&#xff…

51蓝桥杯之DS18B20

DS18B20 基础知识 代码流程实现 将官方提供例程文件添加到工程中 添加onewire.c文件到keil4里面 一些代码补充知识 代码 #include "reg52.h" #include "onewire.h" #include "absacc.h" unsigned char num[10]{0xc0,0xf9,0xa4,0xb0,0x99,…

最近一些前端面试问题整理

最近一些前端面试问题整理 4月8号1. TS 中的 类型别名 和接口的区别是什么?2. 什么是深拷贝和浅拷贝?深浅拷贝的方法有哪些?浅拷贝(Shallow Copy)深拷贝(Deep Copy)区别总结 3. 使用 JSON.strin…

如何在淘~宝接单和解决别人问题-java开发

如下这是一个连接:https://s.tb.cn/c.0vDtL3https://s.tb.cn/c.0vDtL3 解决各种问题。可付费咨询

炒股自动化:交易接口API才是重点,券商官方散户可用的接口

上一篇我们用get_full_tick取到了数据,也讲了变量和字典的基本概念,这次我们向交易所发送订单试试。前面文章的链接放在文末了,需要的可以看一下 这些内容是给新手看的,找接口的大佬们直接拉到文末即可 取市场数据的方法很多&am…

查询优化-ANY类型子连接提升

瀚高数据库 目录 文档用途 详细信息 文档用途 已知查询树基本结构的基础上,在一定条件下对SQL中的子连接提升, 详细信息 子连接提升流程 SQL: SELECT sname FROM student WHERE sno > ANY (SELECT sno FROM score);图1.1是该SQL对应的查询树&#…

代码随想录算法训练营第三十一天| 455.分发饼干、376.摆动序列、53.最大子序和

系列文章目录 目录 系列文章目录455.分发饼干贪心算法大饼干喂胃口大的(先遍历胃口)胃口大的先吃大饼干(先遍历饼干)小饼干先喂胃口小的(先遍历胃口)胃口小的先吃小饼干(先遍历饼干) 376. 摆动序…

为什么在学校很难真正学好嵌入式?

10几年前,我是读电气工程专业,学了很多东西,结构,电机、绘图,plc等等.. 其实,都没什么鸟用,出来还是像个废物。 后面我自学转了单片机开发,说句难听点,自己买个开发板都比在学校学得深。 可能是这个专业的问题,主攻不是嵌入式方向,老师用汇编点个流水灯,这门课就…

第四百五十三回

文章目录 1. 问题描述2. 优化方法2.1 缩小范围2.2 替代方法 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何获取AppBar的高度"相关的内容,本章回中将介绍关于MediaQuery的优化.闲话休提,让我们一起Talk Flutter吧。 1. 问题描述 我们在…

编程新手必看,python中条件控制语句学习(13)

介绍: Python3中的条件控制主要通过if、elif和else关键字来实现,它们用于根据条件执行特定的代码块。 if语句:这是最基本的条件控制结构。如果满足某个条件(条件为True),则执行相应的代码块。在Python中&am…

Java学习42-Java 流(Stream)、文件(File)和IO - FileReader\FileWriter的使用

IO流 IO流的概述,分类等 Java程序中,对于数据的输入输出以stream方式进行,可以看作是一种数据的流动。 IO流中的IO是Input和Output的缩写,是非常实用的技术,用于处理设备之间的数据传输。读写文件,网络通…

Linux下批量的批量操作

批量删除docker 镜像 docker images | grep ent-form-web |awk ‘{print $3}’ | xargs docker rmi docker images: 列出所有的docker 镜像 docker images | grep ent-form-web : 选取出结果带 ent-form-web的信息 docker images | grep ent-form-web |awk ‘{print $3}’ 选取…

黑白图像彩色化

黑白图像彩色化 黑白图像彩色化,调用训练好的模型,将图片加上彩色,只需要OPENCV,支持C/PYTHON

【Python函数和类3/6】函数的返回值

目录 知识回顾 目标 函数的返回值 Tips 练习 ​编辑return的其它特性 任意类型的返回值 返回多个值 return的位置 小结 局部变量 局部变量的作用域 全局变量 全局变量的作用域 同名变量 pi的作用域 总结 知识回顾 在上篇博客中,我们学习给函数设置参…

基于 S2-LP 实现 802.15.4g 帧格式的数据透传

1. 引言 S2-LP 硬件上支持 802.15.4g 的帧格式,但是现有的 SDK 包并没有基于该帧格式的示例工程,因此本篇文章将介绍如何实现基于 802.15.4g 帧格式的数据透传。 2. 802.15.4g 帧格式 在开始之前,需要对 802.15.4g 帧格式有一个初步的了解…

VS中使用QT的UI提升类时,找不到头文件的情况

1、情况简述 在使用VS时,会发现与QCreator存在一些差异。最主要的就是要设置很多东西,如果不配置的话,就会遇到一些问题。下面我分享下我调试过程中遇到的一个问题。使用Qdesigner的UI提升类时,找不到头文件的情况: …

Flutter - 环境配置提示 cmdline-tools component is missing

问题: flutter doctor运行命令 flutter doctor 报错: Android toolchain - develop for Android devices (Android SDK version 30.0.2) ✗ cmdline-tools component is missing Run path/to/sdkmanager --install "cmdline-tools;lates…

ChatGPT国内镜像站大全(全都是能白嫖的)

今天在知乎看到一个问题:“平民不参与内测的话没有账号还有机会使用ChatGPT吗?” 从去年GPT大火到现在,关于GPT的消息铺天盖地,真要有心想要去用,途径很多,别的不说,国内GPT的镜像站到处都是&a…

OpenHarmony4.0分布式任务调度浅析

1 概述 OpenHarmony 分布式任务调度是一种基于分布式软总线、分布式数据管理、分布式 Profile 等技术特性的任务调度方式。它通过构建一种统一的分布式服务管理机制,包括服务发现、同步、注册和调用等环节,实现了对跨设备的应用进行远程启动、远程调用、…

ES13:类的新增特性、最外层的await、at...

1-类的新增特性 类私有属性和方法:# class Person{// 不需要传参、一开始就需要初始化的,就可以在类的最外面直接声明这个成员state{a:1,b:2}constructor(name,age){this.namename;this.ageage;}}在属性和方法前加#表示私有 #obj{} #prest(){}静态成员…