复变函数在大模型中的应用

news2024/11/11 5:09:16

1. 导入

说来惭愧,我研究生时的研究方向是复分析,但毕业近十年来几乎没用到它。

我还记得实习时做自我介绍时,我说我的研究方向是复分析。面试官不太了解,我便解释说,这是关于对 -1 开平方得到的虚数 i 的研究。

在人工智能领域,经常会用到的数学知识包括矩阵、概率论和一些微积分。然而,最近在研究大模型的位置编码时,我惊讶地发现了复分析的应用,10年前的记忆逐渐浮现。

2. 什么是复数

复数是数学中的一个基本概念,它扩展了实数系统,允许进行更广泛的数学运算。复数由两部分组成:实部和虚部。复数的一般形式可以表示为:

a + b i a + bi a+bi

其中, a 是复数的实部, b 是复数的虚部,而 i 是虚数单位,满足 $ i^2 = -1 $。

复数的两个主要特征是:

  1. 实数:当虚部 b 为0时,复数退化为实数。
  2. 虚数:当实部 a 为0且虚部 b 非零时,复数被称为纯虚数。

复数可以进行加、减、乘、除等基本算术运算,这些运算遵循特定的规则。例如,两个复数的加法运算是将它们的实部和虚部分别相加:

( a + b i ) + ( c + d i ) = ( a + c ) + ( b + d ) i (a + bi) + (c + di) = (a + c) + (b + d)i (a+bi)+(c+di)=(a+c)+(b+d)i

复数的乘法运算则稍微复杂一些,需要用到分配律和虚数单位 i 的性质:

( a + b i ) ( c + d i ) = a c + a d i + b c i + b d i 2 = ( a c − b d ) + ( a d + b c ) i (a + bi)(c + di) = ac + adi + bci + bdi^2 = (ac - bd) + (ad + bc)i (a+bi)(c+di)=ac+adi+bci+bdi2=(acbd)+(ad+bc)i

复数的除法运算涉及到将分母实数化,通常通过乘以共轭复数来实现。

复数在数学、物理、工程学等领域有着广泛的应用,如在信号处理、量子力学、电气工程等学科中,复数提供了一种描述周期性现象和旋转的有力工具。

3. 复变函数

复变函数是数学中的一个重要分支,它主要研究复数域上的函数,这些函数的自变量和因变量都是复数。复变函数论在许多工程和科学领域都有应用,以下是一些通常会学习复变函数的专业:

请添加图片描述

  • 数学专业:复变函数是数学专业学生的必修课程之一,因为它是数学分析的延伸和深化。

  • 电气工程:在信号处理和系统分析中,复变函数用于分析交流电路。

  • 电子工程:在控制系统的设计和分析中使用复数域方法。

  • 物理学专业:在量子力学和电磁学中,复变函数理论用于解决波动方程和势问题。

  • 计算机科学与工程:在算法设计、图像处理和信号处理的算法开发中,复变函数有其应用。

  • 航空航天工程:在流体动力学和控制系统分析中,复变函数用于数学建模。

  • 机械工程:在振动分析和热传导问题中,复变函数理论有助于找到解决方案。

  • 土木工程:在结构分析和地震工程中,复变函数用于解决某些动态问题。

  • 生物学和生物医学工程:在生物信号处理和生物物理建模中,复变函数有助于分析和理解生物系统的动态行为。

  • 金融数学和经济学:在某些高级经济模型和金融工具定价中,复变函数理论可以提供分析工具。

  • 控制理论:在系统稳定性分析和控制器设计中,复变函数是基本工具之一。

学习复变函数的课程通常包括解析函数、复积分、级数展开、留数定理、共轭和谐函数等概念。

复数在机器学习中的应用相对较少,但在某些特定领域,如信号处理、图像处理和模式识别中,复数的性质和运算规则可以提供一些有用的工具和技术。

毕业十年后,我再一次领略了复数的魅力,这次是在大模型的位置编码中。复数的数学特性和运算规则为Transformer提供了一种新的位置编码方法,这种方法被称为RoPE(Rotary Position Embedding)。

4. 位置编码和RoPE

位置编码(Positional Encoding)是一种在处理序列数据时,用于向模型提供序列中每个元素位置信息的技术。

在自然语言处理(NLP)中,尤其是在使用Transformer模型时,位置编码尤为重要,因为Transformer模型本身并不包含处理序列顺序的机制。

位置编码的主要目的是让模型能够区分输入序列中词的顺序,从而更好地理解句子的结构和含义。
请添加图片描述

Rotation Position Encoding

RoPE提出为了能利用上 token 之间的相对位置信息,假定 query 向量 q m q_m qm 和 key 向量 k n k_n kn之间的内积操作可以被一个函数 g g g表示,该函数 g g g 的输入是词嵌入向量 x m x_m xm x n x_n xn 和它们之间的相对位置 m − n m-n mn

请添加图片描述

大胆假设,小心求证。 现在我们的目标就是找到一个合适的函数 g g g,使得 g ( x m , x n , m − n ) g(x_m, x_n, m-n) g(xm,xn,mn)能够捕捉到词向量之间的相对位置信息。

RoPE提出,在词向量是二维的情况下,将平面转化为复平面,如果我们按照如下的方式定义函数 f f f,则可以找到对应的 g g g

请添加图片描述

R e Re Re指的是复数的实数部分,更近一步,我们可以将函数 f f f定义为:

请添加图片描述

这边,不就是原来的query矩阵乘上了一个旋转矩阵吗?也就是说,加上 m m m这个位置信息后,如果使用RoPE的设计方案,就相当于将原query矩阵进行了旋转。这就是旋转的由来。

同理, f K f_K fK可以表示为:

请添加图片描述

那么,对应的 g g g函数就是:

请添加图片描述

5. 一点想法

在RoPE中,没有引入很高深的复数知识,只是用了欧拉公式,而欧拉公式发表于1740年左右,但就这样简单的应用,就能在大模型中发挥作用。我在想,是不是还有其他数学知识,可以在大模型中发挥作用呢?

旋转位置编码由苏剑林大神设计,其引入数学中最美丽的公式-欧拉公式。
大家可以关注他的博客《科学空间》https://kexue.fm/, 会学到很多东西。

参考

[1] RoFormer: Enhanced Transformer with Rotary Position Embedding

[2] GitHub: LLMForEverybody

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2092579.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信号的捕捉

1.信号的产生 信号递达:实际执行信号的处理动作称为信号的递达 信号未决:信号从产生到递达之间的状态 进程可以阻塞某个信号 被阻塞的信号产生时将保持在未决状态,直到进程解除对此信号的阻塞,才执行递达的动作 注意,忽略和阻塞是不同的,只要信号阻塞就不会被递达,而忽略是递达…

【Apache Doris】数据均衡问题排查指南

原文阅读:【巨人肩膀社区博客分享】【Apache Doris】数据均衡问题排查指南 一、前提概要 当集群处于以下几种情况时,可参考本文进行问题排查。 •BE节点之间的数据不均 •单个BE节点上的多个磁盘之间的数据不均 •BE节点的上线和下线进度卡死&#…

《高等代数》两条线行列式

说明:此文章用于本人复习巩固,如果也能帮助到大家那就更加有意义了。 注:两条线行列式的固定做法为按照第一列展开。

Kafka分布式集群部署实战:跨越理论,直击生产环境部署难题与解决方案,性能调优、监控与管理策略大揭秘,轻松上手分布式消息中间件

本文介绍kafka的集群如何部署和安装,1-4章理论知识,第5章详解集群的部署,部署Kafka之前需要先部署好分布式的Zookeeper,不喜欢理论的可以直接看第5章,欢迎大家一起探讨技术! Zookeeper集群部署参考文章&…

VUE-组件间通信(三)全局事件总线

一、作用&#xff1a;任意组件间通信 二、实现 1、创建全局事件总线 new Vue({render: h > h(App),beforeCreate(){//创建全局事件总线Vue.prototype.$busthis} }).$mount(#app) 2、学生组件 触发事件 <template><div class"studentInfo"><h…

(备份)常用ASCII 8*8 点阵 以及查询显示字符的点阵

图片 #include "driver/spi_master.h" #include "driver/gpio.h" #include "freertos/FreeRTOS.h" #include "freertos/task.h" #include "string.h" #include "driver/i2c.h" #include "esp_rom_sys.h"…

【postman如何生成python代码】

postman如何生成python代码 https://jingyan.baidu.com/article/86fae3461577c27d48121ad1.html

【大模型系列篇】词向量 - 从Word2Vec到ELMo

&#x1f525;&#x1f525;&#x1f525;首先安利一个比较不错的忍不住就想一键三连的大模型科普: 大模型科普专栏 - AI老兵文哲&#xff08;哔哩哔哩&#xff09; 词向量&#xff08;又叫词嵌入&#xff09;已经成为NLP领域各种任务的必备一步&#xff0c;而且随着BERT、GPT等…

JS打造一款你自己的专用字体:使用p5.js与JavaScript实现

前言 在最近的生成艺术项目中遇到一个小问题&#xff1a;如何在作品中优雅地添加文本元素&#xff0c;同时避免使用网络字体&#xff0c;要么侵权要么花钱~~给项目增加不必要的负担&#xff0c;我决定不走寻常路&#xff0c;自己动手&#xff0c;丰衣足食&#xff0c;用JS打造…

C++11 新特性基础

前言 C11是继&#xff0c;C98/03之后的最大的一次更新&#xff0c;这次更新虽然花了很长的时间&#xff0c;但是真的推出了很多的干货&#xff01;本期内容开始我们将介绍C11常用的操作&#xff01; 目录 前言 一、C11介绍 二、统一的列表初始化 1、{}初始化 2、std::in…

【机器学习】循环神经网络(RNN)介绍

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 循环神经网络(RNN)介绍什么是RNN?RNN的基本原理递归神经网络单元前向传播反向传…

Ubuntu下安装和配置MQTT服务器Mosquitto

MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级的通信协议&#xff0c;设计用于物联网设备之间的低带宽、不稳定网络环境下的高效通信。MQTT允许设备通过发布&#xff08;publish&#xff09;和订阅&#xff08;subscribe&#xff09;模式进行消…

清华2024内地录取3500人,其中900多人是走这个政策进来的... ...

2024年&#xff0c; 清华大学共录取本科新生3800余人&#xff0c;其中内地学生3500余人&#xff0c;覆盖全国31个省份1000 多所生源中学;港澳台学生60余人&#xff0c;国际学生约230人。 大李露个脸 清华大学2024年新生数据 普通批提前批共录取1549人&#xff0c;占比44% 强基计…

火龙果检测-目标检测数据集(包括VOC格式、YOLO格式)

火龙果检测-目标检测数据集&#xff08;包括VOC格式、YOLO格式&#xff09; 数据集&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1NdRBsHnYCK9xZd7bzQoN5w?pwd779l 提取码&#xff1a;779l 数据集信息介绍&#xff1a; 共有 1106 张图像和一一对应的标注文件 标注…

macos OneNote 2016 for Mac 官方pkg下载地址 - macos 10.15 Catalion 可用Onenote版本官方下载地址

macos 10.15 Catalion 版本的系统已经无法正常从应用商店下载到可用的Onenote 应用,原因是版本不受支持, 而且onenote官方链接的应用商店地址https://apps.apple.com/us/app/microsoft-onenote/id784801555?mt12在中国地区也无法访问, 所以中国地区用户如果想使用onenote应用…

【云原生系列之SkyWalking的部署】

1、分布式链路追踪 1.1概念 在较大的web集群和微服务环境中&#xff0c;客户端的一次请求需要经过不同的模块&#xff0c;多个不同中间件&#xff0c;多个不同机器一起相互协作才能处理完成客户端的请求&#xff0c;而在这一系列的请求过程之中,处理流程可能是串行执行,也可能…

华为云征文|基于Flexus云服务器X实例之安装长亭雷池waf教程

&#x1f534;大家好&#xff0c;我是雄雄&#xff0c;欢迎关注微信公众号&#xff1a;雄雄的小课堂 先看这里 写在前面何为长亭雷池waf安装社区版雷池雷池环境要求查看华为云Flexus云服务器X实例的配置一条命令安装雷池waf检查查看是否安装成功 雷池使用登录雷池配置站点 写在…

51单片机.之ADC数字模拟转换

1、数字转模拟电路&#xff0c;输出波形&#xff0c;示波器采集来显示波形 单片机通过i2c给&#xff0c;模数转换器&#xff0c;写入数字信号&#xff0c;定时器1s扫描按键的切换 1、key.c 切换波形 #include <reg52.h>sbit KEY_IN_1 P2^4; sbit KEY_IN_2 P2^5; …

五、Selenium操作指南(一)

文章目录 一、基本用法&#xff08;一&#xff09;初始化浏览器对象&#xff08;二&#xff09;访问页面&#xff08;三&#xff09;设置浏览器大小&#xff08;四&#xff09;刷新页面&#xff08;五&#xff09;前进后退 二、获取页面基础属性三、定位页面元素&#xff08;一…

【QNX+Android虚拟化方案】112 - 获取 88Q5152 Switch Port1、Port2 端口的主从模式 / 传输速率 / 链路状态

【QNX+Android虚拟化方案】112 - 获取 88Q5152 Switch Port1、Port2 端口的主从模式 / 传输速率 / 链路状态 1. 读取 P1、P2 端口 主从模式 / 传输速率2. 读取 P1、P2 端口 Link Status3. 读取 P1、P2 端口 Duplex 全双工/半双工模式4. 读取 P1、P2 链路信号SQI质量5. 完整代码…