金融分析-Transformer模型(基础理论)

news2024/12/16 14:25:54

Transformer模型

1.基本原理

transformer的core是注意力机制,其本质就是编码器-解码器。他可以通过多个编码器进行编码,再把编码完的结果输出给解码器进行解码,然后得到最终的output。

1.1·编码器

数据在编码器中会经过一个self-attention的模块进行加权,之后得到一个特征象征Z。

Z的计算公式如下(z=Attention(Q,K,V)):

然后接着我们会进入到编码器的下一个模块---一个拥有两层全连接层的前馈神经网络(他的第一层激活函数是ReLU,第二层激活函数是一个线性激活函数,如下

FFN(Z)= max ( 0, ZW1 + b1 ) W2 + b2

)。

1.2·解码器

在解码器中它多了一个encoder-decoder Attention,两个Attention分别用于计算输入和输出的权值。

encoder-decoder Attention:我正在测试的股价和特征向量之间的关系。

在encoder-decoder attention中, Q 来自于解码器的上一个输出,K 和 V 则来自于与编码器的输出。如图

mask:是指掩码,指把某些值更新使其在参数更新时不产生效果。mask包括padding mask 和 sequence mask。

Padding Mask:(填充加忽略)每个批次输入序列长度是不一样,需要进行对齐。给较短的序列后面填充 0,对于太长的序列,截取左边的内容,把多余的直接舍弃。这些填充的位置加上一个非常大的负数(负无穷),这样的话,经过 softmax,这些位置的概率就会接近0。

Padding mask 通常是一个与输入序列形状相同的张量,其中的每个值都是一个布尔值(Boolean)。具体来说:

  • True:表示该位置是实际的输入数据。

  • False:表示该位置是填充的部分。

  • 为了屏蔽填充部分,padding mask 会被应用到 QK^TQKT 的结果上,具体操作如下:

    masked_attention_scores=attention_scores+padding_mask

    其中,padding mask 是一个与 attention scores 形状相同的张量,填充部分的值为负无穷(如 −∞),而实际输入部分的值为 0。这样,在经过 softmax 操作后,填充部分的权重会接近于零,从而被忽略。

Sequence mask:在序列建模任务中,特别是在自回归模型(如咱们这个Transformer中的解码器)中,模型需要逐个时间步生成输出。为了防止模型在生成当前时间步的输出时“看到”未来的信息,需要使用 sequence mask 来屏蔽未来时间步的信息。

Decoder的输出是浮点数的向量列表。把得到的向量映射为需要的词,需要线性层和softmax层获取预测为词的概率。

线性层是一个简单的全连接神经网络,它是由Decoder堆栈产生的向量投影到一个更大,更大的向量中,称为对数向量

假设实验中我们的模型从训练数据集上总共学习到十万个股价数据("output")这对应的Logits矢量也有十万个长度(每一段表示了一个唯一股价的得分)。在线性层之后是一个softmax层,softmax将这些分数转换为概率。选取概率最高的索引,然后通过这个索引找到对应的股价作为输出。

1.3·self-Attention

self-Attention :这个在我们的金融分析中可以理解为已经测试过的股价和现在正在测试印证的股价之间的关系。

其核心内容是为输入向量每个内容学习一个权重,比如说我输入了上海电气,三年来的1000多个股价数据作为输入向量。那么我的每一天的这个股价就可以学习到一个权重。而且每个股价的权重是由三个不同的向量组成的,分别是Query向量( Q ),Key向量( K)和Value向量( V ),长度均是64。它们是通过3个不同的权值矩阵由嵌入向量 X 乘以三个不同的权值矩阵 WQ,WK ,WV 得到,其中三个矩阵的尺寸也是相同的,均是 512*64。示例如下:

1.嵌入:首先是把输入转换成嵌入向量的X(带有位置编码)。

2.qkv向量:其次我们计算嵌入向量的 qkv三个向量值。

3.注意力打分(即本元素与全部元素间的关联性):接着计算score,对score进行归一化(除以K的维度平方根,及公式中的√dk)。

4.归一化:对score施以softmax激活函数,使得最后的列表和为1(softmax1+softmax2+...+softmaxn=1)

softmax的值表示其在整个向量中的表示程度。

5.加权求和:softmax点乘Value值 v ,得到加权的每个输入向量的评分v,最终求和,生成self-attention层的输出。

计算流程:

但是对于我们金融分析来说,我们并不需要十分了解self-Attention的底层逻辑,那么我把它的底层逻辑换算成简单的原理来解释一下。就是来计算每个数据和其他所有数据之间的关系。比如说我要分析360的股市,那么它有很多概念,网络游戏,AI语料,虚拟数字人,软件服务,信息安全等。(这里我们把360本身去除,为了方便例子理解)那么它的处理流程就可以简化为下图(其中的数字占比表示为自注意机制所得出的两者关系):

与上同理我们这里面所有的输入数据都会进行这一样的计算。

1.4.Multi-Head Attention(h个self-Attention的集合)

1.先把输入数据x输入到h个self-Attention中

得到特征矩阵Zi,i∈{1,2,..,h}

2.把h个特征矩阵Zi,i∈{1,2,..,h}按列向量拼成

一个大的特征矩阵(也可以通过前馈神经网络把

所有特征矩阵降为一个特征矩阵Z)

3.最后进行一层全链接得到z

1.5.Positional Encoding

在介绍Positional Encoding前必须先介绍Embedding,这是在输入的序列被送入编码器前发生,会在每个元素原始数据中嵌入一个数字,使所有元素的嵌入数组组成数字序列,最后嵌入层再把数字序列映射成嵌入向量。

由于模型没有Recurrence/Convolution,因此是无法捕捉到序列顺序信息的,为了使用序列的顺序信息,需要将tokens的相对以及绝对位置信息注入到模型中去。

transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding,维度和embedding(embedding是将这些离散的符号转换为连续的向量表示,从而使得模型能够处理这些符号,并捕捉它们之间的语义关系。)的维度一样,这个向量能决定当前元素的位置,或者说在一个输入矩阵中不同的元素之间的距离。这样,模型可以区分序列中不同位置的元素,从而更好地捕捉序列的顺序信息,计算方法如下

其中pos是指当前元素在输入数据中的位置,i是指向量中每个值的index,偶数位置,使用正弦编码,奇数位置,使用余弦编码dmodel 是词嵌入的维度。最后把这个Positional Encoding与embedding的值加,作为输入送到下一层。

1.6.残差模块与normalization

在transformer中,每一个子层(self-attetion,ffnn)之后都会接一个残差模块,并且有一个Layer normalization;

2个编码器与解码器的例子如下:

那为什么要引入残差呢?因为随着网络深度的增加,训练变得愈加困难,在基于随机梯度下降的网络训练过程中,误差信号的多层反向传播非常容易引发“梯度弥散”(梯度过小会使回传的训练误差信号极其微弱)或者“梯度爆炸”(梯度过大导致模型出现NaN)的现象。而残差的引入就能极大改善这个问题。

残差模块:y=F(x,w)+x 高速公路网络的“变换门”和“携带门”都为恒等映射时(即令T=1,C=1T=1,C=1),就得到了残差网络

  • xx 是输入。

  • F(x, w)F(x,w) 是网络中的一部分,通常是一个或多个卷积层。

  • yy 是输出。

F(x,w) 表示的是网络的“变换”部分,而 x 则是“携带”部分。当“变换门”和“携带门”都为恒等映射时(即 T = 1 和 C = 1),公式简化为:

y = x + F(x, w)

残差网络的核心思想是通过引入“跳跃连接”(skip connection)(跳跃连接允许输入x直接传递到输出,而不经过中间的变换层。这种设计使得网络可以学习到输入和输出之间的残差,而不是整个映射。),使得网络可以直接学习输入和输出之间的残差(即 F(x, w)),而不是直接学习输出。

在引入残差网络后,还需要对网络层输出的数据进行再归一化,来减小反向传播的偏差,这里我们使用layer normalization(归一化数据的一种方式,不过 LN 是在每一个样本上计算均值和方差,而每一个特征维度上进行归一化)。

参考文献:

https://blog.csdn.net/weixin_44695969/article/details/102997574 

https://blog.csdn.net/jiaowoshouzi/article/details/89073944 

https://blog.csdn.net/qq_41664845/article/details/84969266 

https://zhuanlan.zhihu.com/p/139595546 

http://jalammar.github.io/illustrated-transformer

https://zhuanlan.zhihu.com/p/48508221 

https://zhuanlan.zhihu.com/p/60821628 

https://blog.csdn.net/u013069552/article/details/108074349

https://blog.csdn.net/chen_yiwei/article/details/88671959

https://blog.csdn.net/li15006474642/article/details/104391202

https://blog.csdn.net/weixin_42035282/article/details/138375831

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2260543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS-手写new

我们先再来理一理原型 Object1 {name:deng,age:18 } Object2 {name:ru,age:18 } const Person function(){} Person.prototype Object1; const p1 new Person(); console.log(p1.name); //deng Person.prototype null; console.log(p1.name); //deng上面给Person的构造函…

深圳国威HB1910数字IP程控交换机 generate.php 远程命令执行漏洞复现

0x01 产品描述: 深圳国威主营国威模拟、数字、IP 交换机、语音网关、IP 电话机及各种电话机。深圳国威电子有限公司HB1910是一款功能强大的网络通信设备,适用于各种企业通信需求。 0x02 漏洞描述: 深圳国威电子有限公司HB1910数字IP程控交换机generate.php存在远程命令执行…

机器学习预处理-表格数据的分析与可视化

机器学习预处理-表格数据的分析与可视化 最近在做一些模型部署的工作,但是发现对于数据的处理、分析、训练方面还是缺少一些系统的学习,因此抽空余时间分析总结一些使用python进行数据处理的实用案例,希望能够方便自己已经其他人的Ctrl CV。…

鸿蒙项目云捐助第六讲鸿蒙App应用的首页导航资讯功能的实现

鸿蒙项目云捐助第六讲鸿蒙App应用的首页导航资讯功能的实现 前面的教程中已实现了启动页,登录页,注册页及首页的部分功能。这里有一些朋友提出问题,如何设置登录页面的背景图片。这里稍带说一个这个功能的实现。 一、登录页面的背景图片实现…

【Vue3】前端使用 FFmpeg.wasm 完成用户视频录制,并对视频进行压缩处理

强烈推荐这篇博客!非常全面的一篇文章,本文是对该博客的简要概括和补充,在不同技术栈中提供一种可行思路,可先阅读该篇文章再阅读本篇: FFmpeg——在Vue项目中使用FFmpeg(安装、配置、使用、SharedArrayBu…

17、ConvMixer模型原理及其PyTorch逐行实现

文章目录 1. 重点2. 思维导图 1. 重点 patch embedding : 将图形分割成不重叠的块作为图片样本特征depth wise point wise new conv2d : 将传统的卷积转换成通道隔离卷积和像素空间隔离两个部分,在保证精度下降不多的情况下大大减少参数量 2. 思维导图 后续再整…

金蝶云苍穹踩过的坑(慢慢更新)

IDEA不能用最新版,不然搜不到金蝶的插件。 我用的是2024.1.7/2023.1.7 IDEA里增加金蝶插件库的地址也变了,现在是 https://tool.kingdee.com/kddt/idea-updatePlugins.xml 金蝶云苍穹部署在服务器 MAC本地IDEA调试的时候,登录N次能成功一次…

springboot438校园志愿者管理系统(论文+源码)_kaic

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统校园志愿者管理系统信息管理难度大,容错率低&…

高项 - 信息系统管理

个人总结,仅供参考,欢迎加好友一起讨论 博文更新参考时间点:2024-11-09 高项 - 章节与知识点汇总:点击跳转 文章目录 高项 - 信息系统管理管理方法管理基础规划和组织设计和实施运维和服务优化和持续改进 管理要点数据管理运维管…

05、GC基础知识

JVM程序在跑起来之后,在数据的交互过程中,就会有一些数据是过期不用的,这些数据可以看做是垃圾,JVM中,这些垃圾是不用开发者管的,它自己会有一套垃圾回收系统自动回收这些内存垃圾,以备后面继续…

【前端开发】HTML+CSS网页,可以拿来当作业(免费开源)

HTML代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content_lizhongyu"widthdevice-width, initial-scale1.0"><title>小兔鲜儿-新鲜、惠民、快捷<…

【Unity3D】无限循环列表(扩展版)

基础版&#xff1a;【Unity技术分享】UGUI之ScrollRect优化_ugui scrollrect 优化-CSDN博客 using UnityEngine; using UnityEngine.UI; using System.Collections.Generic;public delegate void OnBaseLoopListItemCallback(GameObject cell, int index); public class BaseLo…

Git-基础操作命令

目录 Git基础操作命令 case *查看提交日志 log 版本回退 get add . Git基础操作命令 我们创建并且初始化这个仓库以后&#xff0c;我们就要在里面进行操作。 Git 对于文件的增删改查存在几个状态&#xff0c;这些修改状态会随着我们执行Git的命令而发生变化。 untracked、…

Flutter Navigator2.0的原理和Web端实践

01 背景与动机 在Navigator 2.0推出之前&#xff0c;Flutter主要通过Navigator 1.0和其提供的 API&#xff08;如push(), pop(), pushNamed()等&#xff09;来管理页面路由。然而&#xff0c;Navigator 1.0存在一些局限性&#xff0c;如难以实现复杂的页面操作&#xff08;如移…

【容器】k8s学习笔记基础部分(三万字超详细)

概念 应用部署方式演变 在部署应用程序的方式上&#xff0c;主要经历了三个时代&#xff1a; 传统部署&#xff1a;互联网早期&#xff0c;会直接将应用程序部署在物理机上 优点&#xff1a;简单&#xff0c;不需要其它技术的参与 缺点&#xff1a;不能为应用程序定义资源使…

PostgreSQL 常用运维SQL整理

一、查询并杀会话 -- 查询会话 select pid,usename,client_addr,client_port,query_start,query,wait_event from pg_stat_activity; -- 杀会话 select pg_terminate_backend(pid号); -- 使用如下命令自动生成杀会话语句 select datid,datname,pid,usesysid,usename,applicat…

前端0基础用Cursor完成管理系统页面 - 1

Cursor下载 下载链接: https://www.cursor.com/ Hello World! 作为完全不会前端的人&#xff0c;首先需要让AI帮我们搭建一个HelloWorld界面 确定语言框架 首先要给AI框定好前端语言和框架&#xff0c;由于AI的物料大量来自网上的开源项目&#xff0c;所以越是受欢迎的开源…

系统组件优化的思考框架

我之前的文章里有分享过自己总结的做技术选型的思考框架&#xff0c;本文将会分享一下我总结的做系统组件调优/优化的思考框架。 组件优化的思考框架 常见的互联网架构基本离不开数据库、缓存、消息队列、搜索、数据处理等等各种组件&#xff0c;虽然组件的形态不一、功能不同…

Linux shell的七大功能 ---自动补齐、管道机制、别名

1、自动补齐---TAB 输入命令的前几个字符&#xff0c;按下tab键&#xff0c;会自动补齐完整的字符&#xff0c;若有多个命令、文件或目录的前几个字符相同&#xff0c;按下tab将会全部列举出来 2、管道机制---| 例如&#xff1a;ls -- help |more 将有关ls的帮助内容传递给“|…

计算机网络-基础概念(HTTP,TPC/IP, DNS,URL)

HTTP不同的版本 HTTP0.9于1990年问世&#xff0c;此时HTTP并没有作为正式的标准被建立。HTTP正式被公布是1996年的5月&#xff0c;版本命名为HTTP/1.0。HTTP1.1&#xff0c;1997年1月公布&#xff0c;目前仍然是主流版本的HTTP协议版本。 TCP/IP 通常使用的网络是在TCP/IP协…