(论文研读)解决transform训练的不稳定性问题:SAMformer(时序预测)

news2024/9/28 15:21:43

论文链接:https://arxiv.org/abs/2402.10198

作者团队:华为诺亚方舟实验室(华为巴黎研究中心),Laboratory of Informatics Paris Descartes (LIPADE) 巴黎笛卡尔大学(第五大学)信息学实验室
文章收录:ICML2024
开源代码:https://github.com/romilbert/samformer

文章主要内容

主要是去继续开发transfomer在时序预测的潜力问题。

Transformer架构在自然语言处理(NLP)和计算机视觉领域取得了突破性的性能。然而,在多变量长期时间序列预测任务中,Transformer模型的表现却不如一些更简单的线性模型。
作者提出,通过研究一个简单的线性预测问题发现,即使Transformer具有很高的表达能力,但其在训练时难以收敛到理想的解,主要是由于其注意力机制(attention)的原因,导致泛化能力较差。也就是说在一个数据集中得到较好的效果,但是迁移到另一个数据集中却无法得到很好的发挥,这是要解决的问题。

损失函数它是一个“高度非凸”的函数定义域内存在多个局部极小(大)值,而不是仅有一个全局最小(大)值·我们无法简单地沿梯度下降找到全局最小值

我们训练神经网络的目的是:最小化损失函数>损失函数它是一个“高度非凸”的函数在定义域内存在多个局部极小(大)值,而不是仅有一个全局最小(大)值·我们无法简单地沿梯度下降找到全局最小值。就比如我们在训练网络的时候,无限的去relu然后dropout。这个方法就是去克服我们所面临的这个问题。

这种“非凸”来自于:
·网络深度的增加,参数数量的增加(参数复杂性),非线性激活函数(ReLU,tanh)由“非凸”带来的挑战:优化算法可能会陷入局部极小值,而不是找到全局最优解。我们目前的哪些方法是在努力克服这个问题:采用了一些方法,比如:随机梯度下降SGD,自适应调整学习率Adam,正则化dropout。

比如resnet

我们的resnet的原因就是获取更好的损失函数,让我们去更好的训练函数,产生这种凸形曲面,让我们更好的去训练这些模型,产生更好的泛化能力。但是随着resnet的深度增加,我们会发现它的损失函数会变得混乱。如下图(resnet-20这个20是深度,紧接着是损失.)
请添加图片描述

直接说结论:小批量(batch)+带权重衰减(dropout)会让我们的模型更好。

进入正题我们的SAMformer

定义简化编码器

什么是简化编码器?在encoder里面去掉了前馈神奇网络层。如图把transformer->samformer
![请添加图片描述](https://i-blog.csdnimg.cn/direct/8b25f3be77b243da8fe1b2aa2e569a41.png在这里插入图片描述

经过多数的数据进行预测后产出的结果是,transformer在进行训练的时候会陷入局部最小最优解的情况。通过random Tasnformer进行说明得到它的注意力机制是导致这种问题的关键。
在这里插入图片描述
如下图,transformer会☞关注中间,特别是通过softmax后。·固定注意力的Transformer(Random Transformer)的sharpness比收敛到单位矩阵的Transformer(Transformer)低几个数量级。并且
注意力矩阵的嫡随着训练轮次的增加急剧下降(嫡崩溃→过拟合、训练不稳定)。
在这里插入图片描述
在这里插入图片描述

结果是这样的,但是我们还是要关注一下这个作者的模型部分(如下图)
解释一下RevIN进行可逆的归一化,就是将数据变得更加平滑化。然后进行Channel-Wise注意力机制,这个注意力就是(如图)在这里插入图片描述
最后就是直接进行残差和线形层和反归一化操作后得到我们要的结果。
在这里插入图片描述

通过本身随机生成的随机数据进行对比,得到结果是该模型有更好的泛化能力。相比于纯线性的模型提高了百分之14,参数量减少了四倍。
在这里插入图片描述

文章思路

其实这篇文章也是借用了谷歌研究院ICLR2021: Sharpness-aware minimization for efficiently improving generalization (SAM)。这篇文章来提高模型的泛化能力。
在这里插入图片描述
那我文章samtransformer的思路就是在损失函数进行入手,在损失梯度的时候采用一个反向参数,之前不是说模型会卡在某一个局部最小值出不来吗,这里就用一个参数去移动这个极小值点然后去迫使我们的模型去拜托目前的困境。其实就是用sam算法来优化我们的模型,来达到更好的效果,但是并不是直接替代我们的传统损失函数,而是协同工作。使得我们的模型能够收敛到更好的损失值。提高模型精准度,从而提高模型的泛化能力。
在这里插入图片描述

效果

在添加自己的sam算法优化之后对原本没有带的提高至少10% 但是对比一些新模型没有好的效果,可能是因为某些时间步效果原本模型本身不如新模型。总的来说就是用更少的参数达到了更好的性能,并且提高了模型的鲁棒性和可泛化性。
在这里插入图片描述

消融实验

在通道注意力和时序注意力进行对比,通道注意力明显是比时序注意力提升更多的。所以在相同情况下是更好的。并且对比了不同的损失函数对实验的影响,以及可移动参数ρ对于拜托局部最优的情况进行对比。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066891.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【笔记篇】Davinci Configurator SomeIpXf模块

目录 1 简介1.1 架构概览2 功能描述2.1 特性2.2 初始化2.3 状态机2.4 主函数2.5 故障处理3 集成4 API描述5 配置1 简介 本文主要描述了AUTOSAR SomeIpXf模块的功能。 SomeIpXf主要用途是对数据进行SOME/IP格式的序列化和反序列化。 1.1 架构概览 SomeIpXf在AUTOSAR软件架构…

环绕音效是什么意思,电脑环绕音效怎么开

Boom 3D是一款专业的音效增强软件,它拥有先进的音效处理技术和丰富的音效设置选项,可以为用户打造出高度定制化的音频体验,Boom 3D还拥有简洁直观的界面,操作简单易懂,即使是音频技术的新手也能轻松上手。本篇文章就将…

Mybatis实现员工管理系统

文章目录 1.案例需求2.编程思路3.案例源码4.小结 1.案例需求 在上次做的父子模块的maven以及Ajax实现人工管理系统的基础上使用Mybatis实现员工管理系统的增删改查,具体运行效果如下: 2.编程思路 Mybatis框架的一般执行流程: 创建MyBati…

基于改进字典的大数据多维分析加速实践

一、背景 OLAP场景是大数据应用中非常重要的一环,能够快速、灵活地满足业务各种分析需求,提供复杂的分析操作和决策支持。B站主流湖仓使用Iceberg存储,通过建表优化可以实现常规千万级的指标统计秒级查询,这样就能快速搭建可视化报…

WRF输出结果的可视化展示与分析:以风速为例

1.前言 天气研究与预报 (WRF) 模型是一种功能强大的数值天气预报系统,用于模拟各种尺度的大气现象。WRF 生成大量输出数据,可为气象和气候研究、天气预报和环境管理提供宝贵信息。 WRF 输出数据通常存储在 netCDF 文件中,其中包含具有不同单位…

AI生成PPT怎么用?5款AI PPT工具助你轻松制作演示文稿

当你站在山西应县木塔之下,仰望这座千年古塔的雄伟与震撼,心中不禁涌起一股对历史与建筑艺术的敬畏之情。 想象一下,如果将这份震撼与敬仰融入到你的演示文稿中,那将是多么引人入胜的体验。而这一切,只需借助AI生成PP…

Kubernetes 运维工程师必备:K8s 基础面试题精编(三)

Kubernetes 运维工程师必备:K8s 基础面试题精编(三) 1. 在Kubernetes集群中如何查看Pod的日志?2. 如何将一个已经部署的应用程序从一个命名空间迁移到另一个命名空间?3. 如何更新Kubernetes集群中的应用程序镜像版本?4. 如何通过Kubernetes进行自动扩容?5. 如何手动扩容…

震惊!!大模型玩转JS逆向

不知道大家有没有被JS代码混淆折磨过,我之前搞爬虫的时候,也经常被OB代码混淆搞到心态崩溃,但是自从接触了大模型,腰不疼了,腿不酸了,OB代码直接交给大模型,简直不要太爽 这是一段经过OB混淆之…

盘点12个国内外主流CRM系统,哪一个能免费试用?

客户关系管理(CRM)系统已成为企业成功的关键工具。它们不仅帮助企业改善客户关系,还提高了销售效率和业务分析能力。在众多选择中,我们特意盘点了12个国内外主流的CRM系统,从地位、业务应用以及特点三方面进行解析&…

车牌号字符检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

车牌号字符检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 随着智能交通系统的快速发展,车牌号字…

代码随想录算法训练营第 50 天 |98. 所有可达路径

代码随想录算法训练营 Day50 代码随想录算法训练营第 50 天 |98. 所有可达路径 目录 代码随想录算法训练营前言LeetCode98. 所有可达路径 一、图论基础概念1、图的种类2、度3、连通性:节点的连通情况4、图的构造5、图的遍历方式 二、深度优先搜索1、深度优先搜索的…

最全诗词近10万诗词大全ACCESS\EXCEL数据库

其实破解弄到这个数据库我没有多少喜悦,原因是我已有的一些诗词比如全唐诗、全宋词等加起来的话也差不多这个数,但是因为这个数据库是完整破解的,比自己用已有的诗词数据库整合来说更加的好; 分类情况统计:汉代诗词&am…

v500大程序之IIC调试

虽然写的是IIC,但其实在system bd中并没有勾选IIC0、IIC1,而是根据IIC协议写了相关的函数(不是我写的)。 用到的RTC是DS3231芯片。 目前遇到的问题是: zynq调试成功;fmql调试失败,其中年、日、…

【AD24报错】原理图编译后出现Off grid ## at的解决方案

【AD24报错】原理图编译后出现Off grid ## at的解决方案 在使用AD24进行原理图设计过程中,编译时出现Off grid ## at…错误。 1 错误原因 (1)元件放置不准确 在放置元件时,如果没有将元件的引脚或中心点准确地放置在网格点上&…

进程的创建、终止

目录 前言1. 进程创建2. 进程终止3. exit && _exit 的异同3.1 相同点3.2 不同点 前言 紧接着进程地址空间之后,我们这篇文章开始谈论进程控制相关的内容,其中包括进程是如何创建的,进程终止的几种情况,以及进程异常终止的…

基于vue框架的比赛门票出售的系统12lh6(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,赛事类型,赛事信息,比赛队伍,比赛结果 开题报告内容 基于Vue框架的比赛门票出售系统开题报告 一、研究背景与意义 随着体育产业的蓬勃发展,各类体育赛事如雨后春笋般涌现,吸引了全球亿万观众的关注与参与…

域控ntdsutil修改架构、域命名、PDC、RID、结构主机

#笔记记录# 五大操作主机角色 架构主机(schema master)域命名主机(naming master)RID主机(RID master)基础架构主机(infrastructure master)PDC仿真器主机(PDC&#xf…

算法力扣刷题记录 八十九【332.重新安排行程】

前言 回溯章节第13篇。 记录 八十九【332.重新安排行程】 一、题目阅读 给你一份航线列表 tickets ,其中 tickets[i] [fromi, toi] 表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。 所有这些机票都属于一个从 JFK(肯尼迪国际机场&am…

全网最全的Fiddler抓包的详细教学-直接收藏!

一、Fiddler与其他抓包工具的区别 c 2、Wireshark是通用的抓包工具,能获取HTTP,也能获取HTTPS,但是不能解密HTTPS,所以wireshark看不懂HTTPS中的内容,但如果是TCP、UDP协议可以用wireshark; 3、Httpwatch也…

豆包大模型迎来多维升级:综合性能提升20.3% 零售、汽车等行业落地提速

2024年无疑是科技行业公认的“AI大模型落地元年”,大模型应用的供需关系正在经历着前所未有的变化。 与过去AI厂商单方面探索应用场景的做法不同,今年我们见证了更多的重要行业和头部企业,在降本提效、以技术驱动新发展和新升级的需求之下&a…