炸了炸了,LSTM结合Transformer推陈出新,准确度明显提升!

news2024/9/23 9:35:51

LSTM与Transformer的结合,作为深度学习中的一项创新技术,近年来在学术界和工业界引起了广泛关注。这种混合模型巧妙地融合了LSTM在处理序列数据时的长短期记忆能力与Transformer在捕捉长距离依赖关系方面的优势,从而在文本生成、机器翻译和时间序列预测等多个领域取得了显著的性能提升。

为了促进对这一技术更深入的理解和应用,我们精心挑选了近两年内发表的20篇关于LSTM+Transformer的前沿论文。这些论文不仅涵盖了最新的研究成果,还提供了相关的数据集和代码实现,为研究人员和实践者提供了宝贵的资源和灵感。

三篇论文详解

1. Embracing Federated Learning: Enabling Weak Client Participation via Partial Model Training

方法
  • 本文提出了一种名为EmbracingFL的联邦学习(FL)框架,旨在通过部分模型训练方法,使所有可用客户端(无论其系统资源如何)都能参与分布式训练。

  • 该框架建立在一种新颖的部分模型训练方法上,每个客户端根据自己的系统资源能力训练连续的输出层。

  • 采用多步前向传播(multi-step forward pass)策略,弱客户端只接收其内存空间允许的输入层数量,执行前向传播,记录输出激活矩阵,并丢弃当前层以接收下一层。

  • 在弱客户端上进行局部训练,只对分配的输出层子模型执行反向传播,从而减少内存占用和计算工作量。

  • 通过理论分析,证明了EmbracingFL在非凸和光滑问题上保证收敛到静止点附近的区域,即使在弱客户端数量和分配给他们的层数不同的情况下。

创新点
  • 创新性地提出了一种层级部分训练策略,允许弱客户端只训练模型的一部分,而不是整个模型,这在以往的研究中并不常见。

  • 通过SVCCA(奇异向量典型相关分析)量化了不同客户端之间输出数据的相似性,发现输出层在客户端之间具有可区分的模式,这为部分模型训练方法提供了理论支持。

  • 提出了一种多步前向传播算法,显著减少了弱客户端的内存占用和计算成本,同时保持了模型架构的一致性,简化了实现复杂性。

  • 通过实验验证了EmbracingFL在多种设置下的有效性,包括不同的客户端数量、数据集和模型,展示了其在异构环境中的高准确性和鲁棒性。

  • 引入了对比学习(contrastive learning)来增强模型对数据的表示能力,通过联合学习策略提高了模型对标签噪声和数据不平衡的鲁棒性。

  • 证明了EmbracingFL在保持高准确度的同时,能够显著减少弱客户端的计算和通信负担,为实际大规模FL应用提供了一种可行的解决方案。

IMG_256

2.Enhancing IoT Security with CNN and LSTM-Based Intrusion Detection Systems

方法
  • 该论文提出了一种基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的混合模型,用于增强物联网(IoT)设备的安全性。

  • 该模型结合了CNN的空间特征提取能力和LSTM的序列记忆保持能力,以识别和分类IoT流量为良性或恶意活动。

  • 数据预处理:原始数据集包含45个不同特征,包括33种不同的攻击实例和正常流量。数据被组织成矩阵形式以便于模型训练,并转换为二维数据以符合模型输入要求,同时对标签进行了二进制转换。

  • 数据分割:将预处理的数据集分为训练集和验证集,以及最终测试集。训练集占80%,验证集占20%,以评估模型性能。

  • 模型架构:提出的模型采用多层结构,包括输入层、一维CNN层、平均池化层、展平层和密集层。模型首先接收45个特征的序列,然后应用一系列卷积层、批量归一化和平均池化层来提取特征和模式。接着,使用ReLU激活函数的密集层将特征转换为更高层次的表示。最后,通过softmax激活函数的密集层进行二分类预测。

创新点
  • 混合模型的提出:将CNN和LSTM结合,利用CNN进行模式识别和LSTM进行复杂时间依赖性的识别,提高了检测和分类的准确性和效率。

  • 新数据集的应用:使用了新的CICIoT2023数据集进行训练和最终测试,该数据集包含七类33种攻击,涵盖了物联网网络流量中的典型和新兴攻击类型。

  • 性能评估:通过使用CICIDS2017数据集进行进一步的测试,验证了模型的泛化能力,确保了模型在不同数据集上的性能评估。

  • 高准确率和低误报率:所提出的模型在CICIoT2023数据集上达到了98.42%的准确率和0.0275的最小损失,同时保持了9.17%的低误报率和98.57%的F1分数。

  • 实时应用潜力:论文提出未来工作将考虑在实时场景中实施模型,例如在Raspberry Pi或FPGA上部署,以评估模型在实际环境中的表现。

  • 模型改进方向:论文提出了未来工作的方向,包括使用所有CICIoT2023数据集进行更深入的分析,以及考虑集成Transformer模型,如注意力层,以进一步提高性能。

IMG_257

3. Hardware-Efficient EMG Decoding for Next-Generation Hand Prostheses

方法
  • 本文提出了一种新颖的基于吸引子(attractor-based)的神经网络,用于实现下一代便携式机器人假手(RPHs)的芯片级运动解码。

  • 所提出的架构包括一个编码器(encoder)、一个注意力层(attention layer)、一个吸引子网络(attractor network)和一个细化回归器(refinement regressor)。

  • 该模型在四个健康受试者上进行了测试,达到了80.6±3.3%的解码准确率。

  • 该模型与现有的LSTM和CNN模型相比,分别紧凑了120倍和50倍以上,同时保持了可比的(或更优越的)解码准确率。

  • 该模型通过减少计算次数,在保持准确性的同时显著降低了复杂性,适合作为系统级芯片(System-on-Chip)有效集成。

创新点
  • 吸引子网络:引入了一种新颖的基于吸引子的网络,用于提取最可能的状态(吸引子),并根据它们的概率分布进行预测,这模仿了手指自然倾向于保持特定位置的特性。

  • 双重预测策略:提出了双重预测吸引器-细化策略(DPARS),该策略首先基于吸引子提供粗略估计,然后使用轻量级回归器进行细化,以提高RPHs运动的自然性。

  • 硬件效率:通过显著降低模型大小和减少计算量,实现了硬件效率,使得模型非常适合轻量级、易于获取的AI驱动的假手,这对改善截肢者的生活质量具有重要意义。

  • 编码器和注意力网络的结合:使用编码器网络进行降维,以及注意力网络关注数据流中最重要的样本,提高了预测的准确性并降低了计算负担。

  • 熵正则化:在目标函数中使用熵项来提取吸引子,通过仅分配几个高度可能的状态到吸引子集,减少了计算次数,提高了解码的准确性。

  • 模型紧凑性:所提出的DPARS模型在参数数量上大大减少,与现有模型相比,实现了更高的紧凑性,这对于硬件实现来说是一个显著的优势。

  • 实时EMG解码:模型能够实时解码EMG信号,这对于实现假手的实时控制和提高用户满意度至关重要。

IMG_258

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2078561.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

铭飞MS部署docker-compose方式

官网文档只有docker部署文档,给了一点启发,在此上部署一下用docker-compose,出个教程,方便大家学习 version: 3services:nginx-web:image: nginx:1.21.3container_name: nginx-webenvironment:# 时区上海TZ: Asia/Shanghaiports:…

移远通信推出大模型解决方案,重塑千行百业智能边界

近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。 作为全球领先的物联网整体解决方案供应商的移远通信,于近日正…

深入理解GPU内存分配:机器学习工程师的实用指南与实验

给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?要回答这个问题,我们需要将流程分解为基本组件,并从底层理解内存需求。以下实验(可以在Google Colab上运行)将帮助你理解核心概念。 预留与分配 PyTorch预留了更多内存,但只分…

Gradle安装保姆级教程

Gradle安装教程 1. 下载 Gradle 官网:https://gradle.org 点击 Install Gradle 8.10 两个选择一个安装 2. 安装 下载好后解压即可 3.配置 3.1 配置环境遍历 GRADLE_HOMED:\env\gradle\gradle-8.10 # 此处填写自己放置的位置然后加入到系统变量的path中 %GRADL…

SCDN:网络安全新伙伴,内附场景使用解决方案

在数字化时代,随着网络应用的普及与复杂化,CDN(内容分发网络)作为提升网站访问速度与用户体验的关键技术,已经成为众多企业和个人站长的首选。然而,面对日益严峻的网络攻击威胁,如DDoS攻击、CC攻…

SparkSQL缓存的用法

前言 SparkSQL关于缓存的操作语句官方给了三种: CACHE TABLE(缓存表)UNCACHE TABLE(清除指定缓存表)CLEAR CACHE(清除所有缓存表)下面我们详细讲解这些语句的使用方法。 CACHE TABLE CACHE TABLE 语句使用给定的存储级别缓存表的内容或查询的输出。如果一个查询被缓存…

autosub:安装与使用

https://www.zhihu.com/question/662188521/answer/3607536719 题目描述:拿到了一段mp4文件。尝试了一下ffmpeg,发现里面没有字幕流。现在需要的是导出他的字幕。 搜索了一下,发现有很多公司有相关的产品。但是无一例外都是要付费的&#x…

计算机网络面试真题总结(六)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 网络五层模型分别负责什么? 物理层: 负责把…

Day48 | 107.寻找存在的路径

语言 Java 107.寻找存在的路径 题目 107. 寻找存在的路径 题目描述 给定一个包含 n 个节点的无向图中,节点编号从 1 到 n (含 1 和 n )。 你的任务是判断是否有一条从节点 source 出发到节点 destination 的路径存在。 输入描述 第一…

最适合企业的财务管理软件:10款热门推荐

文中介绍的财务管理软件工具有:合思、金财管家、金蝶EAS、鼎捷易成、速达3000、畅捷通T、东软财务软件、Xero、Wave、FreshBooks。 在如今这个信息爆炸的时代,市场上有太多选择,每款财务管理软件都声称自己是最好的,但究竟哪一款才…

基于mallat小波变换的图像分解和重建算法matlab仿真,对比不同分解层数图像重建质量

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 (完整版代码包含详细中文注释和操作步骤视频&#xff09…

.NET 给NuGet包添加Readme

前言 当我们编写了一个NuGet包后,NuGet包的说明会非常重要 我们以之前IX.RCL.Front 这个项目为例 1.添加Readme.md 在项目根目录 添加 Readme.md 文件属性中 生成操作 修改为:内容 2. 在Readme.md中添加 我们想给使用者 的提示 3.生成一个新版本的…

计算机毕业设计选题推荐-农村产权交易与数据可视化平台-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

修改原神角色数据列表:更好用了

<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>原神角色数据列表</title><link rel&qu…

教你从零开始构建大模型!《Python 机器学习》作者新书来了!

自 ChatGPT发布以来&#xff0c;大型语言模型&#xff08;LLM&#xff09;已经成为推动人工智能发展的关键技术。 近期&#xff0c;机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka又写了一本新书 ——《Build a Large Language Model (From Scratch)…

Qt_信号槽机制

文章目录 Qt中的信号槽机制1.在widget.h添加处理函数的声明2.添加处理函数的定义3.建立信号和槽的连接4.运行 Qt中的信号槽机制 本质就是给按钮的点击操作&#xff0c;关联上一个处理函数&#xff0c;当用户点击的时候&#xff0c;就会执行这个处理函数。 函数&#xff1a;stat…

string类(3)

string类&#xff08;3&#xff09; push_back 这是尾插一个字符。 append 这是尾插字符串。可以看出来设计得很复杂。 实践中比较常用的是&#xff1a; string s("hello world"); s.push_back( ); s.push_back(x); s.append("zzzzzzzz");用得更多的是&…

PHP移动端商城程序多端支付全端分享系统小程序源码

&#x1f4f1;&#x1f4b0;「移动端商城多端支付全端分享系统」——打造无缝购物新体验&#xff01;&#x1f6cd;️✨ &#x1f680; 开篇&#xff1a;一键触达&#xff0c;购物无界&#xff01; 在这个快节奏的时代&#xff0c;购物也需要跟上步伐&#xff01;&#x1f3c…

PY信号和槽

知不足而奋进 望远山而前行 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 系列文章目录前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 前言 在使用PyQt进行图形用户界面&#xff08;GU…

【网络】数据链路层-MAC帧

数据链路层-以太网与ARP协议 文章目录 1.数据链路层2.以太网2.1什么是以太网2.2MAC帧格式 3.ARP协议3.1为什么有ARP协议&#xff1f;3.2ARP的定位3.3ARP协议工作流程3.4ARP数据格式 4.RARP协议 1.数据链路层 数据链路层是网络协议栈中最底层的内容&#xff0c;而在之前对其他…