RWKV 社区近期有哪些学术研究进展?

news2024/9/20 1:00:24

2024 年 5 月 7 日,我们呼吁大家使用 RWKV-6 替代 Mamba 进行科研。截至 7 月 29 日,来自全球各地的科研团队已经陆续发表了 7 篇基于 RWKV 架构、在各个领域进行深入研究的论文。

新的 RWKV 学术研究主要聚焦于具身智能、图像处理、模型架构三个方面。

机器人/具身智能

Decision-RWKV

  • **论文名称:**Optimizing Robotic Manipulation with Decision-RWKV: A Recurrent Sequence Modeling Approach for Lifelong Learning
  • 论文链接: https://arxiv.org/abs/2407.16306
  • 仓库地址: https://github.com/ancorasir/DecisionRWKV

南方科技大学的研究团队提出了 Decision-RWKV (DRWKV) 模型,并将经验回放(experience replay)的概念与 Decision-RWKV 模型相结合,设计出适合机器人的终身学习算法

Decision-RWKV 框架

Decision-RWKV 团队在 OpenAI Gym 环境(使用 D4RL 数据库)和 D’Claw 平台(使用离线数据集)上进行了广泛的实验,以评估 DRWKV 模型在单任务测试和终身学习场景中的性能:

DRWKV-Method_TimeCost

DRWKV-Method_Loss

DRWKV-Result_MemoryCost

实验结果显示:Decision-RWKV 可有效地处理多个子任务。与此同时, Decision-RWKV 相比 DT(Decision-Transformer)显著地减少了推理时间和内存占用,使其成为现实应用(尤其是机器人领域)的更佳选择。

图像处理

Restore-RWKV

  • 论文名称: Restore-RWKV: Efficient and Effective Medical Image Restoration with RWKV
  • 论文链接: https://arxiv.org/abs/2407.11087

Restore-RWKV 是首个基于 RWKV 的医学图像修复模型。文章提出了一种循环 WKV(Re-WKV)注意力机制,将双向注意力作为全局感受野的基础,并采用循环注意力来模拟来自不同扫描方向的 2D 依赖关系。

其次,Restore-RWKV 团队还开发了一个全向 token 转移(Omni-Shift)层,该层通过从各个方向和在广泛的上下文范围内转移 token 来增强局部依赖性。

Restore-RWKV 架构

实验结果表明,Restore-RWKV 在各种医学图像修复任务中均具有卓越的性能,包括 MRI 图像超分辨率、CT 图像去噪、PET 图像合成和一体化医学图像修复。

有效感受野

Re-RWKV-Effective Receptive Field

可视化对比实验

Re-RWKV-Visualization

RWKV-SAM

  • **论文名称:**Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model
  • **论文链接:**https://arxiv.org/abs/2406.19369

“RWKV-SAM”(Segment Anything Model)是基于 RWKV 的图像分段切割方法。

RWKV-SAM 架构

与 Transformer 模型相比,RWKV-SAM(图像分割模型) 实现了 2 倍以上的加速,且可以在各种数据集上实现更好的图像分割性能。

此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。

SAM 的基准测试

SAM 方法的可视化比较

VisualRWKV

  • **论文名称:**VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models
  • **论文链接:**https://arxiv.org/abs/2406.13362

VisualRWKV-6 是基于 RWKV 的可视化语言模型,能够处理各种可视化任务。

VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。

VisualRWKV6

与基于 Transformer 的模型(如 LLaVA-1.5)相比,VisualRWKV 在各种基准测试中实现了具有竞争力的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RWKV-CLIP

  • **论文名称:**RWKV-CLIP: A Robust Vision-Language Representation Learner
  • **论文链接:**https://arxiv.org/abs/2406.06973

RWKV-CLIP 是一个 RWKV 驱动的视觉-语言表示学习模型,该框架在多个下游任务中实现了最先进的性能,包括线性探测、零样本分类,以及零样本图像文本检索。

RWKV-CLIP 架构

实验结果显示:与 ALIP 相比,RWKV-CLIP 在图像文本模态空间中表现出更近的距离,表明具有卓越的跨模态对齐性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PointRWKV

  • 论文名称: PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning
  • 论文链接: https://arxiv.org/abs/2405.15214

PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架,在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作,显著节省了约 46% 的 FLOPS。

PointRWKV 架构

大量实验表明,PointRWKV 优于基于 Transformer 和 mamba 的同类产品,同时展示了构建基础 3D 模型的潜在选择。

Qualitative 可视化

混合模型

GoldFinch

  • **论文名称:**GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression
  • **论文链接:**https://arxiv.org/abs/2407.12077

GoldFinch 是一种 RWKV/Transformer 混合序列模型,将新的 GOLD transformer 叠加在 Finch(RWKV-6)架构的增强版本之上,有效地在线性时间和空间中生成高度压缩和可重用的 KV-Cache。

GoldFinch 架构

相对于 1.5B 参数的 Finch 和 Llama 模型而言,GoldFinch 的建模性能显着提高。


欢迎大家使用 RWKV 在更多领域深耕,我们也会为基于 RWKV 的项目提供技术支持和一定的资源支持。

如果您的团队有任何沟通交流的意向,请联系我们!(在“RWKV元始智能”微信公众号留言您的联系方式,或发送邮件到“contact@rwkvos.com”)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960677.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Windows] 简单易用的图片去水印工具,Inpaint 9.1 单文件版

很多软件都有这个功能,但这个算法非常自然,软件小巧。 而且极为简单,涂鸦笔一抹,点绿色的《处理图像》 ,一秒完成。 我从它6.0的版本一直用过来。现在这个是9.1 发现论坛里的 都是几年前的,全部都失效了。 …

【策略工厂模式】记录策略工厂模式简单实现

策略工厂模式 1. 需求背景2. 代码实现2.1 定义基类接口2.2 排序策略接口定义2.3 定义抽象类,实现策略接口2.4 具体的排序策略实现类2.5 实现策略工厂类2.6 控制类 3. 启动测试4. 总结 1. 需求背景 现在需要你创建一个策略工厂类,来根据策略实现各种排序…

达梦数据库的系统视图v$buffer_lru_first

达梦数据库的系统视图v$buffer_lru_first 达梦数据库系统视图V$BUFFER_LRU_FIRST的主要作用是显示所有缓冲区LRU链首页信息。这个视图帮助数据库管理员监控和管理缓冲池中LRU(Least Recently Used,最近最少使用)链的性能,通过查看…

专业级享受:2024年视频剪辑工具深度评测与推荐

说到视屏剪辑很多人都会想要到剪映吧,那剪映怎么剪辑视屏呢?剪映之外还有没有其他好用到视屏剪辑软件呢?这次就分享一些我自己用过到工具吧。 1.福昕视频编辑 链接直达>>https://www.pdf365.cn/foxit-clip/ 这个视频剪辑软件大大的…

【Stable Diffusion】(基础篇六)—— embedding

embedding 本系列博客笔记主要参考B站nenly同学的视频教程,传送门:B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 除了大模型和VAE之外…

普明服务小程序正式招募合伙人,共绘家政保洁行业新蓝图

随着家政保洁行业的快速发展和消费者对高品质服务需求的日益增长,普明服务小程序凭借其专业、高效、便捷的服务体验,迅速在市场上崭露头角。为了进一步拓展业务,提升品牌影响力,普明服务小程序现正式面向社会招募合伙人&#xff0…

你还在为PDF转Word烦恼?试试这四款免费工具吧!

悄咪咪问一句,大家在平时上班时最头疼的事情有哪些?我想会有很多朋友也有pdf如何在线转换word文档的免费方式,毕竟这些办公文档是非常常见的问题了,所以今天就专门准备这么一篇文章来分享我个人喜欢的四款好用工具: 第…

基于ChatGPT的“看图说话”

重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…

dockerd --debugr排查服务无法启动的异常

1、查看docker服务运行状态 [rootlocalhost ~]# systemctl status docker 2、使用dockerd --debug排查错误 [rootlocalhost ~]# dockerd --debug 3、使用dockerd --debug获取的错误 4、根错误在网上查找解决方法 上图错误为二进制安装docker服务,/usr/local/bin/…

从里到外刨析一台电脑的性能,认识电脑很重要,妈妈再也不用担心我买电脑被骗了

现如今时代随着技术的发展,骗子的手段也越来越高明,因此从里到外刨析一台电脑的性能,认识电脑很重要,特别是准备购买电脑的小伙伴,建议看完这篇文章,其他听别人说电脑的好坏都是虚的,只有自己真…

创新概念:柯尔莫哥洛夫-阿诺德网络

文章目录 一、说明二、基础概念三、kolmogorov-Arnold 网络性质3.1 KAN 的潜在优势3.2 挑战和注意事项 四、基本 KAN 超参数五、COLAB 代码六、注意点 一、说明 kolmogorov-Arnold 网络 (KAN) 是深度学习领域的一项“创新”,它提供了一种受现有 Kolmogorov-Arnold …

【时时三省】(C语言基础)循环语句do while循环

山不在高,有仙则名。水不在深,有龙则灵。 ——csdn时时三省 do语句的语法 do 循环语句; while(表达式); 表达式为真继续循环 表达式为假停止 示例: break和cobtinue的运用 示例: cobtinue会跳出这个括号 到while 接着一直循…

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/2(含分析过程)

Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/2(含分析过程) 目录 Python 【机器学习】 进阶 之 【实战案例】房价数据中位数分析 | 1/2(含分析过程) 一、简单介绍 二、机器学习 1、为什么使用机器学习&a…

Qt6 qml文件导入系统组件时不再需要版本号

qt开发中,以往在Qt5中,我们导入quick组件的时候总是要写版本号,挺麻烦的,而现在Qt6中qml导入组件无需再使用版本号了。直接导入即可。 import QtQuick import QtQuick.Controls import QtQuick.Window 想要看是否有这个组件&…

【题解】2024牛客多校第5场

E 安 https://ac.nowcoder.com/acm/contest/81600/E 分析 简单博弈 / 思维题。 当 ai > bi 时&#xff0c;当前骑士一定存活。 当 ai < bi 时&#xff0c;当前骑士一定死亡。 为了使得自己存活的骑士尽可能多&#xff0c;若存在 ai bi 的情况&#xff0c;一定会选…

XXE-lab-master靶场:PHP_xxe

目录 有回显 测试回显位置 构建payload 无回显数据外带 构建payload 漏洞修复 XXE-lab是一个一个包含php,java,python,C#等各种语言版本的XXE漏洞靶场。 下载地址&#xff1a;https://github.com/c0ny1/xxe-lab 将PHPStudy的中间件与版本信息调制为 php-5.4.29Apache 以…

【测试】博客系统的测试报告

项目背景 个人博客系统采用了 SSM 框架与 Redis 缓存技术的组合 &#xff0c;为用户提供了一个功能丰富、性能优越的博客平台。 在技术架构上 &#xff0c;SSM 框架确保了系统的稳定性和可扩展性。Spring 负责管理项目的各种组件 &#xff0c;Spring MVC 实现了清晰的请求处理…

【Linux系统】POSIX信号量 线程池

PISIX信号量 概念 POSIX信号量和SystemV信号量作用相同&#xff0c;都是用于同步操作&#xff0c;达到无冲突的访问共享资源目的。 但POSIX可以用于线程间同步。 引入环形队列的概念 环形队列&#xff1a;当队列为空||为满时 head end&#xff0c;我们发现这样无法区分为空…

Springboot2.6.13整合flowable6.8.1

背景 项目上需要使用到工作流相关内容&#xff0c;比对了好久采用flowable实现&#xff0c;该插件和activiti等很相似&#xff0c;基本上可以直接移植 代码如下 <!-- 父引用用--><parent><groupId>org.springframework.boot</groupId><artifactI…

LLM的训练与推断

LLM的训练与推断 目前比较流行的大模型一般都是自回归模型。在推理时&#xff0c;它类似于RNN&#xff0c;每次计算下一个token的概率。也就是说&#xff0c;如果除去最开始的输入情况下&#xff0c;最终推理长度为n的话&#xff0c;就需要计算n次。但是训练却是并行化的。 在…