RWKV-7 预览版、大量新论文...RWKV 社区 9 月动态速览

news2024/12/27 12:38:38

欢迎大家收看《RWKV 社区最新动态》第五期,本期内容收录了 RWKV 社区 2024 年 9 月的最新动态。

9 月动态省流版(TL;DR)

  1. RWKV 官方新闻动态
    • RWKV-7 发布预览版
    • RWKV-7 论文撰写已面向社区开放
    • RWKV 官网上线 Bad Case 收集页面
    • RWKV 中文文档已开源
  2. RWKV 学术研究相关
    • RWKV-CLIP 论文被 EMNLP 主会收录
    • 新论文:OccRWKV(3D 语义占用预测)
    • 新论文:MSRWKV-2DTCN(光伏发电预测)
    • 新论文:Mod-RWKV(多模态内容审核)
    • 新论文:OnlySportsLM(体育运动任务)
    • 新论文:RWKV-TIM(人类动作交互建模)
  3. 社区新项目
    • RWKV-nonogram

RWKV 官方新闻动态

RWKV-7 发布预览版

RWKV-7(代号 Goose 雁)现已推出预览版!

RWKV-7 超越了 attention / linear attention 范式,它的状态演化很灵活,可以解决在相同算力消耗下 attention 无法解决的问题。

  • RWKV-7 代码:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v7
  • RWKV-7 模型(训练中):https://huggingface.co/BlinkDL/temp-latest-training-models/tree/main

详情查看:RWKV-7 预览版已发布,真正超越 attention 范式

RWKV-7 论文撰写面向社区开放

RWKV-7 论文的撰写已面向社区开放,请在此 Discord 频道 中参与论文讨论和撰写。

RWKV 官网上线 Bad Case 收集页面

RWKV 官网已上线 Bad Case 收集页面:https://rwkv.cn/feedback

我们邀请大家反馈 RWKV 模型回答效果不佳的示例。您的每次反馈,都可以帮助我们改进 RWKV 模型!

RWKV 中文文档已开源

rwkv.cn 的文档板块现已在 GitHub 仓库开源:https://github.com/LeoLin4258/rwkvcn-docs

我们欢迎任何关于 RWKV 文档的 Issue / PR ,让我们一起共建更完善的 RWKV 中文文档。

RWKV 学术研究相关

RWKV-CLIP 论文被 EMNLP 主会收录

RWKV-CLIP 被 EMNLP 主会收录!现可在 EMNLP 2024 的 CheckList 中查看。

 RWKV-CLIP-EMNLP2024

  • 论文:https://arxiv.org/pdf/2406.06973
  • 代码:https://github.com/deepglint/RWKV-CLIP

OccRWKV(3D 语义占用预测)

  • 论文名称:OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity
  • 论文链接:https://jmwang0117.github.io/OccRWKV/
  • GitHub 仓库:https://github.com/jmwang0117/OccRWKV
  • 发布时间:2024-09-06

论文提出了 “OccRWKV” :基于 RWKV 的 3D 语义占用预测,可用于自动驾驶、具身智能等领域。

OccRWKV 已提交至 ICRA 2025 。

实验表明,OccRWKV 在 SemanticKITTI 数据集达到 25.1 的 mIoU,比最佳基线 Co-Occ 快 20 倍,使其适合在机器人上实时部署,以增强自主导航效率。

OccRWKV

MSRWKV-2DTCN(光伏发电预测)

  • 论文名称:Multi-scale RWKV with 2-dimensional temporal convolutional network for short-term photovoltaic power forecasting
  • 论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0360544224028433
  • 发布时间:2024-09-06

论文提出了“多尺度 RWKV 二维时间卷积网络”(MSRWKV-2DTCN),将 FFT 和 2D TCN 与 RWKV 架构相结合,并应用于光伏发电预测。

研究证实,对比其他光伏发电功率预测模型,MSRWKV-2DTCN 在短期光伏发电功率预测方面具有更高的准确性。

MSRWKV-2DTCN

Mod-RWKV(多模态内容审核)

  • 论文名称:Experimentation in Content Moderation using RWKV
  • 论文链接:https://arxiv.org/abs/2409.03939
  • 发布时间:2024-09-05

论文提出了 Mod-RWKV ,研究了 RWKV 模型在内容审核方面的效果。

团队通过使用一个包含图像、视频、声音和文本的数据集对 RWKV 模型进行 SFT 微调,使其适用于各种内容的审查场景。

Mod-RWKV

OnlySportsLM(体育运动任务)

  • 论文名称:OnlySportsLM: Optimizing Sports-Domain Language Models with SOTA Performance under Billion Parameter
  • 论文链接:https://arxiv.org/abs/2409.00286
  • 发布时间:2024-08-30

论文提出了 OnlySportsLM :针对体育运动相关任务优化 RWKV-v6 架构,并训练了一个 196M 的 OnlySportsLM 模型。

Benchmark 显示,与 SOTA 135M/360M 体育运动模型相比, OnlySportsLM 的精度提高了 37.62%/34.08% ,其性能比肩运动领域的 SomlLM 1.7B 和 Qwen 1.5B 等较大参数模型。

OnlySportsLM

RWKV-TIM(人类动作交互建模)

  • 论文名称:Temporal and Interactive Modeling for Efficient Human-Human Motion Generation
  • 论文链接:https://arxiv.org/abs/2408.17135
  • 发布时间:2024-08-30

论文提出了时间交互式建模(Temporal and Interactive Modeling,TIM),将 RWKV 模型应用于生成人类之间的交互动作。

实验数据显示:TIM 仅使用 InterGen 数据集中 32% 的可训练参数,就取得了 SOTA 效果。

RWKV-TIM

社区新项目

RWKV-nonogram

RWKV-nonogram 使用 RWKV-6 + Chain Of Thought 训练了一个 20M 参数 RWKV 模型,这个模型可以做数织(nonogram)任务。

RWKV-nonogram 的 CoT 过程:

rwkv-nonograms

关于《RWKV 社区动态》栏目

《RWKV 社区动态》栏目会不定期播报 RWKV 社区的最新消息,以帮助 RWKV 的关注者、爱好者、开发者更好地了解 RWKV 的发展情况。

《RWKV 社区最新动态》不定期更新,所以请保持关注我们的微信公众号(RWKV 元始智能)、QQ 频道(RWKV)等公开平台,以获取最新的消息。

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它将 Transformer 与 RNN 各自的优点相结合,同时实现高度并行化训练与高效推理。

  • RWKV 中文官网(有多篇多模态论文):https://rwkv.cn/
  • RWKV-5/6(Eagle & Finch)论文: https://arxiv.org/abs/2404.05892
  • RWKV-4 论文: https://arxiv.org/abs/2305.13048

欢迎大家加入 RWKV 社区!可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

  • QQ 频道:https://pd.qq.com/s/9n21eravc
  • QQ 交流群:224287095

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2197711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

攻防世界---->sherlock

做题笔记。 下载。 单词中出现大写很可疑。因为大写最多出现在开头等。 猜测是隐写术。 进行筛选。 借助python实现 with open(C:\\Users\\Acer\\Downloads\\f590c0f99c014b01a5ab8b611b46c57c.txt, r) as file:text file.read() uppercase_letters [char for char in text…

手撕数据结构 —— 顺序表(C语言讲解)

目录 1.顺序表简介 什么是顺序表 顺序表的分类 2.顺序表的实现 SeqList.h中接口总览 具体实现 顺序表的定义 顺序表的初始化 顺序表的销毁 打印顺序表 ​编辑 检查顺序表的容量 尾插 尾删 ​编辑 头插 头删 查找 在pos位置插入元素 删除pos位置的值 ​…

内核驱动-如何编译内核以及给内核中添加新文件

1.编译内核 想要编译内核,首先需要先下载内核源代码。可以在官方网站下载源代码压缩包,然后放在Ubuntu的目录下,然后解压(解压的指令为:sudo tar -xvf xxxx.gz)。解压之后在当前目录下可以看到解压之后的文…

java8 双冒号(::)使用方法

双冒号(::)运算符是跟函数式接口相关的运算符,作为函数式接口的赋值操作。 双冒号用于静态方法 使用方法:将类的静态方法赋值给一个函数式接口,静态方法的参数个数、类型要跟函数式的接口一致。调用这个函数式接口就…

数字化转型:别让技术迷了眼,战略觉醒才是关键。新媒体营销大客户销售AIGC大模型创新思维专家培训讲师谈数字化转型商业模式短视频内容社私域数字经济人工智能

​数字化转型从根本上讲不是关于技术,而是关于战略。 数字化转型使用新的数字技术来实现重大的业务改进,如增强客户体验、精简运营或创建新的商业模式。数字化转型描述了一家公司试图为数字时代做好准备的旅程。 数字化转型不是关于技术或获取新的技术技能。事实上,它是关于获得…

永磁同步电机环路反步法(backstepping)控制

文章目录 1、反步控制原理1.1 李雅普诺夫稳定性定理1.2 严格反馈系统1.3 一般设计流程 2、永磁同步电机反步控制2.1 反步控制器设计2.2 反步控制仿真 参考 写在前面:本人能力、时间、技术有限,没有对一些细节进行深入研究和分析,也难免有不足…

简易CPU设计入门:取指令(四)

项目代码下载 还是请大家首先准备好本项目所用的源代码。如果已经下载了,那就不用重复下载了。如果还没有下载,那么,请大家点击下方链接,来了解下载本项目的CPU源代码的方法。 下载本项目代码 准备好了项目源代码以后&#xff…

SOMEIP_ETS_174: SD_Unknown_Option_type

测试目的: 验证DUT能够拒绝一个引用了未知选项类型的SubscribeEventgroup消息,并以SubscribeEventgroupNAck作为响应。 描述 本测试用例旨在确保DUT遵循SOME/IP协议,当接收到一个引用了未知选项类型的SubscribeEventgroup消息时&#xff0…

Solidedge二次开发(C#)-将dft文件转换为dwg格式文件

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1、前言2、在Solid Edge中创建一个par文件3、通过二次开发将dft转换为dwg4、结果显示1、前言 Solid Edge提供了将dft转换为dwg的接口,也即是保存功能。有时在不显示Solid Edge界面的情况下,将其…

【C语言刷力扣】1436.旅行终点站

题目: 解题思路: 两层循环查找,第一次循环中初始化 destination 为 path中每次旅行的终点作为最终的终点。二次循环查找当前 destination ,若是作为某次旅行的起点,说明不是最后的终点。 char* destCity(char ***paths…

[Linux#62][TCP] 首位长度:封装与分用 | 序号:可靠性原理 | 滑动窗口:流量控制

目录 一. 认识TCP协议的报头 1.TCP头部格式 2. TCP协议的特点 二. TCP如何封装与分用 TCP 报文封装与解包 如何封装解包,如何分用 分离有效载荷 隐含问题:TCP 与 UDP 报头的区别 封装和解包的逆向过程 如何分用 TCP 报文 如何通过端口号找到绑…

多功能快捷回复软件

各位亲爱的客服宝宝们,每天面对大量的客户咨询,您是否还在手动一个一个地打字回复呢?别担心,我们为您带来了一款多功能快捷回复软件——客服宝。有了它,您的工作将变得无比轻松! 客服宝是一款集成了内容存储…

网络编程(14)——基于单例模板实现的逻辑层

十四、day14 今天学习如何通过单例模板实现逻辑层 1. 利用C11特性封装单例模板 和上一节设计的单例模板有些不同,本节设计的单例模板利用了以下四个C11新特性,优化了代码 unique_lock和lock_guard once_flag和call_once std::function condition_v…

1打家劫舍三部曲

刷题刷题找工作! s198.打家劫舍 动态规划:开始打家劫舍! dp数组表示到第i家的最高金额 dp递归公式,要么抢劫这家,加上i-2所抢的钱,要么不抢,保留上一家的。 …

linux中的火墙优化策略

1.火墙介绍 1. netfilter 2. iptables 3. iptables | firewalld 2.火墙管理工具切换 在rocky9 中默认使用的是 firewalld firewalld -----> iptables dnf install iptables - services - y systemctl stop firewalld systemctl disable firewalld systemctl mask fi…

Vue3 使用 pinia

什么是Pinia Pinia是 Vue 的存储库,它允许您跨组件/页面共享状态,与vuex功能一样。 准备 安装 npm install pinia 或者 yarn add pinia使用 首先修改main.ts文件 main.ts import ./assets/main.cssimport { createApp } from vue import App from…

HTB:Tactics[WriteUP]

目录 连接至HTB服务器并启动靶机 1.Which Nmap switch can we use to enumerate machines when our ping ICMP packets are blocked by the Windows firewall? 2.What does the 3-letter acronym SMB stand for? 3.What port does SMB use to operate at? 4.What comma…

Comfyui segmentAnythingUltra V2报错

🎅问题表现及解决方案 Comfyui segmentAnythingUltra V2报错,找不到VITMatte模型,这个报错报的比较模糊,所以花了一点时间找模型。 简单来说,到huggingface上: https://huggingface.co/hustvl/vitmatte-s…

麒麟系统串口配置篇

麒麟系统串口配置篇 1.配置串口驱动(编译/动态加载串口) 解压文件夹,然后在解压后的文件夹所在目录,右键选择打开终端,依次执行以下命令: 以麒麟系统下的CH341串口驱动为例,解压CH341SER_LINUX.zip sudo…

【微服务】网关 - Gateway(下)(day8)

网关过滤工厂 在上一篇文章中,主要是对网关进行了一个总体的介绍,然后对网关中的断言进行了一个描述。在这篇文章中,主要是对网关中的最后一大核心——过滤进行介绍。 当客户端发送过来的请求经过断言之后,如果还想在请求前后添…