RWKV系列2-RWKV-LM

news2024/12/24 8:42:40

训练数据集

https://data.deepai.org/enwik8.zip

使用分类参考

https://zhuanlan.zhihu.com/p/639629050

模型分类和使用任务

在这里插入图片描述
在这里插入图片描述

解码参数,推荐值:

小说和对话:temp 1.2 topp 0.5 或 temp 1.4 topp 0.4 或 temp 1.7 topp 0.3 或 temp 2 topp 0.2。希望模型发散思维就用 topp 高,希望模型逻辑严密就用 topp 低。

完成机械任务,例如材料问答、摘要等等:temp 1 topp 0.2 或 temp 1 topp 0.1 或 temp 1 topp 0。

Prompt写法

这里是兼容所有未来新World模型的用法。

单轮问答:

Question: xxx

Answer:
请严格遵循上述格式:

半角冒号。在【Question:】后面是半角空格,然后是问题。
在问题后面有个纯空行。
在【Answer:】后面不能有空格,必须由模型生成后面的空格。
对于特别长的多段落的问题,问题内部可以有换行,但是不能出现 \n\n。
换行必须用 \n,不能用 \r\n。
应该用:

xxx = re.sub(r’\n{2,}‘, ‘\n’, xxx).strip().replace(’\r\n’,‘\n’)
去处理 xxx,保证 xxx 里面没有 \n\n,也没有 \r\n。

材料问答:

Instruction: xxx

Input: xxx

Response:
其中 Instruction 是问题或指令,Input 是材料。

多轮对话(未来新模型统一用 User / Assistant):

User: xxx

Assistant: xxx

User: xxx

Assistant: xxx
再重复一遍,如前所述,应该用 xxx = re.sub(r’\n{2,}‘, ‘\n’, xxx).strip().replace(’\r\n’,‘\n’) 去处理 xxx,保证 xxx 里面没有 \n\n,也没有 \r\n。

训练微调参考

RWKV语言模型从入门到放弃,保姆级Training、Fine-tuning、Lora入坑教程:https://zhuanlan.zhihu.com/p/629809101

官方微调教学:https://zhuanlan.zhihu.com/p/638326262

官方补充

在这里插入图片描述
在这里插入图片描述

ChatRWKV v2 用法:

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/893774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Openlayers实战:移动鼠标至重叠几何图形上,获取多层所有features信息

在Openlayers的实际项目中,经常会出现在某个区域内有多个矢量层叠加的情况,这个时候点击内部一点,我们要获取到所有矢量层的信息。如果做到这一点呢,这个示例就演示了两个图层叠加,获取到全部信息的情形。 效果图 源代码 /* * @Author: 大剑师兰特(xiaozhuanlan),还是…

Leetcode61 旋转链表

给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例1: 输入:head [1,2,3,4,5], k 2 输出:[4,5,1,2,3] 示例2: 输入:head [0,1,2], k 4 输出:[2,0,1] …

材料行业可以转IC设计后端吗?

近来有许多材料行业的小伙伴通过后台来问我对于职业规划的看法,甚至有些小伙伴直接点明了某个行业适不适合自己,那么我这边仅以近年来比较热门的数字芯片设计来展开讲讲,材料适不适合转行做IC呢。 对于理工科的同学而言,选择哪个…

网络安全设备篇——加密机

加密机是一种专门用于数据加密和解密的网络安全设备。它通过使用密码学算法对数据进行加密,从而保护数据的机密性和完整性。加密机通常被用于保护敏感数据,如金融信息、个人身份信息等。 加密机的主要功能包括: 数据加密:加密机使…

药品最新研究信息查询系统

查找最新药物研究进展信息在患者治疗选择、医疗实践、科学研究、药物监管和政策制定、教育和学术研究等方面都具有重要的应用价值。它可以为各个领域的人员提供最新的科学依据和决策支持,促进医学领域的发展和提高医疗质量。 但在查找药物最新研究进展信息时通常需要…

【数据库服务网格】浅谈Database Mesh及未来

文章目录 前言1. 服务网格:Service Mesh服务网格优势 2. 数据库服务网格:Database Mesh3. 数据服务网格:Data Mesh 前言 Database Mesh,这一概念是由开源软件shardingsphere的作者张亮,最早于2018年提出的。其含义是D…

又双叒叕!五大数据库全方位注释,抗性宏基因组分析项目再次升级!

基于宏基因组测序的抗性基因分析是目前ARGs分析的重要手段,五大数据库全面注释分析,一网打尽ARGs、MRGs、BRGs、MGEs、致病菌注释。 项目报告不仅包含抗性基因的多样性、丰度和分布模式,还能获得包括抗性组变化驱动因素、指示基因识别、抗性组…

Java智慧工地系统源码(微服务+Java+Springcloud+Vue+MySQL)

智慧工地系统是依托物联网、互联网、AI、可视化建立的大数据管理平台,是一种全新的管理模式,能够实现劳务管理、安全施工、绿色施工的智能化和互联网化。围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三…

SpringCloud最新最全面试题

目录 一、简单说一说什么是微服务? 二、微服务有哪些优缺点? 三、微服务、分布式、集群的区别? 四、什么是Eureka? 五、Eureka有那两大组件? 六、actuator是什么? 七、Discovery是什么? …

4.1 C++ Boost 字符串处理库

Boost 库是一个由C/C语言的开发者创建并更新维护的开源类库,其提供了许多功能强大的程序库和工具,用于开发高质量、可移植、高效的C应用程序。Boost库可以作为标准C库的后备,通常被称为准标准库,是C标准化进程的重要开发引擎之一。…

docker 搭建 ElasticSearch

1、拉取镜像 docker pull elasticsearch:8.8.12、在机器本地新建文件夹并赋予权限 mkdir -p /home/elasticsearch/configmkdir -p /home/elasticsearch/datamkdir -p /home/elasticsearch/pluginschmod 777 /home/elasticsearch/configchmod 777 /home/elasticsearch/datachm…

全开放式耳机什么品牌好?全开放式耳机推荐

​在音乐的世界中,开放式耳机提供了更真实、更通透的音质体验,开放式耳机采用不入耳设计,佩戴更为稳固舒适,还允许外界的声音自由地流入,使你在享受音乐的同时,也能保持对周围环境的感知,户外运…

WebDriver API及对象识别技术

html页面的iframe的切换 定位到客户管理 新增客户 会无法定位到新增客户,因为在另外一个iframe框架之中。 iframe是html中的框架标签,表示文档中可以嵌入文档,或者说是浮动的框架。在selenium中iframe同样如此,如果驱动器对象处于当前iframe框架中,此时驱动器对象是…

商业计划书的写作

商业计划书是一份描述企业发展的文件,是企业经营者素质的体现,是企业拥有良好融资能力、实现跨越式发展的重要条件之一。一份好的商业计划书,是建立投资者、合作者、消费者信心的重要依据,获得、投资、合作的关键。 企业商业计划…

❤ Vue2完整项目进一步配置配置(二)

❤ Vue2完整项目进一步配置配置(二) (1)配置自定义端口号:9528 port: 9528, // 端口号autoOpenBrowser: true, //是否自动打开浏览器

《知识图谱互联互通白皮书》正式发布,合合信息携手电子标准院共同推动技术规范化发展

知识图谱是将各种数据和信息进行结构化处理后形成的一种“语义知识库”,也是人工智能的重要组成部分。 为助力知识图谱系统间的互联互通,推进知识要素的规范、有序和可靠流动,近期,中国电子技术标准化研究院依托知识图谱产业推进…

适用于Android™的Windows子系统Windows Subsystem fo r Android™Win11安装指南

文章目录 一、需求二、Windows Subsystem for Android™Win11简介三、安装教程1.查看BIOS是否开启虚拟化2.安装Hyper-V、虚拟机平台3.启动虚拟机管理程序(可选)4.安装适用于Android™的Windows子系统5.相关设置 一、需求 需要在电脑上进行网课APP(无客户端只有App&…

零基础学Python,哪些入门知识必学?学习步骤是什么?

众所周知,Python以优雅、简洁著称,入行门槛低,可以从事Linux运维、Python Web网站工程师、Python自动化测试、数据分析、人工智能等职位,薪资待遇呈上涨趋势。很多人都想学习Python,那么零基础学Python应该学习哪些入门…

批次效应分析

写在前面 批次效应分析,在医学芯片研究中,使用不同芯片进行分析时常用的数据处理方式,但是很多同学处理后的数据,存在不满意的情况。因此,到处咨询,各种查教程。今天,使用简短的时间分享该数据处理教程。 最终分析结果 欢迎投稿 小杜一直在分享自己平时学习笔记,因此…

HTTP响应状态码大全:从100到511,全面解析HTTP请求的各种情况

文章目录 前言一、认识响应状态码1. 什么是HTTP响应状态码2. Http响应状态码的作用3. 优化和调试HTTP请求的建议 二、1xx 信息响应1. 认识http信息响应2. 常见的信息响应状态码 三、2xx 成功响应1. 认识HTTP成功响应2. 常见的成功响应状态码 四、3xx 重定向1. 认识http重定向2.…