LLMs之DeepSeek r1:Logic-RL的简介、安装和使用方法、案例应用之详细攻略

news2025/2/11 9:16:37

LLMs之DeepSeek r1:Logic-RL的简介、安装和使用方法、案例应用之详细攻略

目录

Logic-RL的简介

1、Logic-RL的特点

2、性能

Logic-RL 的安装和使用方法

1、安装

2、使用方法

数据准备

基础模型

指令模型

训练执行

实现细节

Logic-RL的案例应用


Logic-RL简介

Logic-RL 项目成功复现了 DeepSeek R1 Zero 在 2000 条逻辑谜题数据集上的结果。该项目的研究报告即将发布。项目使用 2000 条训练数据和 400 个训练步骤,取得了显著成果,并在持续更新中。 项目地址提供了详细的 Wandb 项目链接和技术报告链接。

GitHub地址:GitHub - Unakar/Logic-RL: Reproduce R1 Zero on Logic Puzzle

1、Logic-RL特点

Logic-RL 项目在基于规则的强化学习的基础上,增强了以下几个方面:
>> 不确定性标记 (Uncertainty Marking):标记模棱两可的步骤,以便验证。
>> 渐进式总结 (Progressive Summarization):维护中间结论。
>> 自我验证 (Self Verification):先验证再作答。
>> 多语言切换 (Multilingual Switching):支持中文推理过程和英文答案。

2、性能

项目模型仅使用了 2K 训练数据和 400 个训练步骤

Model2ppl3ppl4ppl5ppl6ppl7ppl8ppl
o1-2024-12-170.830.510.380.380.350.300.20
GPT-4o0.680.570.490.320.230.210.11
Deepseek-Math-7b0.350.210.080.060.020.000.00
Qwen2.5-7B-Instruct-1M0.490.400.250.110.020.060.01
Qwen2.5-7B-Logic-RL (ours)0.680.590.440.340.220.160.15

Logic-RL 的安装和使用方法

1、安装

创建 conda 环境:conda create -n logic python=3.9

安装 PyTorch:pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121 (注意:这需要 CUDA 12.1 支持)

安装其他依赖:pip3 install vllm==0.6.3 ray flash-attn --no-build-isolation

安装项目:pip install -e .

(可选) Verl 集成:pip install wandb IPython matplotlib

2、使用方法

数据准备

可以直接使用项目提供的 /data 文件夹中的数据。 如果需要生成自己的数据,可以使用以下命令:

基础模型

python ./examples/data_preprocess/kk.py --local_dir {processed_data_path} --data_path {raw_data_path}

指令模型

python ./examples/data_preprocess/kk.py --template_type=qwen-instruct --local_dir {processed_data_path} --data_path {raw_data_path} 其中 {processed_data_path} 和 {raw_data_path} 需要替换成你的数据路径。

训练执行

激活 conda 环境:conda activate logic

运行训练脚本:bash main_grpo.sh (需要 4 个 A100 80G 显卡)

实现细节

项目的关键组件及其位置:

奖励建模:verl/utils/reward_score/kk.py

数据预处理:examples/data_preprocess/kk.py

项目还使用了 Verl, TinyZero 和 Knights and Knaves (K&K) puzzles 数据集。

Logic-RL的案例应用

项目提供了不同模型在不同规模逻辑谜题上的测试结果 (人数从 2 到 8 人不等)。 结果以表格形式呈现,比较了 Logic-RL 模型和其他模型 (例如 o1-2024-12-17, GPT-4o, Deepseek-Math-7b, Qwen2.5-7B-Instruct-1M) 的性能。 Logic-RL 模型在大多数情况下都表现出了更好的性能,尤其是在数据量较小的情况下。

持续更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【神经网络框架】非局部神经网络

一、非局部操作的数学定义与理论框架 1.1 非局部操作的通用公式 非局部操作(Non-local Operation)是该研究的核心创新点,其数学定义源自经典计算机视觉中的非局部均值算法(Non-local Means)。在深度神经网络中,非局部操作被形式化为: 其中: 1.2 与传统操作的对比分析…

22.[前端开发]Day22-CSS单位-CSS预处理器-移动端视口

1 CSS常见单位详解 CSS中的单位 CSS中的绝对单位( Absolute length units ) CSS中的相对单位( Relative length units ) 1.em: 相对自己的font-size;如果自己没有设置, 那么会继承父元素的font-size 2.如果font-size中…

URL调用本地Ollama模型

curl http://192.168.2.247:11434/api/generate -d "{ \"model\": \"deepseek-r1:8b\", \"prompt\": \"Who r u?\" ,\"stream\":false}" 连续对话

【python】matplotlib(animation)

文章目录 1、matplotlib.animation1.1、FuncAnimation1.2、修改 matplotlib 背景 2、matplotlib imageio2.1、折线图2.2、条形图2.3、散点图 3、参考 1、matplotlib.animation 1.1、FuncAnimation matplotlib.animation.FuncAnimation 是 Matplotlib 库中用于创建动画的一个…

ubuntu24.04安装布置ros

最近换电脑布置机器人环境,下了24.04,但是网上的都不太合适,于是自己试着布置好了,留作有需要的人一起看看。 文章目录 目录 前言 一、确认 ROS 发行版名称 二、检查你的 Ubuntu 版本 三、安装正确的 ROS 发行版 四、对于Ubuntu24…

接入 deepseek 实现AI智能问诊

1. 准备工作 注册 DeepSeek 账号 前往 DeepSeek 官网 注册账号并获取 API Key。 创建 UniApp 项目 使用 HBuilderX 创建一个新的 UniApp 项目(选择 Vue3 或 Vue2 模板)。 安装依赖 如果需要在 UniApp 中使用 HTTP 请求,推荐使用 uni.requ…

网络爬虫js逆向之异步栈跟栈案例

【注意!!!】 前言: 1. 本章主要讲解js逆向之异步栈跟栈的知识(通过单步执行调试) 2. 使用关键字搜定位加密入口 3. 本专栏通过多篇文章【文字案例】的形式系统化进行描述 4. 本文章全文进行了脱敏处理 5. 详…

机器学习 - 需要了解的条件概率、高斯分布、似然函数

似然函数是连接数据与参数的桥梁,通过“数据反推参数”的逆向思维,成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”,这种视角转换是掌握现代统计学和机器学习的基础。 一、在学习似然函…

【Spring】什么是Spring?

什么是Spring? Spring是一个开源的轻量级框架,是为了简化企业级开发而设计的。我们通常讲的Spring一般指的是Spring Framework。Spring的核心是控制反转(IoC-Inversion of Control)和面向切面编程(AOP-Aspect-Oriented Programming)。这些功能使得开发者…

[笔记] 汇编杂记(持续更新)

文章目录 前言举例解释函数的序言函数的调用栈数据的传递 总结 前言 举例解释 // Type your code here, or load an example. int square(int num) {return num * num; }int sub(int num1, int num2) {return num1 - num2; }int add(int num1, int num2) {return num1 num2;…

开放式TCP/IP通信

一、1200和1200之间的开放式TCP/IP通讯 第一步:组态1214CPU,勾选时钟存储器 第二步:防护与安全里面连接机制勾选允许PUT/GET访问 第三步:添加PLC 第四步:点击网络试图,选中网口,把两个PLC连接起…

(原创,可用)SSH实现内外网安全穿透(安全不怕防火墙)

目前有A、B终端和一台服务器,A、B机器不能直接访问,服务器不能直接访问A、B终端但是A、B终端可以访问服务器,这个场景很像我们有一台电脑在单位内网,外机器想访问内网系统,可能大家目前想到的就是frp之类穿透工具&…

第二节 docker基础之---镜像构建及挂载

查看当前镜像: [rootdocker ~]# docker images REPOSITORY TAG IMAGE ID CREATED SIZE [rootdocker ~]#很明显docker是咱们新搭建的所以目前还没有镜像 1,搜索镜像: [rootdocker ~]# docker search centos 搜索镜像并过滤是官…

LLM学习笔记1——本地部署Meta-Llama-3.2-1B大模型

系列文章目录 参考博客 参考博客 文章目录 系列文章目录前言与调用一、部署要求二、实现步骤0.深度学习环境错误1,验证pytorch版本时提示以下问题:错误2,验证pytorch版本时提示以下问题:错误3,有时候还会提示你有一些…

AI安全最佳实践:AI应用开发安全评估矩阵(上)

生成式AI开发安全范围矩阵简介 生成式AI目前可以说是当下最热门的技术,吸引各大全球企业的关注,并在全球各行各业中带来浪潮般的编个。随时AI能力的飞跃,大语言模型LLM参数达到千亿级别,它和Transformer神经网络共同驱动了我们工…

deepseek+kimi自动生成ppt

打开deepseek官网,输入详细的需求,让他生成个ppt 接着deepseek开始思考生成了 接着复制生成了的内容 打开kimi粘贴刚才deepseek生成的内容 可以一键生成啦,下载编辑使用吧

《薄世宁医学通识50讲》以医学通识为主题,涵盖了医学的多个方面,包括医学哲学、疾病认知、治疗过程、医患关系、公共卫生等

《薄世宁医学通识50讲》是一门由薄世宁医生主讲的医学通识课程,该课程旨在通过深入浅出的方式,向广大听众普及医学知识,提升公众对医学的认知和理解。 晓北斗推荐-薄世宁医学通识 以下是对该课程的详细介绍: 一、课程概述 《薄世…

突破与重塑:逃离Java舒适区,借Go语言复刻Redis的自我突破和成长

文章目录 写在文章开头为什么想尝试用go复刻redis复刻redis的心路历程程序员对于舒适区的一点看法关于mini-redis的一些展望结语 写在文章开头 在程序员的技术生涯长河中,我们常常会在熟悉的领域中建立起自己的“舒适区”。于我而言,Java 就是这片承载…

优惠券平台(一):基于责任链模式创建优惠券模板

前景概要 系统的主要实现是优惠券的相关业务,所以对于用户管理的实现我们简单用拦截器在触发接口前创建一个单一用户。 // 用户属于非核心功能,这里先通过模拟的形式代替。后续如果需要后管展示,会重构该代码 UserInfoDTO userInfoDTO new…

TensorFlow域对抗训练DANN神经网络分析MNIST与Blobs数据集梯度反转层提升目标域适应能力可视化...

全文链接:https://tecdat.cn/?p39656 本文围绕基于TensorFlow实现的神经网络对抗训练域适应方法展开研究。详细介绍了梯度反转层的原理与实现,通过MNIST和Blobs等数据集进行实验,对比了不同训练方式(仅源域训练、域对抗训练等&am…