LLMs之DeepSeek r1:Logic-RL的简介、安装和使用方法、案例应用之详细攻略
目录
Logic-RL的简介
1、Logic-RL的特点
2、性能
Logic-RL 的安装和使用方法
1、安装
2、使用方法
数据准备
基础模型
指令模型
训练执行
实现细节
Logic-RL的案例应用
Logic-RL的简介
Logic-RL 项目成功复现了 DeepSeek R1 Zero 在 2000 条逻辑谜题数据集上的结果。该项目的研究报告即将发布。项目使用 2000 条训练数据和 400 个训练步骤,取得了显著成果,并在持续更新中。 项目地址提供了详细的 Wandb 项目链接和技术报告链接。
GitHub地址:GitHub - Unakar/Logic-RL: Reproduce R1 Zero on Logic Puzzle
1、Logic-RL的特点
Logic-RL 项目在基于规则的强化学习的基础上,增强了以下几个方面:
>> 不确定性标记 (Uncertainty Marking):标记模棱两可的步骤,以便验证。
>> 渐进式总结 (Progressive Summarization):维护中间结论。
>> 自我验证 (Self Verification):先验证再作答。
>> 多语言切换 (Multilingual Switching):支持中文推理过程和英文答案。
2、性能
项目模型仅使用了 2K 训练数据和 400 个训练步骤
Model | 2ppl | 3ppl | 4ppl | 5ppl | 6ppl | 7ppl | 8ppl |
---|---|---|---|---|---|---|---|
o1-2024-12-17 | 0.83 | 0.51 | 0.38 | 0.38 | 0.35 | 0.30 | 0.20 |
GPT-4o | 0.68 | 0.57 | 0.49 | 0.32 | 0.23 | 0.21 | 0.11 |
Deepseek-Math-7b | 0.35 | 0.21 | 0.08 | 0.06 | 0.02 | 0.00 | 0.00 |
Qwen2.5-7B-Instruct-1M | 0.49 | 0.40 | 0.25 | 0.11 | 0.02 | 0.06 | 0.01 |
Qwen2.5-7B-Logic-RL (ours) | 0.68 | 0.59 | 0.44 | 0.34 | 0.22 | 0.16 | 0.15 |
Logic-RL 的安装和使用方法
1、安装
创建 conda 环境:conda create -n logic python=3.9
安装 PyTorch:pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121 (注意:这需要 CUDA 12.1 支持)
安装其他依赖:pip3 install vllm==0.6.3 ray flash-attn --no-build-isolation
安装项目:pip install -e .
(可选) Verl 集成:pip install wandb IPython matplotlib
2、使用方法
数据准备
可以直接使用项目提供的 /data 文件夹中的数据。 如果需要生成自己的数据,可以使用以下命令:
基础模型
python ./examples/data_preprocess/kk.py --local_dir {processed_data_path} --data_path {raw_data_path}
指令模型
python ./examples/data_preprocess/kk.py --template_type=qwen-instruct --local_dir {processed_data_path} --data_path {raw_data_path} 其中 {processed_data_path} 和 {raw_data_path} 需要替换成你的数据路径。
训练执行
激活 conda 环境:conda activate logic
运行训练脚本:bash main_grpo.sh (需要 4 个 A100 80G 显卡)
实现细节
项目的关键组件及其位置:
奖励建模:verl/utils/reward_score/kk.py
数据预处理:examples/data_preprocess/kk.py
项目还使用了 Verl, TinyZero 和 Knights and Knaves (K&K) puzzles 数据集。
Logic-RL的案例应用
项目提供了不同模型在不同规模逻辑谜题上的测试结果 (人数从 2 到 8 人不等)。 结果以表格形式呈现,比较了 Logic-RL 模型和其他模型 (例如 o1-2024-12-17, GPT-4o, Deepseek-Math-7b, Qwen2.5-7B-Instruct-1M) 的性能。 Logic-RL 模型在大多数情况下都表现出了更好的性能,尤其是在数据量较小的情况下。
持续更新中……