逻辑推理之lora微调

news2025/2/23 6:48:17

逻辑推理微调

比赛介绍
准备内容
lora微调
- lora微调介绍
- lora优势
- 代码内容
start_vllm
- 相关介绍
- 调用
运行主函数
提交结果
总结
相应连接

比赛介绍

本比赛旨在测试参与者的逻辑推理和问题解决能力。参与者将面对一系列复杂的逻辑谜题，涵盖多个领域的推理挑战。
比赛的连接:第二届世界科学智能大赛逻辑推理赛道：复杂推理能力评估
在这里插入图片描述

准备内容

选择相应的GPU环境以及对应的镜像,这里使用到的是魔搭社区的内容
在这里插入图片描述

lora微调

lora微调介绍

LoRA（Low-Rank Adaptation）微调是一种高效的模型微调技术，特别适用于大型预训练语言模型的适应性调整。LoRA的核心思想是通过引入低秩矩阵来调整模型的权重，从而在不显著增加模型参数数量的情况下，实现对模型的微调。

lora优势

可以针对不同的下游任务构建小型 LoRA 模块，从而在共享预训练模型参数基础上有效地切换下游任务。
LoRA 使用自适应优化器（Adaptive Optimizer），不需要计算梯度或维护大多数参数的优化器状态，训练更有效、硬件门槛更低。
LoRA 使用简单的线性设计，在部署时将可训练矩阵与冻结权重合并，不存在推理延迟。
LoRA 与其他方法正交，可以组合。

代码内容

在这里插入图片描述
复制内容:

git clone https://www.modelscope.cn/datasets/Datawhale/DW2024_Complex_reasoning_ability_assessment_qwen2-7b-lora.git

之后就会看到有一个文件夹,点击进去,选择 lora.ipynb
运行前两个代码
在这里插入图片描述
然后逐个运行下面的代码

start_vllm

调用

调用这个vllm的服务
选择start_vllm.ipynb
在这里插入图片描述

运行主函数

运行主函数 baseline2_main.ipynb
然后要注意的是要上传相应的test的文件
在这里插入图片描述

提交结果

将生成的文件upload.jsonl提交到官网,得到相应的分数
在这里插入图片描述

总结

主要就是根据datawhale所给到的相应学习资料进行一个运行操作,了解了这个模型调整的内容,对自己来说有很多还有学习的地方

相应连接

文章当中的内容都是由datawhale所给出

https://tianchi.aliyun.com/notebook/757650

Datawhale AI夏令营第三期逻辑推理赛道baseline02跑通指南

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1976989.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！