unsloth微调QwQ32B(4bit)

news2025/3/26 4:57:10

unsloth微调QwQ32B(4bit)

GPU: 3090 24G

unsloth安装部署

  • pip 安装

    pip install unsloth --index https://pypi.mirrors.usrc.edu.cn/simple
    
    source /etc/network_turbo
    
    pip install --force-reinstall --no-cache-dir --no-deps git+https://github.com/unslothai/unsloth.git
    

    image-20250318225453359


注册Wandb以监控模型微调过程

  • wandb地址

    https://wandb.ai/site

    image-20250322235532991

  • 登录

    下载

    pip install wandb
    

    使用api-key登录

    wandb login
    

  • 使用官网示例看一看

    备注:

    1. 需要联网
    2. 需要将key改为自己的
    3. entity需要提前设立
    import random
    import wandb
    
    wandb.login(key="api-key")
    
    # Start a new wandb run to track this script.
    run = wandb.init(
        # Set the wandb entity where your project will be logged (generally your team name).
        entity="qinchihongye-pa",
        # Set the wandb project where this run will be logged.
        project="project_test",
        # Track hyperparameters and run metadata.
        config={
            "learning_rate": 0.02,
            "architecture": "CNN",
            "dataset": "CIFAR-100",
            "epochs": 10,
        },
    )
    
    # Simulate training.
    epochs = 10
    offset = random.random() / 5
    for epoch in range(2, epochs):
        acc = 1 - 2**-epoch - random.random() / epoch - offset
        loss = 2**-epoch + random.random() / epoch + offset
        # Log metrics to wandb.
        run.log({"acc": acc, "loss": loss})
    
    # Finish the run and upload any remaining data.
    run.finish()
    

    image-20250323001331600

    image-20250323001400324


下载QwQ32B量化模型

  • huggingface地址(unsloth量化的4bit,比Q4_K_M量化的损失精度更小)

    https://huggingface.co/unsloth/QwQ-32B-unsloth-bnb-4bit

    复制名称

    unsloth/QwQ-32B-unsloth-bnb-4bit

  • 假设当前目录为

    /root/lanyun-tmp

  • 创建文件夹统一存放Huggingface下载的模型

    mkdir Hugging-Face 
    mkdir -p Hugging-Face/QwQ-32B-unsloth-bnb-4bit
    
  • 配置镜像源

    vim ~/.bashrc
    

    填入以下两个,以修改HuggingFace 的镜像源 、模型保存的默认

    export HF_ENDPOINT=https://hf-mirror.com
    export HF_HOME=/root/lanyun-tmp/Hugging-Face

    重新加载,查看环境变量是否生效

    source ~/.bashrc
    
    echo $HF_ENDPOINT
    echo $HF_HOME
    
  • 安装 HuggingFace 官方下载工具

    pip install -U huggingface_hub
    
  • 执行下载模型的命令

    huggingface-cli download --resume-download unsloth/QwQ-32B-unsloth-bnb-4bit --local-dir  /root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit
    
    Hugging-Face/QwQ-32B-unsloth-bnb-4bit
    

    或者使用python下载

    from huggingface_hub import snapshot_download
    snapshot_download(
        repo_id = "unsloth/QwQ-32B-unsloth-bnb-4bit",
        local_dir = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit",
    )
    

transformers库调用示例

  • 代码

    from transformers import AutoModelForCausalLM, AutoTokenizer
    
    model_name = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit"
    
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype="auto",
        device_map="cuda:0",
    )
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    
    prompt = "你好"
    messages = [
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    model_inputs = tokenizer([text]
                             , return_tensors="pt"
                            ).to(model.device)
    
    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=32768
    )
    
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    response = tokenizer.batch_decode(generated_ids
                                      , skip_special_tokens=True
                                     )[0]
    print(response)
    

    image-20250319224154469

  • 显存占用:23G左右。

    image-20250319224423863


vllm启动示例

  • 启动

    cd /root/lanyun-tmp/Hugging-Face
    
    
    vllm serve ./QwQ-32B-unsloth-bnb-4bit \
    --quantization bitsandbytes \
    --load-format bitsandbytes \
    --max-model-len 500 \
    --port 8081
    
  • 调用代码

    from openai import OpenAI
    import openai
    
    openai.api_key = '1111111' # 这里随便填一个
    openai.base_url = 'http://127.0.0.1:8081/v1'
    
    
    def get_completion(prompt, model="QwQ-32B"):
        client = OpenAI(api_key=openai.api_key,
                        base_url=openai.base_url
                        )
        messages = [{"role": "user", "content": prompt}]
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            stream=False
        )
        return response.choices[0].message.content
    	
    prompt = '你好,请幽默的介绍下你自己,不少于300字'
    get_completion(prompt, model="./QwQ-32B-unsloth-bnb-4bit")
    

cot数据集

  • FreedomIntelligence/medical-o1-reasoning-SFT

    https://huggingface.co/datasets/FreedomIntelligence/medical-o1-reasoning-SFT

  • 英文数据集下载

    from datasets import load_dataset
    import rich
    
    # Login using e.g. `huggingface-cli login` to access this dataset
    ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT", "en")
    
    rich.print(ds['train'][0])
    

    image-20250322102329936

  • 中文数据集下载

    from datasets import load_dataset
    import rich
    
    # Login using e.g. `huggingface-cli login` to access this dataset
    ds = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT", "zh")
    
    rich.print(ds['train'][0])
    

    image-20250322102403774

  • 下载完成后会看到在HuggingFace目录下的datasets目录中有刚刚下载的数据

    ll /root/lanyun-tmp/Hugging-Face/datasets/
    

    image-20250322102756924


unsloth加载QwQ32b模型

  • unsloth支持直接加载模型并推理,先加载模型

    from unsloth import FastLanguageModel
    
    max_seq_length = 2048
    dtype = None
    load_in_4bit = True # 4bit
    
    
    model,tokenizer = FastLanguageModel.from_pretrained(
         model_name = "/root/lanyun-tmp/Hugging-Face/QwQ-32B-unsloth-bnb-4bit/",
    	 max_seq_length = max_seq_length,
    	 dtype = dtype,
    	 load_in_4bit = load_in_4bit,
    )
    

    image-20250323002404635

    显存占用22G左右

    image-20250323002435203

  • 推理

    # 将模型调整为推理模式
    FastLanguageModel.for_inference(model)
    
    def QwQ32b_infer(question):
    	# prompt模板
    	prompt_style_chat = """请写出一个恰当的回来来完成当前对话任务。
    	### Instruction:
    	你是一名助人为乐的助手。
    	### Question:
    	{}
    	### Response:
    	<think>{}"""
    	# [prompt_style_chat.format(question,"")]
    	inputs = tokenizer([prompt_style_chat.format(question, "")]
                       ,return_tensors="pt"
    				   ).to("cuda")
        
    	outputs = model.generate(
    						input_ids = inputs.input_ids,
    						max_new_tokens=2048,
    						use_cache=True,
    					)
    	response = tokenizer.batch_decode(outputs)
    	return response[0].split("### Response:")[1]
    
    question = "证明根号2是无理数"
    response = QwQ32b_infer(question)
    

    image-20250323003010238


模型微调

  • 测试:使用微调数据集进行测试

    question_1 = "根据描述,一个1岁的孩子在夏季头皮出现多处小结节,长期不愈合,且现在疮大如梅,溃破流脓,口不收敛,头皮下有空洞,患处皮肤增厚。这种病症在中医中诊断为什么病?"
    
    question_2 = "一个生后8天的男婴因皮肤黄染伴发热和拒乳入院。体检发现其皮肤明显黄染,肝脾肿大和脐部少量渗液伴脐周红肿。在此情况下,哪种检查方法最有助于确诊感染病因?"
    
    
    response_1 = QwQ32b_infer(question_1)
    response_2 = QwQ32b_infer(question_2)
    
    print(response_1)
    print(response_2)
    

    image-20250323004511358

    image-20250323005528685

  • 加载并处理数据,选择训练集前500条进行最小可行性实验

    import os
    from datasets import load_dataset
    
    # 问答提示词模板
    train_prompt_style = """下面是描述任务的指令,与提供进一步上下文的输入配对。编写适当完成请求的响应。在回答之前,仔细思考问题,并创建逐步的思想链,以确保逻辑和准确的响应。
    
    ### Instruction:
    您是一位在临床推理、诊断和治疗计划方面拥有先进知识的医学专家。请回答以下医学问题。 
    
    ### Question:
    {}
    
    ### Response:
    <think>
    {}
    </think>
    {}"""
    
    # 文本生成结束的基本标记
    EOS_TOKEN = tokenizer.eos_token
    tokenizer.eos_token # '<|im_end|>'
    
    # 定义函数,对数据集进行修改
    def formatting_prompts_func(examples):
        inputs = examples["Question"]
        cots = examples["Complex_CoT"]
        outputs = examples["Response"]
        texts = []
        for input, cot, output in zip(inputs, cots, outputs):
            text = train_prompt_style.format(input, cot, output) + EOS_TOKEN
            texts.append(text)
        return {
            "text": texts,
        }
        
    # 先选择训练集前500条数据
    dataset = load_dataset("FreedomIntelligence/medical-o1-reasoning-SFT"
                           ,"zh"
                           , split = "train[0:500]"
                           ,trust_remote_code=True
                          )
    dataset = dataset.map(formatting_prompts_func
                          , batched = True
                         )
    
    import rich
    rich.print(dataset[0])
    rich.print(dataset[0]['text'])
    

    image-20250323010653554

  • 将模型设置为微调模式

                           
    # 将模型设置为微调模式
    model = FastLanguageModel.get_peft_model(
        model,
        r=4, # r=16 # 低秩矩阵的秩
        target_modules=[
            "q_proj",
            "k_proj",
            "v_proj",
            "o_proj",
            "gate_proj",
            "up_proj",
            "down_proj",
        ],
        lora_alpha=16,
        lora_dropout=0,  
        bias="none",  
        use_gradient_checkpointing="unsloth",  # True or "unsloth" for very long context
        random_state=1024,
        use_rslora=False,  
        loftq_config=None,
    )
    

    image-20250323012425940

  • 创建训练器(有监督微调对象)

    from trl import SFTTrainer
    from transformers import TrainingArguments
    from unsloth import is_bfloat16_supported
    
    trainer = SFTTrainer(
        model=model, # 指定需要微调的预训练模型
        tokenizer=tokenizer, # 分词器
        train_dataset=dataset, # 训练数据
        dataset_text_field="text", # 指定数据集中那一列包含训练文本(在formatting_prompt_func里面指定)
        max_seq_length=max_seq_length, #最大序列长度,用于控制输入文本的最大token数量
        dataset_num_proc=2, # 数据加载的并行进程数
        args=TrainingArguments(
            per_device_train_batch_size=1, # 每个GPU/设备的戌年批量大小(较小值适合大模型)
            gradient_accumulation_steps=4, # 梯度累计步数,相当于batch_size=1*4=4
            # num_train_epochs = 1, # 如果设置了num_train_epochs,则max_steps失效
            warmup_steps=5, # 预热步数,初始阶段学习率较低,然后逐步升高
            max_steps=60,# 最大训练步数
            learning_rate=2e-4, # 学习率
            fp16=not is_bfloat16_supported(),  # 如果GPU不支持bfloat16,则使用fp16(16位浮点数)
            bf16=is_bfloat16_supported(), # 如果GPU支持bfloat16,则启用bf16(训练更稳定)
            logging_steps=10, # 每10步记录一次日志
            optim="adamw_8bit", # 使用adamw_8bit 8bit adamw优化器减少显存占用
            weight_decay=0.01, # 权重衰减 L2正则化,防止过拟合
            lr_scheduler_type="linear", # 学习率调整策略,线性衰减
            seed=1024, # 随机种子,保证实验结果可复现
            output_dir="/root/lanyun-tmp/outputs", # 训练结果的输出目录
        ),
    )
    
    # 设置wandb(可选则)
    import wandb
    wandb.login(key="api-key")
    
    run = wandb.init(entity="qinchihongye-pa"
                     ,project='QwQ-32B-4bit-FT'
                    )
    
    # 开始模型微调
    trainer_stats = trainer.train()
    
    trainer_status
    

    image-20250323155933809

    训练过程中的显存占用如上,训练过程如下

    image-20250323160147618

    点击wandb链接,查看训练过程中的损失函数,学习率,梯度等等的变化。

    image-20250323160324517

  • unsloth在微调结束后,会自动更新模型权重(在缓存中),因此无序手动合并集合直接调用微调后的模型

    FastLanguageModel.for_inference(model)
    
    new_response_1 = QwQ32b_infer(question_1)
    new_response_2 = QwQ32b_infer(question_2)
    
    new_response_1
    new_response_2
    

    image-20250323205055248

    image-20250323205114604

    可以看到第一个问题还是回答错了,第二个问题也如旧,可以考虑继续进行大规模微调,使用全部微调文件+多个epoch。

  • 模型合并

    此时本地保存的模型权重在/root/lanyun-tmp/outputs

    image-20250323205516739

    注意,unsloth中默认100步保存一个checkpoint,因为当前steps=60,所以只有一个checkpoint点。

    合并保存为safetensors

    model.save_pretrained_merged("/root/lanyun-tmp/QwQ-Medical-COT-Tiny"
                                 , tokenizer
                                 , save_method = "merged_4bit_forced",#保存为4bit量化
                                )
    
    # model.save_pretrained_merged("dir"
    #                              , tokenizer
    #                              , save_method = "merged_16bit",#保存为16bit
    #                             )
    

    合并为GGUF格式(需要量化,非常耗时)

    # model.save_pretrained_gguf("dir"
    #                            , tokenizer
    #                            , quantization_method = "q4_k_m"
    #                           )
    
    # model.save_pretrained_gguf("dir"
    #                            , tokenizer
    #                            , quantization_method = "q8_0"
    #                           )
    
    # model.save_pretrained_gguf("dir"
    #                            , tokenizer
    #                            , quantization_method = "f16"
    #                           )
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2320757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于腾讯云大模型知识引擎×DeepSeek的高等职业学校单独招生二级学院考前咨询系统

1、主要思路 通过大模型知识引擎DeepSeek搭建高等职业学校单独招生二级学院考前咨询专有问答&#xff0c;使得专业老师能够更好的服务考试学生&#xff0c;有利于二级学院能够更好的进行考试宣传&#xff0c;招来优秀学子&#xff01; 2、创作过程 2.1、本地部署大模型的缺陷…

【Linux】线程库

一、线程库管理 tid其实是一个地址 void* start(void* args) {const char* name (const char *)args;while(true){printf("我是新线程 %s &#xff0c;我的地址&#xff1a;0x%lx\n",name,pthread_self());sleep(1);}return nullptr; }int main() {pthread_t tid…

物化视图详解:数据库性能优化的利器

物化视图&#xff08;Materialized View&#xff09;作为数据库性能优化的核心手段&#xff0c;通过预计算和存储查询结果&#xff0c;显著提升了复杂查询的效率。本文将深入剖析物化视图的工作原理、应用场景及最佳实践&#xff0c;帮助企业在合适的场景中充分发挥其性能优势。…

蓝桥杯备考-》单词接龙

很明显&#xff0c;这道题是可以用DFS来做的&#xff0c;我们直接暴力搜索&#xff0c;但是这里有很多点是我们需要注意的。 1.我们如何确定两个单词能接上&#xff1f; 比如touch和choose 应该合成为touchoose 就是这样两个单词&#xff0c;我们让一个指针指着第一个字符串…

计算机视觉yolov8模型应用-学习笔记

计算机视觉yolov8模型应用-学习笔记 YOLOv8是由Ultralytics公司在‌2023年1月10日‌发布的一款深度学习模型。它是YOLOv5的重大更新版本&#xff0c;支持图像分类、物体检测和实例分割任务。这一版本在发布前就受到了广泛关注&#xff0c;并在发布后迅速成为目标检测领域的热门…

【网络层协议】NAT技术内网穿透

IP地址数量限制 我们知道&#xff0c;IP地址&#xff08;IPv4&#xff09;是一个4字节32位的整数&#xff0c;那么一共只有2^32也就是接近43亿个IP地址&#xff0c;而TCP/IP协议栈规定&#xff0c;每台主机只能有一个IP地址&#xff0c;这就意味着&#xff0c;一共只有不到43亿…

深入理解 C++11 智能指针:独占、共享与弱引用的完美管理

文章目录 std::unique_ptr&#xff08;独占式智能指针&#xff09;std::shared_ptr&#xff08;共享式智能指针&#xff09;std::weak_ptr&#xff08;弱引用智能指针&#xff09;示例展示&#xff1a;智能指针的原理内存泄漏**什么是内存泄漏&#xff0c;内存泄漏的危害****如…

AI Agent开发大全第四课-提示语工程:从简单命令到AI对话的“魔法”公式

什么是提示语工程?一个让AI“听话”的秘密 如果你曾经尝试过用ChatGPT或者其他大语言模型完成任务,那么你一定遇到过这样的情况:明明你的问题是清晰的,但答案却离题万里;或者你认为自己提供的信息足够详尽,可结果还是不理想。问题出在哪?很多时候并不是因为AI不够聪明,…

大模型架构记录 【综述-文字版】

名词解释&#xff1a; Prompt &#xff1a;提示词&#xff0c;是一个非常关键的概念&#xff0c;它指的是用户输入的文本或指令&#xff0c;用于引导语言模型生成相应的回答或执行特定任务。 Prompt Engineering&#xff1a;&#xff08;提示工程&#xff09; 是一种通过设计…

【论文笔记】Transformer

Transformer 2017 年&#xff0c;谷歌团队提出 Transformer 结构&#xff0c;Transformer 首先应用在自然语言处理领域中的机器翻译任务上&#xff0c;Transformer 结构完全构建于注意力机制&#xff0c;完全丢弃递归和卷积的结构&#xff0c;这使得 Transformer 结构效率更高…

使用CSS3实现炫酷的3D翻转卡片效果

使用CSS3实现炫酷的3D翻转卡片效果 这里写目录标题 使用CSS3实现炫酷的3D翻转卡片效果项目介绍技术要点分析1. 3D空间设置2. 核心CSS属性3. 布局和定位 实现难点和解决方案1. 3D效果的流畅性2. 卡片内容布局3. 响应式设计 性能优化建议浏览器兼容性总结 项目介绍 在这个项目中…

SpringSecurity——基于角色权限控制和资源权限控制

目录 基于角色权限控制 1.1 自定义 UserDetailsService 1.2 加载用户角色 1.3. 给角色配置能访问的资源&#xff08;使用切面拦截&#xff0c;使用注解&#xff09; 总结 资源权限控制 2.2. 需要有一个用户&#xff1b;&#xff08;从数据库查询用户&#xff09; 2.2 基…

红宝书第十一讲:超易懂版「ES6类与继承」零基础教程:用现实例子+图解实现

红宝书第十一讲&#xff1a;超易懂版「ES6类与继承」零基础教程&#xff1a;用现实例子图解实现 资料取自《JavaScript高级程序设计&#xff08;第5版&#xff09;》。 查看总目录&#xff1a;红宝书学习大纲 一、ES6类的核心语法&#xff1a;把事物抽象成“模板” 想象你要设…

Python为Word文档添加书签并打包成exe

背景简述 由于一些工作场景&#xff0c;需要从多个Word文档中找到出现的关键词&#xff0c;并阅读关键词的上下文内容。文件可能几十个&#xff0c;手动操作太要命了。所以python尝试处理。 目录 背景简述思路第一步、功能实现结果验证 第二步、打包成exe2-1、基础准备2-2、打…

ROS导航工具包Navigation

一&#xff0c;安装 Navigation工具包包含在 navigation 元功能包中。你可以通过以下命令安装&#xff1a; sudo apt-get install ros-noetic-navigation 如果你使用的是其他ROS版本&#xff08;如Melodic&#xff09;&#xff0c;将 noetic 替换为对应的版本名称&#xff08…

资金管理策略思路

详细描述了完整交易策略的实现细节&#xff0c;主要包括输入参数、变量定义、趋势判断、入场与出场条件、止损与止盈设置等多个方面。 输入参数&#xff08;Input&#xff09;&#xff1a; EntryFrL (.6)&#xff1a;多头入场的前一日波动范围的倍数。 EntryFrS (.3)&#xff1…

工业软件的破局与重构:从技术依赖到自主创新的未来路径

工业软件作为现代工业的“神经与大脑”&#xff0c;不仅是制造业数字化转型的核心工具&#xff0c;更是国家工业竞争力的战略制高点。近年来&#xff0c;中国工业软件市场在政策驱动与技术迭代中迅猛发展&#xff0c;但核心技术受制于人的困境仍待突破。如何实现从“跟跑”到“…

常见中间件漏洞攻略-Tomcat篇

一、 CVE-2017-12615-Tomcat put方法任意文件写入漏洞 第一步&#xff1a;开启靶场 第二步&#xff1a;在首页抓取数据包&#xff0c;并发送到重放器 第三步&#xff1a;先上传尝试一个1.txt进行测试 第四步&#xff1a;上传后门程序 第五步&#xff1a;使用哥斯拉连接 二、后…

【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍

【Dive Into Stable Diffusion v3.5】系列博文&#xff1a; 第1篇&#xff1a;开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练第2篇&#xff1a;Stable Diffusion v3.5原理介绍 目录 1 前言1.1 扩散模型的原理1.2 损失函数1.3 加噪流程1.4 推理流程1.5 negative pr…

英伟达黄仁勋2025GTC演讲深度解析:液冷GPU、AI工厂、机器人AI…...

目录 一、技术产品与架构升级&#xff1a;从芯片到算力工厂1. 新一代GPU与计算架构2. AI工厂与算力操作系统 二、AI技术演进&#xff1a;从生成式到物理AI1. AI发展的三大阶段2. 推理算力需求爆炸式增长 三、生态合作与行业落地1. CUDA生态与开源工具2. 跨行业合作案例 四、未来…