0.01 /小时,使用超算互联网https://www.scnet.cn/国产卡推理微调大模型,初体验

news2024/9/22 15:51:39

0.01 /小时,使用超算互联网 https://www.scnet.cn/ 国产卡推理微调大模型,初体验

官网购买算力,国产卡活动0.01 /小时,非常划算
活动地址
https://www.scnet.cn/home/subject/modular/index264.html
在这里插入图片描述
扫码入群,每天领算力优惠券,入群介绍记得填 wmx_scnet 推荐,谢谢大家
在这里插入图片描述

加速卡:异构加速卡AI * 1卡
显存:64GB
处理器:15核心 2*7490 64C
内存:110GB
镜像:jupyterlab-pytorch:2.1.0-ubuntu20.04-dtk24.04.1-py3.10

大模型 : qwen

1 环境搭建

进入上面已经购买的算力 notebook 环境,搭建开发环境

/public/home/wmx_scnet/ 路径下 , wmx_scnet 是账号用户名
clone代码 https://github.com/QwenLM/Qwen
cd Qwen
安装依赖 pip install -r requirements.txt

报错:

lease a version with a conforming version number. Discussion can be found at https://github.com/pypa/pip/issues/12063
Installing collected packages: transformers, transformers_stream_generator
  Attempting uninstall: transformers
    Found existing installation: transformers 4.38.0
    Uninstalling transformers-4.38.0:
      Successfully uninstalled transformers-4.38.0
      ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
vllm 0.3.3+das1.1.gitdf6349c.abi1.dtk2404.torch2.1.0 requires transformers>=4.38.0, but you have transformers 4.37.2 which is incompatible.
Successfully installed transformers-4.37.2 transformers_stream_generator-0.0.4
WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
notice] A new release of pip is available: 24.0 -> 24.1.2

解决:
pip install --upgrade pip
重新运行 pip install -r requirements.txt

2运行cli_demo.py 推理

python cli_demo.py
先下载模型 Qwen-7B-Chat ,默认下载路径是 /root/.cache/huggingface

修改默认的路径为 $SCNET_USER_HOME/huggingface_cache

export HUGGINGFACE_HUB_CACHE= $SCNET_USER_HOME/huggingface_cache
mv /root/.cache/huggingface $SCNET_USER_HOME/huggingface_cache

再次运行 python cli_demo.py 不生效,还是从原来位置检查模型,没有按照环境变量 HUGGINGFACE_HUB_CACHE 指定的目录加载模型,需要手动加载

python cli_demo.py -c /public/home/wmx_scnet/huggingface_cache/hub/models--Qwen--Qwen-7B-Chat/snapshots/93a65d34827a3cc269b727e67004743b723e2f83

首次运行,大模型乱说

python cli_demo.py   
 
User: 你是谁

Qwen-Chat: "门不吃禁还要不乘没有了息之失。
。饿逊是谁。恒江是你。你是一只恒江。汉江是我。汉江是我。你好江,你好江。你是一个好江。好的江你好江。好的江你好江。你好江。你好江。你好江。你好江。好江你好江。你好江。好江你好江。你好江。你好江。好的江你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好江。你好 

国产卡 hy-smi 这命令类似 nvidia-smi
VRAM 占用 47% ,大概30G
反馈给客服,之后解决

再次运行cli_demo.py , 能正确回答问题,但是非常慢
关闭之后再次运行,发现显卡内存没有释放 hy-smi VRAM 占用 97%
需要重启实例

python cli_demo.py -c /public/home/wmx_scnet/huggingface_cache/hub/models--Qwen--Qwen-7B-Chat/snapshots/93a65d34827a3cc269b727e67004743b723e2f83
Your device support faster inference by passing bf16=True in "AutoModelForCausalLM.from_pretrained".
/opt/conda/lib/python3.10/site-packages/accelerate/utils/modeling.py:1384: UserWarning: Current model requires 4194560 bytes of buffer for offloaded layers, which seems does not fit any GPU's remaining memory. If you are experiencing a OOM later, please consider using offload_buffers=True.
  warnings.warn(
Loading checkpoint shards:   0%|                                                                                                                                                                                                                                                             | 0/8 [00:00<?, ?it/s]
libgomp: Thread creation failed: Resource temporarily unavailable

3微调qwen模型:

使用e-file 上传模型文件到 /public/home/wmx_scnet/Qwen-1_8B-Chat
上传数据文件到/public/home/wmx_scnet/DISC-Law-SFT/train_data_law.json
修改Qwen/finetune/finetune_lora_single_gpu.sh ,指定模型和数据

MODEL=‘/public/home/wmx_scnet/Qwen-1_8B-Chat’
DATA=“/public/home/wmx_scnet/DISC-Law-SFT/train_data_law.json”

修改微调参数finetune_lora_single_gpu.sh :

python finetune.py \
  --model_name_or_path $MODEL \
  --data_path $DATA \
  --bf16 True \
  --output_dir output_qwen \
  --num_train_epochs 5 \
  --per_device_train_batch_size 32 \
  --per_device_eval_batch_size 4 \
  --gradient_accumulation_steps 8 \
  --evaluation_strategy "no" \
  --save_strategy "steps" \
  --save_steps 200 \
  --save_total_limit 10 \
  --learning_rate 3e-4 \
  --weight_decay 0.1 \
  --adam_beta2 0.95 \
  --warmup_ratio 0.01 \
  --lr_scheduler_type "cosine" \
  --logging_steps 1 \
  --report_to "none" \
  --model_max_length 512 \
  --lazy_preprocess True \
  --gradient_checkpointing \
  --use_lora

启动微调
sh finetune/finetune_lora_single_gpu.sh
初始显示预计需要7小时,总共310次迭代it,每次迭代大概76ms
过程中截图:
在这里插入图片描述
占用显存 hy-smi查看是65%

在这里插入图片描述
微调完毕,合并模型
输出在 /public/home/wmx_scnet/Qwen/output_qwen/checkpoint-200
使用脚本qwen_lora_merge.py合并模型
输出的模型在 /public/home/wmx_scnet/Qwen-1_8B-Chat_law_merge
推理合并后的模型

python cli_demo.py -c /public/home/wmx_scnet/Qwen-1_8B-Chat_law_merge

输出
在这里插入图片描述

修改cli_demo.py 指定 fp32=False

    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        device_map=device_map,
        fp32=False,
        trust_remote_code=True,
        resume_download=False,
    ).eval()

因为训练使用bf16,在模型配置config.json中指定了bf16=true,所以做出上面修改
发现运行之后推理乱码输出
在这里插入图片描述
把模型改为fp32推理正常
在这里插入图片描述
微调的结果法律数据问答
在这里插入图片描述

总结:

6 微调使用国产卡非常慢,大概需要7小时,使用nvidia-4070ti-super 需要大概2个半小时,差距很大
4070tisuper 微调参数:
python finetune.py
–model_name_or_path $MODEL
–data_path $DATA
–bf16 False
–output_dir output_qwen
–num_train_epochs 5
–per_device_train_batch_size 8
–per_device_eval_batch_size 1
–gradient_accumulation_steps 8
–evaluation_strategy “no”
–save_strategy “steps”
–save_steps 200
–save_total_limit 10
–learning_rate 3e-4
–weight_decay 0.1
–adam_beta2 0.95
–warmup_ratio 0.01
–lr_scheduler_type “cosine”
–logging_steps 1
–report_to “none”
–model_max_length 512
–lazy_preprocess True
–gradient_checkpointing
–use_lora

下面图片是4070tisuper 微调的过程截图:
速度 7.32s /it

在这里插入图片描述
下图4070tisuper显卡占用情况,只占用5.28G
在这里插入图片描述
4070tisuper推理微调后的模型:
在这里插入图片描述

显卡占用情况,只占用4.67G
在这里插入图片描述
下面是国产卡,推理过程速度耗时如下图
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相对于nvidia 国产卡做的已经很不错,从无到有已经很厉害,服务不错,技术24小时在线,遇到问题很快得到解决。
性能方面需要提升,软件和生态需要提升,这离不开用户群体,算力非常划算,值得日常使用微调推理训练大模型。如果对卡有要求的话,官网上有nvidan 系列显卡,很划算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1967008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

服务器集群中 IP 地址管理混乱

服务器集群为各种关键业务提供强大的计算和存储能力。但如果服务器集群的 IP 地址管理混乱会给服务的部署和维护带来影响。 服务器集群与 IP 地址的关系 服务器集群是由一组相互连接的服务器组成&#xff0c;共同工作以提供更高的性能、可用性和可扩展性。IP 地址则是服务器在…

软件测试面试101问(附答案)

前言 前阵子一位读者告诉我&#xff0c;某位大厂HR给他发了我之前做的面试题答案合集。 这个消息让我开心了一整天&#xff0c;因为这说明我之前做的面试题系列真的能帮助到部分测试同学&#xff0c;也算是侧面得到了一种认可吧。 今天写的这份面试题我之前就整理分享过&…

结合LangChain实现网页数据爬取

LangChain 非常强大的一点就是封装了非常多强大的工具可以直接使用。降低了使用者的学习成本。比如数据网页爬取。 在其官方文档-网页爬取中&#xff0c;也有非常好的示例。 应用场景 信息爬取。 RAG 信息检索。 实践应用 需求说明 从 ceshiren 网站中获取每个帖子的名称…

Grafana Loki 架构组件详解

在本指南中&#xff0c;我们将详细了解Grafana Loki架构及其组件。 在公司的分布式环境中&#xff0c;存储和管理来自各种系统资源的日志是一项具有挑战性的任务。为了简化这项任务&#xff0c;引入了一个称为日志聚合的概念&#xff0c;它从各种系统资源中收集、存储、管理日…

(3)基于巴法云+MQTT+微信小程序控制esp8266点灯

1、配置微信公众平台 在 微信公众平台 注册 小程序 账号&#xff0c;拿到小程序 appid&#xff0c;登录到微信公众平台后在 开发者ID 里面可以看到&#xff0c;长的大概是这样&#xff1a;wx34a2063de5yyc04b&#xff0c;下面导入项目的时候会用到。 然后在 服务器域名 的后面…

微信小程序_对接声网_视频会议

目录 一、开通声网账号 1.注册账号 2.新建项目 3.开启小程序服务 二、对接声网小程序 1.前提条件 2.跑通API示例项目 3.合并两个项目 三、嵌入声网web网页 1.准备html页面 2.web-view组件 开发的微信小程序项目里面有多人会议&#xff0c;对接声网&#xff0c;有两种…

洛谷 P1548 [NOIP1997 普及组] 棋盘问题 题解

题目背景 NOIP1997 普及组第一题 题目描述 设有一个NM 方格的棋盘 (1≤N≤100,1≤M≤100) 求出该棋盘中包含有多少个正方形、多少个长方形&#xff08;不包括正方形&#xff09;。 例如&#xff1a;当 N2,M3时&#xff1a; 正方形的个数有 8 个&#xff1a;即边长为 1 的正…

(附源码)Springboot 书店销售管理-计算机毕设 42172

Springboot 书店销售管理 目 录 摘要 1 绪论 1.1 研究意义 1.2选题背景 1.3springboot框架介绍 2 书店销售管理系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析…

PCB电路板散热的技巧

对于电子设备来说&#xff0c;工作时都会产生一定的热量&#xff0c;从而使设备内部温度迅速上升&#xff0c;如果不及时将该热量散发出去&#xff0c;设备就会持续的升温&#xff0c;器件就会因过热而失效&#xff0c;电子设备的可靠性能就会下降。 因此&#xff0c;对电路板…

独立站转化率优化移动端篇丨出海笔记操盘手面对面精华

关于独立站转化率优化&#xff0c;其实有专业的术语叫做CRO——conversion rate optimize。其实这是个很大很大的话题。里面其实包括站站外和站内的两部分&#xff0c;站外不用多说了比如就是广告&#xff0c;或者是其他的流量渠道等等&#xff0c;站内优化是我们今天要讲的重点…

springboot高校科研成果管理系统-计算机毕业设计源码48574

摘要 随着科研规模和复杂度的增加&#xff0c;管理科研成果、经费申请等方面变得愈发困难&#xff0c;需要系统化的管理工具进行支持。并且科研活动产生的数据量庞大&#xff0c;也越来越来越多的成果涌现&#xff0c;需要有效的数据管理系统来对高校科研成果进行处理、审核和发…

记录|如何统一管理多个同一个对象?

目录 前言一、对象就用对象数组管理更新时间 前言 自己的感想 一开始&#xff0c;自己没弄懂C# winform中的testBox是什么&#xff0c;导致创建多个testBox的时候要用很笨的方法来进行管理。 就是下面这种&#xff1a;用数组一个一个掉用里面的单独属性。 string[] str new …

操作系统之Linux相关 内存管理、虚拟内存、设计特点、网络编程模型

Linux 文章目录 LinuxLinux 内存管理Linux 虚拟内存概述虚拟地址与物理地址的映射内存分页分页的优势虚拟地址到物理地址的映射机制分级页表的缺陷段页式内存管理 Linux 信号Linux 设计特点I/O 多路复用五种 I/O 模型详解Linux 网络编程模型软链接和硬链接对比中断和异常用户态…

8G内存的Mac够用吗 ?苹果电脑内存满了怎么清理?可以有效地管理和优化你的Mac电脑内存,确保设备运行流畅

嘿&#xff0c;朋友们&#xff0c;让咱们聊聊怎么让我们的Mac小伙伴时刻保持巅峰状态吧&#xff01;想象一下&#xff0c;每一次点击、每一次滑动&#xff0c;都如同初见时那般丝滑顺畅&#xff0c;是不是超级心动&#xff1f;为了这份持久的畅快体验&#xff0c;我强烈推荐大家…

提升教学效率,智慧校园班主任管理的下课堂功能助力

在智慧校园学工系统中&#xff0c;班主任管理课堂的关键在于利用系统提供的工具高效执行点名与秩序维护。班主任可以借助系统快速进行点名&#xff0c;自动匹配班级学生名单&#xff0c;简化整个流程。系统支持多样化的点名方式&#xff0c;包括传统手动点名、二维码签到&#…

6-2 图像卷积

互相关运算 严格来说&#xff0c;卷积层是个错误的叫法&#xff0c;因为它所表达的运算其实是互相关运算&#xff08;cross-correlation&#xff09;&#xff0c;而不是卷积运算。 根据 6-1节中的描述&#xff0c;在卷积层中&#xff0c;输入张量和核张量通过互相关运算产生输…

On Stacking a Persistent Memory File System on Legacy File Systems——论文泛读

FAST 2023 Paper 分布式元数据论文阅读笔记整理 问题 非易失性主存储器&#xff08;NVMM&#xff09;具有与DRAM类似的低访问延迟和字节可寻址性&#xff0c;同时实现数据的非易失性。但存在以下缺点&#xff1a;&#xff08;1&#xff09;延迟高于DRAM&#xff0c;&#xff…

PVE虚拟机被锁定:VM is locked解决方法

&#x1f31f;&#x1f30c; 欢迎来到知识与创意的殿堂 — 远见阁小民的世界&#xff01;&#x1f680; &#x1f31f;&#x1f9ed; 在这里&#xff0c;我们一起探索技术的奥秘&#xff0c;一起在知识的海洋中遨游。 &#x1f31f;&#x1f9ed; 在这里&#xff0c;每个错误都…

前端面试宝典【设计模式】【1】

欢迎来到《前端面试宝典》,这里是你通往互联网大厂的专属通道,专为渴望在前端领域大放异彩的你量身定制。通过本专栏的学习,无论是一线大厂还是初创企业的面试,都能自信满满地展现你的实力。 核心特色: 独家实战案例:每一期专栏都将深入剖析真实的前端面试案例,从基础知…

某RED书旋转验证码标注工具

注意&#xff0c;本文只提供学习的思路&#xff0c;严禁违反法律以及破坏信息系统等行为&#xff0c;本文只提供思路 本文的验证码网址如下&#xff0c;使用base64解码获得 最近&#xff0c;某书的旋转验证码又更新了&#xff0c;在我之前的文章有讲过利用梯度幅度计算图像边缘…