【ChatGLM2-6B】P-Tuning训练微调

news2024/11/25 12:41:17

机器配置

  • 阿里云GPU规格ecs.gn6i-c4g1.xlarge
  • NVIDIA T4显卡*1
  • GPU显存16G*1

准备训练数据

  • 进入/ChatGLM-6B/ptuning
  • mkdir AdvertiseGen
  • cd AdvertiseGen
  • 上传 dev.jsontrain.json
  • 内容都是
{"content": "你是谁", "summary": "你好,我是V校人工智能,江湖人称V-Chat。"}
{"content": "V校", "summary": "全宇宙最牛的智慧校园产品"}

安装依赖

  • pip install fastapi uvicorn datasets jieba rouge_chinese nltk cpm_kernels

修改train.sh

  • 修改模型参数文件位置: --model_name_or_path ../THUDM/chatglm2-6b
  • 修改后的train.sh
PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=1

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
    --do_train \
    --train_file AdvertiseGen/train.json \
    --validation_file AdvertiseGen/dev.json \
    --preprocessing_num_workers 10 \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path ../THUDM/chatglm2-6b \
    --output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 128 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 3000 \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN \
    --quantization_bit 4

开始训练

  • bash train.sh

训练进度

  • 查看GPU使用: watch -n 0.5 nvidia-smi
    在这里插入图片描述

推理

  • 修改evaluate.sh
  • 修改模型参数文件位置: --model_name_or_path ../THUDM/chatglm2-6b
  • 修改后的evaluate.sh
PRE_SEQ_LEN=128
CHECKPOINT=adgen-chatglm2-6b-pt-128-2e-2
STEP=3000
NUM_GPUS=1

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
    --do_predict \
    --validation_file AdvertiseGen/dev.json \
    --test_file AdvertiseGen/dev.json \
    --overwrite_cache \
    --prompt_column content \
    --response_column summary \
    --model_name_or_path ../THUDM/chatglm2-6b \
    --ptuning_checkpoint ./output/$CHECKPOINT/checkpoint-$STEP \
    --output_dir ./output/$CHECKPOINT \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 64 \
    --per_device_eval_batch_size 1 \
    --predict_with_generate \
    --pre_seq_len $PRE_SEQ_LEN \
    --quantization_bit 4
  • 开始推理: sh evaluate.sh在这里插入图片描述

在这里插入图片描述

评测指标为中文 Rouge score 和 BLEU-4。生成的结果保存在 ./output/adgen-chatglm2-6b-pt-128-2e-2/generated_predictions.txt

运行

  • 修改web_demo.sh
  • 修改模型参数文件位置: --model_name_or_path ../THUDM/chatglm2-6b
  • 修改后的web_demo.sh
PRE_SEQ_LEN=128

CUDA_VISIBLE_DEVICES=0 python3 web_demo.py \
    --model_name_or_path ../THUDM/chatglm2-6b \
    --ptuning_checkpoint output/adgen-chatglm2-6b-pt-128-2e-2/checkpoint-3000 \
    --pre_seq_len $PRE_SEQ_LEN
  • 修改web_demo.sh
    在末尾的位置修改如下
#demo.queue().launch(share=False, inbrowser=True)
demo.queue().launch(share=True, inbrowser=True, server_name = '0.0.0.0', server_port=7860)
  • 启动: sh web_demo.sh
  • 浏览器访问: http://xx.xx.xx.xx:7860

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1162803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据绑定—变量

1.数据变量使用方法 使用相对路径,一层层看 2.data算数运算 3.查看页面数据方法 appdata中查看当前页面所有数据

Docker Compose部署Spug:实现内网穿透

文章目录 前言1. Docker安装Spug2 . 本地访问测试3. Linux 安装cpolar4. 配置Spug公网访问地址5. 公网远程访问Spug管理界面6. 固定Spug公网地址 前言 Spug 面向中小型企业设计的轻量级无 Agent 的自动化运维平台,整合了主机管理、主机批量执行、主机在线终端、文件…

复旦微flash高温下加载硬件程序时序异常问题

1、最近在调复旦微的板子,高温60℃上,重新上电,部分逻辑跑起来就出错。 2、通过分析排查问题出现在硬件程序加载时出错,即读取flash数据时出错。 3、解决方法:修改设备数的qspi时钟由50m改为10m,output.bif…

Colorful Image Colorization灰度图像上色

论文标题:https://arxiv.org/pdf/1603.08511.pdf 论文地址:https://arxiv.org/pdf/1603.08511.pdf github地址:https://github.com/richzhang/colorization 论文信息概要 问题描述和背景 本文的研究问题是如何将灰度照片变成逼真的彩色图像…

敏捷BI的理解与选择,你想好了吗?

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云 这是一个几乎所有企业都在谈数据的时代。虽然以大数据(Big Data)的定义(指“无法用现有的软件工具提取、存储、搜索…

解决问题 [Vue warn]: Missing required prop: “index“

vue项目控制台报错 [Vue warn]: Missing required prop: “index” 出现这个报错原因是<el-submenu></el-submenu>标签中缺少index属性&#xff0c;需要加上才能不报错 解决办法是&#xff1a; <el-submenu index""></el-submenu>

语音芯片ic常见故障分析 如何排查问题 声音不清晰 有爆破声

一、问题简介 语音芯片常见故障分析 如何排查问题 例如&#xff1a;声音不清晰 有爆破声 这些问题可能存在于如下方面&#xff1a; 供电电源是否稳定PCB板上面电容是否放置位置合适扬声器是否正常生成的音源文件&#xff0c;是不是本身就存在瑕疵 其实语音芯片的这些问题&a…

taro3中使用react函数组件和mobx状管理工具结合使用教程

在使用了最新版的函数组件hooks后&#xff0c;刚开始导入mobx&#xff0c;总是报cant resolve "src/store/index"这种错误&#xff0c;然后我就开始一步一步找原因&#xff0c;后来在组件中log了一下store&#xff0c;重新启动程序后&#xff0c;就没问题了&#xff…

怎么扫码下载视频?一招生成可下载的视频二维码

怎么做可以下载视频的二维码呢&#xff1f;当我们用二维码来分享时&#xff0c;很多视频二维码生成器制作的二维码都只有展示功能&#xff0c;无法让扫码者选择下载视频&#xff0c;那么这个问题有什么解决方法呢&#xff1f;对于有这方面需求的小伙伴&#xff0c;小编可以给大…

使用Process Explorer/Process Hacker和Windbg高效排查软件高CPU占用问题

目录 1、为什么需要将Process Explorer/Process Hacker与Windbg结合起来分析高CPU占用问题&#xff1f; 1.1、使用Windbg分析时为什么还要使用Process Explorer/Process Hacker呢&#xff1f; 1.2、使用Process Explorer/Process Hacker分析时为什么还要使用Windbg呢&#x…

【Java】AI+智慧工地云平台源码(SaaS模式)

伴随着科学技术的不断发展&#xff0c;信息化手段、移动技术、智能穿戴及工具在工程施工阶段的应用不断提升&#xff0c;智慧工地概念应运而生&#xff0c;庞大的建设规模催生着智慧工地的探索和研发。 一、带你认识智慧工地 伴随着技术的不断发展&#xff0c;信息化手段、移动…

Java,面向对象,抽象类和抽象方法(abstract的使用)

关于抽象类和抽象方法的使用&#xff0c;以Person和student和Teacher为例&#xff0c;若Student类和Teacher继承于Person类&#xff0c;老师和学生都有Person的特征。在一个班级里&#xff0c;只需要创建老师和学生的实例&#xff0c;并不需要创建Person的实例。关于Person的方…

【LeetCode】剑指 Offer Ⅱ 第8章:树(12道题) -- Java Version

题库链接&#xff1a;https://leetcode.cn/problem-list/e8X3pBZi/ 类型题目解决方案二叉树的深搜剑指 Offer II 047. 二叉树剪枝递归&#xff08;深搜&#xff09;&#xff1a;二叉树的后序遍历 &#xff08;⭐&#xff09;剑指 Offer II 048. 序列化和反序列化二叉树递归&…

无法启动程序由于找不到msvcp140.dll无法继续执行代码怎么解决

今天&#xff0c;我就来分享一下关于“找不到msvcp140.dll无法继续执行代码”的问题&#xff0c;以及我个人总结的5种解决方案。希望我的经验和建议能对大家有所帮助。 首先&#xff0c;我们要明确什么是msvcp140.dll。msvcp140.dll是微软Visual C 2015运行库中的一个组件&…

山西电力市场日前价格预测【2023-11-03】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2023-11-03&#xff09;山西电力市场全天平均日前电价为277.41元/MWh。其中&#xff0c;最高日前电价为355.83元/MWh&#xff0c;预计出现在18:15。最低日前电价为0.00元/MWh&#xff0c;预计出…

解锁无限可能:ON1 Photo RAW的新功能与优势forMac/win

作为摄影师&#xff0c;您是否曾为繁琐的照片编辑过程而感到困扰&#xff1f;是否希望有一种工具&#xff0c;能将您的照片编辑过程变得更加高效、灵活&#xff0c;同时不损失画质&#xff1f;如果是&#xff0c;那么您一定不能错过ON1 Photo RAW。 ON1 Photo RAW是一款全新的…

云资源信息安全就用行云管家!

越来越多的企业实现了上云&#xff0c;但如何保障云资源信息安全却是一个难题&#xff0c;很多小伙伴不知道怎么处理。这里我们小编告诉您&#xff0c;云资源信息安全就用行云管家&#xff01; 云资源信息安全就用行云管家&#xff01; 行云管家极其丰富的IT资源统一纳管能力&…

【IDEA使用maven package时,出现依赖不存在以及无法从仓库获取本地依赖的问题】

Install Parent project C:\Users\lxh\.jdks\corretto-1.8.0_362\bin\java.exe -Dmaven.multiModuleProjectDirectoryD:\学习\projectFile\study\study_example_service "-Dmaven.homeD:\Program Files\JetBrains\IntelliJ IDEA2021\plugins\maven\lib\maven3" "…

大厂面试题-TCP协议为什么要设计三次握手?

从下面三个方面来回答&#xff1a; 1.TCP协议&#xff0c;是一种可靠的&#xff0c;基于字节流的&#xff0c;面向连接的传输层协议。 a.可靠性体现在TCP协议通信双方的数据传输是稳定的&#xff0c;即便是在网络不好的情况下&#xff0c;TCP都能够保证数据传输到目标端&#…

国标GB28181的对接和核心参数

随着社会的发展&#xff0c;视频监控平台的使用越来越广泛了&#xff0c;但是在搭建这个平台的时候是需要符合一定的标准的。如果能符合国标GB28181的标准就可以&#xff0c;下面就给大家介绍一下国标GB28181的对接和核心参数。 一、国标GB28181的对接 1、国标GB28181设备端接…