理论学习地址:
https://zh.d2l.ai/chapter_linear-networks/index.html
autodl学术加速:
source /etc/network_turbo
conda常见操作:
删除:
conda remove --name myenv --all -y
导出:
conda env export > environment.yml
导入:
conda env create -f environment.yml
修改安装虚拟环境目录和包缓存目录
修改配置:
conda config --add envs_dirs /root/autodl-tmp/conda/envs
conda config --add pkgs_dirs /root/autodl-tmp/conda/pkgs
验证配置是否生效:
conda config --show | grep -A 2 "envs_dirs"
conda config --show | grep -A 2 "pkgs_dirs"
修改.bashrc
root@autodl-container-271149a41f-a69b11b9:~# which conda
/root/miniconda3/bin/conda
vi ~/.bashrc
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/root/miniconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
eval "$__conda_setup"
else
if [ -f "/path/to/conda/etc/profile.d/conda.sh" ]; then
. "/path/to/conda/etc/profile.d/conda.sh"
else
export PATH="/path/to/conda/bin:$PATH"
fi
fi
unset __conda_setup
# <<< conda initialize <<<
conda activate opencompass
source ~/.bashrc
换源:
-i https://pypi.mirrors.ustc.edu.cn/simple/
测试专用代码:
pip install openai
#多轮对话
from openai import OpenAI
#定义多轮对话方法
def run_chat_session():
#初始化客户端
client = OpenAI(base_url="http://localhost:23333/v1/",api_key="suibianxie")
#初始化对话历史
chat_history = []
#启动对话循环
while True:
#获取用户输入
user_input = input("用户:")
if user_input.lower() == "exit":
print("退出对话。")
break
#更新对话历史(添加用户输入)
chat_history.append({"role":"user","content":user_input})
#调用模型回答
try:
chat_complition = client.chat.completions.create(messages=chat_history,model="/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct")
#获取最新回答
model_response = chat_complition.choices[0]
print("AI:",model_response.message.content)
#更新对话历史(添加AI模型的回复)
chat_history.append({"role":"assistant","content":model_response.message.content})
except Exception as e:
print("发生错误:",e)
break
if __name__ == '__main__':
run_chat_session()
ptorch:
https://pytorch.org/
cuda12.4:
ubuntu:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 -i https://pypi.mirrors.ustc.edu.cn/simple/
cudacu121:
win:
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 -f https://mirrors.aliyun.com/pytorch-wheels/cu121
cuda11.8:
win:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118 -i https://pypi.mirrors.ustc.edu.cn/simple/
WSL:
【超详细的WSL教程:Windows上的Linux子系统】 https://www.bilibili.com/video/BV1tW42197za/?share_source=copy_web&vd_source=5260dbbb879acb9193fb2e7261e27631
常见对话生成数据集:
【对话生成】常见对话生成数据集整理,含下载链接(更新至2022.06.04)_日常对话得训练数据集-CSDN博客
大模型平台:
huggingface:
官网:
https://huggingface.co/
dataset(nlp):
https://huggingface.co/docs/datasets/quickstart#nlp
魔塔:
概览 · 魔搭社区
pip install modelscope
下载模型:
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct
下载单个文件:
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct README.md --local_dir ./dir
sdk下载:
#模型下载
from modelscope import snapshot_download
cache_dir="/root/autodl-tmp/model"
model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct',cache_dir=cache_dir)
langchain:
中文文档:
LangChain 介绍 | 🦜️🔗 Langchain
pipo算力云(API调用)
https://ppinfra.com/invitation
推理部署框架:
ollama
Ollama
配置环境
下载:
curl -fsSL https://ollama.com/install.sh | sh
启动:
ollama serve
运行:
ollama run ollama run qwen2.5:0.5b
运行自定义gguf:
创建ModelFile:
ModelFile内容如下:
#GGUF文件路径
FROM /root/autodl-tmp/Llama3-8B/LLM-Research/Meta-Llama-3-8B-Instruct-gguf8.gguf
创建自定义模型:
ollama create zyhhsss --file ./ModeFile
运行:
ollama run zyhhsss
删除:
ollama list
ollama rm zyhhsss
安装命令解释:
1. 命令的作用
(a) curl 部分
curl 是一个命令行工具,用于从指定的 URL 下载内容。
参数解释:
-f: 如果请求失败(例如 HTTP 状态码为 404 或 500),则不输出错误信息到终端。
-s: 静默模式,不显示进度条或错误信息。
-S: 在静默模式下,如果发生错误,仍然显示错误信息。
-L: 如果遇到重定向(如 301 或 302),自动跟随新的地址。
组合起来,-fsSL 表示“安静地下载文件,并处理重定向”。
https://ollama.com/install.sh:这是脚本的下载地址。curl 将从这个 URL 下载脚本的内容。
(b) | sh 部分
| 是管道符号,表示将 curl 的输出直接传递给下一个命令。
sh 是一个 Shell 解释器,用于执行从 curl 下载的脚本内容。
整体来说,这条命令的含义是:
使用 curl 从 https://ollama.com/install.sh 下载脚本。
将脚本内容通过管道传递给 sh,实时执行脚本中的命令。
2. 脚本会做什么?
运行此命令后,脚本的内容会直接影响您的系统。通常情况下,这种安装脚本可能会执行以下操作:
检查系统的环境(如操作系统、架构等)。
下载必要的二进制文件或依赖项。
安装软件到特定位置(如 /usr/local/bin 或 /opt)。
创建快捷方式或配置文件。
添加服务或设置环境变量。
具体行为取决于 install.sh 脚本的内容。
3. 风险与注意事项
虽然这种“一键安装”方式非常方便,但也存在一定的风险。以下是一些需要注意的事项:
(a) 脚本来源是否可信
您正在从 https://ollama.com/install.sh 下载脚本并直接执行,这意味着脚本的内容完全决定了它对您的系统的影响。
如果脚本被恶意篡改,可能会导致安全问题(如安装恶意软件、窃取数据等)。
建议:
在运行之前,先检查脚本的内容。例如:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | less
这会将脚本内容输出到终端供您查看。确认无误后再运行。
(b) 是否需要管理员权限
如果脚本需要写入系统目录(如 /usr/local/bin),可能需要使用 sudo 提升权限:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sudo sh
注意:使用 sudo 运行脚本时要格外小心,因为它会以超级用户权限执行所有命令。
(c) 日志记录
为了便于排查问题,可以将脚本的输出保存到日志文件中:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh | sh > install.log 2>&1
这样,所有输出(包括标准输出和错误信息)都会被记录到 install.log 文件中。
4. 替代方法:手动下载并检查脚本
如果您希望更安全地执行此操作,可以采用以下步骤:
(a) 手动下载脚本
使用 curl 或 wget 下载脚本到本地:
bash
浅色版本
curl -fsSL https://ollama.com/install.sh -o install.sh
(b) 检查脚本内容
使用文本编辑器或查看工具检查脚本内容:
bash
浅色版本
less install.sh
(c) 执行脚本
确认脚本无误后,再运行它:
bash
浅色版本
sh install.sh
或者使用 chmod 赋予执行权限后运行:
bash
浅色版本
chmod +x install.sh
./install.sh
5. 总结
curl -fsSL https://ollama.com/install.sh | sh 是一种快速下载并执行脚本的方式。
它的本质是从远程服务器获取脚本内容,并通过 sh 实时执行。
优点:简单快捷。
缺点:存在潜在的安全风险,尤其是当脚本来源不可信时。
建议:在运行之前检查脚本内容,确保其来源可信,并根据需要记录日志以便排查问题。
vllm
欢迎使用 vLLM — vLLM 文档
对话模板
OpenAI 兼容服务器 — vLLM 文档
指定jinja2文件启动:
vllm serve <model> --chat-template ./path-to-chat-template.jinja
lmdeploy
欢迎来到 LMDeploy 的中文教程! — lmdeploy
安装:
conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
pip install lmdeploy
pip install partial-json-parser
打开cli:
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333 --model-name zyhhsss
对话模板
自定义对话模板 — lmdeploy
lmdeploy官方标准json
{
"model_name": "your awesome chat template name",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": ["<|im_end|>"]
}
json格式:
lmdeploy serve api_server model --chat-template ${JSON_FILE}
并行推理:
推荐使用 Key-Value(KV) Cache 量化
lmdeploy serve api_server internlm/internlm2_5-7b-chat --quant-policy 8
turbomind加速:
启动模型:
lmdeploy serve api_server /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct --server-port 23333
turbomind加速:
lmdeploy chat modelname
lmdeploy chat turbomind aaa --model-name bbb
模型转换:
lmdeploy convert 模型coinfig中的name huggingface的模型路径
生成的ws在命令执行的位置
environment.yml
env+cuda12.4
Ubuntu:
name: lmdeploy
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- tzdata=2025a=h04d1e81_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.5.2
- addict==2.4.0
- aiosignal==1.3.2
- airportsdata==20250224
- annotated-types==0.7.0
- anyio==4.9.0
- attrs==25.3.0
- certifi==2025.1.31
- cfgv==3.4.0
- charset-normalizer==3.4.1
- click==8.1.8
- cloudpickle==3.1.1
- diskcache==5.6.3
- distlib==0.3.9
- distro==1.9.0
- einops==0.8.1
- exceptiongroup==1.2.2
- fastapi==0.115.12
- filelock==3.18.0
- fire==0.7.0
- frozenlist==1.5.0
- fsspec==2025.3.0
- genson==1.3.0
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.29.3
- identify==2.6.9
- idna==3.10
- interegular==0.3.3
- iso3166==2.1.1
- jinja2==3.1.6
- jiter==0.9.0
- jsonschema==4.23.0
- jsonschema-specifications==2024.10.1
- lark==1.2.2
- lmdeploy==0.7.2.post1
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- mdurl==0.1.2
- mmengine-lite==0.10.7
- mpmath==1.3.0
- msgpack==1.1.0
- nest-asyncio==1.6.0
- networkx==3.4.2
- nodeenv==1.9.1
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-ml-py==12.570.86
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- openai==1.69.0
- outlines==0.2.1
- outlines-core==0.1.26
- packaging==24.2
- partial-json-parser==0.2.1.1.post5
- peft==0.14.0
- pillow==11.1.0
- platformdirs==4.3.7
- pre-commit==4.2.0
- protobuf==6.30.2
- psutil==7.0.0
- pydantic==2.11.1
- pydantic-core==2.33.0
- pygments==2.19.1
- pynvml==12.0.0
- pyyaml==6.0.2
- ray==2.44.1
- referencing==0.36.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- rpds-py==0.24.0
- safetensors==0.5.3
- sentencepiece==0.2.0
- shortuuid==1.0.13
- sniffio==1.3.1
- starlette==0.46.1
- sympy==1.13.1
- termcolor==2.5.0
- tiktoken==0.9.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.5.1
- torchvision==0.20.1
- tqdm==4.67.1
- transformers==4.50.3
- triton==3.1.0
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- urllib3==2.3.0
- uvicorn==0.34.0
- virtualenv==20.29.3
- yapf==0.43.0
prefix: /root/miniconda3/envs/lmdeploy
win11:
微调框架:
Llamafactory:
端口:7860
LLaMA-Factory/README_zh.md at main · hiyouga/LLaMA-Factory
conda:
conda create -n llamafactory python=3.10 -y
conda activate llamafactory
conda remove --name myenv --all
版本冲突:
解决一:
pip install -e .
pip install gradio==5.23.1
pip install bitsandbytes==0.45.3
pip install peft ==0.12.0
DISABLE_VERSION_CHECK=1 llamafactory-cli webui
解决二:
bitsandbytes=0.44.0
accelerate=1.1.1
peft= 0.12.0
transformers=4.49.0
torch=2.5.1
解决三:
docker
解决四:用requirement.txt/environment.yml
git:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
推荐使用:
pip install -e .
bug!!!!
这个包(gradio)解析json有问题:
5.23.1这个版本可以但是原文中里面提示:5.21.0却不行
pip install --force-reinstall gradio==5.21.0
pip install --upgrade gradio
使用flashattn2加速:
pip install bitsandbytes==0.43.3
启动:
(llmdeploy) root@autodl-container-2fb0448cad-36aa5df2:~/autodl-tmp/LLaMA-Factory/LLaMA-Factory# llamafactory-cli
----------------------------------------------------------------------
| Usage: |
| llamafactory-cli api -h: launch an OpenAI-style API server |
| llamafactory-cli chat -h: launch a chat interface in CLI |
| llamafactory-cli eval -h: evaluate models |
| llamafactory-cli export -h: merge LoRA adapters and export model |
| llamafactory-cli train -h: train models |
| llamafactory-cli webchat -h: launch a chat interface in Web UI |
| llamafactory-cli webui: launch LlamaBoard |
| llamafactory-cli version: show version info |
----------------------------------------------------------------------
llamafactory-cli webui
注意:
在 Python 项目中,setup.py 文件通常会包含两个主要部分来定义依赖项:
install_requires:
这是项目运行所必需的基础依赖。
这些依赖项会在你运行 pip install . 或 pip install -e . 时被安装。
extras_require:
这是项目的可选依赖组(如 torch、metrics 等)。
这些依赖项只有在明确指定时才会被安装,例如通过 pip install -e ".[torch,metrics]"。
environment.yml
ubuntu+cuda12.4
name: llamafactory
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.4.0
- aiofiles==23.2.1
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.14
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==5.0.1
- attrs==25.3.0
- audioread==3.0.1
- av==14.2.0
- bitsandbytes==0.45.3
- certifi==2025.1.31
- cffi==1.17.1
- charset-normalizer==3.4.1
- click==8.1.8
- contourpy==1.3.1
- cycler==0.12.1
- datasets==3.3.2
- decorator==5.2.1
- dill==0.3.8
- docstring-parser==0.16
- einops==0.8.1
- exceptiongroup==1.2.2
- fastapi==0.115.12
- ffmpy==0.5.0
- filelock==3.18.0
- fire==0.7.0
- fonttools==4.56.0
- frozenlist==1.5.0
- fsspec==2024.12.0
- gradio==5.23.1
- gradio-client==1.8.0
- groovy==0.1.2
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.29.3
- idna==3.10
- jinja2==3.1.6
- joblib==1.4.2
- kiwisolver==1.4.8
- lazy-loader==0.4
- librosa==0.11.0
- llamafactory==0.9.3.dev0
- llvmlite==0.44.0
- markdown-it-py==3.0.0
- markupsafe==2.1.5
- matplotlib==3.10.1
- mdurl==0.1.2
- mpmath==1.3.0
- msgpack==1.1.0
- multidict==6.2.0
- multiprocess==0.70.16
- networkx==3.4.2
- numba==0.61.0
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-cusparselt-cu12==0.6.2
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- orjson==3.10.16
- packaging==24.2
- pandas==2.2.3
- peft==0.15.1
- pillow==11.1.0
- platformdirs==4.3.7
- pooch==1.8.2
- propcache==0.3.1
- protobuf==6.30.2
- psutil==7.0.0
- pyarrow==19.0.1
- pycparser==2.22
- pydantic==2.11.1
- pydantic-core==2.33.0
- pydub==0.25.1
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- python-multipart==0.0.20
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- ruff==0.11.2
- safehttpx==0.1.6
- safetensors==0.5.3
- scikit-learn==1.6.1
- scipy==1.15.2
- semantic-version==2.10.0
- sentencepiece==0.2.0
- shellingham==1.5.4
- shtab==1.7.1
- six==1.17.0
- sniffio==1.3.1
- soundfile==0.13.1
- soxr==0.5.0.post1
- sse-starlette==2.2.1
- starlette==0.46.1
- sympy==1.13.1
- termcolor==2.5.0
- threadpoolctl==3.6.0
- tiktoken==0.9.0
- tokenizers==0.21.0
- tomlkit==0.13.2
- torch==2.6.0
- tqdm==4.67.1
- transformers==4.49.0
- triton==3.2.0
- trl==0.9.6
- typer==0.15.2
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- tyro==0.8.14
- tzdata==2025.2
- urllib3==2.3.0
- uvicorn==0.34.0
- websockets==15.0.1
- xxhash==3.5.0
- yarl==1.18.3
prefix: /root/miniconda3/envs/llamafactory
对话模板转jinjia2:
放在src/llamafactory/data目录下
import sys
import os
# 将项目根目录添加到 Python 路径
root_dir = os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
sys.path.append(root_dir)
from llamafactory.data.template import TEMPLATES
from transformers import AutoTokenizer
# 1. 初始化分词器(任意支持的分词器均可)
tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/llm/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B")
# 2. 获取模板对象
template_name = "qwen" # 替换为你需要查看的模板名称
template = TEMPLATES[template_name]
# 3. 修复分词器的 Jinja 模板
template.fix_jinja_template(tokenizer)
# 4. 直接输出模板的 Jinja 格式
print("=" * 40)
print(f"Template [{template_name}] 的 Jinja 格式:")
print("=" * 40)
print(tokenizer.chat_template)
Xtuner:
官网:
欢迎来到 XTuner 的中文文档 — XTuner 0.2.0rc0 文档
配置环境:
安装环境:
conda create --name xtuner-env python=3.10 -y
conda activate xtuner-env
//conda env create -f environment.yml
git clone https://github.com/InternLM/xtuner.git
cd xtuner
pip install -e '.[deepspeed]' -i https://pypi.mirrors.ustc.edu.cn/simple/
版本冲突:
runtime.txt中
torch==2.5.1
torchvision==0.20.1
-
验证:
xtuner list-cfg
训练:
仅支持微调configs下的模型
见下方训练脚本
启动微调脚本
xtuner train internlm2_chat_1_8b_qlora_alpaca_e3.py --work-dir
模型转换为huggingface模型:
xtuner convert pth_to_hf ${FINETUNE_CFG} ${PTH_PATH} ${SAVE_PATH}
# 例如:xtuner convert pth_to_hf /root/autodl-tmp/xtuner-main/xtuner-main/jiaoben/qwen1_5_1_8b_chat_qlora_alpaca_e3.py /root/autodl-tmp/xtuner-main/xtuner-main/work_dirs/qwen1_5_1_8b_chat_qlora_alpaca_e3/iter_2500.pth /root/autodl-tmp/xtuner-main/xtu
ner-main/huggingface
lora/qlora进行模型合并:
xtuner convert merge ${基座模型} ${Huggingface模型} ${合并模型路径}
例如:
xtuner convert merge /root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct /root/autodl-tmp/xtuner-main/xtuner-main/huggingface /root/autodl-tmp/xtuner-main/xtuner-main/merge
多卡并行:
# 以下命令根据需要任选其一
xtuner train xxx --deepspeed deepspeed_zero1
xtuner train xxx --deepspeed deepspeed_zero2
xtuner train xxx --deepspeed deepspeed_zero2_offload
xtuner train xxx --deepspeed deepspeed_zero3
xtuner train xxx --deepspeed deepspeed_zero3_offload
用下面这个多卡并行
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2
python脚本模板:
一共修改14个(最下面有个load权重)
# Copyright (c) OpenMMLab. All rights reserved.
import torch
from datasets import load_dataset
from mmengine.dataset import DefaultSampler
from mmengine.hooks import (
CheckpointHook,
DistSamplerSeedHook,
IterTimerHook,
LoggerHook,
ParamSchedulerHook,
)
from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
from peft import LoraConfig
from torch.optim import AdamW
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from xtuner.dataset import process_hf_dataset
from xtuner.dataset.collate_fns import default_collate_fn
from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
from xtuner.engine.hooks import (
DatasetInfoHook,
EvaluateChatHook,
VarlenAttnArgsToMessageHubHook,
)
from xtuner.engine.runner import TrainLoop
from xtuner.model import SupervisedFinetune
from xtuner.parallel.sequence import SequenceParallelSampler
from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE
#######################################################################
# PART 1 Settings #
#######################################################################
# Model
# pretrained_model_name_or_path = "Qwen/Qwen1.5-1.8B-Chat"
#基座模型 1
pretrained_model_name_or_path = "/root/autodl-tmp/model/Qwen/Qwen2.5-1.5B-Instruct"
use_varlen_attn = False
# Data 2
#
# data_files = [
# '/root/public/data/target_data_1.json',
# '/root/public/data/target_data_2.json',
# '/root/public/data/target_data_3.json'
# ]
data_files = '/root/autodl-tmp/xtuner-main/xtuner-main/data/output.json'#数据集
# 提示词模板 3
prompt_template = PROMPT_TEMPLATE.qwen_chat
# 长度 4
max_length = 512
pack_to_max_length = True
# parallel
sequence_parallel_size = 1
# Scheduler & Optimizer
# 优化器
# 批次 5
batch_size = 10 # per_device
accumulative_counts = 16
accumulative_counts *= sequence_parallel_size
dataloader_num_workers = 0
# 最大轮次 6
max_epochs = 3000
optim_type = AdamW
lr = 2e-4
betas = (0.9, 0.999)
weight_decay = 0
max_norm = 1 # grad clip
warmup_ratio = 0.03
# 多少轮保存 7
save_steps = 500
# 最大保存数量 8
save_total_limit = 2 # Maximum checkpoints to keep (-1 means unlimited)
# Evaluate the generation performance during the training
evaluation_freq = 500
SYSTEM = SYSTEM_TEMPLATE.alpaca
# 主观验证 9
evaluation_inputs = ["这只烤乳猪火出圈啦", "朕决定于今日称帝","珍爱生命,远离死亡"
,"吃书有助于消化知识"]
#######################################################################
# PART 2 Model & Tokenizer #
#######################################################################
tokenizer = dict(
type=AutoTokenizer.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
padding_side="right",
)
model = dict(
type=SupervisedFinetune,
use_varlen_attn=use_varlen_attn,
llm=dict(
type=AutoModelForCausalLM.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
torch_dtype=torch.float16,
# 微调方法 下面是qlora,用lora给注释掉 10
quantization_config=dict(
type=BitsAndBytesConfig,
# 四位
load_in_4bit=False,
# 八位
load_in_8bit=True,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
),
),
# lora配置 11
lora=dict(
type=LoraConfig,
r=64,
lora_alpha=128,
lora_dropout=0.1,
bias="none",
task_type="CAUSAL_LM",
),
)
#######################################################################
# PART 3 Dataset & Dataloader #
#######################################################################
alpaca_en = dict(
type=process_hf_dataset,
# dataset=dict(type=load_dataset, path=alpaca_en_path),
# 加载数据集 12
dataset=dict(type=load_dataset, path="json",data_files=data_files),
tokenizer=tokenizer,
max_length=max_length,
# 加载数据集匹配格式 13
dataset_map_fn=None,
template_map_fn=dict(type=template_map_fn_factory, template=prompt_template),
remove_unused_columns=True,
shuffle_before_pack=True,
pack_to_max_length=pack_to_max_length,
use_varlen_attn=use_varlen_attn,
)
sampler = SequenceParallelSampler if sequence_parallel_size > 1 else DefaultSampler
train_dataloader = dict(
batch_size=batch_size,
num_workers=dataloader_num_workers,
dataset=alpaca_en,
sampler=dict(type=sampler, shuffle=True),
collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn),
)
#######################################################################
# PART 4 Scheduler & Optimizer #
#######################################################################
# optimizer
# 优化器相关 14
optim_wrapper = dict(
type=AmpOptimWrapper,
optimizer=dict(type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
accumulative_counts=accumulative_counts,
loss_scale="dynamic",
dtype="float16",
)
# learning policy
# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md # noqa: E501
param_scheduler = [
dict(
type=LinearLR,
start_factor=1e-5,
by_epoch=True,
begin=0,
end=warmup_ratio * max_epochs,
convert_to_iter_based=True,
),
dict(
type=CosineAnnealingLR,
eta_min=0.0,
by_epoch=True,
begin=warmup_ratio * max_epochs,
end=max_epochs,
convert_to_iter_based=True,
),
]
# train, val, test setting
train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)
#######################################################################
# PART 5 Runtime #
#######################################################################
# Log the dialogue periodically during the training process, optional
custom_hooks = [
dict(type=DatasetInfoHook, tokenizer=tokenizer),
dict(
type=EvaluateChatHook,
tokenizer=tokenizer,
every_n_iters=evaluation_freq,
evaluation_inputs=evaluation_inputs,
system=SYSTEM,
prompt_template=prompt_template,
),
]
if use_varlen_attn:
custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)]
# configure default hooks
default_hooks = dict(
# record the time of every iteration.
timer=dict(type=IterTimerHook),
# print log every 10 iterations.
logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
# enable the parameter scheduler.
param_scheduler=dict(type=ParamSchedulerHook),
# save checkpoint per `save_steps`.
checkpoint=dict(
type=CheckpointHook,
by_epoch=False,
interval=save_steps,
max_keep_ckpts=save_total_limit,
),
# set sampler seed in distributed evrionment.
sampler_seed=dict(type=DistSamplerSeedHook),
)
# configure environment
env_cfg = dict(
# whether to enable cudnn benchmark
cudnn_benchmark=False,
# set multi process parameters
mp_cfg=dict(mp_start_method="fork", opencv_num_threads=0),
# set distributed parameters
dist_cfg=dict(backend="nccl"),
)
# set visualizer
visualizer = None
# set log level
log_level = "INFO"
# load from which checkpoint
#15加载权重 load .pth文件夹
#ep:load_from = "path_to_pth"
load_from = None
# whether to resume training from the loaded checkpoint
resume = False
# Defaults to use random seed and disable `deterministic`
randomness = dict(seed=None, deterministic=False)
# set log processor
log_processor = dict(by_epoch=False)
environment.yml
name: xtuner-env
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- accelerate==1.6.0
- addict==2.4.0
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.16
- aiosignal==1.3.2
- annotated-types==0.7.0
- async-timeout==5.0.1
- attrs==25.3.0
- bitsandbytes==0.45.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- contourpy==1.3.1
- cycler==0.12.1
- datasets==3.5.0
- deepspeed==0.16.2
- dill==0.3.8
- einops==0.8.1
- et-xmlfile==2.0.0
- filelock==3.18.0
- fonttools==4.57.0
- frozenlist==1.5.0
- fsspec==2024.12.0
- hjson==3.1.0
- huggingface-hub==0.30.1
- idna==3.10
- imageio==2.37.0
- jinja2==3.1.6
- kiwisolver==1.4.8
- lazy-loader==0.4
- loguru==0.7.3
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mmengine==0.10.6
- modelscope==1.25.0
- mpi4py-mpich==3.1.5
- mpmath==1.3.0
- msgpack==1.1.0
- multidict==6.3.2
- multiprocess==0.70.16
- networkx==3.4.2
- ninja==1.11.1.4
- numpy==2.2.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- opencv-python==4.11.0.86
- openpyxl==3.1.5
- packaging==24.2
- pandas==2.2.3
- peft==0.15.1
- pillow==11.1.0
- platformdirs==4.3.7
- propcache==0.3.1
- psutil==7.0.0
- py-cpuinfo==9.0.0
- pyarrow==19.0.1
- pydantic==2.11.2
- pydantic-core==2.33.1
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==14.0.0
- safetensors==0.5.3
- scikit-image==0.25.2
- scipy==1.15.2
- sentencepiece==0.2.0
- six==1.17.0
- sympy==1.13.1
- termcolor==3.0.1
- tifffile==2025.3.30
- tiktoken==0.9.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.5.1
- torchvision==0.20.1
- tqdm==4.67.1
- transformers==4.48.0
- transformers-stream-generator==0.0.5
- triton==3.1.0
- typing-extensions==4.13.1
- typing-inspection==0.4.0
- tzdata==2025.2
- urllib3==2.3.0
- xxhash==3.5.0
- yapf==0.43.0
- yarl==1.18.3
prefix: /root/miniconda3/envs/xtuner-env
评测模型的工具:
OpenCompass:
官方:https://doc.opencompass.org.cn/get_started/installation.html
中文:https://opencompass.readthedocs.io/zh-cn/latest/get_started/installation.html
评估一个模型一般要评估两个数据集:
一、开源的数据集评估(评估通用能力)
二、自定义数据集评估(评估定制化能力)
配置环境:
本文用的 0.4.2
conda create --name opencompass python=3.10 -y
# conda create --name opencompass_lmdeploy python=3.10 -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
下载数据集:
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
把数据集放在代码的data目录下
(数据解压就是data文件夹)
environment.yml
name: opencompass
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- tzdata=2025a=h04d1e81_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- absl-py==2.2.2
- accelerate==1.6.0
- addict==2.4.0
- aiohappyeyeballs==2.6.1
- aiohttp==3.11.16
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==5.0.1
- attrs==25.3.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- click==8.1.8
- colorama==0.4.6
- contourpy==1.3.2
- cpm-kernels==1.0.11
- cycler==0.12.1
- datasets==3.5.0
- dill==0.3.8
- distro==1.9.0
- einops==0.8.1
- evaluate==0.4.3
- exceptiongroup==1.2.2
- filelock==3.18.0
- fonttools==4.57.0
- frozenlist==1.6.0
- fsspec==2024.12.0
- func-timeout==4.3.5
- fuzzywuzzy==0.18.0
- gradio-client==1.8.0
- h11==0.14.0
- h5py==3.13.0
- httpcore==1.0.8
- httpx==0.27.2
- huggingface-hub==0.30.2
- idna==3.10
- immutabledict==4.2.1
- importlib-metadata==8.6.1
- jieba==0.42.1
- jinja2==3.1.6
- jiter==0.9.0
- joblib==1.4.2
- json5==0.12.0
- jsonlines==4.0.0
- kiwisolver==1.4.8
- levenshtein==0.27.1
- lxml==5.3.2
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mmengine-lite==0.10.7
- mpmath==1.3.0
- multidict==6.4.3
- multiprocess==0.70.16
- networkx==3.4.2
- nltk==3.9.1
- numpy==1.26.4
- nvidia-cublas-cu12==12.4.5.8
- nvidia-cuda-cupti-cu12==12.4.127
- nvidia-cuda-nvrtc-cu12==12.4.127
- nvidia-cuda-runtime-cu12==12.4.127
- nvidia-cudnn-cu12==9.1.0.70
- nvidia-cufft-cu12==11.2.1.3
- nvidia-curand-cu12==10.3.5.147
- nvidia-cusolver-cu12==11.6.1.9
- nvidia-cusparse-cu12==12.3.1.170
- nvidia-cusparselt-cu12==0.6.2
- nvidia-ml-py==12.570.86
- nvidia-nccl-cu12==2.21.5
- nvidia-nvjitlink-cu12==12.4.127
- nvidia-nvtx-cu12==12.4.127
- nvitop==1.4.2
- openai==1.75.0
- opencc==1.1.9
- opencv-python-headless==4.11.0.86
- packaging==24.2
- pandas==1.5.3
- pillow==11.2.1
- platformdirs==4.3.7
- portalocker==3.1.1
- prettytable==3.16.0
- propcache==0.3.1
- protobuf==6.30.2
- psutil==7.0.0
- pyarrow==19.0.1
- pydantic==2.11.3
- pydantic-core==2.33.1
- pyext==0.7
- pygments==2.19.1
- pyparsing==3.2.3
- python-dateutil==2.9.0.post0
- python-levenshtein==0.27.1
- pytz==2025.2
- pyyaml==6.0.2
- rank-bm25==0.2.2
- rapidfuzz==3.13.0
- regex==2024.11.6
- requests==2.32.3
- retrying==1.3.4
- rich==14.0.0
- rouge==1.0.1
- rouge-chinese==1.0.3
- rouge-score==0.1.2
- sacrebleu==2.5.1
- safetensors==0.5.3
- scikit-learn==1.5.0
- scipy==1.15.2
- seaborn==0.13.2
- sentence-transformers==4.1.0
- shellingham==1.5.4
- six==1.17.0
- sniffio==1.3.1
- sympy==1.13.1
- tabulate==0.9.0
- termcolor==3.0.1
- threadpoolctl==3.6.0
- tiktoken==0.9.0
- timeout-decorator==0.5.0
- tokenizers==0.21.1
- tomli==2.2.1
- torch==2.6.0
- tqdm==4.67.1
- transformers==4.51.3
- tree-sitter==0.21.3
- tree-sitter-languages==1.10.2
- triton==3.2.0
- typer==0.15.2
- typing-extensions==4.13.2
- typing-inspection==0.4.0
- urllib3==2.4.0
- wcwidth==0.2.13
- websockets==15.0.1
- xxhash==3.5.0
- yapf==0.43.0
- yarl==1.20.0
- zipp==3.21.0
prefix: /root/autodl-tmp/conda/envs/opencompass
数据集评估:
数据集分类
_gen后缀数据集:生成式评估,需后处理提取答案(如ceval_gen)
_ppl后缀数据集:困惑度评估,直接比对选项概率(如ceval_ppl)
C-Eval:侧重中文STEM和社会科学知识,包含1.3万道选择题
LawBench:法律领域专项评估,需额外克隆仓库并配置路径
评估一个模型一般要评估两个数据集:
一、开源的数据集评估(评估通用能力)
二、自定义数据集评估(评估定制化能力)
1. 主流开源数据集
OpenCompass内置超过70个数据集,覆盖五大能力维度:
知识类:C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。
推理类:GSM8K(数学推理)、BBH(复杂推理链)。
语言类:CLUE(中文理解)、AFQMC(语义相似度)。
代码类:HumanEval(代码生成)、MBPP(编程问题)。
多模态类:MMBench(图像理解)、SEED-Bench(多模态问答)
2. 自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据,默认的字段如下:
question: 表示选择题的题干
A, B, C, …: 使用单个大写字母表示选项,个数不限定。默认只会从 A 开始,解析连续的字母作为选项。
answer: 表示选择题的正确答案,其值必须是上述所选用的选项之一,如 A, B, C 等。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}
.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B
2.2问答题 (qa)
对于问答 (qa) 类型的数据,默认的字段如下:
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失,表示该数据集无正确答案。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}
.csv 格式样例如下:
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170
评估命令:
评估本地的hf格式大模型:
参数解释:
--datasets:
评估所用数据集(数据集配置在框架系统中,可以使用
# 列出与llama和mmlu相关的所有配置
python tools/list_configs.py llama mmlu
来查看)
--hf-type:模型属于什么类型 一般模型名字后面由chat就填chat,没有写base或者不传这个参数
--hf-path:模型路径
--debug:捕获异常并提供详细信息
方法一:命令行(只能评估一个模型!!!!!!!!!!!!!!!!!!!!!!)
python run.py \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--hf-type chat \
--hf-path internlm/internlm2-chat-1_8b \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
方法二:命令行+配置文件(多模型!!!!!!!!!!!!!!!!!!!!!!!)
--models:后面跟的模型名称,对应的配置文件目录在:opencompass/openconpass/configs/models/qwen2.5 去找模型。
模型名称解析:
hf前缀代表是huggingface评估方法
找到你要的py文件:
例如:hf_qwen1_5_0_5b_chat.py,然后修改 path换成绝对路径
run_cfg=dict(num_gpus=1)评估用的哪一块gpu,电脑上只有一块的写成0
from opencompass.models import HuggingFacewithChatTemplate
models = [
dict(
type=HuggingFacewithChatTemplate,
abbr='qwen1.5-0.5b-chat-hf',
path='Qwen/Qwen1.5-0.5B-Chat',
max_out_len=1024,
batch_size=8,
run_cfg=dict(num_gpus=0),
stop_words=['<|im_end|>', '<|im_start|>'],
)
]
注意:可以使用 python tools/list_configs.py hf_qwen 来查看模型名称,即跟在--models后面的参数
python run.py \
--models hf_internlm2_chat_1_8b hf_qwen2_1_5b_instruct \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
评估加速:
1. pip install lmdeploy
2. 在config/models/下寻找 lmdeploy开头的py文件
2.1 修改path:
2.2 参数解释
engine_config=dict(session_len=16384, max_batch_size=16, tp=1),
tp:产生的结果用对应序号的gpu来评估。
from opencompass.models import TurboMindModelwithChatTemplate
models = [
dict(
type=TurboMindModelwithChatTemplate,
abbr='qwen1.5-1.8b-chat-turbomind',
path='Qwen/Qwen1.5-1.8B-Chat',
engine_config=dict(session_len=16384, max_batch_size=16, tp=1),
gen_config=dict(top_k=1, temperature=1e-6, top_p=0.9, max_new_tokens=4096),
max_seq_len=16384,
max_out_len=4096,
batch_size=16,
run_cfg=dict(num_gpus=1),
stop_words=['<|im_end|>', '<|im_start|>'],
)
]
3. 和上面一样 model填写你修改的配置文件地址
python run.py \
--models lmdeploy_xxxxx \
--datasets demo_gsm8k_chat_gen demo_math_chat_gen \
--debug
--work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
自定义数据及评估:
自定义数据集
我们支持 .jsonl 和 .csv 两种格式的数据集。
2.1 选择题 (mcq)
对于选择 (mcq) 类型的数据,默认的字段如下:
question: 表示选择题的题干
A, B, C, …: 使用单个大写字母表示选项,个数不限定。默认只会从 A 开始,解析连续的字母作为选项。
answer: 表示选择题的正确答案,其值必须是上述所选用的选项之一,如 A, B, C 等。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "165+833+650+615=", "A": "2258", "B": "2263", "C": "2281", "answer": "B"}
{"question": "368+959+918+653+978=", "A": "3876", "B": "3878", "C": "3880", "answer": "A"}
{"question": "776+208+589+882+571+996+515+726=", "A": "5213", "B": "5263", "C": "5383", "answer": "B"}
{"question": "803+862+815+100+409+758+262+169=", "A": "4098", "B": "4128", "C": "4178", "answer": "C"}
.csv 格式样例如下:
question,A,B,C,answer
127+545+588+620+556+199=,2632,2635,2645,B
735+603+102+335+605=,2376,2380,2410,B
506+346+920+451+910+142+659+850=,4766,4774,4784,C
504+811+870+445=,2615,2630,2750,B
2.2问答题 (qa)
对于问答 (qa) 类型的数据,默认的字段如下:
question: 表示问答题的题干
answer: 表示问答题的正确答案。可缺失,表示该数据集无正确答案。
对于非默认字段,我们都会进行读入,但默认不会使用。如需使用,则需要在 .meta.json 文件中进行指定。
.jsonl 格式样例如下:
{"question": "752+361+181+933+235+986=", "answer": "3448"}
{"question": "712+165+223+711=", "answer": "1811"}
{"question": "921+975+888+539=", "answer": "3323"}
{"question": "752+321+388+643+568+982+468+397=", "answer": "4519"}
.csv 格式样例如下:
question,answer
123+147+874+850+915+163+291+604=,3967
149+646+241+898+822+386=,3142
332+424+582+962+735+798+653+214=,4700
649+215+412+495+220+738+989+452=,4170
参数解析:
--custom-dataset-data-type qa 或者mcp
--hf-path:模型绝对路径
方法一(简化):
python run.py \
--hf-path internlm/internlm2-chat-1_8b \
--custom-dataset-path xxx/test_qa.jsonl \
方法二(全一点):
python run.py \
--hf-path internlm/internlm2-chat-1_8b \
--custom-dataset-path xxx/test_qa.jsonl \
--custom-dataset-data-type qa \
--custom-dataset-infer-method gen
前端框架:
openwebui
地址:
https://github.com/open-webui/open-webui
安装:
conda create -n openwebui python=3.11 -y
conda activate openwebui
pip install -U open-webui torch transformers -i https://pypi.mirrors.ustc.edu.cn/simple/
运行:
ubuntu:
conda activate open-webui
export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=True
export OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080
windows:(!!!记得写成bat文件)
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
open-webui serve --port 8080
bat:
@echo off
REM 设置环境变量
set HF_ENDPOINT=https://hf-mirror.com
set ENABLE_OLLAMA_API=False
set OPENAI_API_BASE_URL=http://127.0.0.1:23333/v1
REM 激活 Conda 环境
call conda activate open-webui
REM 启动 OpenWebUI 服务
open-webui serve --port 8080
大模型转gguf:
llama.cpp:
下载:
git clone https://github.com/ggerganov/llama.cpp.git
安装依赖:
conda create -n llama_cpp python=3.10 -y
conda activate llama_cpp
pip install -r requirements.txt
运行脚本:
# 如果不量化,保留模型的效果
python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss --outtype f16 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf.gguf
# 如果需要量化(加速并有损效果),直接执行下面脚本就可以
python convert_hf_to_gguf.py /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss --outtype q8_0 --verbose --outfile /root/autodl-tmp/model/Qwen2.5-1.5B-zyhhsss-gguf_q8_0.gguf
这里--outtype是输出类型,代表含义:
q2_k:特定张量(Tensor)采用较高的精度设置,而其他的则保持基础级别。
q3_k_l、q3_k_m、q3_k_s:这些变体在不同张量上使用不同级别的精度,从而达到性能和效率的平衡。
q4_0:这是最初的量化方案,使用 4 位精度。
q4_1 和 q4_k_m、q4_k_s:这些提供了不同程度的准确性和推理速度,适合需要平衡资源使用的场景。
q5_0、q5_1、q5_k_m、q5_k_s:这些版本在保证更高准确度的同时,会使用更多的资源并且推理速度较
慢。
q6_k 和 q8_0:这些提供了最高的精度,但是因为高资源消耗和慢速度,可能不适合所有用户。
fp16 和 f32: 不量化,保留原始精度。
environment.yml
name: llama_cpp
channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- bzip2=1.0.8=h5eee18b_6
- ca-certificates=2025.2.25=h06a4308_0
- ld_impl_linux-64=2.40=h12ee557_0
- libffi=3.4.4=h6a678d5_1
- libgcc-ng=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libstdcxx-ng=11.2.0=h1234567_1
- libuuid=1.41.5=h5eee18b_0
- ncurses=6.4=h6a678d5_0
- openssl=3.0.16=h5eee18b_0
- pip=25.0=py310h06a4308_0
- python=3.10.16=he870216_1
- readline=8.2=h5eee18b_0
- setuptools=75.8.0=py310h06a4308_0
- sqlite=3.45.3=h5eee18b_0
- tk=8.6.14=h39e8969_0
- wheel=0.45.1=py310h06a4308_0
- xz=5.6.4=h5eee18b_1
- zlib=1.2.13=h5eee18b_1
- pip:
- aiohttp==3.9.5
- aiosignal==1.3.2
- annotated-types==0.7.0
- anyio==4.9.0
- async-timeout==4.0.3
- attrs==25.3.0
- certifi==2025.1.31
- charset-normalizer==3.4.1
- click==8.1.8
- contourpy==1.3.1
- cycler==0.12.1
- distro==1.9.0
- exceptiongroup==1.2.2
- filelock==3.18.0
- fonttools==4.56.0
- frozenlist==1.5.0
- fsspec==2025.3.0
- gguf==0.14.0
- h11==0.14.0
- httpcore==1.0.7
- httpx==0.28.1
- huggingface-hub==0.23.5
- idna==3.10
- iniconfig==2.1.0
- jinja2==3.1.6
- jiter==0.9.0
- kiwisolver==1.4.8
- markdown-it-py==3.0.0
- markupsafe==3.0.2
- matplotlib==3.10.1
- mdurl==0.1.2
- mpmath==1.3.0
- multidict==6.2.0
- networkx==3.4.2
- numpy==1.26.4
- openai==1.55.3
- packaging==24.2
- pandas==2.2.3
- pillow==11.1.0
- pluggy==1.5.0
- prometheus-client==0.20.0
- propcache==0.3.1
- protobuf==4.25.6
- pydantic==2.11.1
- pydantic-core==2.33.0
- pygments==2.19.1
- pyparsing==3.2.3
- pytest==8.3.5
- python-dateutil==2.9.0.post0
- pytz==2025.2
- pyyaml==6.0.2
- regex==2024.11.6
- requests==2.32.3
- rich==13.9.4
- safetensors==0.5.3
- seaborn==0.13.2
- sentencepiece==0.2.0
- shellingham==1.5.4
- six==1.17.0
- sniffio==1.3.1
- sympy==1.13.3
- tokenizers==0.20.3
- tomli==2.2.1
- torch==2.2.2+cpu
- tqdm==4.67.1
- transformers==4.46.3
- typer==0.15.2
- typing-extensions==4.13.0
- typing-inspection==0.4.0
- tzdata==2025.2
- urllib3==2.3.0
- wget==3.2
- yarl==1.18.3
prefix: /root/miniconda3/envs/llama_cpp
分布式微调
DeepSpeed:
显存优化器
用时间换空间
支持huggingface pytorch transformers
核心技术:zero,梯度检查点:cpu offloading、混合精度训练 自适应选择最佳通信策略
ZeRO优化器:
阶段划分:
ZeRO-1:优化器状态分片。每张卡上面仍然有完整模型,优化器反向传播的时候只更新一部分参数
ZeRO-2: 梯度(模型反向传播)分片
ZeRO-3:参数(模型正向传播)+梯度+优化器状态
总结:
- zero3显存占用率会下降到1/n n为显卡数量(跟显卡架构有关)
- 支持json配置
- 支持千卡集群训练
用途:训练千亿参数、资源受限、快速实践如微调(一般7b就用)
安装及配置
安装:
pip install deepspeed
配置
llamafactory:
none-1
2 -zero2
3 -zero3
多机多卡、单机多卡:
见llamafactory下的分布式训练
xtuner:
NPROC_PER_NODE=${GPU_NUM} xtuner train ./config.py --deepspeed deepspeed_zero2
评测模型的工具:
OpenCompass:
文本生成模型用的相似度评估
地址:欢迎来到 OpenCompass 中文教程! — OpenCompass 0.4.1 文档
解压操作:
tar -xvf LLaMaFactory.tar
常见的模型:
生成式模型汇总!一文带你从隐变量模型到 VAE, GAN, Flow 到 Diffusion Model 全懂完()
博客:https://zhuanlan.zhihu.com/p/721196823
RNN:
服务器:
https://www.autodl.com/home
ftp x-shell
传输文件
nohup
后台登陆
nvitop:
使用nvitop来监控 NVIDIA GPU 的使用情况-CSDN博客
大模型理论知识:
transformer:
视频:
2、语言词袋_哔哩哔哩_bilibili
博客:
Transformer_transformeryuanlunwen-CSDN博客
模型压缩:
把ai模型之中的参数变少或者变小,最早做边缘部署的。主要想解决模型部署问题,主要可以划分为如下几种方法:
剪枝:
简化模型的结构。
**非结构化剪枝:**层数不变,减少某一层的参数。现在不适用因为大模型结果取决于一些核心的网络参数,结果不可控。 依赖于特定硬件的平台或者算法库
**结构化剪枝:**减少某一些层数,破坏原有结构。精度比较低,不依赖于硬件平台。
局部、全局剪枝:
通常思路:先见0.2重新训练还行,再减0.2继续重新训练
量化:
训练量化,推理量化。原先是32位的现在一般是16位,现在特指8位和4位
训练量化:模型训练时加载模型,分为两部分,一部分参与训练的升到32位。不参预训练的用8位保存。
推理量化:大部分模型参数用8位保存,关键的激活函数用的32位保存
知识蒸馏:
原有一个训练好的大模型作为teacher network,新有一个参数小的模型作为student network。把以前的数据集同时给两个模型, teacher会得出一个接近正确的特征,把student的结果和teacher的结果做一个损失,加上原本的损失。损失权重一开始与teacher差别的权重比较大,自身学习的比较小,之后反过来,由T控制。
deepseek蒸馏的openai
分布式微调:
解决问题:大模型规模爆炸、训练加速。
使用deepspeed进行训练
数据并行:
原理:每个设备导入完整模型,最后汇合。
作用:加速训练,每个设备可以单独去跑。
24g显存 - 7b大模型
16g显存*(2or4) -7b大模型
缺点:通信开销大、显存占用率高(需要存储完整的模型和优化器)
模型并行:
通常需要同型号!!!
原理:将模型拆分到不同设备(一般是按层或张量拆分):
作用:节约算力
横向拆分:按照层
竖向切分:按照张量。例如:Megation-LM将矩阵乘法分片
缺点:设备之间通信频繁,需要精细的负载均衡设计
流水线并行(Pipline Parallelism):
原理:将模型按照层拆分成多个阶段,数据分块之后按照流水线执行。(简单来说模型和数据都拆分了)
优化:微批次减少流水线气泡。显存节约更好。
挑战:需平衡阶段划分,避免资源闲置。
混合并行(3D并行):
把上面三个组合起来,训练千亿级规模的大模型。如:meta的llama-2
混合精度训练:
参预训练的32位,不参加的16位
学习问题汇总:
1 special——token原理
[bert中的special token到底是怎么发挥作用的(1) - 知乎](https://zhuanlan.zhihu.com/p/361169990#:~:text=bert中的special token有 [cls],[sep],[unk],[pad],[mask];)
2 前几节课处理文本
3 数据的token化参数含义,embedding,transformer,rnn那些
4 bert sft这些,llamafactory上的微调方法
5 nvitop上的指标看看(完成)见服务器下的nvitop
6 常见的文本生成模型:llama qwen glm(谷歌)chatglm(质谱轻言)gemma(完成)
7 混和精度训练
8 知识蒸馏
9 为什么模型后面加个/v1
10 curl用法
11 bf16 bf32 所谓单精度、双精度干嘛的
12 模型指标参数的含义:bleu-4、ROUGE-4、
13 量化
14 前半小时+21.45-结尾
15 截断长度的计算
16 sm80算力
17 openwebui
18 gguf转化(完成)见llama.cpp
19 qlora(完成)见下面
20 lora
21 xtuner实现单机多卡微调,实现训练对话模板转换与部署、导出上面所有框架的包
22 lmdeploy的推理引擎turbomind
21 对话模板(完成):
三套:微调、模型推理、前端界面。三套提示词模板
模型部署的时候可以使用微调框架使用的对话模板。
openwebui每次加载的时候会覆盖提示词模板
流程:llmfactory运行脚本转换成jinjia->模型推理平台启动->使用代码测试
注:openwebui暂不支持修改对话模板,以后用别的前端框架
22 Vllm的pageAttentation和张量并行技术
23 kv cache 分布式推理原理
24 看一下为什么相似度和例子差不多就行
25 什么叫数据同态同分布
微调注意事项记录:
1.使用flashatten2算力需要在sm80之上
2.qlora流程:
超参:
**gpu:**4090d -24g显存
**模型:**Qwen/Qwen2.5-1.5B-Instruct
**qlora量化等级:**8b
**lora秩:**选择和模型、量化等级有关这里给的:64 一般在32-128之间
**lora缩放系数:**直接秩*2 这里128
**计算类型:**混合加速训练,用来加速模型训练 bf16新的显卡架构支持、fp16老的支持
**batch:**10
合并:
检查点路径:(100、200等绝对路径)
/root/autodl-tmp/LLaMA-Factory/LLaMA-Factory/saves/Qwen2.5-1.5B-Instruct/lora/train_2025-03-30-16-36-58/checkpoint-100
导出路径:
/root/autodl-tmp/LLaMA-Factory/LLaMA-Factory/saves/Qwen2.5-1.5B-Instruct/lora/train_2025-03-30-16-36-58/checkpoint-100/Qwen2.5-1.5B-zyhhsss
3.lora流程:
4.情绪对话模型实现流程(微调项目通用实现流程)
本项目4090 跑了两小时 2500步(2510/204000) batch给的15 训练数据 2000
24g训练可以,lmdeploy部署oom使用k v cache并行部署也不行。
硬件选择:
训练:RTX3090 24G
部署:vGPU-32GB 显存占用30.2G
最终结果网盘地址:
大致分成四个步骤
1 数据 2 模型 3 训练、测评 4、部署
4.1 数据来源
- 甲方提供
- 自己收集
- 指定数据集标准
- 数据集获取方式:手动采集、爬虫、数据接口、ai生成
- 数据清洗标注
- 人工处理、ai标注
- 指定数据集格式
本项目数据来源:
-
准备一些现有数据集
-
基于原有开源数据,让AI实现数据情绪制作
注意:如果使用AI来处理数据,尽量使用服务器提供的接口
常见大模型参数说明
- Temperature(温度)
- 作用:控制生成文本的随机性和创造性。
- 取值范围:通常在 [0, ∞) 之间,但常见范围是 [0, 2]。
- 具体效果:
- 低值(接近 0):模型更倾向于选择概率最高的词,生成结果更加确定性、保守、稳定,适合需要精确回答的任务。
- 高值(接近 1 或更高):增加随机性,模型会更多地考虑低概率的词,生成结果更加多样化、创造性和不可预测。
- Top-k Sampling(Top-k 采样)
- 作用:限制每次生成时只从概率最高的前 k 个词中进行选择。
- 取值范围:k 是一个正整数,比如 10、50、100 等。
- 具体效果:
- 如果
k=1
,模型每次都只选择概率最高的那个词,生成结果非常确定。 - 如果
k=50
,模型会从概率最高的 50 个词中随机选择一个,生成结果会有一定多样性。 - 较大的 k 值会让生成结果更加多样,但也可能导致语义不连贯。
- 如果
- Top-p Sampling(Nucleus Sampling,核采样)
- 作用:动态地选取累积概率达到某个阈值 p 的最小词集进行采样。
- 取值范围:p 在 (0, 1] 之间,比如 0.9、0.7 等。
- 具体效果:
- 如果
p=0.9
,模型会选择累积概率达到 90% 的最小词集进行采样。 - 如果词汇分布很集中,可能只选几个词;如果分布很分散,可能会选很多词。
- 相比
top_k
,top_p
更灵活,因为它根据实际的概率分布动态调整候选词集。
- 如果
- Seed(随机种子)
- 作用:控制生成过程中的随机性,确保结果可复现。
- 取值范围:通常是一个整数。
- 具体效果:
- 如果设置固定的
seed
,多次运行模型会得到相同的结果。 - 如果不设置或每次使用不同的
seed
,生成结果会不同。
- 如果设置固定的
总结对比
参数 | 控制维度 | 调节方式 | 影响结果 |
---|---|---|---|
Temperature | 创造力 | 数值高低影响随机性 | 高温=多样,低温=稳定 |
Top-k | 候选词数量 | 固定选择前 k 个词 | 小 k=保守,大 k=多样 |
Top-p | 累积概率阈值 | 动态选择累积概率达到 p 的词集 | 小 p=保守,大 p=多样 |
Seed | 随机性一致性 | 固定随机种子 | 固定 seed=可复现,否则随机 |
4.1.1 制作AI生成数据脚本
核心思路:
- 加载模型、加载embedding
- 配置风格模板(作用是规定生成消息回复的消息格式与风格)
- 限定不同的风格
- 每种风格可以设定不同的system定位(openai中的"role": “system”, “content”:),并且加入一些风格生成的约束
- 设定各种风格的没模型参数,temperature
- 写消息生成函数
- 规定用户输入list
- 按照风格和提问生成message,调用模型
- 对结果进行筛选,风格、长度、相似度
- 去重核心思路
- 先对文本进行编码(embedding)
- 求相似度(余弦,欧式)
- 设定阈值
import json
import time
import random
from openai import OpenAI
from sentence_transformers import SentenceTransformer
import numpy as np
from tqdm import tqdm
import os
base_url = "https://api.ppinfra.com/v3/openai"
api_key = "sk_FbKBQLJG_sfPuaD2kf_ehCeNiRVAI6j5nmBWw1d37TQ"
model = "qwen/qwen2.5-vl-72b-instruct"
client = OpenAI(
base_url=base_url,
api_key=api_key,
)
# 加载Embedding模型
style_model = SentenceTransformer(r"G:\python_ws_g\code\LLMlearn\embedding_model\thomas\text2vec-base-chinese")
# 风格模板配置
style_config = {
"温柔": {
"system_prompt": "你是一个温柔体贴的聊天助手,说话时总是充满关怀,使用以下特征:\n1. 包含'呢、呀、啦'等语气词\n2. 使用🌸💖😊等温暖表情\n3. 主动询问用户感受",
"examples": [
{"role": "user", "content": "今天好累啊"},
{"role": "assistant", "content": "辛苦啦~ 要给自己泡杯热茶放松一下吗?🌸"},
{"role": "user", "content": "考试没考好..."},
{"role": "assistant", "content": "没关系的呀~ 下次一定会更好!需要我陪你聊聊吗?😊"}
],
"temperature": 0.7
},
"毒舌": {
"system_prompt": "你是一个喜欢用犀利吐槽表达关心的朋友,需满足:\n1. 使用网络流行语(如'栓Q''退退退')\n2. 包含夸张比喻('你这速度堪比树懒')\n3. 结尾隐藏关心",
"examples": [
{"role": "user", "content": "又胖了5斤!"},
{"role": "assistant", "content": "好家伙!你这是要把体重秤压成分子料理?🏋️"},
{"role": "user", "content": "游戏又输了"},
{"role": "assistant", "content": "菜就多练练!需要给你推荐《从零开始的电竞之路》吗?🎮"}
],
"temperature": 0.7
},
}
# 单条数据写入文件
def append_single_to_json(file_path, new_entry):
"""将单条数据追加到 JSON 文件"""
# 如果文件不存在,创建一个空的 JSON 文件
if not os.path.exists(file_path):
with open(file_path, "w", encoding="utf-8") as f:
json.dump([], f, ensure_ascii=False, indent=2)
# 以追加模式打开文件
with open(file_path, "r+", encoding="utf-8") as f:
try:
# 尝试读取现有数据
f.seek(0)
existing_data = json.load(f)
except json.JSONDecodeError:
existing_data = []
# 添加新数据
existing_data.append(new_entry)
# 写回文件
f.seek(0)
f.truncate() # 清空文件内容
json.dump(existing_data, f, ensure_ascii=False, indent=2)
# 质量过滤规则
def is_valid_reply(style, user_msg, reply):
"""质量过滤规则(添加空值检查)"""
# 基础检查
if not reply or len(reply.strip()) == 0:
return False
# 规则1:回复长度检查
if len(reply) < 5 or len(reply) > 150:
return False
print(reply)
# # 规则2:风格关键词检查
# style_keywords = {
# "温柔": ["呢", "呀", "😊", "🌸"],
# "毒舌": ["好家伙", "栓Q", "!", "🏋️"]
# }
# if not any(kw in reply for kw in style_keywords.get(style, [])):
# return False
# 规则3:语义相似度检查
try:
ref_text = next(msg["content"] for msg in style_config[style]["examples"]
if msg["role"] == "assistant")
ref_vec = style_model.encode(ref_text)
reply_vec = style_model.encode(reply)
# 计算余弦相似度
cosine_similarity = np.dot(ref_vec, reply_vec) / (np.linalg.norm(ref_vec) * np.linalg.norm(reply_vec))
print(cosine_similarity)
return cosine_similarity < 0.8 # 阈值可以根据需求调整
except:
return False
def load_user_inputs_from_json(file_path):
"""
从 JSON 文件中加载用户输入数据。
"""
if not os.path.exists(file_path):
raise FileNotFoundError(f"文件 {file_path} 不存在!")
with open(file_path, "r", encoding="utf-8") as f:
user_inputs = json.load(f)
return user_inputs
# 生成函数
def generate_style_data(style_name, num_samples=50):
config = style_config[style_name]
data_count = 0
# 构建消息上下文(包含系统提示和示例对话)
messages = [
{"role": "system", "content": config["system_prompt"]},
*config["examples"] # 直接展开示例对话
]
# 从 JSON 文件中加载用户输入
try:
user_inputs = load_user_inputs_from_json(r"G:\python_ws_g\code\LLMlearn\project\dataset\LCCC\user_inputs.json")
except Exception as e:
print(f"加载用户输入失败:{str(e)}")
return
with tqdm(total=num_samples) as pbar: # 初始化进度条
while data_count < num_samples: # 确保生成指定数量的有效数据
try:
# 随机选择用户输入
user_msg = random.choice(user_inputs)
# 添加当前用户消息
current_messages = messages + [
{"role": "user", "content": user_msg}
]
# 调用API
response = client.chat.completions.create(
model=model,
messages=current_messages,
temperature=config["temperature"],
max_tokens=100
)
# 获取回复内容
reply = response.choices[0].message.content
# 质量过滤(数据审核)
if is_valid_reply(style_name, user_msg, reply):
data_entry = {
"user": user_msg,
"assistant": reply,
"style": style_name
}
append_single_to_json("style_chat_data.json", data_entry) # 立即写入文件
data_count += 1
pbar.update(1) # 更新进度条
time.sleep(1.0) # 频率限制保护
except Exception as e:
print(f"生成失败:{str(e)}")
# 执行生成
if __name__ == '__main__':
try:
print("开始生成温柔风格数据...")
generate_style_data("温柔", 5000)
print("开始生成毒舌风格数据...")
generate_style_data("毒舌", 4750)
except KeyboardInterrupt:
print("\n用户中断,已保存部分数据...")
finally:
print("数据生成完成!")
4.1.2 确定原始数据
用户给的输入(input),一般来讲甲方有原始数据。本项目选择日常交流话术(开源数据集)。
LCCC: LCCC · 数据集
CDial-GPT:CDial-GPT
LCCC转换脚本:
import json
import os
user_inputs = [
# 日常生活相关
"今天心情不太好",
"推荐个电影吧",
"怎么才能早睡早起",
"养猫好还是养狗好",
"工作压力好大",
"最近总是失眠",
"今天脚有点肿了",
"天气太冷了怎么办",
"周末有什么好玩的活动吗",
"如何摆脱拖延症",
"吃饭的时候总觉得无聊,怎么办",
"有没有什么适合在家做的运动",
"最近总觉得很累,是不是亚健康了",
# 情感与人际关系
"朋友之间闹矛盾了,该怎么办",
"喜欢一个人但不敢表白,怎么办",
"家人不理解我,感觉很孤独",
"如何更好地表达自己的情绪",
"觉得身边的人都比我优秀,好焦虑",
"分手后怎么调整心态",
"怎样交到更多的朋友",
"和同事相处总是很尴尬,怎么办",
# 学习与工作
"考试复习效率太低了,有什么建议",
"工作中遇到瓶颈,怎么突破",
"想学一门新技能,但不知道从哪开始",
"如何提高专注力",
"面试前特别紧张,有什么方法缓解",
"觉得自己能力不足,害怕被裁员",
"论文写不下去了,怎么办",
"团队合作中遇到问题,该怎么解决",
# 健康与饮食
"最近胖了好多,怎么减肥比较好",
"晚上总是睡不着,有什么助眠的方法",
"吃什么对皮肤好",
"健身计划总是坚持不下来,怎么办",
"感冒了,吃什么药比较好",
"如何保持身体健康",
"每天喝水不够,有什么提醒方法",
"如何改善久坐导致的腰酸背痛",
# 兴趣爱好与娱乐
"最近有什么好看的电视剧推荐",
"喜欢画画,但总是画不好,怎么办",
"想学吉他,但没时间练习",
"如何选择适合自己的书",
"旅行时有哪些注意事项",
"如何拍出好看的照片",
"最近迷上了咖啡,有什么推荐的豆子吗",
"喜欢玩游戏,但怕影响学习,怎么平衡",
# 社会议题与热点
"最近的新闻热点怎么看",
"人工智能会不会取代人类的工作",
"环保问题越来越严重,我们能做些什么",
"如何看待年轻人躺平的现象",
"未来的科技会发展成什么样",
"社会上的不公平现象让人很沮丧,怎么办",
# 随机吐槽与搞笑
"又胖了5斤!",
"游戏又输了,好气啊",
"老板今天又骂人了,真是无语",
"外卖等了一个小时还没到,简直崩溃",
"手机摔地上了,屏幕裂了,心也碎了",
"今天的地铁太挤了,感觉自己快被压扁了",
"为什么每次洗完头都会下雨",
"为什么我的猫总是踩我键盘",
]
def extract_first_statements(data):
"""
从对话数据集中提取每段对话的第一句话。
"""
# 遍历每段对话
for conversation in data:
if conversation: # 确保对话不为空
first_statement = conversation[0].replace(" ", "") # 提取第一句并移除空格
user_inputs.append(first_statement)
return user_inputs
def load_json(file_path):
"""
加载 JSON 文件中的数据。
"""
with open(file_path, "r", encoding="utf-8") as f:
data = json.load(f)
return data
def save_to_json(file_path, data):
"""
将数据保存到 JSON 文件中。
"""
with open(file_path, "w", encoding="utf-8") as f:
json.dump(data, f, ensure_ascii=False, indent=4)
# 主程序
if __name__ == "__main__":
# 输入文件路径
input_file = r"G:\python_ws_g\code\LLMlearn\project\dataset\LCCC\LCCC-base-split\LCCC-base_test.json"
# 检查输入文件是否存在
if not os.path.exists(input_file):
print(f"错误:文件 {input_file} 不存在!")
exit(1)
# 加载原始数据集
print("正在加载数据...")
data_set = load_json(input_file)
# 提取每段对话的第一句
print("正在提取第一句话...")
user_inputs = extract_first_statements(data_set)
# 输出文件路径
output_file = "user_inputs.json"
# 保存到 JSON 文件
print("正在保存结果...")
save_to_json(output_file, user_inputs)
print(f"数据已成功保存到 {output_file}")
使用数据2000条:
通过网盘分享的文件:wenrou.json
链接: https://pan.baidu.com/s/1hMuLt79YaAZZk79sKYX9zQ?pwd=mb4c 提取码: mb4c
–来自百度网盘超级会员v6的分享
Xtuner需要的数据集格式:
[
{
"conversation": [
{
"input": "闺蜜把我秘密当谈资,该不该撕破脸?",
"output": "哎呀,这种事情确实很难处理呢。你觉得她的行为伤害到了你吗?💖我们可以一起想想解决的办法。"
}
]
},
{
"conversation": [
{
"input": "老妈非让我嫁给她同事儿子,怎么逃啊!",
"output": "哎呀,这种事情确实挺棘手的。💖 你心里是怎么想的呢?是不是感到有些压力?我们可以一起想想解决的办法。🌸"
}
]
}]
4.2 模型
4.2.1 模型选型:
**通用流程:模型官网看参数、选后缀 看自己能用的大小 客观评估(当前聊天对话模型核心是:中文理解能力。用CLUE适合一点) **
模型大小判断:
1.服务器配置。
qwen-2.5-7b下载用的: bf16。 用qlora微调到8位。
项目 | 占用(估算) |
---|---|
模型参数(8-bit) | 约 7 GB |
LoRA 参数 | < 100 MB |
激活值(中等batch) | 5-8 GB(可调) |
其他缓存(attention kv、optimizer) | 5-8 GB |
20GB - 左右
🛠 推荐配置
- 最小可用显卡:RTX 3090(24GB)或 RTX 4090(24GB)
- 推荐配置:2×3090 / 1×A6000 / 1×A100(40GB 以上更舒服)
- 最优方案:多卡 A100,配合 deepspeed/fsdp 微调更大 batch
2.任务复杂度(人类对话任务3b以内的就行,像数学推理,编程需要更高,得落地尝试)。类似销售机器人:情绪对话+10086客服机器人就可以。
中文模型:qwen、chatglm(智谱)、interlm(书生浦语)
llama训练数据90%以上是英文文本
常见后缀:
chat、instruct:模型输出有限制,经过人工对齐安全一点
instruct:
chat:做聊天对话模型
无后缀:base模型无人工审查
4.2.2 模型客观评价:
CLUE数据集:
分为CLUE、FewCLUE前缀的。clue中长文,fewclue短文。
gen后缀文本生成、PPL困惑度:PPL 越低:模型对语言的拟合越好,预测越准确;PPL 越高:说明模型更“困惑”,也就是说它对句子的预测不确定性更大。
数据集名称 | 所属前缀 | 文本长度 | 任务类型 | 用途说明 | PPL作用说明 |
---|---|---|---|---|---|
AFQMC | CLUE | 中等 | 语义相似性 | 判断两个句子是否表达相同含义(如问句对齐、改写识别) | 模型PPL越低表示更能准确判断句子语义相似性 |
CMNLI | CLUE | 中长 | 自然语言推理 | 判断句子对之间的逻辑关系(蕴含、中立、矛盾) | 反映模型理解句间逻辑关系的能力 |
CSL | CLUE | 长文 | 关键词预测 | 利用给定关键词判断摘要与关键词的匹配关系(多标签分类) | PPL低说明模型能更好生成或匹配关键词 |
TNEWS | CLUE | 短文 | 文本分类 | 新闻标题分类(15个类别,如科技、财经、体育等) | PPL评估模型对新闻标题语义分布的拟合效果 |
IFLYTEK | CLUE | 短文 | 文本分类 | App应用描述的自动分类(119类,任务更细粒度) | PPL越低表示模型能准确建模多类别语义特征 |
WSC | CLUE | 中等 | 语言理解 | 推理代词指代的实体(例如“他”指的是谁) | 测试模型对常识推理和上下文理解的能力 |
CLUEgen | CLUE-gen | 长文 | 文本生成 | 给定一段内容生成文章或续写文本 | PPL用于评估生成文本的流畅度与合理性 |
FewCLUE | FewCLUE | 短文 | 小样本任务 | 包括文本分类、匹配、推理等任务,使用极少样本进行训练 | PPL用于评估模型在低资源下的语言拟合能力 |
CSKG | FewCLUE | 短文 | 知识问答 | 基于知识图谱的问答推理任务 | 衡量模型理解实体关系与事实知识的能力 |
CHIP-STS | FewCLUE | 中短 | 医疗语义匹配 | 医疗问句之间的语义相似性任务(面向中文医疗文本) | 用于医疗场景下语义建模,PPL越低越准确 |
FewCLUE-gen | FewCLUE-gen | 短文 | 文本生成 | 小样本条件下的文本生成任务(如评论生成、摘要生成等) | 小样本下生成任务的文本质量与自然性评估 |
4.2.3 原模型、数据集选择:
数据集选择 FewCLUE_bustm_gen(短文本分类)、FewCLUE_ocnli_fc_gen(自然语言推理)
模型qwen_1.5_0.5b_chat、qwen_1.5_1.8b_chat
使用opencompass:
注意!!!!直接在/root/autodl-tmp/opencompass-main/opencompass-main/opencompass/configs/models下面修改文件,命令并不能指定绝对路径
connfig文件:
from opencompass.models import HuggingFacewithChatTemplate
models = [
dict(
type=HuggingFacewithChatTemplate,
abbr='qwen2.5-0.5b-instruct-hf',
path='/root/autodl-tmp/model/qwen-2.5-0.5b-instruct',
max_out_len=1024,
batch_size=8,
run_cfg=dict(num_gpus=0),
)
]
在/root/autodl-tmp/opencompass-main/opencompass-main下执行。
注意为了好看分行,命令执行的时候删掉换行符!!!!!
python run.py --models hf_qwen2_5_0_5b_instruct.py
--datasets FewCLUE_bustm_gen FewCLUE_ocnli_fc_gen
--debug --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
python run.py --models hf_qwen2_5_1_5b_instruct.py hf_qwen2_5_7b_instruct.py --datasets FewCLUE_bustm_gen FewCLUE_ocnli_fc_gen --debug --work-dir /root/autodl-tmp/opencompass-main/opencompass-main/two_model
评估结果:
gen生成越高越好,ppl越低越好(客服对话中想让模型回答对应题目的问题)
dataset | version | metric | mode | qwen2.5-7b-instruct-hf |
---|---|---|---|---|
bustm-dev | 5cc669 | accuracy | gen | 83.12 |
bustm-test | 5cc669 | accuracy | gen | 78.44 |
ocnli_fc-dev | 51e956 | accuracy | gen | 70.62 |
ocnli_fc-test | 51e956 | accuracy | gen | 66.71 |
dataset | version | metric | mode | qwen2.5-0.5b-instruct-hf |
---|---|---|---|---|
bustm-dev | 5cc669 | accuracy | gen | 52.50 |
bustm-test | 5cc669 | accuracy | gen | 50.11 |
ocnli_fc-dev | 51e956 | accuracy | gen | 38.75 |
ocnli_fc-test | 51e956 | accuracy | gen | 40.87 |
dataset | version | metric | mode | qwen2.5-1.5b-instruct-hf |
---|---|---|---|---|
bustm-dev | 5cc669 | accuracy | gen | 70.00 |
bustm-test | 5cc669 | accuracy | gen | 69.81 |
ocnli_fc-dev | 51e956 | accuracy | gen | 63.12 |
ocnli_fc-test | 51e956 | accuracy | gen | 60.60 |
4.3 微调框架
Xtuner :主观评价的结果
LLamaFactory:客观loss指标
本文做情感对话模型,倾向看主观评价所以选xtuner。
**注意!!!**使用的数据要单轮还是多轮
一般做对话模型:数据分为单轮和多轮
本文希望做一个类似:小智智能聊天机器人。问一句答一句,没有前后的逻辑推理。
这里使用单轮数据集。
单轮和多轮区别主要是上下文逻辑
4.3.1 Xtuner对话模板!!!
Xtuner对话模板位置
/root/autodl-tmp/xtuner-main/xtuner/utils/templates.py
流程:
- 训练脚本中找prompt_template对应的对话模板
prompt_template = PROMPT_TEMPLATE.qwen_chat
- 去模板中找qwen_chat
qwen_chat=dict(
SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"),
INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n" "<|im_start|>assistant\n"),
SUFFIX="<|im_end|>",
SUFFIX_AS_EOS=True,
SEP="\n",
STOP_WORDS=["<|im_end|>", "<|endoftext|>"],
)
4.3.2 Xtuner训练流程
4.3.2.1 qlora微调
4.3.2.2 模型转换
模型训练后会自动保存成 PTH 模型(例如 iter_2000.pth ,如果使用了 DeepSpeed,则将会是一个 文件夹),我们需要利用 xtuner convert pth_to_hf 将其转换为 HuggingFace 模型,以便于后续使 用。具体命令为:
xtuner convert pth_to_hf ${FINETUNE_CFG} ${PTH_PATH} ${SAVE_PATH}
# 例如:xtuner convert pth_to_hf /root/autodl-tmp/xtuner-main/jiaoben/qwen1_5_7b_chat_qlora_alpaca_e3.py /root/work_dirs/qwen1_5_7b_chat_qlora_alpaca_e3/iter_2500.pth /root/autodl-tmp/muhf
4.3.2.3 模型合并
如果使用了 LoRA / QLoRA 微调,则模型转换后将得到 adapter 参数,而并不包含原 LLM 参数。如果您 期望获得合并后的模型权重(例如用于后续评测),那么可以利用 xtuner convert merge :
xtuner convert merge ${基座模型} ${Huggingface模型} ${合并模型路径}
例如:
xtuner convert merge /root/autodl-tmp/model/Qwen2.5-7B-Instruct /root/autodl-tmp/muhf /root/autodl-tmp/mymodel
4.3.2.4 部署
4.4 部署框架
vllm或者lmdeploy,lmdeploy推理效率好一点。本文选的lmdeploy。
4.4.1 Xtuner和Lmdeploy 对话模板对齐!!!
方法一:利用现有对话模板,直接配置一个如下的 json 文件使用
Lmdeploy对话模板标准格式:
{
"model_name": "your awesome chat template name",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": ["<|im_end|>"]
}
model_name 为必填项,可以是 LMDeploy 内置对话模板名(通过 lmdeploy list 可查阅), 也可以是新名字。其他字段可选填。 当 model_name 是内置对话模板名时,json文件中各非 null 字段会覆盖原有对话模板的对应属性。 而当 model_name 是新名字时,它会把将 BaseChatTemplate 直接注册成新的对话模板。其具体定义可以参考BaseChatTemplate。 这样一个模板将会以下面的形式进行拼接。
{system}{meta_instruction}{eosys}{user}{user_content}{eoh}{assistant}
{assistant_content}{eoa}{separator}{user}...
推理命令:
lmdeploy serve api_server model_dir --chat-template ${JSON_FILE}
例如:lmdeploy serve api_server G:\python_ws_g\code\llm\llmlearning\result\mymodel --chat-template G:\python_ws_g\code\llm\llmlearning\LLMlearn\emo_conversation_project\template_trans\a.json
lmdeploy serve api_server /root/autodl-tmp/mymodel --chat-template /root/autodl-tmp/a.json --quant-policy 8
也可以在通过接口函数传入,比如:
from lmdeploy import ChatTemplateConfig, serve
serve('internlm/internlm2_5-7b-chat',
chat_template_config=ChatTemplateConfig.from_json('${JSON_FILE}'))
方法二:以 LMDeploy 现有对话模板,自定义一个python对话模板类,注册成功后直接用即可。
from lmdeploy.model import MODELS, BaseChatTemplate
@MODELS.register_module(name='customized_model')
class CustomizedModel(BaseChatTemplate):
"""A customized chat template."""
def __init__(self,
system='<|im_start|>system\n',
meta_instruction='You are a robot developed by LMDeploy.',
user='<|im_start|>user\n',
assistant='<|im_start|>assistant\n',
eosys='<|im_end|>\n',
eoh='<|im_end|>\n',
eoa='<|im_end|>',
separator='\n',
stop_words=['<|im_end|>', '<|action_end|>']):
super().__init__(system=system,
meta_instruction=meta_instruction,
eosys=eosys,
user=user,
eoh=eoh,
assistant=assistant,
eoa=eoa,
separator=separator,
stop_words=stop_words)
对话模板转换脚本:
import json
# 原始模板
original_template = dict(
SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"),
INSTRUCTION=(
"<|im_start|>user\n{input}<|im_end|>\n"
"<|im_start|>assistant\n"
),
SUFFIX="<|im_end|>",
SUFFIX_AS_EOS=True,
SEP="\n",
STOP_WORDS=["<|im_end|>", "<|endoftext|>"],
)
# 转换为目标格式
converted_template = {
"model_name": "your awesome chat template name",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": original_template.get("SEP", "\n"),
"capability": "chat",
"stop_words": ["<|im_end|>"]
}
# 保存为 JSON 文件
save_path = r"G:\python_ws_g\code\llm\llmlearning\LLMlearn\emo_conversation_project\template_trans\a.json"
try:
with open(save_path, 'w', encoding='utf-8') as f:
json.dump(converted_template, f, indent=4, ensure_ascii=False)
print(f"转换后的模板已成功保存到 {save_path}")
except Exception as e:
print(f"保存失败: {e}")
json结果:
{
"model_name": "zyhhsss",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": [
"<|im_end|>"
]
}
转换例子2:
xtuner的对话模板
qwen_chat=dict(
SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"),
INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n" "<|im_start|>assistant\n"),
SUFFIX="<|im_end|>",
SUFFIX_AS_EOS=True,
SEP="\n",
STOP_WORDS=["<|im_end|>", "<|endoftext|>"],
)
lmdeploy的json:
{
"model_name": "your awesome chat template name",
"system": "<|im_start|>system\n",
"meta_instruction": "You are a robot developed by LMDeploy.",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "<|im_start|>assistant\n",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": ["<|im_end|>"]
}
转换脚本:
import json
import re
def convert_xtuner_to_lmdeploy(xtuner_template: dict, model_name="converted_model"):
system_pattern = xtuner_template.get("SYSTEM", "")
instruction_pattern = xtuner_template.get("INSTRUCTION", "")
suffix = xtuner_template.get("SUFFIX", "")
separator = xtuner_template.get("SEP", "\n")
stop_words = xtuner_template.get("STOP_WORDS", [])
# 提取 meta_instruction 内容(如 {system})
meta_instruction_match = re.search(r"{(\w+)}", system_pattern)
meta_instruction = f"{{{meta_instruction_match.group(1)}}}" if meta_instruction_match else ""
lmdeploy_template = {
"model_name": model_name,
"system": system_pattern.split("{")[0] if "{" in system_pattern else "",
"meta_instruction": meta_instruction,
"eosys": suffix + "\n",
"user": instruction_pattern.split("{input}")[0] if "{input}" in instruction_pattern else "",
"eoh": suffix + "\n",
"assistant": re.split(re.escape(suffix), instruction_pattern.split("{input}")[-1])[0]
if "{input}" in instruction_pattern else "",
"eoa": suffix,
"separator": separator,
"capability": "chat",
"stop_words": stop_words
}
return lmdeploy_template
# 示例 xtuner 模板
xtuner_chat = dict(
SYSTEM=("<|im_start|>system\n{system}<|im_end|>\n"),
INSTRUCTION=("<|im_start|>user\n{input}<|im_end|>\n<|im_start|>assistant\n"),
SUFFIX="<|im_end|>",
SUFFIX_AS_EOS=True,
SEP="\n",
STOP_WORDS=["<|im_end|>", "<|endoftext|>"],
)
# 转换
lmdeploy_json = convert_xtuner_to_lmdeploy(xtuner_chat, model_name="qwen_chat")
# 保存为 JSON 文件
with open("qwen_chat_lmdeploy_template.json", "w", encoding="utf-8") as f:
json.dump(lmdeploy_json, f, indent=4, ensure_ascii=False)
print("转换完成!结果已保存为 qwen_chat_lmdeploy_template.json")
转换结果:
{
"model_name": "qwen_chat",
"system": "<|im_start|>system\n",
"meta_instruction": "{system}",
"eosys": "<|im_end|>\n",
"user": "<|im_start|>user\n",
"eoh": "<|im_end|>\n",
"assistant": "",
"eoa": "<|im_end|>",
"separator": "\n",
"capability": "chat",
"stop_words": [
"<|im_end|>",
"<|endoftext|>"
]
}
✅ 字段映射解释:
xtuner 字段 | lmdeploy 字段 | 说明 |
---|---|---|
SYSTEM | system + meta_instruction | 前缀是 system 字段,内容是 meta_instruction |
INSTRUCTION | user + eoh + assistant | 模板中用户提问(user)、助手回应(assistant) |
SUFFIX | eoa | assistant 结束标识符 |
SEP | separator | 对话分隔符 |
STOP_WORDS | stop_words | 停止生成的标记 |
SUFFIX_AS_EOS | 自动体现在 stop_words | 无需额外字段,`< |
4.5 前端界面(Streamlit)
4.6 傻瓜式操作手册
xtuner脚本
# Copyright (c) OpenMMLab. All rights reserved.
import torch
from datasets import load_dataset
from mmengine.dataset import DefaultSampler
from mmengine.hooks import (
CheckpointHook,
DistSamplerSeedHook,
IterTimerHook,
LoggerHook,
ParamSchedulerHook,
)
from mmengine.optim import AmpOptimWrapper, CosineAnnealingLR, LinearLR
from peft import LoraConfig
from torch.optim import AdamW
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from xtuner.dataset import process_hf_dataset
from xtuner.dataset.collate_fns import default_collate_fn
from xtuner.dataset.map_fns import alpaca_map_fn, template_map_fn_factory
from xtuner.engine.hooks import (
DatasetInfoHook,
EvaluateChatHook,
VarlenAttnArgsToMessageHubHook,
)
from xtuner.engine.runner import TrainLoop
from xtuner.model import SupervisedFinetune
from xtuner.parallel.sequence import SequenceParallelSampler
from xtuner.utils import PROMPT_TEMPLATE, SYSTEM_TEMPLATE
#######################################################################
# PART 1 Settings #
#######################################################################
# Model
pretrained_model_name_or_path = "/root/autodl-tmp/model/Qwen2.5-7B-Instruct"
use_varlen_attn = False
# Data
data_files = '/root/autodl-tmp/xtuner-main/data/wenrou.json'#数据集
prompt_template = PROMPT_TEMPLATE.qwen_chat
max_length = 150
pack_to_max_length = True
# parallel
sequence_parallel_size = 1
# Scheduler & Optimizer
batch_size = 15 # per_device
accumulative_counts = 16
accumulative_counts *= sequence_parallel_size
dataloader_num_workers = 0
max_epochs = 3000
optim_type = AdamW
lr = 2e-4
betas = (0.9, 0.999)
weight_decay = 0
max_norm = 1 # grad clip
warmup_ratio = 0.03
# Save
save_steps = 500
save_total_limit = 4 # Maximum checkpoints to keep (-1 means unlimited)
# Evaluate the generation performance during the training
evaluation_freq = 500
SYSTEM = SYSTEM_TEMPLATE.alpaca
evaluation_inputs = ["闺蜜把我秘密当谈资,该不该撕破脸?",
"老妈非让我嫁给她同事儿子,怎么逃啊!",
"同事抢功时故意提高音量,要当场揭穿吗?",
"男朋友给女主播刷火箭,算精神出轨吗?",
"室友半夜和对象视频娇喘,怎么提醒?",
"亲戚说我不生孩子就是自私,好想掀桌!",
"大学生毕业工资不够找我,我给你补个蛋"]
#######################################################################
# PART 2 Model & Tokenizer #
#######################################################################
tokenizer = dict(
type=AutoTokenizer.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
padding_side="right",
)
model = dict(
type=SupervisedFinetune,
use_varlen_attn=use_varlen_attn,
llm=dict(
type=AutoModelForCausalLM.from_pretrained,
pretrained_model_name_or_path=pretrained_model_name_or_path,
trust_remote_code=True,
torch_dtype=torch.float16,
quantization_config=dict(
type=BitsAndBytesConfig,
load_in_4bit=False,
load_in_8bit=True,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False,
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
),
),
lora=dict(
type=LoraConfig,
r=64,
lora_alpha=128,
lora_dropout=0.1,
bias="none",
task_type="CAUSAL_LM",
),
)
#######################################################################
# PART 3 Dataset & Dataloader #
#######################################################################
alpaca_en = dict(
type=process_hf_dataset,
dataset=dict(type=load_dataset, path="json",data_files=data_files),
tokenizer=tokenizer,
max_length=max_length,
dataset_map_fn=None,
template_map_fn=dict(type=template_map_fn_factory, template=prompt_template),
remove_unused_columns=True,
shuffle_before_pack=True,
pack_to_max_length=pack_to_max_length,
use_varlen_attn=use_varlen_attn,
)
sampler = SequenceParallelSampler if sequence_parallel_size > 1 else DefaultSampler
train_dataloader = dict(
batch_size=batch_size,
num_workers=dataloader_num_workers,
dataset=alpaca_en,
sampler=dict(type=sampler, shuffle=True),
collate_fn=dict(type=default_collate_fn, use_varlen_attn=use_varlen_attn),
)
#######################################################################
# PART 4 Scheduler & Optimizer #
#######################################################################
# optimizer
optim_wrapper = dict(
type=AmpOptimWrapper,
optimizer=dict(type=optim_type, lr=lr, betas=betas, weight_decay=weight_decay),
clip_grad=dict(max_norm=max_norm, error_if_nonfinite=False),
accumulative_counts=accumulative_counts,
loss_scale="dynamic",
dtype="float16",
)
# learning policy
# More information: https://github.com/open-mmlab/mmengine/blob/main/docs/en/tutorials/param_scheduler.md # noqa: E501
param_scheduler = [
dict(
type=LinearLR,
start_factor=1e-5,
by_epoch=True,
begin=0,
end=warmup_ratio * max_epochs,
convert_to_iter_based=True,
),
dict(
type=CosineAnnealingLR,
eta_min=0.0,
by_epoch=True,
begin=warmup_ratio * max_epochs,
end=max_epochs,
convert_to_iter_based=True,
),
]
# train, val, test setting
train_cfg = dict(type=TrainLoop, max_epochs=max_epochs)
#######################################################################
# PART 5 Runtime #
#######################################################################
# Log the dialogue periodically during the training process, optional
custom_hooks = [
dict(type=DatasetInfoHook, tokenizer=tokenizer),
dict(
type=EvaluateChatHook,
tokenizer=tokenizer,
every_n_iters=evaluation_freq,
evaluation_inputs=evaluation_inputs,
system=SYSTEM,
prompt_template=prompt_template,
),
]
if use_varlen_attn:
custom_hooks += [dict(type=VarlenAttnArgsToMessageHubHook)]
# configure default hooks
default_hooks = dict(
# record the time of every iteration.
timer=dict(type=IterTimerHook),
# print log every 10 iterations.
logger=dict(type=LoggerHook, log_metric_by_epoch=False, interval=10),
# enable the parameter scheduler.
param_scheduler=dict(type=ParamSchedulerHook),
# save checkpoint per `save_steps`.
checkpoint=dict(
type=CheckpointHook,
by_epoch=False,
interval=save_steps,
max_keep_ckpts=save_total_limit,
),
# set sampler seed in distributed evrionment.
sampler_seed=dict(type=DistSamplerSeedHook),
)
# configure environment
env_cfg = dict(
# whether to enable cudnn benchmark
cudnn_benchmark=False,
# set multi process parameters
mp_cfg=dict(mp_start_method="fork", opencv_num_threads=0),
# set distributed parameters
dist_cfg=dict(backend="nccl"),
)
# set visualizer
visualizer = None
# set log level
log_level = "INFO"
# load from which checkpoint
load_from = None
# whether to resume training from the loaded checkpoint
resume = False
# Defaults to use random seed and disable `deterministic`
randomness = dict(seed=None, deterministic=False)
# set log processor
log_processor = dict(by_epoch=False)
微调项目总结:
qwen-1.8b 4090 6h 最终loss 0.09