llama-factory SFT系列教程 (一)，大模型 API 部署与使用

news2026/2/17 4:57:13

文章目录

- 背景
- 简介
- - 难点
- 前置条件
- 1. 大模型 api 部署
- 下一步阅读

背景

本来今天没有计划学 llama-factory，逐步跟着github的文档走，发现这框架确实挺方便，逐渐掌握了一些。
最近想使用 SFT 微调大模型，llama-factory 是使用非常广泛的大模型微调框架；

简介

基于 llama_factory 微调 qwen/Qwen-7B，qwen/Qwen-7B-Chat
我使用的是 qwen/Qwen-7B，如果追求对话效果qwen/Qwen-7B-Chat的效果会好一点；

本系列的主要工作如下：

大模型 api 部署；直接部署开源大模型体验一下；
增加自定义数据集；为实现SFT准备数据；
大模型 lora 微调；
原始模型 + 微调后的lora插件，完成 api 部署；

使用 llama_factory 的 API 部署有 vllm加速推理；

难点

可能遇到的一些难点：
llama_factory 默认从 Huggingface下载模型，要改为从modelscope下载模型权重；

前置条件

llama_factory 装包

git clone https://github.com/hiyouga/LLaMA-Factory.git
# conda create -n llama_factory python=3.10
# conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]

If you have trouble with downloading models and datasets from Hugging Face, you can use ModelScope.

export USE_MODELSCOPE_HUB=1 # `set USE_MODELSCOPE_HUB=1` for Windows

1. 大模型 api 部署

虽然我执行了这条语句 export USE_MODELSCOPE_HUB=1 以为切换到 modelscope的下载源了；
但是填写模型名称 --model_name_or_path qwen/Qwen-7B，还是会从 huggingface下载模型权重；于是我填写本地绝对路径的方式；

下载模型权重：

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-7B')
model_dir

输出模型的下载地址如下：

/mnt/workspace/.cache/modelscope/qwen/Qwen-7B

切换目录到刚才从github下载的 llama-factory 文件夹

cd LLaMA-Factory

执行 API 部署脚本，本文选择 api 而不是网页，因为API的用途更广，可供python程序调用，而网页只能与用户交互。

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python src/api_demo.py \
--model_name_or_path /mnt/workspace/.cache/modelscope/qwen/Qwen-7B \
--template qwen 
--infer_backend vllm 
--vllm_enforce_eager

可以注意到 LLaMA-Factory 在模型推理时，使用了 vllm 加速；
不出意外的话，经过一段时间的模型权重加载，看到下述图片展示的状态时，那么 API 便部署成功了；
在这里插入图片描述

现在如何给 API 接口传参呢？是不是有点不知所措！
不用急，在图片的红框中，笔者已经给大家标出来了，http://localhost:8000/docs 便是API 的接口文档说明；

有同学会说：“我使用的云端服务器，而且还没有公网 ip，我该那怎么访问这个文档呢？”
笔者：直接点击便可访问，该文档做了内网穿透；

比如，我点击后，弹出了如下页面：https://dsw-gateway-cn-beijing.data.aliyun.com/dsw-70173/proxy/8000/docs

该 API 的文档页面如下图所示：
在这里插入图片描述

下述是官方给的请求体参数

{
  "model": "string",
  "messages": [
    {
      "role": "user",
      "content": "string",
      "tool_calls": [
        {
          "id": "call_default",
          "type": "function",
          "function": {
            "name": "string",
            "arguments": "string"
          }
        }
      ]
    }
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "string",
        "description": "string",
        "parameters": {}
      }
    }
  ],
  "do_sample": true,
  "temperature": 0,
  "top_p": 0,
  "n": 1,
  "max_tokens": 0,
  "stream": false
}

笔者把下述的请求保存在1.sh文件中，因为下述请求体太长了，在sh文件中进行编辑方便一点；

curl -X 'POST' \
  'http://0.0.0.0:8000/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
  "model": "string",
  "messages": [
    {
      "role": "user",
      "content": "你能帮我做一些什么事情？",
      "tool_calls": [
        {
          "id": "call_default",
          "type": "function",
          "function": {
            "name": "string",
            "arguments": "string"
          }
        }
      ]
    }
  ],
  "tools": [
    {
      "type": "function",
      "function": {
        "name": "string",
        "description": "string",
        "parameters": {}
      }
    }
  ],
  "do_sample": true,
  "temperature": 0,
  "top_p": 0,
  "n": 1,
  "max_tokens": 128,
  "stream": false
}'