大模型学习笔记十二：AI产品部署

news2025/4/6 11:41:12

文章目录

- 一、如何选择GPU和云服务器厂商，追求最高性价比
- - 1）根据场景选择GPU
  - 2）训练或微调所需显卡（以Falcon为例子）
  - 3）服务器价格计算器
- 二、全球大模型了解
- - 1）llm所有模型
  - 2）模型综合排行
  - 3）模型评测
  - 4）国内大模型
  - 5）文心一言API接入指南
  - 6）国外域名服务商推荐
- 三、搭建OpenAI代理
- - 1）搭建原理：透传
  - 2）服务器选择
  - 3）实践
- 四、基于云平台快速部署SD
- 五、本地计算机运行大型模型
- - 1）Ollama基础
  - 2）讲解Ollama API（略）
  - 3）结合RAG运行：分析github仓库代码（略）
- 六、如何部署自己fine-tune的模型，向业务提供高可用推理服务
- - 1）架构图
  - 2）重要模块
- 七、基于vLLM部署大模型
- - 1）vLLM部署开源大模型介绍
  - 2）vLLM开启api调用
  - 3）vLLM分布式推理
- 八、部署一套开源LLM项目
- 九、如何控制内容安全，做好算法备案，确保合规

一、如何选择GPU和云服务器厂商，追求最高性价比

AI常用GPU

有些京东能买，没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s，导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800
H100和A100对比：
16bit推理快3.5倍，16bit训练快2.3倍
LPU（推理特别快）
云服务厂商对比
-国内主流
阿里云：https://www.aliyun.com/product/ecs/gpu （可申请免费试用）
腾讯云：https://cloud.tencent.com/act/pro/gpu-study
火山引擎：https://www.volcengine.com/product/gpu
-国外主流
AWS：https://aws.amazon.com
Vultr：https://www.vultr.com
TPU：https://cloud.google.com/tpu
算力平台（内部先用，跑小模型）：主要用于学习和训练
Colab：谷歌出品，升级服务仅需 9 美金。https://colab.google.com
Kaggle：免费，每周 30 小时 T4，P100 可用。https://www.kaggle.com
AutoDL：价格亲民，支持 Jupyter Notebook 及 ssh，国内首选。https://www.autodl.com
建议：若一来GITHUB或Docker官方镜像，建议国外服务器

1）根据场景选择GPU

以下是我们为您提供的，基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览：
（微调数据不同导致所需时间不同）
在这里插入图片描述

2）训练或微调所需显卡（以Falcon为例子）

补充：Falcon 是目前为止 huggingface 上排行榜第一的模型

在这里插入图片描述

注意点
①对于本地个人研发项目，GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
②对于公司的大规模数据和复杂模型，推荐使用如 NVIDIA A100 的高性能 GPU。
③数据规模小时，可考虑预算内的 A10 或 T4 型号。
④如果追求性价比，可以选择把 4090 显卡搭建服务器使用，也可以选择市面的第三方服务，比如：AutoDL 的 4090 服务
补充资料
https://gpus.llm-utils.org/cloud-gpu-guide/
https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/

3）服务器价格计算器

火山引擎提供的这个价格计算器很方便，做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。

https://www.volcengine.com/pricing?product=ECS&tab=2

二、全球大模型了解

1）llm所有模型

传送门

2）模型综合排行

传送门
在这里插入图片描述

3）模型评测

传送门
在这里插入图片描述

4）国内大模型

①国内模型列表
传送门

在这里插入图片描述

agicto.com能开发票

5）文心一言API接入指南

传送门

6）国外域名服务商推荐

①www.spaceship.com
②www.namecheap.com

三、搭建OpenAI代理

业务流程建议
因为业务在国内，所以大部分业务代码在国内的服务器，国内服务器调用代理服务器即可。

1）搭建原理：透传

缺点
容易触发官方封号概率
实现方案
①Nginx
②node服务
③纯js

①Nginx方案

server
{
    listen 80;
    server_name a.openaixx.com;
    index index.html;
    location / {
            proxy_pass https://api.openai.com;
            proxy_ssl_name api.openai.com;
            proxy_ssl_server_name on;
            proxy_set_header Host api.openai.com;
            proxy_set_header Upgrade $http_upgrade;
            proxy_set_header Connection 'upgrade';
            chunked_transfer_encoding off;
            proxy_read_timeout 3600;
            proxy_buffering off;
            proxy_cache off;
            proxy_redirect off;
            proxy_hide_header Cache-Control;
    }

    location ~ /.well-known {
        allow all;
    }

    access_log off;
}

参考

②node服务
agi-proxy

③纯js方案
复制以下代码，去 cloudflare 建立一个 worker 即可
.传送门

2）服务器选择

在这里插入图片描述

vercel介绍
①服务器提供商
②操作简单，选择项目添加，然后发版就可以部署了
③侧重前端
④云平台
render
①可以用docker去构建
②像Nginx、redis都可以部署云服务
③云平台
zeabur
①这个服务器好处是国内
②云平台

3）实践

用vercel部署自己一个OpenAI代理

四、基于云平台快速部署SD

五、本地计算机运行大型模型

1）Ollama基础

ollama的作用：
将各种大模型量化裁剪功能，让大模型能在本地能跑起来
网址
https://ollama.com/library
https://ollama.com/
本地调用询问API方式

curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "wizardlm2",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是谁？"
            }
        ]
    }

端口
11434

2）讲解Ollama API（略）

3）结合RAG运行：分析github仓库代码（略）

六、如何部署自己fine-tune的模型，向业务提供高可用推理服务

1）架构图

在这里插入图片描述

2）重要模块

七、基于vLLM部署大模型

1）vLLM部署开源大模型介绍

①定义：是一个快速且容易使用的库，用于大语言模型LLM的推理和服务
②特点：

1）速度快，每个请求需要3个并行输出完成时的服务器吞吐量，比huggingface transformer的吞吐量高出8.5到15倍，比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2）优化的cuda内核
3）与huggingface模型无缝集成
4）支持张量并行处理，实现分布式推理
5）支持滚式输出