文章目录
- 一、如何选择GPU和云服务器厂商,追求最高性价比
- 1)根据场景选择GPU
- 2)训练或微调所需显卡(以Falcon为例子)
- 3)服务器价格计算器
- 二、全球大模型了解
- 1)llm所有模型
- 2)模型综合排行
- 3)模型评测
- 4)国内大模型
- 5)文心一言API接入指南
- 6)国外域名服务商推荐
- 三、搭建OpenAI代理
- 1)搭建原理:透传
- 2)服务器选择
- 3)实践
- 四、基于云平台快速部署SD
- 五、本地计算机运行大型模型
- 1)Ollama基础
- 2)讲解Ollama API(略)
- 3)结合RAG运行:分析github仓库代码(略)
- 六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
- 1)架构图
- 2)重要模块
- 七、基于vLLM部署大模型
- 1)vLLM部署开源大模型介绍
- 2)vLLM开启api调用
- 3)vLLM分布式推理
- 八、部署一套开源LLM项目
- 九、如何控制内容安全,做好算法备案,确保合规
一、如何选择GPU和云服务器厂商,追求最高性价比
-
AI常用GPU
有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800 -
H100和A100对比:
16bit推理快3.5倍,16bit训练快2.3倍
-
LPU(推理特别快)
-
云服务厂商对比
-国内主流
阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
腾讯云:https://cloud.tencent.com/act/pro/gpu-study
火山引擎:https://www.volcengine.com/product/gpu
-国外主流
AWS:https://aws.amazon.com
Vultr:https://www.vultr.com
TPU:https://cloud.google.com/tpu -
算力平台(内部先用,跑小模型):主要用于学习和训练
Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
建议:若一来GITHUB或Docker官方镜像,建议国外服务器
1)根据场景选择GPU
以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
(微调数据不同导致所需时间不同)
2)训练或微调所需显卡(以Falcon为例子)
补充:Falcon 是目前为止 huggingface 上排行榜第一的模型
- 注意点
①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
③数据规模小时,可考虑预算内的 A10 或 T4 型号。
④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务 - 补充资料
https://gpus.llm-utils.org/cloud-gpu-guide/
https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/
3)服务器价格计算器
火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。
https://www.volcengine.com/pricing?product=ECS&tab=2
二、全球大模型了解
1)llm所有模型
传送门
2)模型综合排行
传送门
3)模型评测
传送门
4)国内大模型
①国内模型列表
传送门
- agicto.com能开发票
5)文心一言API接入指南
传送门
6)国外域名服务商推荐
①www.spaceship.com
②www.namecheap.com
三、搭建OpenAI代理
- 业务流程建议
因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。
1)搭建原理:透传
- 缺点
容易触发官方封号概率 - 实现方案
①Nginx
②node服务
③纯js
①Nginx方案
server
{
listen 80;
server_name a.openaixx.com;
index index.html;
location / {
proxy_pass https://api.openai.com;
proxy_ssl_name api.openai.com;
proxy_ssl_server_name on;
proxy_set_header Host api.openai.com;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection 'upgrade';
chunked_transfer_encoding off;
proxy_read_timeout 3600;
proxy_buffering off;
proxy_cache off;
proxy_redirect off;
proxy_hide_header Cache-Control;
}
location ~ /.well-known {
allow all;
}
access_log off;
}
参考
②node服务
agi-proxy
③纯js方案
复制以下代码,去 cloudflare 建立一个 worker 即可
.传送门
2)服务器选择
-
vercel介绍
①服务器提供商
②操作简单,选择项目添加,然后发版就可以部署了
③侧重前端
④云平台 -
render
①可以用docker去构建
②像Nginx、redis都可以部署云服务
③云平台 -
zeabur
①这个服务器好处是国内
②云平台
3)实践
用vercel部署自己一个OpenAI代理
四、基于云平台快速部署SD
五、本地计算机运行大型模型
1)Ollama基础
- ollama的作用:
将各种大模型量化裁剪功能,让大模型能在本地能跑起来 - 网址
https://ollama.com/library
https://ollama.com/ - 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "wizardlm2",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "你是谁?"
}
]
}
- 端口
11434
2)讲解Ollama API(略)
3)结合RAG运行:分析github仓库代码(略)
六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
1)架构图
2)重要模块
七、基于vLLM部署大模型
1)vLLM部署开源大模型介绍
①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
②特点:
1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出