大模型学习笔记十二:AI产品部署

news2024/9/23 3:12:29

文章目录

    • 一、如何选择GPU和云服务器厂商,追求最高性价比
      • 1)根据场景选择GPU
      • 2)训练或微调所需显卡(以Falcon为例子)
      • 3)服务器价格计算器
    • 二、全球大模型了解
      • 1)llm所有模型
      • 2)模型综合排行
      • 3)模型评测
      • 4)国内大模型
      • 5)文心一言API接入指南
      • 6)国外域名服务商推荐
    • 三、搭建OpenAI代理
      • 1)搭建原理:透传
      • 2)服务器选择
      • 3)实践
    • 四、基于云平台快速部署SD
    • 五、本地计算机运行大型模型
      • 1)Ollama基础
      • 2)讲解Ollama API(略)
      • 3)结合RAG运行:分析github仓库代码(略)
    • 六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
      • 1)架构图
      • 2)重要模块
    • 七、基于vLLM部署大模型
      • 1)vLLM部署开源大模型介绍
      • 2)vLLM开启api调用
      • 3)vLLM分布式推理
    • 八、部署一套开源LLM项目
    • 九、如何控制内容安全,做好算法备案,确保合规

一、如何选择GPU和云服务器厂商,追求最高性价比

  • AI常用GPU
    在这里插入图片描述
    有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800

  • H100和A100对比:
    16bit推理快3.5倍,16bit训练快2.3倍
    在这里插入图片描述

  • LPU(推理特别快)
    在这里插入图片描述
    在这里插入图片描述

  • 云服务厂商对比
    -国内主流
    阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
    腾讯云:https://cloud.tencent.com/act/pro/gpu-study
    火山引擎:https://www.volcengine.com/product/gpu
    -国外主流
    AWS:https://aws.amazon.com
    Vultr:https://www.vultr.com
    TPU:https://cloud.google.com/tpu

  • 算力平台(内部先用,跑小模型):主要用于学习和训练
    Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
    Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
    AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
    建议:若一来GITHUB或Docker官方镜像,建议国外服务器

1)根据场景选择GPU

以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
(微调数据不同导致所需时间不同)
在这里插入图片描述

2)训练或微调所需显卡(以Falcon为例子)

补充:Falcon 是目前为止 huggingface 上排行榜第一的模型

在这里插入图片描述

  • 注意点
    ①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
    ②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
    ③数据规模小时,可考虑预算内的 A10 或 T4 型号。
    ④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
  • 补充资料
    https://gpus.llm-utils.org/cloud-gpu-guide/
    https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/

3)服务器价格计算器

火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。

https://www.volcengine.com/pricing?product=ECS&tab=2

二、全球大模型了解

1)llm所有模型

传送门

2)模型综合排行

传送门
在这里插入图片描述

3)模型评测

传送门
在这里插入图片描述

4)国内大模型

①国内模型列表
传送门

在这里插入图片描述

  • agicto.com能开发票

5)文心一言API接入指南

传送门

6)国外域名服务商推荐

①www.spaceship.com
②www.namecheap.com

三、搭建OpenAI代理

  • 业务流程建议
    因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。

1)搭建原理:透传

  • 缺点
    容易触发官方封号概率
  • 实现方案
    ①Nginx
    ②node服务
    ③纯js

①Nginx方案

server
{
    listen 80;
    server_name a.openaixx.com;
    index index.html;
    location / {
            proxy_pass https://api.openai.com;
            proxy_ssl_name api.openai.com;
            proxy_ssl_server_name on;
            proxy_set_header Host api.openai.com;
            proxy_set_header Upgrade $http_upgrade;
            proxy_set_header Connection 'upgrade';
            chunked_transfer_encoding off;
            proxy_read_timeout 3600;
            proxy_buffering off;
            proxy_cache off;
            proxy_redirect off;
            proxy_hide_header Cache-Control;
    }

    location ~ /.well-known {
        allow all;
    }

    access_log off;
}

参考

②node服务
agi-proxy

③纯js方案
复制以下代码,去 cloudflare 建立一个 worker 即可
.传送门

2)服务器选择

在这里插入图片描述

  • vercel介绍
    ①服务器提供商
    ②操作简单,选择项目添加,然后发版就可以部署了
    ③侧重前端
    ④云平台

  • render
    ①可以用docker去构建
    ②像Nginx、redis都可以部署云服务
    ③云平台

  • zeabur
    ①这个服务器好处是国内
    ②云平台

3)实践

用vercel部署自己一个OpenAI代理

四、基于云平台快速部署SD

五、本地计算机运行大型模型

1)Ollama基础

  • ollama的作用:
    将各种大模型量化裁剪功能,让大模型能在本地能跑起来
  • 网址
    https://ollama.com/library
    https://ollama.com/
  • 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "wizardlm2",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是谁?"
            }
        ]
    }
  • 端口
    11434

2)讲解Ollama API(略)

3)结合RAG运行:分析github仓库代码(略)

六、如何部署自己fine-tune的模型,向业务提供高可用推理服务

1)架构图

在这里插入图片描述

2)重要模块

①

七、基于vLLM部署大模型

1)vLLM部署开源大模型介绍

①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
②特点:

1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出

2)vLLM开启api调用

3)vLLM分布式推理

八、部署一套开源LLM项目

九、如何控制内容安全,做好算法备案,确保合规

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1938511.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Python+Django,开发的一个在线教育系统

一、项目简介 使用Python的web框架Django进行开发的一个在线教育系统! 二、所需要的环境与组件 Python3.6 Django1.11.7 Pymysql Mysql pure_pagination DjangoUeditor captcha xadmin crispy_forms 三、安装 1. 下载项目后进入项目目录cd Online-educ…

企业微信PC版应用跳转到默认浏览器,避坑指南,欢迎补充(Vue项目版)。。。

引子 关于企业微信PC版应用跳转到默认浏览器,我之前写过一篇文章:企业微信PC版应用跳转到默认浏览器,避坑指南,欢迎补充。。。 以前的文章里用的前后端一体的Jsp项目,这次我使用的是前后端分离的Vue项目,…

数据库——单表查询

一、建立数据库mydb8_worker mysql> use mydb8_worker; 二、建立表 1.创建表 mysql> create table t_worker(department_id int(11) not null comment 部门号,-> worder_id int(11) primary key not null comment 职工号,-> worker_date date not null comment…

Git安装教程 | Git配置教程 | Github

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌本片教程是分享的Git教程的第1️⃣期:Git的安装与配置✈️ 文章目录 1.前言🍇2.Git下载🍎3.Git 的安装&#x1f95d…

Python数据风险案例54——人工智能热门概念股爬虫分析其价值(三因子模型)

案例背景 人工智能概念如火如荼的夏天,在这个2024年,我觉得需要提早布局一下这个概念。所以我们找一下A股里面人们的人工智能概念股,然后分析他们的数据应用三因子模型,也就是最经典的资本资产定价模型的衍生版去研究他们各自的投…

内网穿透原理解析及软件

🌈所属专栏:【其它】✨作者主页: Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询! 您的点…

OpenGL笔记十四之GLM数学库的配置与使用

OpenGL笔记十四之GLM数学库的配置与使用 —— 2024-07-20 中午 bilibili赵新政老师的教程看后笔记 code review! 文章目录 OpenGL笔记十四之GLM数学库的配置与使用1.旋转变换运行效果2.平移变换运行效果3.缩放变换运行效果4.复合变换:先旋转 再平移运行效果5.复合…

Linux网络:应用层协议HTTP(一)

一、什么是HTTP协议 虽然我们说, 应用层协议是我们程序猿自己定的. 但实际上, 已经有大佬们定义了一些现成的, 又非常好用的应用层协议, 供我们直接参考使用. HTTP(超文本传输协议)就是其中之一。 在互联网世界中,HTTP(HyperText Transfer Protocol&…

8 个实用写歌词技巧,让歌词富有感染力

在音乐的领域中,一首好歌往往离不开充满感染力的歌词。这些歌词能够触动人们的心灵,引发共鸣,让人沉浸其中。接下来,为您分享 8 个实用技巧,帮助您创作出富有感染力的歌词,同时为您介绍“妙笔生词智能写歌词…

OpenAI突发新模型GPT-4o mini,GPT-3.5退役!

OpenAI突发新模型,全面取代老去的GPT-3.5——GPT-4o mini! 免费用户已可使用GPT-4o mini模型。 GPT-4o mini,能力接近原版GPT-4,价格却要便宜一个数量级: GPT-4o mini:每百万输入tokens,15美分&#xff0…

降雨量预测 | Matlab基于ARIMA-RBF降雨量预测

目录 效果一览基本介绍程序设计参考资料 效果一览 基本介绍 降雨量预测 | Matlab基于ARIMA-RBF降雨量预测 注:程序和数据放在一个文件夹。 程序语言为matlab,程序可出预测效果图,指标图; 代码特点:参数化编程、参数可方便更改、代…

SQL每日一题:寻找用户推荐人

题干 表: Customer -------------------- | Column Name | Type | -------------------- | id | int | | name | varchar | | referee_id | int | -------------------- 在 SQL 中,id 是该表的主键列。 该表的每一行表示一个客户的 id、姓名以及推荐他们的客户的 …

如何建立一颗二叉树?(数据结构:树 + hash表 / 广搜BFS)

一个二叉树,树中每个节点的权值互不相同。 现在给出它的后序遍历和中序遍历,请你输出它的层序遍历。 输入格式 第一行包含整数 N,表示二叉树的节点数。 第二行包含 N 个整数,表示二叉树的后序遍历。 第三行包含 N 个整数&…

pytest常用命令行参数解析

简介:pytest作为一个成熟的测试框架,它提供了许多命令行参数来控制测试的运行方式,以配合适用于不同的测试场景。例如 -x 可以用于希望出现错误就停止,以便定位和分析问题。–rerunsnum适用于希望进行失败重跑等个性化测试策略。 …

ue5笔记

1 点光源 聚光源 矩形光源 参数比较好理解 (窗口里面)环境光混合器:快速创造关于环境光的组件 大气光源:太阳光,定向光源 天空大气:蓝色的天空和大气 高度雾:大气下面的高度感的雾气 体积…

开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题…

英伟达DGX、EGX、IGX、HGX、MGX架构解析

一文了解英伟达DGX、EGX、IGX、HGX、MGX 英伟达市值上涨5.2%,收盘市值达3.019万亿美元,超越苹果公司,成为了美股市值第二大的公司,仅次于微软。在当今的科技领域,GPU已经成为了推动人工智能、深度学习、高性能计算等领…

docker自建rustdesk-server远程桌面

rustdesk简介 RustDesk 是一款可以平替 TeamViewer 的开源软件,旨在提供安全便捷的自建方案。 RustDesk 是一款功能齐全的远程桌面应用,具有以下特性: 支持 Windows、macOS、Linux、iOS、Android、Web 等多个平台。支持 VP8 / VP9 / AV1 …

第一百七十四节 Java IO教程 - Java字符集

Java IO教程 - Java字符集 我们可以使用编码方案将Unicode字符转换为字节序列,反之亦然。 java.nio.charset包提供了将CharBuffer编码/解码为ByteBuffer的类,反之亦然。 Charset类的对象表示编码方案。 CharsetEncoder类执行编码。 CharsetDecoder类执…

Java笔试分享

1、设计模式(写>3种常用的设计模式) 设计模式是在软件工程中解决常见问题的经验性解决方案。以下是一些常用的设计模式: 单例模式(Singleton): 意图:确保一个类只有一个实例,并…