Python - 深度学习系列32 - glm2接口部署实践

news2024/11/25 21:17:58

说明

前阵子,已经对glm2的接口部署做了镜像化。本次的目的是:

  • 1 测试在隔了一阵子(忘记)的情况下,快速部署时是否有障碍,是不是足够方便
  • 2 在算网机环境下,能否快速的实现部署。仅考虑文件方式。(大部分租用机租用的是容器,少部分是真的租宿主机)

为啥不用glm3: 因为出现中英文混杂情况的概率较高。

内容

1 镜像方式

首先,找到脑图
在这里插入图片描述
注释里面缺少了容器的启动命令,这点很不方便。通过镜像后可以看到,里面一个是项目文件,一个是量化后的,模型文件夹,这个还是比较清晰的。

将命令补充,放到我的streamlit 网页下
在这里插入图片描述
假设我要做让大模型做一个公司简介,在4060Ti16G上运行,大约需要8S,约12.5Token/S。
在这里插入图片描述
比较有意思的是,我发现单个chatglm2运行,只会占到50%的功耗,所以可以开两个服务,这不会减少单个任务的执行时间,但可以把吞吐翻一倍。

然后我又试了下llm_assemble,这个是我做的集成多个不同大模型,包括本地的和线上的接口。仍然是缺少了服务的启动命令和调用示例。
在这里插入图片描述

2 文件方式

大多数租用算力机不支持docker,这点上AnyGPU有点例外,更像是租了一个宿主机给你。但是也有个问题,sshd的配置不会生效,这意味着你可以通过秘钥登录,但是无法禁止使用密码。所以要删除可能被撞破的用户,如 userdel -f git

将文件通过rsync或者scp(有些不允许安装任何软件,如deepln)。
在这里插入图片描述
总体上也还好,不算复杂。

我在AndyGPU上租了一张2080Ti实验,模型占用的显存不大,但是单服务似乎就占满了显卡(功率不满)。可能是老显卡架构的问题?
在这里插入图片描述
然后我在DeepLn上租了一张3090实验。DeepLn的网络非常不稳定,走web服务行不通。但是注册送30元额度还是挺好的。
在这里插入图片描述
所以这个状态下作为服务肯定是行不通的,甚至后来我用jupyter的时候,也总是时断时续的。最后我还是用文件上传的方式,在机器上实验。实测速度大约是4060Ti的1.3~1.5倍吞吐,和理论值差不多。
在这里插入图片描述
3090如果按¥1/hour计算,那么每生成一千条数据花费1元钱。

3 使用消息队列

假设,任务为输出企业简介,prompt + input + output ~ 1KB数据,处理时间按4s/req计算:

(4s也可以认为是一次对话输出的可接受时间,worker的数量可以视为是并发数)

条数数据量计算时间传输时间计算传输比
11KB4s0.01s400
10001MB4000s ~ 1hour10s-
1百万1GB4百万秒 ~ 50 days4万秒-

可以看出来这种任务是非常适合广域网分布式处理的。百万量级是一个较平常的任务量级,50天显然是不可接受的时长,如果我们要在1天内完成,那么就需要50张卡(4060Ti),如果使用4090的话,大约是3倍的效率,也要16台机。单机配8卡的话,需要2台机。

关键是worker的数量,大约会是50,甚至是100个。这时候单独去管理的话,数据的分发就不能手动了。而且租用算力机随时可能出问题,必须假设worker是非常不稳定的。

所以,在这种高计算传输比,且需要多个worker尽力支持的场景,我觉得用消息队列最合适。

这部分后续再写吧,另一个话题了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1587924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

策略模式【行为模式C++】

1.概述 策略模式是一种行为设计模式, 它能让你定义一系列算法, 并将每种算法分别放入独立的类中, 以使算法的对象能够相互替换。 策略模式通常应用于需要多种算法进行操作的场景,如排序、搜索、数据压缩等。在这些情况下&#x…

D-LinkNAS 远程命令执行漏洞(CVE-2024-3273)RCE漏

声明: 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 简介 D-LinkNAS是由D-Link公司制造的网络附加存储设备。…

有趣的css - 动态雷达扫描

大家好,我是 Just,这里是「设计师工作日常」,今天分享的是使用 css 实现一个动态的雷达扫描,快学起来吧! 《有趣的css》系列最新实例通过公众号「设计师工作日常」发布。 目录 整体效果核心代码html 代码css 部分代码…

产品推荐 | 瑞苏盈科基于立体帧捕捉和视频处理应用的火星Mars EB1开发板

01 产品概述 火星Mars EB1底板是为火星Mars系列FPGA和SoC核心板设计的通用底板,非常适用于立体帧捕捉和视频处理应用,可以为构建基于FPGA的定制化硬件系统提供一个良好的基础和开端。 02 核心亮点 ■ 与所有火星Mars系列FPGA和SoC核心板兼容 ■ 适用…

2024mathorcup数学建模C题思路分析-物流网络分拣中心货量预测及人员排班

# 1 赛题 C 题 物流网络分拣中心货量预测及人员排班 电商物流网络在订单履约中由多个环节组成,图 ’ 是一个简化的物流 网络示意图。其中,分拣中心作为网络的中间环节,需要将包裹按照不同 流向进行分拣并发往下一个场地,最终使包裹…

FME学习之旅---day23

我们付出一些成本,时间的或者其他,最终总能收获一些什么。 教程:地理数据库入门 FME 支持读取和写入不同的地理数据库格式;这包括文件地理数据库、个人地理数据库和 ArcSDE 地理数据库。支持矢量和栅格数据类型。在本教程中,我们…

Understanding Flink

Flink 下载: mkdir ~/flink && cd ~/flinkwget --no-check-certificate https://archive.apache.org/dist/flink/flink-1.15.3/flink-1.15.3-bin-scala_2.12.tgz wget --no-check-certificate https://repo1.maven.org/maven2/com/ververica/flink-sql-co…

PHP+MySQL组合开发 易企秀H5场景源码系统 带完整的安装代码包以及搭建教程

在数字化时代,企业对于宣传与推广的需求日益增长,而H5页面作为一种轻量级、跨平台的宣传方式,深受企业青睐。为了满足企业对于H5页面制作的需求,我们基于PHPMySQL组合开发了一套易企秀H5场景源码系统,并提供了完整的安…

PTA(题目集一 题目 代码 C++ 注解)

目录 题目一: 代码: 题目二: 代码: 题目三: 代码: 题目四: 代码: 题目五: 代码: 题目六: 代码: 题目七: 代…

VM虚拟机Linux系统Redhat7.4版本进行网络配置

日常中自己搭建的虚拟机一般用到两种网络方式,第一种是仅主机模式、还有一种是NAT模式。 1、仅主机模式:可以和自己本地电脑,或者虚拟机和虚拟机之间进行网络通信,相当于一个局域网,是不能连接外网的。 2、NAT模式&a…

Leetcode刷题之消失的数字(C语言版)

Leetcode刷题之消失的数字(C语言版) 一、题目描述二、题目解析 一、题目描述 数组nums包含从0到n的所有整数,但其中缺了一个。请编写代码找出那个缺失的整数。你有办法在O(n)时间内完成吗? 注意:本题相对书上原题稍作…

BIM信息如何整合到可视化大屏中,告诉你步骤。

BIM(Building Information Modeling)是一种数字化建筑信息模型技术,可以将建筑物的设计、施工和运营过程进行集成和管理。将BIM整合到可视化大屏中可以提供更直观、全面的建筑信息展示和分析。 BIM(建筑信息模型)可以通…

SFP光模块和媒体转换器的区别

SFP光模块和媒体转换器都是光电转换设备。它们是否可以互换使用?它们之间有什么区别? SFP光模块与媒体转换器:它们是什么? SFP模块是一种可热插拔的光模块,用于连接网络交换机。它可以将电信号转换为光信号&#xff…

Doris 内网安装部署,基于 CentOS 7

实测 CentOS 7.6 和 7.9都可用,CentOS安装包为:标准安装盘DVD版,如果系统安装的是精简版,需要挂载DVD版或者自行下载依赖。 参考文档 快速开始 - Apache Doris Doris 下载地址:2.1.1 ( Latest ) -> x64 ( avx2 )…

spring.rabbitmq.listener.simple.default-requeue-rejected = false 和放入死信队列的区别

目录 一、场景 二、使用 spring.rabbitmq.listener.simple.default-requeue-rejected false 2.1 特点 三、 放入死信队列 四、两种区别 一、场景 当我们使用RabbitMq的时候,我们如果业务中有异常,很有可能造成死循环,因为 在RabbitMQ和…

TSINGSEE青犀边缘计算AI智能分析网关V4客流统计算法的配置步骤及使用

TSINGSEE青犀AI智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为、烟火等实时检测分析,上报识别结果,并能进行语音告警播放。硬件支持RTSP、GB28181协议、以及厂家私有协议接入,可兼容市面上常见的…

Netty学习——实战篇1 BIO、NIO入门demo 备注

1 BIO 实战代码 Slf4j public class BIOServer {public static void main(String[] args) throws IOException {//1 创建线程池ExecutorService threadPool Executors.newCachedThreadPool();//2 创建ServerSocketServerSocket serverSocket new ServerSocket(8000);log.in…

java下载网络上的文件、图片保存到本地 FileUtils

java下载网络上的文件、图片保存到本地 FileUtils 1. 引入FileUtils依赖2. 实现代码3. 输出结果 1. 引入FileUtils依赖 <!--FileUtils依赖--> <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> <dependency><groupId>commons-io&l…

(Java)数据结构——图(第九节)AOV网以及拓扑排序

前言 本博客是博主用于复习数据结构以及算法的博客&#xff0c;如果疏忽出现错误&#xff0c;还望各位指正。 AOV网 先前我们了解了有向无环图DAG的概念。 所有的工程或者某种流程可以分为若干个小的工程或者阶段&#xff0c;这些小的工程或者阶段就称为活动。若以图中的顶…

IPV6的相关网络问题

问题 ​​​​​​​ 目录 问题 一.什么是NAT64转换 1.NAT64的工作原理 IPv6到IPv4转换 IPv4到IPv6的响应转换 2.NAT64的优点 3.NAT64的缺点 二.NAT64转换如何实现 1.工作原理 2.实现步骤 DNS查询转换&#xff08;DNS64&#xff09; 地址转换&#xff08;NAT64&a…