【使用Hey对vllm接口压测】模型并发能力

news2024/11/15 17:31:55

使用Hey对vllm进行模型并发压测

在这里插入图片描述

docker run --rm --network=knowledge_network \
    registry.cn-shanghai.aliyuncs.com/zhph-server/hey:latest \
    -n 200 -c 200 -m POST -H "Content-Type: application/json" \
    -H "Authorization: xxx" \
    -d '{
        "model": "codechat",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Hello!"}
        ],
        "stream": false,
        "max_tokens": 100,
        "temperature": 0.0
    }' http://vllm-openai:80/v1/chat/completions
docker run --rm --network=knowledge_network \
    registry.cn-shanghai.aliyuncs.com/zhph-server/hey:latest \
    -n 200 -c 200 -m POST -H "Content-Type: application/json" \
    -H "Authorization: xxx" \
    -d '{
        "model": "codebase",
        "prompt": "# write a python code to print hello world",
        "stream": false,
        "max_tokens": 100,
        "temperature": 0.5
    }' http://vllm-openai:80/v1/completions

结果

Summary:                                                                                                                                                                 
  Total:        2.2220 secs                                                                                                                                              
  Slowest:      1.3603 secs                                                                                                                                              
  Fastest:      0.7641 secs                                                                                                                                              
  Average:      1.0815 secs                                                                                                                                              
  Requests/sec: 43.2034                                                                                                                                                  
                                                                                                                                                                         
  Total data:   28992 bytes                                                                                                                                              
  Size/request: 302 bytes                                                                                                                                                
                                                                                                                                                                         
Response time histogram:                                                                                                                                                 
  0.764 [1]     |0.824 [5]     |■■■■■■■                                                                                                                                                 
  0.883 [4]     |■■■■■■                                                                                                                                                  
  0.943 [7]     |■■■■■■■■■■                                                                                                                                              
  1.003 [11]    |■■■■■■■■■■■■■■■■                                                                                                                                        
  1.062 [7]     |■■■■■■■■■■                                                                                                                                              
  1.122 [28]    |■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■■                                                                                                                
  1.181 [7]     |■■■■■■■■■■                                                                                                                                              
  1.241 [9]     |■■■■■■■■■■■■■                                                                                                                                           
  1.301 [9]     |■■■■■■■■■■■■■                                                                                                                                           
  1.360 [8]     |■■■■■■■■■■■                                                                                                                                             
                                                                                                                                                                         
                                                                                                                                                                         
Latency distribution:                                                                                                                                                    
  10% in 0.9175 secs                                                                                                                                                     
  25% in 0.9570 secs                                                                                                                                                     
  50% in 1.0721 secs                                                                                                                                                     
  75% in 1.2131 secs                                                                                                                                                     
  90% in 1.2790 secs                                                                                                                                                     
  95% in 1.3599 secs                                                                                                                                                     
  0% in 0.0000 secs                                                                                                                                                      
                                                                                                                                                                         
Details (average, fastest, slowest):                                                                                                                                     
  DNS+dialup:   0.0036 secs, 0.7641 secs, 1.3603 secs                                                                                                                    
  DNS-lookup:   0.0013 secs, 0.0000 secs, 0.0075 secs                                                                                                                    
  req write:    0.0003 secs, 0.0000 secs, 0.0051 secs                                                                                                                    
  resp wait:    1.0774 secs, 0.7640 secs, 1.3533 secs                                                                                                                    
  resp read:    0.0001 secs, 0.0000 secs, 0.0002 secs                                                                                                                    
                                                                                                                                                                         
Status code distribution:                                                                                                                                                
  [200] 96 responses 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2150533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【类型黑市】指针

大家好我是#Y清墨,今天我要介绍的是指针。 意义 指针就是存放内存地址的变量。 分类 因为变量本身是分类型的,我们学过的变量类型有 int, long long, char, double, string, 甚至还有结构体变量。 同样,指针也分类型,如果指针指向…

云韧性,现代云服务不可或缺的组成部分

韧性,一个物理学概念,表示材料在变形或者破裂过程中吸收能量的能力。韧性越好,则发生脆性断裂的可能性越小。 如今,韧性也延伸到企业特质、产品特征等之中,用于形容企业、产品乃至服务的优劣。同样,随着云…

3. Internet 协议的安全性

3. Internet 协议的安全性 (1) 常用网络协议的功能、使用的端口及安全性 HTTP协议 功能:用于从服务器传输超文本到本地浏览器。端口:默认是80端口。安全性:不提供数据加密,存在数据泄露和中间人攻击风险。使用HTTPS协议(443端口)可以增强安全性。FTP协议 功能:实现文件的…

电脑录课软件哪个好用,提高教学效率?电脑微课录屏软件推荐

在当今这个数字化时代,教育领域也迎来了翻天覆地的变化。随着远程教学和在线学习的普及,教师们开始寻求更高效、更便捷的教学工具来提升教学质量和学生的学习体验。电脑录课软件,作为现代教育技术的重要组成部分,能够帮助教师轻松…

【CPP】类与继承

14 类与继承 在前面我们提到过继承的一些概念,现在我们来回顾一下 打个比方:在CS2中我们把玩家定义为一个类 class 玩家: 血量:100阵营(未分配)服饰(未分配)位置(未分配)武器(未分配)是否允许携带C4(未分配)是否拥有C4(未分配) 当对局创建时,会新生成两个类,这两个类继承自&qu…

【Linux庖丁解牛】—Linux基本指令(上)!

🌈个人主页:秋风起,再归来~🔥系列专栏: Linux庖丁解牛 🔖克心守己,律己则安 目录 1、 pwd命令 2、ls 指令 3、cd 指令 4、Linux下的根目录 5、touch指令 6、 stat指令 7、mkdi…

LabVIEW提高开发效率技巧----采用并行任务提高性能

在复杂的LabVIEW开发项目中,合理利用并行任务可以显著提高系统的整体性能和响应速度。并行编程是一种强大的技术手段,尤其适用于实时控制、数据采集以及多任务处理等场景。LabVIEW的数据流编程模型天然支持并行任务的执行,结合多核处理器的硬…

OrCAD使用,快捷键,全选更改封装,导出PCB网表

1 模块名称 2 快捷键使用 H: 镜像水平 V:镜像垂直 R: 旋转 I: 放大 O: 放小 P:放置元器件 W: 步线 B: 总线(无电气属性) E: 总线连接符(和BUS一起用&#xff09…

【网络通信基础与实践第四讲】用户数据报协议UDP和传输控制协议TCP

一、UDP的主要特点 1、UDP是无连接的,减少了开销和发送数据之前的时延 2、UDP使用尽最大努力交付,但是不保证可靠交付 3、UDP是面向报文的。从应用层到运输层再到IP层都只是添加一个相应的首部即可 4、UDP没有拥塞机制,源主机以恒定的速率…

基于JAVA+SpringBoot+Vue的学生干部管理系统

基于JAVASpringBootVue的学生干部管理系统 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接🍅 哈…

力扣题解2376

大家好,欢迎来到无限大的频道。 今日继续给大家带来力扣题解。 题目描述(困难): 统计特殊整数 如果一个正整数每一个数位都是 互不相同 的,我们称它是 特殊整数 。 给你一个 正 整数 n ,请你返回区间 …

【Python报错已解决】SyntaxError invalid syntax

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

锐尔15注册机 锐尔文档扫描影像处理系统15功能介绍

锐尔文档扫描影像处理系统是一款全中文操作界面的文件、档案扫描及影像优化处理软件,是目前国内档案数字化行业里专业且优秀的影像优化处理软件。 无论是从纸质文件制作高质量的影像文件,或是检查已经制作好的影像文件,锐尔文档扫描影像处理…

Generative Models from the perspective of Continual Learning【小白读论文】

摘要: 本文在持续学习情况下评估各种生成模型。 本文研究了几种模型如何学习和遗忘,并考虑了各种持续学习策略:回放、正则化、生成重放和微调。 我们使用两个定量指标来估计生成质量和记忆能力。 我们在三个常用的持续学习基准(MN…

RabbitMQ08_保证消息可靠性

保证消息可靠性 一、生产者可靠性1、生产者重连机制(防止网络波动)2、生产者确认机制Publisher Return 确认机制Publisher Confirm 确认机制 二、MQ 可靠性1、数据持久化交换机、队列持久化消息持久化 2、Lazy Queue 惰性队列 三、消费者可靠性1、消费者…

新媒体运营

一、新媒体运营的概念 1.新媒体 2.新媒体运营的五大方向 用户运营 产品运营 。。。 二、新媒体的岗位职责及要求 三、新媒体平台

【redis-01】redis基本数据类型和使用场景

redis系列整体栏目 内容链接地址【一】redis基本数据类型和使用场景https://zhenghuisheng.blog.csdn.net/article/details/142406325 redis基本数据类型和使用场景 一,redis基本数据类型和使用场景1,String数据类型2,Hash数据类型3&#xff…

嵌入式linux系统中rk3588芯片引脚基本操作

第一:开发板中linux系统对应设备节点 进入用户 LED 设备文件夹: 1cd /sys/class/leds/usr_led该目录下的文件分别为 brightness、device、max_brightness、power、subsystem、trigger 和 uevent,需要注意的是 brightness、max_brightness 以及 trigger 文件,这三个文件都是…

共享单车轨迹数据分析:以厦门市共享单车数据为例(五)

先来聊聊啥是共享单车电子围栏? 共享单车电子围栏是一种基于地理位置技术的虚拟边界,用于管理和规范共享单车的停放和使用。这种技术通过在地图上划定特定区域,帮助用户了解哪些地方可以停车,哪些地方不能停车,从而减…

网关登录校验(2)----网关如何将用户信息传递给微服务

1.微服务获取用户信息 现在,网关已经可以完成登录校验并获取登录用户身份信息。但是当网关将请求转发到微服务时,微服务又该如何获取用户身份呢? 由于网关发送请求到微服务依然采用的是Http请求,因此我们可以将用户信息以请求头…