LLM大模型推理加速 vLLM;Qwen vLLM使用案例;模型生成速度吞吐量计算

news2024/12/30 2:07:34

参考:
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

1、vLLM

这里使用的cuda版本是11.4,tesla T4卡
在这里插入图片描述

加速原理:
PagedAttention,主要是利用kv缓存
在这里插入图片描述

2、qwen测试使用:

##启动正常api服务
python -m vllm.entrypoints.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192***.14 --port 10860 --max-num-seqs 
256 --trust-remote-code --tensor-parallel-size 2  



##启动openai形式  api服务
python -m vllm.entrypoints.openai.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 1***.14 --port 10860 --max-nu
m-seqs 256 --trust-remote-code --tensor-parallel-size 2    




在这里插入图片描述

api访问(服务端用的正常api服务第一个):
参考:https://github.com/vllm-project/vllm/blob/main/examples/api_client.py

import requests
import json
# from vllm import LLM, SamplingParams

headers = {"User-Agent": "Test Client"}
pload = {
        "prompt": "<|im_start|>system\n你是一个人工智能相关的专家,名字叫小杰.<|im_end|>\n<|im_start|>user\n介绍下深度学习<|im_end|>\n<|im_start|>assistant\n",
        "n": 2,
        "use_beam_search": True,
        "temperature": 0,
        "max_tokens": 16,
        "stream": False,
        "stop": ["<|im_end|>", "<|im_start|>",]
    }
response = requests.post("http://1***:10860/generate", headers=headers, json=pload, stream=True)
print(response)
print(response.content)
print(response.content.decode())

在这里插入图片描述
如果要只输出一个答案(注释掉# “use_beam_search”: True,),答案长一些( “max_tokens”: 800,)等,需要更改请求参数:

import requests
import json
# from vllm import LLM, SamplingParams

headers = {"User-Agent": "Test Client"}
pload = {
        "prompt": "<|im_start|>system\n你是一个人工智能相关的专家,名字叫小杰.<|im_end|>\n<|im_start|>user\n介绍下深度学习<|im_end|>\n<|im_start|>assistant\n",
        "n": 1,
        # "use_beam_search": True,
        "temperature": 0,
        "max_tokens": 800,
        "stream": False,
        "stop": ["<|im_end|>", "<|im_start|>",]
    }
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
print(response)
# print(response.content)
print(response.content.decode())

在这里插入图片描述

流式结果打印

参考:https://github.com/vllm-project/vllm/blob/main/examples/gradio_webserver.py

import requests
import json
# from vllm import LLM, SamplingParams

headers = {"User-Agent": "Test Client"}
pload = {
        "prompt": "<|im_start|>system\n你是一个人工智能相关的专家,名字叫小杰.<|im_end|>\n<|im_start|>user\n以中秋写500字的文章<|im_end|>\n<|im_start|>assistant\n",
        "n": 1,
        # "use_beam_search": True,
        "temperature": 0,
        "max_tokens": 100,
        "stream": True,
        "stop": ["<|im_end|>", "<|im_start|>",]
    }
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
# print(response)
# print(response.content)
# print(response.content.decode())

for chunk in response.iter_lines(chunk_size=8192,
                                     decode_unicode=False,
                                     delimiter=b"\0"):
        if chunk:
            data = json.loads(chunk.decode("utf-8"))
            output = data["text"]
            print(output) 

流式web gradio输出:

# -- coding: utf-8 --**
import argparse
import json

import gradio as gr
import requests


def http_bot(prompt):
    headers = {"User-Agent": "vLLM Client"}
    # pload = {
    #     "prompt": prompt,
    #     "stream": True,
    #     "max_tokens": 128,
    # }
    # print(prompt)
    new_prompt = "<|im_start|>system\n你是一个人工智能相关的专家,名字叫小杰.<|im_end|>\n<|im_start|>user\n"+ prompt +"<|im_end|>\n<|im_start|>assistant\n"
    pload = {
        "prompt":new_prompt,
        "n": 1,
        # "use_beam_search": True,
        "temperature": 0,
        "max_tokens": 600,
        "stream": True,
        "stop": ["<|im_end|>", "<|im_start|>",]
    }
    new_prompt_len =len(new_prompt) 

    response = requests.post(args.model_url,
                             headers=headers,
                             json=pload,
                             stream=True)

    for chunk in response.iter_lines(chunk_size=8192,
                                     decode_unicode=False,
                                     delimiter=b"\0"):
        if chunk:
            data = json.loads(chunk.decode("utf-8"))
            output = data["text"][0]
            # print(output)
            
            yield output[new_prompt_len:]


def build_demo():
    with gr.Blocks() as demo:
        gr.Markdown("# vLLM text completion demo\n")
        inputbox = gr.Textbox(label="Input",
                              placeholder="Enter text and press ENTER")
        outputbox = gr.Textbox(label="Output",
                               placeholder="Generated result from the model")
        inputbox.submit(http_bot, [inputbox], [outputbox])
    return demo


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--host", type=str, default="localhost")
    parser.add_argument("--port", type=int, default=8002)
    parser.add_argument("--model-url",
                        type=str,
                        default="http://192.168.19.14:10860/generate")
    args = parser.parse_args()

    demo = build_demo()
    demo.queue(concurrency_count=100).launch(server_name=args.host,
                                             server_port=args.port,
                                             share=False)

在这里插入图片描述

在这里插入图片描述

问题

1、现在中文qwen模型运行返回的基本都是乱码,不知道是不是vLLM支持的问题?

在这里插入图片描述
解决方法:(qwen需要构造输入格式)
https://github.com/vllm-project/vllm/issues/901

qwen_vllm1.py

from vllm import LLM, SamplingParams
from transformers import AutoModelForCausalLM, AutoTokenizer
import time

model_path=r"/mnt/data/loong/qwen-6b-model"
model = LLM(model=model_path, tokenizer=model_path,tokenizer_mode='slow',tensor_parallel_size=2,trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_path, legacy=True, trust_remote_code=True)
sampling_params = SamplingParams(temperature=0.9,stop=["<|im_end|>", "<|im_start|>",],max_tokens=400)
start=time.time()
prompt_before = '<|im_start|>system\n你是一个人工智能相关的专家,名字叫小杰.<|im_end|>\n<|im_start|>user\n'
prompt_after = '<|im_end|>\n<|im_start|>assistant\n'
prompts = ["你好!","介绍下深度学习","写一个python快排算法","以中秋节写一首诗"]
prompts = [prompt_before + x + prompt_after for x in prompts]

outputs = model.generate(prompts, sampling_params)
end = time.time()
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    length = len(generated_text)
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
    print(end-start)
    cost = end-start
    print(f"{length/cost}tokens/s")

运行:python qwen_vllm1.py
在这里插入图片描述

3、模型生成速度吞吐量计算

模型输出吞吐量计算

“{length/cost} tokens/s” 输出总长度/耗时

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    length = len(generated_text)
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
    print(end-start)
    cost = end-start
    print(f"{length/cost}tokens/s")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/982162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32CubeMX驱动INA226芯片

环境 1、单片机&#xff1a;STM32F042F6P6 2、编译器&#xff1a;KeilMDK 3、配置工具&#xff1a;STM32CubeMX 目标 使用STM32的硬件IIC接口驱动高侧/低侧测量、双向电流/功率监视器INA226。 开始 1、配置STM32F042F6P6的IIC 2、编写INA226的驱动 头文件&#xff1a; #…

Windows11安装配置Git

安装配置Git 1.安装Git1.1下载Git1.2Git的安装1.安装2.安装声明3.安装路径选择4.选择安装组件5.开始菜单文件夹6.选择Git默认编辑器7.决定初始化新项目(仓库)的主干名称8.调整你的path环境变量9.选择SSH执行文件10.配置行尾符号转换11.配置终端模拟器与Git Bash一起使用12.选择…

上海亚商投顾:沪指探底回升 光刻胶概念股全线爆发

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 一.市场情绪 沪指早间弱势震荡&#xff0c;午后反弹拉升翻红&#xff0c;创业板指一度跌超1%&#xff0c;随后跌幅有所收窄…

算法通关村第12关【白银】| 字符串经典问题

一、反转问题 1.反转字符串 思路&#xff1a;双指针&#xff0c;反转数组一个套路 class Solution {public void reverseString(char[] s) {int l 0;int r s.length -1;while(l<r){char c s[l];s[l] s[r];s[r] c;l;r--;}} } 2.k个一组反转 思路&#xff1a;每k个进行…

noetic 怎么下载robotiq_modbus_tcp 从而使用robotiq二指夹爪

1&#xff0c;会科学上网 2&#xff0c; # Modbus TCP rosdep install robotiq_modbus_tcp3&#xff0c;报错 4&#xff0c;去robotiq的功能包里面找两个大爷&#xff08;tmd&#xff09; 分别修改package.xml 本来是python &#xff0c; 然后分别修改成python3 然后参考其他…

jpg格式图片怎么弄?不同格式图片该怎么转换?

在日常生活和工作中&#xff0c;我们经常会遇到需要转换图片格式的情况。本文将介绍如何将jpg格式图片转换为其他格式&#xff0c;以及如何转换不同格式的图片。 jpg格式图片转换的一些问题 jpg是一种常见的图片格式&#xff0c;但在某些情况下&#xff0c;需要将其转换为其他…

信息化项目软件安全测评验收

安全测试 随着信息系统业务覆盖率的提高和深度整合创新的逐步提高&#xff0c;信息系统运行阶段的复杂性和资源比例逐渐增加。一方面&#xff0c;信息已成为业务创新、技术应用和运营服务的综合体&#xff0c;而不仅仅是技术平台建设。另一方面&#xff0c;信息采购是技术平台…

Linux的LVM磁盘扩容

目录 引子环境扩容步骤结束 引子 最近因为有个服务器的磁盘和内容太小了&#xff0c;连按tab都要提示No space left on device了&#xff0c;实在受不了了&#xff0c;更何况服务器的项目也因为没有空间直接崩了&#xff0c;在领导申请到了内存和磁盘后立马着手去扩硬盘&#…

Matlab图像处理- 高斯低通滤波器

高斯低通滤波器 高斯低通滤波器是一种更平滑的一种滤波器&#xff0c;高斯低通滤波器完全没有振铃现象&#xff0c;且边缘平滑。 示例代码 利用输入图像&#xff0c;构建一个截止频率为30的高斯低通滤波器的透视图如下图所示。 M 2*size(I,1); %滤波器…

Vue进阶(贰幺幺)CVE-2020-11022/CVE-2020-11023漏洞解析

文章目录 一、前言二、漏洞原理三、修复方案3.1 升级jQuery3.2 1.x 升级至 3.x 需要考虑的问题3.2.1 table表格元素自动添加tbody3.2.2 方法变更 3.3 jquery migrate是什么 四、拓展阅读 一、前言 代码安全扫描阶段&#xff0c;前端资源审计发现jQuery版本过低导致生产系统存在…

52、基于函数式方式开发 Spring WebFlux 应用

★ Spring WebFlux的两种开发方式 1. 采用类似于Spring MVC的注解的方式来开发。此时开发时感觉Spring MVC差异不大&#xff0c;但底层依然是反应式API。2. 使用函数式编程来开发★ 使用函数式方式开发Web Flux 使用函数式开发WebFlux时需要开发两个组件&#xff1a; ▲ Han…

基于Java+SpringBoot+Vue前后端分离成绩管理系统设计和实现

博主介绍&#xff1a;✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专…

vue 脚手架新手入门(vue cli 3)

文章目录 1、vue中的 “:” 绑定和 “” 监听1.1、v-model 双向绑定 2、if 、else 、for3、computed 计算属性4、生命周期&#xff08;属性加载顺序&#xff09;5、watch 侦听器6、 components 组件6.1、props 从父组件获取收据6.2、emits 向父组件触发事件6.3、slots插槽&…

UART串口的8倍过采样和16倍过采样原理

由于在空闲状态时&#xff0c;传送线为逻辑“1”状态&#xff0c;而数据的传送总是以一个起始位“0”开始&#xff0c;所以当接收器检测到一个从"1"向"0”的跳变时&#xff0c;便视为可能的起始位&#xff08;要排除干扰引起的跳变) ;起始位被确认后,就知道发送…

java八股文面试[数据库]——JOIN优化

JOIN 是 MySQL 用来进行联表操作的&#xff0c;用来匹配两个表的数据&#xff0c;筛选并合并出符合我们要求的结果集。 JOIN 操作有多种方式&#xff0c;取决于最终数据的合并效果。常用连接方式的有以下几种: 什么是驱动表 ? 多表关联查询时,第一个被处理的表就是驱动表,使用…

大陆学者周志华当选IJCAI理事会主席,系54年来首次

8月25日&#xff0c;在澳门举行的第32届国际人工智能联合会议&#xff08;IJCAI &#xff09;2023闭幕式上&#xff0c;IJCAI 执行委员会宣布&#xff0c;南京大学周志华教授当选为新一届的国际人工智能联合会理事会&#xff08;IJCAI Trustee&#xff09;主席。周志华是中国大…

KT142C-sop16语音芯片ic的功能介绍 支持pwm和dac输出 usb直接更新内置空间

1.1 简介 KT142C是一个提供串口的SOP16语音芯片&#xff0c;完美的集成了MP3的硬解码。内置330KByte的空间&#xff0c;最大支持330秒的语音长度&#xff0c;支持多段语音&#xff0c;支持直驱0.5W的扬声器无需外置功放 软件支持串口通信协议&#xff0c;默认波特率9600.同时…

java网络编程,套接字socket

目录 一 网络概述 二 网络的类型分类 三 网络体系结构 四 网络通信协议概述 五 网络通信协议种类 六 Socket简介 七 Socket路径 八 java网络编程三要素 九 基于UDP协议的Socket编程 十 基于TCP协议的Socket编程 十一 基于TCP协议和UDP的区别 一 网络概述 多台相互连…

机器学习入门教学——独热编码One-hot

1、前言 在机器学习过程中&#xff0c;我们经常需要对特征进行分类&#xff0c;例如&#xff1a;性别有男、女&#xff0c;国籍有中国、英国、美国等&#xff0c;种族有黄、白、黑。 但是分类器并不能直接对数据进行分类&#xff0c;所以我们需要先对数据进行处理。如果要作为…

通信原理板块——正弦波加窄带高斯噪声、高斯白噪声、带限白噪声

1、正弦波加窄带高斯噪声 调制系统中&#xff0c;传输的信号是用正弦波作为载波的已调信号。通常信号经过信道传输时总会受到噪声的干扰&#xff0c;为了减少噪声的影响&#xff0c;在解调器的前端设置一个带通滤波器&#xff0c;以滤除信号频带以外的噪声。带通滤波器的输出是…