LLM大模型推理加速 vLLM

LLM大模型推理加速 vLLM

news2026/2/12 22:06:46

参考：
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

在这里插入图片描述

加速原理：
PagedAttention，主要是利用kv缓存
在这里插入图片描述

使用：

##启动正常api服务
python -m vllm.entrypoints.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-num-seqs 
256 --trust-remote-code --tensor-parallel-size 2  



##启动openai形式  api服务
python -m vllm.entrypoints.openai.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-nu
m-seqs 256 --trust-remote-code --tensor-parallel-size 2

在这里插入图片描述

api访问：

import requests
import json

headers = {"User-Agent": "Test Client"}
pload = {
        "prompt": "你能做什么",
        "n": 2,
        "use_beam_search": True,
        "temperature": 0.0,
        "max_tokens": 16,
        "stream": False,
    }
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
print(response)
print(json.loads(response.content)["text"])

问题

现在中文qwen模型运行返回的基本都是乱码，不知道是不是vLLM支持的问题？

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/971321.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JVM | Java执行引擎结构及工作原理

JVM | Java执行引擎结构及工作原理

引言 Java虚拟机（JVM）和其复杂性在我们先前探讨的文章中，我们已经深入到了Java虚拟机（JVM）的内部，透视了其如何通过元空间存储类的元数据和字节码。JVM的设计初衷是为了实现跨平台兼容性，但随…

阅读更多...

JavaScript构造函数

JavaScript构造函数

1、构造函数： 是一个函数，是通过new运算符进行调用，生成一个特殊的对象并返回。 function 函数名([参数]){ this.属性名 ‘属性值’ ... this.属性名 function([参数]){ 函数体语句 } } 通常情况下，建议构造函数的首字母大写 …

阅读更多...

如何修复损坏的MP4视频文件？

如何修复损坏的MP4视频文件？

随着智能设备拍摄功能的不断强大，随拍摄成本逐渐降低，越来越多的人喜欢用视频记录我们的生活，并上传抖音、快手、B站等视频网站但在拍摄视频时也可能遇到一些突发情况，如手机没电断电终止拍摄、视频文件传输中断等，拍…

阅读更多...

【Semidrive】解决 X9HP reboot 导致 Android 崩溃的问题

【Semidrive】解决 X9HP reboot 导致 Android 崩溃的问题

本篇文章介绍如何解决 X9HP 平台的 AP1 域中插着 u 盘时运行 reboot 导致 Android 系统崩溃的问题，软件版本是 X9 PTG4.0，硬件环境是 X9H 开发板 X9H_REF_A04。一、问题原因在调试过程中遇到插着 u 盘时用 adb shell reboot 命令或直接在串口中 reboot …

阅读更多...

国际网页短信软件平台通道搭建与后台定制-移讯云短信系统

国际网页短信软件平台通道搭建与后台定制-移讯云短信系统

国际网页短信软件平台通道搭建与后台定制-移讯云短信系统这里先介绍下客户的定制需求，稍候放出开发构架和开发思路我们根据市场需要，开发了一套可以接入国际通道的短信系统。支持地区通道分流，支持关键字，关键词通道分流&…

阅读更多...

ELK框架Logstash配合Filebeats和kafka使用

ELK框架Logstash配合Filebeats和kafka使用

ELK框架Logstash配合Filebeats和kafka使用本文目录 ELK框架Logstash配合Filebeats和kafka使用配置文件结构input为标准输入，output为标准输出input为log文件output为标准输出output为es input为tcpspringboot配置logstash配置 input为filebeatsfilebeats配置logsta…

阅读更多...

【脑机接口】通过任务判别成分分析提高单独校准的 SSVEPBCI 的性能

【脑机接口】通过任务判别成分分析提高单独校准的 SSVEPBCI 的性能

题目：Improving the Performance of Individually Calibrated SSVEP-BCI by Task Discriminant Component Analysis **1. 摘要****2. 方法***A.任务相关成分分析**B.任务判别成分分析**C.评估* **- 结果****- 结论** 1. 摘要脑机接口（BCI）为…

阅读更多...

Python异步请求处理框架

Python异步请求处理框架

在互联网时代，我们的程序需要处理大量的网络请求。为了提高性能和用户体验，我们需要一个高效的异步请求处理框架。本文将引导您从头开始编写一个Python框架，实现异步请求及响应管理。设计思路与关键技术点 a. 异步编程的基本概念异步编程…

阅读更多...

权限提升-Linux提权-环境变量文件配合SUID提权

权限提升-Linux提权-环境变量文件配合SUID提权

LINUX系统提权项目介绍一个综合类探针： Linux：https://github.com/liamg/traitor 一个自动化提权： Linux：https://github.com/AlessandroZ/BeRoot 两个信息收集： Linux：https://github.com/rebootuser/Lin…

阅读更多...

OpenWAF配置本地资源访问

OpenWAF配置本地资源访问

OpenWAF配置本地静态资源安全访问介绍 OpenWAF（Web Application Firewall）是一个开源的Web应用防火墙，用于保护Web应用程序免受各种网络攻击。它通过与Web服务器集成，监控和过滤对Web应用程序的流量，识别和阻止潜在…

阅读更多...

搭建最简单的SpringBoot项目

搭建最简单的SpringBoot项目

1、创建maven项目 2、引入父pom <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.15</version> </parent> 3、引入springboot-web依赖 <dependency…

阅读更多...

$UG\NX CAM二次开发遍历组中的工序 UF_NCGROUP_ask_member_list$

UG\NX CAM二次开发遍历组中的工序 UF_NCGROUP_ask_member_list

文章作者：代工来源网站：NX CAM二次开发专栏简介： UG\NX CAM二次开发遍历组中的工序 UF_NCGROUP_ask_member_list 效果：代码： void GetAllOperTag(tag_t groupTag, vector<tag_t> &vOperTags) {int count=0;tag_t * list;UF_NCGROUP_ask_member_li…

阅读更多...

数学建模-大模型的对比

数学建模-大模型的对比

引用老哥数学建模视频【ChatGPT 4.0】在数学建模中的应用！算法Matlab写作，全面测评六款大模型软件，直接使用！ 哪些问题可以问GPT 一、算法应用 1帮我总结一下数学建模有哪些预测类算法？ 2灰色预测模型级比检验是什么…

阅读更多...

架构师成长之路｜Redis 安装介绍以及内存分配器jemalloc

架构师成长之路｜Redis 安装介绍以及内存分配器jemalloc

安装 Redis官网:https://redis.io/download/ 下载安装二进制文件可下载安装最新版Redis7.2.0，或者可选版本6.x 我这里下载6.2.13和7.2最新版本，后面我们都是安装6.2.13版本的信息进行讲解二进制文件安装步骤安装前期准备：安装gcc yum install gcc 压缩文件 tar -xzf re…

阅读更多...

无需公网IP，实现远程访问群晖Drive并挂载为电脑磁盘的方法

无需公网IP，实现远程访问群晖Drive并挂载为电脑磁盘的方法

文章目录前言1.群晖Synology Drive套件的安装1.1 安装Synology Drive套件1.2 设置Synology Drive套件1.3 局域网内电脑测试和使用 2.使用cpolar远程访问内网Synology Drive2.1 Cpolar云端设置2.2 Cpolar本地设置2.3 测试和使用 3. 结语前言群晖作为专业的数据存储中心&…

阅读更多...

【C#项目实战】控制台游戏——勇士斗恶龙(1)

【C#项目实战】控制台游戏——勇士斗恶龙(1)

君兮_的个人主页即使走的再远，也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们，这里是君兮_，最近开始正式的步入学习游戏开发的正轨，想要通过写博客的方式来分享自己学到的知识和经验，这就是开设本专栏的目的。希望…

阅读更多...

【商业案例应用】B端产品设计流程——智能客服案例

【商业案例应用】B端产品设计流程——智能客服案例

文章目录 1、项目背景介绍2、需求调研阶段3、项目立项阶段4、需求整理阶段 1、项目背景介绍 2、需求调研阶段 3、项目立项阶段 4、需求整理阶段

阅读更多...

爬虫源码---爬取小猫猫交易网站

爬虫源码---爬取小猫猫交易网站

前言： 本片文章主要对爬虫爬取网页数据来进行一个简单的解答，对与其中的数据来进行一个爬取。一：环境配置 Python版本：3.7.3 IDE:PyCharm 所需库：requests ，parsel 二：网站页面我们需要…

阅读更多...

TCP流量控制和拥塞控制，具体在场景中是怎么起作用的

TCP流量控制和拥塞控制，具体在场景中是怎么起作用的

TCP的流量控制所谓的流量控制就是让发送方的发送速率不要太快，让接收方来得及接受。利用滑动窗口机制可以很方便的在TCP连接上实现对发送方的流量控制。TCP的窗口单位是字节，不是报文段，发送方的发送窗口不能超过接收方给出的接收窗口的数值…

阅读更多...

SpringMVC的工作流程及入门

SpringMVC的工作流程及入门

目录一、概述 ( 1 ) 是什么 ( 2 ) 作用二、工作流程 ( 1 ) 流程 ( 2 ) 步骤三、入门实例 ( 1 ) 入门实例 ( 2 ) 静态资源处理给我们带来的收获一、概述 ( 1 ) 是什么 SpringMVC是一个基于Java的Web应用开发框架，它是Spring Framework的一部…

阅读更多...

推荐文章

最新文章