LLM大模型推理加速 vLLM

news2024/11/20 16:26:55

参考:
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

在这里插入图片描述

加速原理:
PagedAttention,主要是利用kv缓存
在这里插入图片描述

使用:

##启动正常api服务
python -m vllm.entrypoints.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-num-seqs 
256 --trust-remote-code --tensor-parallel-size 2  



##启动openai形式  api服务
python -m vllm.entrypoints.openai.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-nu
m-seqs 256 --trust-remote-code --tensor-parallel-size 2    




在这里插入图片描述

api访问:

import requests
import json

headers = {"User-Agent": "Test Client"}
pload = {
        "prompt": "你能做什么",
        "n": 2,
        "use_beam_search": True,
        "temperature": 0.0,
        "max_tokens": 16,
        "stream": False,
    }
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
print(response)
print(json.loads(response.content)["text"])

问题

现在中文qwen模型运行返回的基本都是乱码,不知道是不是vLLM支持的问题?

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/971321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM | Java执行引擎结构及工作原理

引言 Java虚拟机(JVM)和其复杂性 在我们先前探讨的文章中,我们已经深入到了Java虚拟机(JVM)的内部,透视了其如何通过元空间存储类的元数据和字节码。JVM的设计初衷是为了实现跨平台兼容性,但随…

JavaScript构造函数

1、构造函数: 是一个函数,是通过new运算符进行调用,生成一个特殊的对象并返回。 function 函数名([参数]){ this.属性名 ‘属性值’ ... this.属性名 function([参数]){ 函数体语句 } } 通常情况下,建议构造函数的首字母大写 …

如何修复损坏的MP4视频文件?

随着智能设备拍摄功能的不断强大,随拍摄成本逐渐降低,越来越多的人喜欢用视频记录我们的生活,并上传抖音、快手、B站等视频网站 但在拍摄视频时也可能遇到一些突发情况,如手机没电断电终止拍摄、视频文件传输中断等,拍…

【Semidrive】解决 X9HP reboot 导致 Android 崩溃的问题

本篇文章介绍如何解决 X9HP 平台的 AP1 域中插着 u 盘时运行 reboot 导致 Android 系统崩溃的问题,软件版本是 X9 PTG4.0,硬件环境是 X9H 开发板 X9H_REF_A04。一、问题原因 在调试过程中遇到插着 u 盘时用 adb shell reboot 命令或直接在串口中 reboot …

国际网页短信软件平台通道搭建与后台定制-移讯云短信系统

国际网页短信软件平台通道搭建与后台定制-移讯云短信系统 这里先介绍下客户的定制需求,稍候放出开发构架和开发思路 我们根据市场需要,开发了一套可以接入国际通道的短信系统。 支持地区通道分流,支持关键字,关键词通道分流&…

ELK框架Logstash配合Filebeats和kafka使用

ELK框架Logstash配合Filebeats和kafka使用 本文目录 ELK框架Logstash配合Filebeats和kafka使用配置文件结构input为标准输入,output为标准输出input为log文件output为标准输出output为es input为tcpspringboot配置logstash配置 input为filebeatsfilebeats配置logsta…

【脑机接口】通过任务判别成分分析提高单独校准的 SSVEPBCI 的性能

题目:Improving the Performance of Individually Calibrated SSVEP-BCI by Task Discriminant Component Analysis **1. 摘要****2. 方法***A.任务相关成分分析**B.任务判别成分分析**C.评估* **- 结果****- 结论** 1. 摘要 脑机接口(BCI)为…

Python异步请求处理框架

在互联网时代,我们的程序需要处理大量的网络请求。为了提高性能和用户体验,我们需要一个高效的异步请求处理框架。本文将引导您从头开始编写一个Python框架,实现异步请求及响应管理。 设计思路与关键技术点 a. 异步编程的基本概念 异步编程…

权限提升-Linux提权-环境变量文件配合SUID提权

LINUX系统提权项目介绍 一个综合类探针: Linux:https://github.com/liamg/traitor 一个自动化提权: Linux:https://github.com/AlessandroZ/BeRoot 两个信息收集: Linux:https://github.com/rebootuser/Lin…

OpenWAF配置本地资源访问

OpenWAF配置本地静态资源安全访问 介绍 OpenWAF(Web Application Firewall)是一个开源的Web应用防火墙,用于保护Web应用程序免受各种网络攻击。它通过与Web服务器集成,监控和过滤对Web应用程序的流量,识别和阻止潜在…

搭建最简单的SpringBoot项目

1、创建maven项目 2、引入父pom <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.15</version> </parent> 3、引入springboot-web依赖 <dependency…

UG\NX CAM二次开发 遍历组中的工序 UF_NCGROUP_ask_member_list

文章作者:代工 来源网站:NX CAM二次开发专栏 简介: UG\NX CAM二次开发 遍历组中的工序 UF_NCGROUP_ask_member_list 效果: 代码: void GetAllOperTag(tag_t groupTag, vector<tag_t> &vOperTags) {int count=0;tag_t * list;UF_NCGROUP_ask_member_li…

数学建模-大模型的对比

引用老哥数学建模视频 【ChatGPT 4.0】在数学建模中的应用&#xff01;算法Matlab写作&#xff0c;全面测评六款大模型软件&#xff0c;直接使用&#xff01; 哪些问题可以问GPT 一、算法应用 1帮我总结一下数学建模有哪些预测类算法&#xff1f; 2灰色预测模型级比检验是什么…

架构师成长之路|Redis 安装介绍以及内存分配器jemalloc

安装 Redis官网:https://redis.io/download/ 下载安装二进制文件 可下载安装最新版Redis7.2.0,或者可选版本6.x 我这里下载6.2.13和7.2最新版本,后面我们都是安装6.2.13版本的信息进行讲解 二进制文件安装步骤 安装前期准备: 安装gcc yum install gcc 压缩文件 tar -xzf re…

无需公网IP,实现远程访问群晖Drive并挂载为电脑磁盘的方法

文章目录 前言1.群晖Synology Drive套件的安装1.1 安装Synology Drive套件1.2 设置Synology Drive套件1.3 局域网内电脑测试和使用 2.使用cpolar远程访问内网Synology Drive2.1 Cpolar云端设置2.2 Cpolar本地设置2.3 测试和使用 3. 结语 前言 群晖作为专业的数据存储中心&…

【C#项目实战】控制台游戏——勇士斗恶龙(1)

君兮_的个人主页 即使走的再远&#xff0c;也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们&#xff0c;这里是君兮_&#xff0c;最近开始正式的步入学习游戏开发的正轨&#xff0c;想要通过写博客的方式来分享自己学到的知识和经验&#xff0c;这就是开设本专栏的目的。希望…

【商业案例应用】B端产品设计流程——智能客服案例

文章目录 1、项目背景介绍2、需求调研阶段3、项目立项阶段4、需求整理阶段 1、项目背景介绍 2、需求调研阶段 3、项目立项阶段 4、需求整理阶段

爬虫源码---爬取小猫猫交易网站

前言&#xff1a; 本片文章主要对爬虫爬取网页数据来进行一个简单的解答&#xff0c;对与其中的数据来进行一个爬取。 一&#xff1a;环境配置 Python版本&#xff1a;3.7.3 IDE:PyCharm 所需库&#xff1a;requests &#xff0c;parsel 二&#xff1a;网站页面 我们需要…

TCP流量控制和拥塞控制,具体在场景中是怎么起作用的

TCP的流量控制 所谓的流量控制就是让发送方的发送速率不要太快&#xff0c;让接收方来得及接受。利用滑动窗口机制可以很方便的在TCP连接上实现对发送方的流量控制。TCP的窗口单位是字节&#xff0c;不是报文段&#xff0c;发送方的发送窗口不能超过接收方给出的接收窗口的数值…

SpringMVC的工作流程及入门

目录 一、概述 ( 1 ) 是什么 ( 2 ) 作用 二、工作流程 ( 1 ) 流程 ( 2 ) 步骤 三、入门实例 ( 1 ) 入门实例 ( 2 ) 静态资源处理 给我们带来的收获 一、概述 ( 1 ) 是什么 SpringMVC是一个基于Java的Web应用开发框架&#xff0c;它是Spring Framework的一部…