使用vllm部署大语言模型

news2025/1/22 19:42:09

vLLM是一个快速且易于使用的库,用于LLM(大型语言模型)推理和服务。通过PagedAttention技术,vLLM可以有效地管理注意力键和值内存,降低内存占用和提高计算效率。vLLM能够将多个传入的请求进行连续批处理,从而提高整体处理速度。

环境

Lniux操作系统,2张3090,cuda版本是12.2
在这里插入图片描述

安装vllm

通过pip安装比较简单:

# 这里先创建一个conda虚拟环境,没安装conda也可忽略
conda create -n myenv python=3.10 -y
conda activate myenv
# 正式安装
pip install vllm

启动vllm的http服务

python3 -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8900  --model /home/xxxx/model/Baichuan2-13B-Chat --trust-remote-code  --tensor-parallel-size 2    --gpu-memory-utilization 0.90

参数解释

  • host和port指定监听的地址和端口
  • –model指定模型路径
  • –tensor-parallel-size指定显卡数量
  • –gpu-memory-utilization指定显存占用比例

访问服务

POST访问的url: http://10.20.xx.xx:8900/v1/completions
IP替换成实际的就行。json参数

{
 "prompt": "你好",
 "model": "/home/xxx/model/Baichuan2-13B-Chat",
 "max_tokens": 1024,
 "stream": false
}

测试代码

import requests
import json

url = "http://10.20.xx.xx:8900/v1/completions"

data = {
 "prompt": "你好",
 "model": "/home/xxx/model/Baichuan2-13B-Chat",
 "max_tokens": 512,
#  "temperature": 0.2,
#  "top_k": 5,
#  "top_p": 0.95,
 "stream": False
}

response = requests.post(url, json=data, stream=True)
if response.status_code != 200:
    print(f"failed:status_code={response.status_code}")
else:
    json_response=json.loads(response.text)
    print(f"json_response:{json_response}")
    result_str=json_response["choices"][0]["text"]
    print(f"result_str:{result_str}")

post请求的body中的"model"字段值,需要与启动openai.api_server服务指定的model字段一致。

参考资料

vllm github

vllm在线文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1909750.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java语言程序设计——篇二(2)

Java语言基础 运算符与表达式运算符1、算术运算符2、关系运算符3、逻辑运算符&#xff08; &&、||、 !、&、| 、^&#xff09;4、位运算符&#xff08; >>、<<、>>>、&、|、^、~&#xff09;5、赋值运算符6、条件运算符7、字符串运算符8、…

基于Tkinter GUI库的ARP欺骗攻击工具

基于Tkinter GUI库的ARP欺骗攻击工具 程序提供了一个简单易用的GUI界面,让用户可以方便地进行ARP欺骗攻击。但ARP欺骗是一种黑客攻击手段,可能会造成严重的网络安全问题,请谨慎使用,仅限于合法的网络安全测试和研究目的。 这个ARP欺骗工具需要用户输入目标主机的IP和MAC地址,…

去中心化时代的到来:区块链如何重新定义权力和控制

随着区块链技术的迅猛发展&#xff0c;我们正逐步进入一个去中心化的新时代。区块链不仅仅是一种技术&#xff0c;更是一种理念&#xff0c;它通过去除中心化的权威和控制节点&#xff0c;重新定义了数据管理、交易验证和权力分配的方式。本文将深入探讨区块链如何在去中心化时…

【软件测试】 1+X初级 功能测试试题

登录模块需求说明书 人力资源管理系统 Web 端分为系统管理员、人资管理员、普通职员三个角色。系统登录模块 需求包括用户&#xff08;UI&#xff09;页面、业务规则两部分。 UI 页面 登录页 业务规则 【登录】 人资管理员、普通职员需要通过登录页面进入系统&#xff08;We…

Python项目结构和组织

1、问题背景 在Python中&#xff0c;如何将项目中的代码逻辑地组织到不同的文件/类中&#xff1f;这种情况在C#/Java等语言中很常见&#xff0c;想要了解Python项目中如何实现类似的结构。另外&#xff0c;在Python中是否存在“命名空间”&#xff0c;“项目”和“面向对象原则…

Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比

章节内容 上一节完成了如下的内容&#xff1a; 编写Agent Conf配置文件收集Hive数据汇聚到HDFS中测试效果 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经在 VM 虚拟机上搭建过一次&#xff0…

springboot+vue+mybatis图书销售管理系统+PPT+论文+讲解+售后

在Internet高速发展的今天&#xff0c;我们生活的各个领域都涉及到计算机的应用&#xff0c;其中包括图书销售管理系统的网络应用&#xff0c;在外国图书销售管理系统已经是很普遍的方式&#xff0c;不过国内的管理网站可能还处于起步阶段。图书销售管理系统具有网上图书信息管…

基础跟张宇,强化用36讲还是高数辅导讲义?

基础跟的张宇老师&#xff0c;强化阶段跟谁要看基础学的怎么样&#xff01; 因为张宇老师今年课程大改版&#xff0c;和以往的课程一点也不一样&#xff01; 具体变动是&#xff1a; 张宇老师把往年强化阶段的知识前移&#xff0c;也就是说现在的基础阶段要讲的内容是以往基…

隧道定位导航的解决方案

隧道定位导航是一个复杂但重要的技术领域&#xff0c;主要面临的是隧道内卫星信号受遮挡导致定位困难的问题。以下是对隧道定位导航技术的详细分析&#xff1a; 一、隧道定位导航的挑战 在隧道等封闭环境中&#xff0c;由于山体或建筑物的遮挡&#xff0c;卫星信号往往无法直接…

无线领夹麦克风哪个牌子好,揭秘口碑最好降噪领夹麦排行榜

在这个短视频如日中天的时代&#xff0c;无数自媒体创作者纷纷借助这一媒介&#xff0c;通过直播带货、分享生活点滴、在线卡拉OK等形式&#xff0c;捕捉并分享生活中的美好时刻。一个成功的短视频&#xff0c;不仅需要创意构思和稳定的画面质量&#xff0c;更离不开清晰纯净的…

【CSS in Depth 2 精译】2.6 CSS 自定义属性(即 CSS 变量)+ 2.7 本章小结

文章目录 2.6 自定义属性&#xff08;即 CSS 变量&#xff09;2.6.1 动态变更自定义属性 2.7 本章小结 当前内容所在位置 第一章 层叠、优先级与继承第二章 相对单位 2.1 相对单位的威力2.2 em 与 rem2.3 告别像素思维2.4 视口的相对单位2.5 无单位的数值与行高2.6 自定义属性 …

【日常记录】【插件】js 获取浏览器信息、操作系统等相关信息

文章目录 1. 原生方式2. 插件的方式2.1 Bowser 的基本使用2.2 UAParser2.3 Platform.js 参考链接 1. 原生方式 原生方式可以通过 navigator.userAgent 来获取 需要写一个正则来匹配&#xff0c;获取相关的信息 2. 插件的方式 获取浏览器版本相关信息的库主要有以下几个 Bowser&…

从零开始做题:easycap

题目 给出一个pcap文件 解题 注&#xff1a;传输控制协议&#xff08;TCP&#xff0c;Transmission Control Protocol&#xff09;是为了在不可靠的互联网络上提供可靠的端到端字节流而专门设计的一个传输协议 .pcap文件需要用Wireshark打开 用Wireshark打开easycap.pcap文…

leetcode--层数最深叶子节点的和

leetcode地址&#xff1a;层数最深叶子节点的和 给你一棵二叉树的根节点 root &#xff0c;请你返回 层数最深的叶子节点的和 。 示例 1&#xff1a; 输入&#xff1a;root [1,2,3,4,5,null,6,7,null,null,null,null,8] 输出&#xff1a;15 示例 2&#xff1a; 输入&#xff…

16张支付牌照将到期,新规落地以来,支付牌照的首次续展。

7月9日&#xff0c;包括瑞银信、乐刷、畅捷支付在内的16家第三方支付机构的支付牌照将到期&#xff0c;这些公司面临续展的重大考验。 这是《非银行支付机构监督管理条例》实施以来&#xff0c;支付牌照的首次续期。 其中&#xff0c;最受瞩目的可能是瑞银信。在范一飞落马后&a…

AI绘画:艺术与科技的交融,创新浪潮与无限可能

在科技日新月异的当下&#xff0c;AI 绘画作为人工智能领域的一颗璀璨新星&#xff0c;正以惊人的速度在国内崭露头角&#xff0c;引发了艺术与技术交融的全新变革。随着人工智能技术的飞速发展&#xff0c;AI绘画已成为艺术与科技交融的新宠。2024年&#xff0c;AI绘画行业在国…

最新版萌新Python看过最好的电子书?

我之前写过一篇 Python 入门看哪些书的文章&#xff0c;文章中罗列了 5 位大佬的书单推荐&#xff0c;在这个基础上我总结了自己看过的书单。你要是不知道学 Python 看什么书好&#xff0c;不妨参考一下&#xff1a; 一晃就到了月末&#xff0c;2020年也过去了 2 个月&#xf…

mysql数据库中的视图view的概念和详细说明

目录 一、定义 二、视图view的分类 &#xff08;一&#xff09;按功能和特性分类 1、普通视图&#xff08;Regular View/Standard View&#xff09; 2、索引视图&#xff08;Indexed View&#xff09; 3、分割视图&#xff08;Partitioned View/Distributed Partitioned …

【pytorch23】MNIST测试实战

理解 训练完之后也需要做测试 为什么要做test&#xff1f; 上图蓝色代表train的accuracy 下图蓝色代表train的loss 基本上符合预期&#xff0c;随着epoch增大&#xff0c;train的accuracy也会上升&#xff0c;loss也会一直下降&#xff0c;下降到一个较小的程度 但是如果只看…

世上最懂交易原理的是佛学

僧肇《肇论不空真论》思想非有非無逻辑 价值观矛盾冲突时&#xff08;不落两边&#xff09;&#xff0c;血性即行迹逻辑&#xff08;俗谛&#xff09;&#xff0c;才气即逻辑心证&#xff08;真谛&#xff09;&#xff1b;意气即是美&#xff0c;美即是意气&#xff1b;一切以…