vllm部署的一些思考

news2025/1/11 20:51:04

vllm号称利用ray支持多机多卡的方式,链接如下

Distributed Inference and Serving — vLLMicon-default.png?t=N7T8https://docs.vllm.ai/en/stable/serving/distributed_serving.html但是这种方式只是把非常大的模型如lamma 3.1 ,这个模型有405b,需要用多机多卡的方式进行分布式。

事实上,生产中的分布式推理,是 用k8s等进行管理,每个模型在一个容器中而已,如一个7b的模型占用一个GPU,作为一个node,而不是把模型分布式,是把服务分布式。

常用的有xinference,还有各种k8s的集成

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959701.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言:扫雷游戏实现

一、扫雷游戏的分析和设计 扫雷游戏想必大家都玩过吧,初级的玩法是在一个9*9的棋盘上找到没有雷的格子,而今天我们就要做的就是9*9扫雷游戏的实现。 1、游戏功能和规则 使用控制台实现经典的扫雷游戏游戏可以通过菜单实现继续玩或者退出游戏扫雷的棋盘…

Git 安装教程

1、登录git 官方网站:https://git-scm.com/ 点击左边的 Downloads 或者 右边标识的下载标志,它根据电脑操作系统自动匹配版本 Downloads for Windows 2、以 windows 为例下载对应版本 网络有时可能不大好,阿里镜像下载超快。 下载好以后&a…

传统物流机械锁控的痛点与难点深度剖析

在当今全球化和高度竞争的商业环境中,物流行业作为经济发展的重要支撑,其高效、安全的运营至关重要。而物流锁控,作为保障货物在运输和存储过程中安全的关键环节,传统机械物流锁控方式却面临着诸多严峻的挑战,这些问题…

Linux系统服务——【web,http协议,apache服务和nginx服务】(sixteen day)

一、web基础以及http协议 1、web基本概念和常识 前端开发一般用uniapp. 1、Web:为用户提供的一种在互联网上浏览信息的服务,Web 服务是动态的、可交互的、跨平台的和图形化的。 2、Web 服务为用户提供各种互联网服务,这些服务包括信息浏览服务&#xf…

关于使用pagehelper分页插件 进行mybatis 一对多嵌套查询时 查询数量太多 无法达到你想展示的效果的问题 --已解决

1.问题 先来描述一下问题 我有一个商品表 里面嵌套 1.1如下是我的数据库 一个商品对应两个口味对应三个商品轮播图+两个商品描述图 那可不是1*2*2*3 12 就是分页里面的pageSize 为12 时才能显示完这个商品的完整数据 这是我的sql语句 resultMap映射 2.正确做…

【香橙派系列教程】(二)刷机和系统启动

(二)刷机和系统启动 文章目录 (二)刷机和系统启动1.刷机2.基于 Windows PC 将 Linux 镜像烧写到 TF 卡的方法3.Debian 和 Ubuntu 系统使用说明4.串口登录系统5.修改登陆密码6.修改网络配置7.SSH登录开发板8.修改开发板内核启动日志…

学习008-02-04-05 Make a List View Editable(使列表视图可编辑)

Make a List View Editable(使列表视图可编辑) This lesson explains how to make a List View editable. 本课介绍如何使列表视图可编辑。 The instructions below show how to create new objects of the DemoTask type directly in the Task List V…

MSPM0G3507之电赛小车

一、前言 本文没什么技术分享,纯聊天。以下内容均为笔者的浅薄理解,有不对的地方还请多多包涵。 二、相关配置 主控单元:MSPM0G3507SPTR(48角) 编译环境:Keil5.33、5.39(推荐)都可 …

一分钟小课堂!电脑怎么录屏?4款热门软件实操指南

在这个信息超多的时代里,学会电脑怎么录屏可真是一门挺有用的技能。不管是你想做教学视频、录下游戏里好玩的瞬间,还是展示一下工作上的步骤,掌握录屏的方法都能让你的分享更直观、更有效率。今天,咱们就来聊聊四款很火的录屏大师…

vue3-环境变量-JavaScript-axio-基础使用-lzstring-字符串压缩-python

文章目录 1.Vue3环境变量1.1.简介1.2.全局变量的引用1.3.package.json文件 2.axio2.1.promise2.2.安装2.3.配置2.3.1.全局 axios 默认值2.3.2.响应信息格式 2.4.Axios的拦截器2.4.1.请求拦截器2.4.2.响应拦截器2.4.3.移除拦截器2.4.4.自定义实例添加拦截器 3.lz-string3.1.java…

Tantivy使用Rust 开发的全文搜索引擎库

一、概述 Tantivy是一个全文搜索引擎库,灵感来自Apache Lucene,用Rust编写。 如果你正在寻找Elasticsearch或Apache Solr的替代品,请查看我们基于Tantivy构建的分布式搜索引擎Quiuckwit。 Tantivy更接近Apache Lucene,而不是E…

仅需一分钟,使用极空间部署一个强大的开源问卷考试系统『SurveyKing』

仅需一分钟,使用极空间部署一个强大的开源问卷考试系统『SurveyKing』 哈喽小伙伴们好,我是Stark-C~ 我们生活中估计应该都收到了不少的问卷调查吧?很多商家或者运营商都会通过问卷调查的方式了解客户满意度,或者高市场调研&…

数据中台建设之数据汇聚与数据交换

目录 一、数据汇聚 1.1 概述 1.2 汇聚数据类型 1.2.1 结构化数据 1.2.2 半结构化数据 1.2.3 非结构化数据 1.3 汇聚数据模式 1.3.1 概述 1.3.2 离线 1.3.3 实时 1.4 汇聚数据方法 1.4.1 概述 1.4.2 ETL 1.4.3 ELT 1.5 汇聚数据工具 1.5.1 概述 1.5.2 Flink CDC…

Java人力资源招聘社会校招类型招聘系统PC端

🔍【揭秘】人力资源新利器!社会校招一站式PC端招聘系统全攻略🚀 🌈 开篇引言:招聘新纪元,效率为王! Hey小伙伴们,你是否还在为繁琐的招聘流程头疼不已?🤯 面…

Spark累加器(Accumulator)

1.累加器类型: 数值累加器:用于计算总和、计数等。布尔累加器:用于计算满足特定条件的次数。自定义累加器:允许定义复杂的聚合逻辑和数据结构。集合累加器:用于计算唯一元素的数量,处理去重操作。 在 Spar…

Qt Designer,仿作一个ui界面的练习(四):编写代码

一、新建项目,目录结构如图: PYS下存放脚本,SRC下存放资源文件,UIS下存放组态画面文件。 在每个子目录下都有__init__.py文件,系统会自动将其识别为软件包。 其中一个UIS.__init__.py文件的内容: # impo…

手撕数据结构02--二分搜索(附源码)

一、理论基础 二分搜索,也称折半搜索、对数搜索,是一种在有序数组中查找某一特定元素的搜索算法。 二分搜索是一种高效的查找算法,适用于在已排序的数组中查找特定元素。它的基本思想是通过不断将搜索区间对半分割,从而快速缩小…

ROOM数据快速入门

ROOM数据库快速入门 文章目录 ROOM数据库快速入门第一章 准备工作第01节 引入库第02节 布局文件第03节 activity类第04节 效果图 第二章 数据类第01节 实体类(表)第02节 数据访问类(DAO)第03节 数据Service层第04节 RoomDataBase …

达梦数据库DPI 实现两个数据库数据互通

链接字符串是目标访问链接 目标访问用户名 口令实现 31 里访问33库的数据 如果在31上建立视图访问33的某个表 AS SELECT SZZJ.sys_user.id FROM SZZJ.sys_userszzj31_szzj33;

护眼灯哪些牌子好?五款专业护眼灯品牌排行推荐

普通台灯长时间使用下来,眼睛疲劳、酸涩。但当作业或者工作没有做完的时候,还得硬着头皮撑着。大家是不是经常为这种事情发愁?于是,护眼台灯被设计出来了,但市面上出现的护眼台灯种类多,质量也是难以保证&a…