基于 vLLM 搭建 DeepSeek-V2 Chat 服务

基于 vLLM 搭建 DeepSeek-V2 Chat 服务

news2026/2/14 6:55:15

直奔主题。

安装vLLM

官方实现的代码还没有 merge 到 vLLM 主分支，所以直接 git clone DeepSeek 的分支。

git clone https://github.com/zwd003/vllm.git
cd vllm
pip install -e .

源码安装大概耗时 10 分钟。

OpenAI 接口规范启动

官方 Github 放的是单条推理代码，如果需要启动 api 服务，直接用 OpenAI 接口规范启动即可：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server --model {YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat --port 10000 --tensor-parallel-size 8 --gpu-memory-utilization 0.9 --max-model-len 8192 --trust-remote-code

首次启动大概耗时10分钟（8卡80G A100），后续启动差不多1分钟以内。
注：如果跑崩了出现OOM，启动时添加参数 --enforce-eager 即可解决。
在这里插入图片描述

接口测试

{
    "model": "{YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat",
    "messages": [{"role": "user", "content": "你是谁"}],
    "temperature": 0.3,
    "stream": false
}

在这里插入图片描述

参考链接：
https://github.com/deepseek-ai/DeepSeek-V2

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1685908.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

吉时利Keithley 2010数字万用表7.5 位

吉时利Keithley 2010数字万用表7.5 位

Keithley 2010数字万用表，7.5 位吉时利 2010 数字万用表、7.5 位、低噪声万用表将高分辨率与生产应用所需的高速度和高准确度相结合，例如测试精密传感器、换能器、A/D 和 D/A 转换器、调节器、参考、连接器、开关和继电器。2010 基于与吉时利 2000、20…

阅读更多...

Flink DataStream API 基础算子（一）

Flink DataStream API 基础算子（一）

一、介绍官网 DataStream API 得名于特殊的 DataStream 类，该类用于表示 Flink 程序中的数据集合。你可以认为它们是可以包含重复项的不可变数据集合。这些数据可以是有界（有限）的，也可以是无界（无限）的…

阅读更多...

k8s node NotReady后会发生什么？

k8s node NotReady后会发生什么？

K8s 是一种强大的容器编排和管理平台，能够高效地调度、管理和监控容器化应用程序；其本身使用声明式语义管理着集群内所有资源模型、应用程序、存储、网络等多种资源，Node 本身又属于 K8s 计算资源，上面承载运行着各种类型的应用程…

阅读更多...

selenium环境安装和web自动化基础

selenium环境安装和web自动化基础

webUI自动化背景因为web页面经常会变化，所以UI自动化测试的维护成本很高。不如接口的适用面广，所以大部分公司会做接口自动化测试，但是未必会做UI自动化测试； UI自动化测试要做也是覆盖冒烟测试，不会到很高的覆盖率&a…

阅读更多...

gpt-4o考场安排

gpt-4o考场安排

说明 ：经过多次交互，前后花了几个小时，总算完成了基本功能。如果做到按不同层次分配考场，一键出打印结果就完美了。如果不想看中间“艰苦”的过程，请直接跳到“最后结果”及“食用方法”。中间过程还省略了一部分交互&…

阅读更多...

集中抄表系统是什么？

集中抄表系统是什么？

1.集中抄表系统简述集中抄表，又称为智能抄表，是一种现代化能源管理体系技术性，主要运用于电力工程、水、气等公共事业的计量。它通过自动化的形式收集解决大量用户的计量数据信息，大大提升了数据收集的效率和精确性，…

阅读更多...

基于SSM实现的新生报到系统源码+数据库+论文

基于SSM实现的新生报到系统源码+数据库+论文

项目简介基于SSM实现的新生报到系统，主要分为五种用户角色，分别是： 学院管理员管理所有内容，涵盖了班级，专业，学院，学生，缴费以及宿舍等方面的信息，学院管理员可以统计…

阅读更多...

java-查询字符串当中是否包含中文

java-查询字符串当中是否包含中文

文章目录前言java-查询字符串当中是否包含中文前言如果您觉得有用的话，记得给博主点个赞，评论，收藏一键三连啊，写作不易啊^ _ ^。而且听说点赞的人每天的运气都不会太差，实在白嫖的话，那欢迎常来啊…

阅读更多...

2024电工杯数学建模A题思路模型代码

2024电工杯数学建模A题思路模型代码

最新版完整内容见文末名片 A 题：园区微电网风光储协调优化配置园区微电网由风光发电和主电网联合为负荷供电，为了尽量提高风光电量的负荷占比，需配置较高比例的风光发电装机容量，但由于园区负荷与风光发电功率时序不匹配&am…

阅读更多...

噪声条件分数网络——NCSN原理解析

噪声条件分数网络——NCSN原理解析

1、前言本篇文章，我们讲NCSN，也就是噪声条件分数网络。这是宋飏老师在2019年提出的模型，思路与传统的生成模型大不相同，令人拍案叫绝！！！ 参考论文： ①Generative Modeling by Es…

阅读更多...

IDEA设置运行内存

IDEA设置运行内存

1.开启内存指示条查看idea右下角 2.环境变量查看ideaVM地址，没有的话那就是默认的配置文件： idea 安装 bin 目录下 idea64.exe.vmoptions 3.去对应路径修改内存参数大小 4.重启IDEA，end

阅读更多...

leetcode-主持人调度(二)-110

leetcode-主持人调度(二)-110

题目要求思路 1.先将开始时间和结束时间拆分放到两个数组中进行排序 2.如果开始的时间小于结束时间，说明目前没有空闲的人，需要增加人，如果大于等于，说明有人刚结束了主持，可以进行新的主持了，变更到下一…

阅读更多...

JavaEE技术之分布式事务(理论、解决方案、Seata解决分布式事务问题、Seata之原理简介、断点查看数据库表数据变化)

JavaEE技术之分布式事务(理论、解决方案、Seata解决分布式事务问题、Seata之原理简介、断点查看数据库表数据变化)

文章目录 JavaEE技术之分布式事务准备:1. 本地事务回顾1.1 什么是事务1.2 事务的作用1.3 事务ACID四大特性1.4 事务的并发问题1.5 MySQL事务隔离级别1.6 事务相关命令(了解)1.7 事务传播行为（propagation behavior）1.8 伪代码练习1.9 回滚策略1.10 超时事…

阅读更多...

重构2：重构的原则之笔记

重构2：重构的原则之笔记

最近在看重构2：改善既有代码的设计这本书，对于代码重构指导非常有帮助，然后也是做个笔记记录下，以下是我阅读本书的前两章的时候整理的思维导图：

阅读更多...

The Sandbox 和 Bitkub 联手增强东南亚元宇宙中心

The Sandbox 和 Bitkub 联手增强东南亚元宇宙中心

作为去中心化游戏虚拟世界和区块链平台的先驱，The Sandbox 正与泰国领先的区块链网络 Bitkub Blockchain Technology Co., Ltd. 展开创新合作。双方合作的目的是将Bitkub元宇宙的影响力扩展到The Sandbox，建立一个元宇宙中心，向用户承诺从 Bi…

阅读更多...

react使用antd警告：Warning: findDOMNode is deprecated in StrictMode.

react使用antd警告：Warning: findDOMNode is deprecated in StrictMode.

警告信息： Warning: findDOMNode is deprecated in StrictMode. findDOMNode was passed an instance of DOMWrap which is inside StrictMode. Instead, add a ref directly to the element you want to reference. Learn more about using refs safely here: htt…

阅读更多...

SerDes系列之CTLE均衡技术

SerDes系列之CTLE均衡技术

CTLE（连续时间线性均衡）是一种施加在接收器上的线性模拟高通滤波器，通过衰减低频信号分量，以补偿奈奎斯特频率附近的衰减比例，从而实现信道补偿。当低频信号分量向下衰减并推入底噪范围时，CTLE就会失去调节…

阅读更多...

解决Wordpress中Cravatar头像无法访问问题

解决Wordpress中Cravatar头像无法访问问题

一、什么是Cravatar Gravatar是WordPress母公司Automattic推出的一个公共头像服务，也是WordPress默认的头像服务。但因为长城防火墙的存在，Gravatar在中国时不时就会被墙一下，比如本次从2021年2月一直到8月都是不可访问状态。在以往的时候&…

阅读更多...

JS 实现鼠标框选（页面选择）时返回对应的 HTML 或文案内容

JS 实现鼠标框选（页面选择）时返回对应的 HTML 或文案内容

JS 实现鼠标框选（页面选择）时返回对应的 HTML 或文案内容一、需求背景 1、项目需求当用户进行鼠标框选选择了页面上的内容时，把选择的内容进行上报。 2、需求解析虽然这需求就一句话的事，但是很显然，没那么简单…

阅读更多...

MySQL -- 相关知识点

MySQL -- 相关知识点

1.数据库相关介绍数据库的选择通常取决于具体的应用需求，如性能、扩展性、数据一致性和易用性等因素。 1. 关系型数据库（RDBMS） MySQL： 广泛使用的开源数据库，支持大多数操作系统。强调易用性、灵活性和广泛的社区支…

阅读更多...

推荐文章

最新文章