miniconda+xinference的大模型推理部署指南

miniconda+xinference的大模型推理部署指南

news2025/1/28 1:19:32

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

基于Dify的智能分类方案：大模型结合KNN算法（附代码）
OpenCompass：大模型测评工具
一文读懂多模态大模型基础架构
大模型管理平台：one-api使用指南
大模型RAG、ROG、RCG概念科普
RAGOnMedicalKG：大模型结合知识图谱的RAG实现
DSPy：变革式大模型应用开发
最简明的Few-shot Prompt指南
Semantic Kernel：微软大模型开发框架——LangChain 替代
对话大模型Prompt是否需要礼貌点？
swift与Internvl下的多模态大模型分布式微调指南（附代码和数据）
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）
多模态大模型Internvl-2-26B的OCR赋能方案（附代码）
miniconda+xinference的大模型推理部署指南

文章目录

大模型相关目录
前言
指南
资源

前言

大模型专栏涉及模型推理的内容很多，我之前涉及推荐过书生浦语家的lmdeploy、最典型的vllm原生框架、swfit微调框架（具备模型部署能力）。

今天想完整地给大家分享大模型推理部署指南，使用的是xinference，该框架封装了vllm，此外不仅支持推理模型，对于嵌入模型、重排模型也友好支持。

默认大家具备Anaconda或miniconda环境，没有的话自行下载即可。

环境部署简单粗暴，给大家打包到云盘里，嵌入、重排、推理模型这里也都提供了模型，解压后就能用，这里不赘述了。
在这里插入图片描述
上干货！

指南

切换到conda env目录： cd /data/miniconda/envs,该步骤以自身情况为准，路径可能不同；
创建虚拟环境文件夹： mkdir xinference；
解压tar -xzvf xinference.tar.gz -C ~/miniconda3/envs/xinference，该文件文末云盘直接下载即可
查看结果conda env list；正常来说会显示如下列表：

此处强调一下，若出现conda: command not found可使用如下指令解决：
export PATH=$PATH:【你的conda bin安装目录】
如/home/vincent/anaconda3/bin
此情况只有个别机器出现，是环境变量配置问题。
激活虚拟环境：conda activate xinference
使用指令运行服务：xinference-local --host 0.0.0.0 --port 9997

浏览器进行Xinference界面访问，访问地址为：IP:9997
在这里插入图片描述

注册模型并启动，具体包括大模型、嵌入模型、重排模型，如下图所示：
在这里插入图片描述

对于嵌入和重排模型，只需配置模型绝对路径和自定义名称：
在这里插入图片描述

对于大模型，除配置模型绝对路径和自定义名称外，还需配置如下信息：
在这里插入图片描述

配置完成后进入部署页面，配置最后参数部署即可：
在这里插入图片描述

其中k-v配置两项内容如下：
gpu_memory_utilization 0.8
gpu占用率
max_model_len 16384
上下文大小

资源

链接：https://pan.baidu.com/s/1ZN_9vZNNqIhAqyzb2Y-w7g 
提取码：ggdr

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1935624.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【视觉SLAM】十四讲ch5习题

【视觉SLAM】十四讲ch5习题

1.*寻找一个相机（你手机或笔记本的摄像头即可），标定它的内参。你可能会用到标定板，或者自己打印一张标定用的棋盘格。参考我之前写过的这篇博客：【OpenCV】相机标定 calibrateCamera Code来源是《学习OpenCV3》18.…

阅读更多...

喜报！CACTER实力入选《嘶吼2024网络安全产业图谱》多项领域

喜报！CACTER实力入选《嘶吼2024网络安全产业图谱》多项领域

CACTER实力入选多项细分领域 7月16日，嘶吼安全产业研究院正式发布《嘶吼2024网络安全产业图谱》，旨在全面展示网络安全产业的构成及其重要组成部分，探索网络安全产业的竞争格局和发展前景。 CACTER凭借卓越的技术实力和可靠的产品服务&#…

阅读更多...

[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2

[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2

Add MPI Support for tp-comm-overlap and Cpu-Offload for Mcore Distrib… by jerryli1981 Pull Request #283 alibaba/Pai-Megatron-Patch GitHub 以上是在 llama-70B 上实现的 cpu-offload 方法。下面是在主分支上，仿照 LLaMA-70B，在 Qwen2 上…

阅读更多...

手把手教你搭建Docker私有仓库Harbor

手把手教你搭建Docker私有仓库Harbor

1、什么是Docker私有仓库 Docker私有仓库是用于存储和管理Docker镜像的私有存储库。Docker默认会有一个公共的仓库Docker Hub，而与Docker Hub不同，私有仓库是受限访问的，只有授权用户才能够上传、下载和管理其中的镜像。这种私有仓库可以部署…

阅读更多...

HarmonyOS工程目录结构

HarmonyOS工程目录结构

应用级配置文件app.json5 应用唯一标识、版本号、应用图标、应用名称等信息模块级配置文件module.json5 oh-package.json5 三方库的管理其他配置用于编译构建，包括构建配置文件、编译构建任务脚本、混淆规则文件、依赖的共享包信息等。 build-profile.json…

阅读更多...

Java学习Day9之数据库链接java

Java学习Day9之数据库链接java

package aboutdb1; import java.sql.*; import java.util.Scanner; public class newDBsystem {private static Connection getConnection() throws Exception {Class.forName("com.mysql.cj.jdbc.Driver"); // 加载MySQL JDBC驱动Connection con DriverManager.get…

阅读更多...

阿尔泰科技工业电脑IPC-8363工控机

阿尔泰科技工业电脑IPC-8363工控机

概述： IPC-8363是一款支持 LGA 1200 Intel 10th/11th Generation Core™ i9/i7/i5/i3, Celeron and Pentium processor 的工业电脑。配置2组独立 SO-DIMM DDR4 2666/2933MHz内存，最大可扩展至128GB。主要技术指标： 产品图示： 系…

阅读更多...

php 小白新手从入门到精通教程（第3版）

php 小白新手从入门到精通教程（第3版）

前言 PHP（PHP: Hypertext Preprocessor）即“超文本预处理器”，是在服务器端执行的脚本语言，尤其适用于Web开发并可嵌入HTML中。PHP语法学习了C语言，吸纳Java和Perl多个语言的特色发展出自己的特色语法，并根…

阅读更多...

qt初入门8:下拉框，输入框模糊查询，提示简单了解（借助QCompleter）

qt初入门8:下拉框，输入框模糊查询，提示简单了解（借助QCompleter）

实现一个简单的模糊查询的逻辑，输入框能提示相关项。主要借助qt的QCompleter 类（ Qt 框架中提供的一个用于自动补全和模糊搜索的类），结合一些控件，比如QComboBox和QLineEdit，实现模糊查询的功能。 1&…

阅读更多...

在线实习项目|泰迪智能科技企业级项目学习，暑期大数据人工智能学习

在线实习项目|泰迪智能科技企业级项目学习，暑期大数据人工智能学习

在线实习介绍实习时间：每个项目周期七周左右面向对象：大数据、计算机相关专业学生；大三、大四毕业年度学生在线实习收获 1、获得项目实战技能，积累项目经验 2、获得在线实习证明项目特点…

阅读更多...

能源化工5G防爆终端能给行业带来什么重要作用？

能源化工5G防爆终端能给行业带来什么重要作用？

在能源化工领域，5G防爆终端的引入无疑为行业带来了革命性的变革与重要作用。这些集成了先进5G通信技术和防爆设计的高端设备，不仅提升了生产作业的安全性，还极大地增强了运营效率与智能化水平。高速、低延迟的5G网络为防爆终端提供了前所未有…

阅读更多...

安全防御2

安全防御2

实验要求： 实验过程： 7，办公区设备可以通过电信链路和移动链路上网(多对多的NAT，并且需要保留一个公网IP不能用来转换)： 新建电信区： 新建移动区： 将对应接口划归到各自区域： 新建…

阅读更多...

Java(二十二)---队列

Java(二十二)---队列

文章目录前言1.队列(Queue)的概念2.Queue的使用3.队列的模拟实现4.循环队列5.双端队列6.面试题[1. 用队列实现栈](https://leetcode.cn/problems/implement-stack-using-queues/description/)[2. 用栈实现队列](https://leetcode.cn/problems/implement-queue-using-stacks/de…

阅读更多...

VPN以及GRE和MGRE

VPN以及GRE和MGRE

VPN VPN — 是虚拟专用网络通俗地说，就是通过虚拟的手段，将两个独立的网络，穿越一个公共网络进行连接，实现点到点专线的效果（可以理解为：一个分公司通过公网和总公司建立点到点的专线连接） 现…

阅读更多...

innovus：如何获取clock net的route_type和clock name

innovus：如何获取clock net的route_type和clock name

我正在「拾陆楼」和朋友们讨论有趣的话题，你⼀起来吧？拾陆楼知识星球入口 clock net的route type分为top trunk和leaf，net_type的设置方式见文章:

阅读更多...

【06】LLaMA-Factory微调大模型——微调模型评估

【06】LLaMA-Factory微调大模型——微调模型评估

上文【05】LLaMA-Factory微调大模型——初尝微调模型，对LLama-3与Qwen-2进行了指令微调，本文则介绍如何对微调后的模型进行评估分析。一、部署微调后的LLama-3模型激活虚拟环境，打开LLaMA-Factory的webui页面 conda activate GLM cd LLa…

阅读更多...

汇编实验5

汇编实验5

本实验在32位Linux虚拟机中完成（点击查看安装教程） 实验内容二进制炸弹实际是由C语言源程序生成的可执行目标代码，主程序可参考bomb.c。运行时，会按次序提示用户输入3个不同的字符串。如果输入的字符串有误，炸弹就会…

阅读更多...

结合金融场景的Scipy模块编程

结合金融场景的Scipy模块编程

结合金融场景的Scipy模块编程数据链接：https://pan.baidu.com/s/1VMh8-4IeCUYXB9p3rL45qw 提取码：c6ys import numpy as np import pandas as pd import statsmodels import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams[font.sans-se…

阅读更多...

4 C 语言控制流与循环结构的深入解读

4 C 语言控制流与循环结构的深入解读

目录 1 复杂表达式的计算过程 2 if-else语句 2.1 基本结构及示例 2.2 if-else if 多分支 2.3 嵌套 if-else 2.4 悬空的 else 2.5 注意事项 2.5.1 if 后面不要加分号 2.5.2 省略 else 2.5.3 省略 {} 2.5.4 注意点 3 while 循环 3.1 一般形式 3.2 流程特点 3.3 注…

阅读更多...

SaaS的“大模型焦虑”

SaaS的“大模型焦虑”

随着大模型技术的兴起，SaaS行业正面临前所未有的机遇与挑战。本文深入剖析了SaaS厂商在AI化升级过程中的’大模型焦虑’，并探讨了如何通过战略性的AI应用找到自信，实现产品与服务的转型升级，为SaaS行业的AI之路提供了宝贵的思考与…

阅读更多...

推荐文章

最新文章