Ubuntu 22 Linux上部署DeepSeek R1保姆式操作详解(Xinference方式)

news2025/4/7 17:54:52

一、安装步骤

1.基础环境安装

安装显卡驱动、cuda,根据自己硬件情况查找相应编号,本篇不介绍这部分内容,只给出参考指令,详情请读者自行查阅互联网其它参考资料。

sudo apt install nvidia-utils-565-server

sudo apt install nvidia-cuda-toolkit

因机器上有其它使用python环境的应用,故使用conda来管理python环境。
 

(1)安装conda管理器

更新软件包

sudo apt update

sudo apt upgrade

安装基本依赖

sudo apt install wget curl bzip2 ca-certificates

下载Anaconda安装脚本

wget https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

运行安装脚本,按提示一路执行下去,中间需要输入yes并确认

bash Anaconda3-2023.03-1-Linux-x86_64.sh

初始化Anaconda,执行下面指令,或者关闭命令窗口后重新开启一个窗口。

source ~/.bashrc

验证安装结果

conda env list

(2)创建xinference所需的虚拟环境并激活它

conda create -n Xinference python=3.10.15

conda activate Xinference

(3)安装chatglm-cpp

https://github.com/li-plus/chatglm.cpp/releases

切换到刚下载的文件所在目录,运行指令:

pip install chatglm_cpp-0.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

2.安装Xinfernece

pip install xinference[all]

xinference有好几种支持的种类,如gpu/cpu/transformers/vllm/metal,用all参数代表全部安装,这样以后不管接入哪种类型的大模型都不需要再次安装了。

3.检验环境是否安装成功

检验pytorch是否支持gpu,运行python指令

    import torch
    print(torch.__version__)
    print(torch.cuda.is_available())

如果报错,运行下面指令安装支持gpu的依赖包。(根据自己显卡配置确定cuda版本号,ubuntu系统正常在安装xinference过程中已经安装了以下依赖包)

pip install torch==2.6.0+cu128 torchvision==0.21.0+cu128 torchaudio==2.6.0+cu128 --index-url https://download.pytorch.org/whl/cu128

pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu128

安装后验证是否成功:

二、启动Xinference

xinference-local --host 0.0.0.0 --port 9999

windows下只能使用127.0.0.1或者局域网中的本机ip地址,linux可以使用0.0.0.0包含127.0.0.1和局域网中的本机ip地址,这样就可以在企业内共享了,同时也能使用127.0.0.1访问。

运行成功后界面如下

三、配置注册模型文件

1.下载模型文件

到https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

如果不能科学上网,打不开上面网址,也可以到国内阿里的开源网站下载:

https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/files

红色框内的文件全部下载,保存到同一个目录中,根据硬件配置选择不同的模型文件,这里我是演示,所以选择1.5B,一般企业内做知识库,建议至少选择32B,显存32GB以上,我试过32GB跑32B的模型很吃力,响应很慢。

2.注册模型文件

上图中的路径要换成linux的目录格式,如/home/qkm/deepseekR1/1-5B,因为截图忘保存了,用windows模式下的截图替换了一下。

3.启动模型文件

四、体验与模型对话

点击下图箭头处,可以启动与大模型的聊天

使用conda创建的虚拟环境和安装的依赖包,往同类操作系统复制时,只要直接拷贝过去即可,基本可以与docker的跨系统部署相媲美了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CTF类题目复现总结-hashcat 1

一、题目地址 https://buuoj.cn/challenges#hashcat二、复现步骤 1、下载附件,解压得到What kind of document is this_文件; 2、用010 Editor打开What kind of document is this_文件,发现是office文件; 3、将后缀名改为ppt时…

4月5日作业

需求: 1.按照图示的VLAN及IP地址需求,完成相关配置 2.要求SW 1为VLAN 2/3的主根及主网关 SW2为VLAN 20/30的主根及主网关,SW1和 SW2互为备份 3.可以使用super vlan 4.上层通过静态路由协议完成数据通信过程 5.AR1为企业出口路由器…

Bert论文解析

文章目录 BERT:用于语言理解的深度双向转换器的预训练一、摘要三、BERT介绍BERT及其详细实现答疑:为什么没有标注的数据可以用来预训练模型?1. 掩码语言模型(Masked Language Model, MLM)2. 下一句预测(Nex…

无招回归阿里

这两天,无招回归阿里的新闻被刷屏了。无招创业成立的两氢一氧公司无招的股份也被阿里收购,无招以这种姿态回归阿里,并且出任钉钉的 CEO。有人说,这是对 5 年前“云钉一体”战略的纠偏。现在确实从云优先到 AI 优先,但云…

初探:简道云平台架构及原理

一、系统架构概述 简道云作为一款低代码开发平台,其架构设计以模块化和云端协同为核心,主要分为以下层次: 1. 前端层 可视化界面:基于Web的拖拽式表单设计器,支持动态渲染(React/Vue框架)。多…

Redis(笔记)

简介: 常用数据类型: 常用操作命令: Redis的Java客户端: 操作字符串类型的数据: 操作Hash类型的数据: 操作列表类型的数据: 操作集合类型的数据: 操作有序集合类型数据: 通用命令…

bootloader+APP中,有些APP引脚无法正常使用?

问:bootloaderAPP程序中,为什么有些APP引脚无法正常使用?无法设置高低电平 主控芯片GD32F415,参考案例bootloader中的引脚使用: 参考案例APP程序的引脚使用: 以及个人使用的无线模组,高电平使能…

高并发内存池:原理、设计与多线程性能优化实践

高并发内存池是一种专门为多线程环境设计的内存管理机制,其核心目标是通过优化内存分配和释放过程,解决传统内存分配器(如malloc/free)在高并发场景下的性能瓶颈,显著提升多线程程序的内存访问效率。 目录 一、核心设计…

基于内容的课程推荐网站的设计与实现00(SSM+htmlL)

基于内容的课程推荐网站的设计与实现(SSMhtml) 该系统是一个基于内容的课程推荐网站,旨在为用户提供个性化的课程推荐。系统包含多个模块,如教学视频、教学案例、课程信息、系统公告、个人中心和后台管理。用户可以通过首页访问不同的课程分类&#xff…

生活电子常识--删除谷歌浏览器搜索记录

前言 谷歌浏览器会记录浏览器历史搜索,如果不希望看到越来越多的搜索记录,可以如下设置 解决 设置-隐私-自动填充表单 这个和浏览器记录的密码没有关系,可以放心删除

学习threejs,使用Texture纹理贴图,测试repeat重复纹理贴图

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️Texture 纹理贴图1.1.1 ☘️…

蓝桥杯基础算法-字符串与集合

对集合的考察集中在集合的特性和功能。 set-唯一性 list-有序性 集合元素的个数 思路分析:set的唯一性,取出重复的子串 eg: 下标0截取的范围:【0,最大下标】 下标1截取的范围:【1,最大下标…

animals_classification动物分类

数据获取 深度学习训练中第一个是获取数据集,数据集的质量很重要,我们这里做的是动物分类,大致会选择几个动物,来做一个简单的多分类问题,数据获取的方法,鼠鼠我这里选择使用爬虫的方式来对数据进行爬取&a…

解决Oracle PL/SQL中“表或视图不存在“错误的完整指南

解决Oracle PL/SQL中"表或视图不存在"错误的完整指南 前言问题概述根本原因分析一、 编译时与运行时验证差异二、权限问题三、 Schema命名问题 实际案例演示案例1:动态分表查询案例2:权限不足的场景 实用排查步骤排查流程图最佳实践建议解决方…

SSH远程连接服务器(cursor)

安装Remote-SSH插件 Cursor是基于VSCode的,因此支持VSCode的Remote-SSH功能。打开Cursor,进入扩展市场(左侧活动栏的“Extensions”图标)。搜索“Remote - SSH”插件并安装(由Microsoft提供)。 配置SSH 在…

idea gitlab 操作

1.拉取脚本 账号登录 就可以获取git代码 2. 版本回退 hard暴力回退到暂存区 缓存区消失 3.版本合并 切换到目标分区 选择点击开发分区 进行合并

【MATLAB第113期】基于MATLAB的EFAST扩展傅里叶幅度敏感性分析方法(有目标函数)

【MATLAB第113期】基于MATLAB的EFAST扩展傅里叶幅度敏感性分析方法(有目标函数) 一、方法概述 扩展傅里叶幅度敏感性检验(EFAST)是一种基于频域分析的全局敏感性分析方法,能够同时评估模型参数的一阶敏感性&#xff…

Unity3D开发AI桌面精灵/宠物系列 【三】 语音识别 ASR 技术、语音转文本多平台 - 支持科大讯飞、百度等 C# 开发

Unity3D 交互式AI桌面宠物开发系列【三】ASR 语音识别 该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲有关于…

Qt -信号与槽

博客主页:【夜泉_ly】 本文专栏:【暂无】 欢迎点赞👍收藏⭐关注❤️ 目录 前言引入connect调用链模板类型的connectQObject::connectImplQObjectPrivate::connectImpl qobject_p_p.hconnect作用总结ai对信号与槽的模拟实现 前言 面向对象&am…

Django中使用不同种类缓存的完整案例

Django中使用不同种类缓存的完整案例 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django中使用不同种类缓存的完整案例步骤1:设置Django项目步骤2:设置URL路由步骤3:视图级别…