240713-Xinference模型下载、管理及测试

news2024/11/16 6:48:41

Step 1. 安装Xinference

  • 安装 — Xinference

Step 2. 下载模型

方式1: UI界面下载
  • 命令行启动Xinference:
xinference-local --host 0.0.0.0 --port 9997
  • localhost:9997中,通过左侧的Launch Model 配置并下载模型
  • 如果模型已下载或配置好,则在右侧会显示cached字样
  • 具体可以参考这个视频:xinference一键管理主流大模型,手摸手教你本地部署和推理模型,本地部署glm4并简单测评,提供环境包_哔哩哔哩_bilibili
    在这里插入图片描述
方式2: 命令行下载
  • 命令行启动Xinference:
xinference-local --host 0.0.0.0 --port 9997
  • 以chatglm3-6B为例,下载并启动模型:
xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none
  • 下图,右边和左边分别是启动及下载的Bash命令,可以看到,在执行左边的命令的时候,右边可以显示下载的状态
    在这里插入图片描述

Step 3. 模型路径

  • Xinference设置的软链接

    • 模型默认的链接路径在~/.xinference/cache对应的文件夹中
    • 模型的实际下载路径则在~/.cache对应的文件夹中
  • 注意:在~/.xinference/cache/model_name中,多了一个__valid_download的文件

  • 该文件的内容包含如下,可能是用于后台检测,模型是否已经有效下载

{"model_type": "LLM", "address": null, "accelerators": null, "model_name": "chatglm3", "model_lang": ["en", "zh"], "model_ability": ["chat", "tools"], "model_description": "ChatGLM3 is the third generation of ChatGLM, still open-source and trained on Chinese and English data.", "model_format": "pytorch", "model_size_in_billions": 6, "model_family": "chatglm3", "quantization": "none", "model_hub": "huggingface", "revision": "103caa40027ebfd8450289ca2f278eac4ff26405", "context_length": 8192}(xinference) 

在这里插入图片描述

Step 4. 模型使用

  • 登录:http://localhost:9997/ui/#/running_models/LLM
  • 点击:右侧红框按钮
  • 弹出:下图对话界面,可直接使用
    在这里插入图片描述

在这里插入图片描述

Step 5: 自行下载模型及使用的方法测试

  • 自行下载模型的方法:
    • HF-Mirror
    • 如何快速下载huggingface模型——全方法总结 - 知乎
  • 设置软链接
ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
  • 复制有效下载的文件,注意这里我更新了xinference下载模型的名字chatglm3-pytorch-6b-raw
cp ~/.xinference/cache/chatglm3-pytorch-6b-raw/__valid_download ~/.xinference/cache/chatglm3-pytorch-6b/__valid_download
  • 进行完上述操作后,重复执行Step 2中的操作,可以直接到Step 3的内容,无需下载模型

Step 6:这里有两个问题还需要解决:

  • 如何根据模型文件的命名规则,设置软链接?ln -s ~/Downloads/chatglm3-6b ~/.xinference/cache/chatglm3-pytorch-6b
  • 如何撰写__valid_download文件?如果没有这个文件,Xinference在执行下述命令后,似乎还是会继续默认的下载
xinference launch --model-engine vLLM --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization none
  • 潜在解决方法(待测试):教你快速上手Xinference分布式推理框架-腾讯云开发者社区-腾讯云

问题整理

1. GLM4使用报错
  • xinference 后端驱动chatglm4-9b-chat,接入到dify/lobe-chat时出错,不能正常回答 · Issue #1746 · xorbitsai/inference · GitHub
  • pip install transformers==4.21.2 # Default 4.42.3

参考文献

  • 在Xinference上部署自定义大模型——FreedomIntelligence/HuatuoGPT2-13B为例 - 知乎
  • (51 封私信 / 80 条消息) localai, xinference, ollama 这些本地大模型部署工具的优缺点是什么? - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1923315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

好莱坞级别AI视频工具Odyssey亮相!AI世界动态回顾

好莱坞级别的视觉AI:Odyssey 首先,我们要提到的就是Odyssey——一款新晋AI视频工具,它以其好莱坞级别的视觉AI能力引起了广泛关注。奥德赛展示的一些片段令人印象深刻,包括精美的无人机镜头、风景画面以及专业级的B-roll素材。虽…

2024年公司电脑屏幕监控软件推荐|6款好用的屏幕监控软件盘点!

在当今的商业环境中,确保员工的工作效率和数据安全是每个企业管理者的重要任务。屏幕监控软件通过实时监控和记录员工的电脑活动,帮助企业有效地管理和优化工作流程。 1.固信软件 固信软件https://www.gooxion.com/ 主要特点: 实时屏幕监控…

python web自动化测试

安装 seleinum # 设置镜像 pip install statsmodels -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install selenium安装chrome driver 1、查看chrome的版本 2、https://googlechromelabs.github.io/chrome-for-testing/#stable 上面下载对应版本的chrome driver 只要…

Python | Leetcode Python题解之第230题二叉搜索树中第K小的元素

题目: 题解: class AVL:"""平衡二叉搜索树(AVL树):允许重复值"""class Node:"""平衡二叉搜索树结点"""__slots__ ("val", "parent&quo…

快速理解java的volatile关键字

volatile有啥用呢? volatile是 JVM 提供的 轻量级 的同步机制(有三大特性) 保证可见性 不保证原子性 禁止指令重排 好汉你别激动,同步机制说白了就是 syhconized,这种机制你可以这样理解就是在一段时间内有序的发生操作。假如一…

创建SpringBoot聚合项目

创建SpringBoot聚合项目 需求&#xff1a;以仓库管理系统(warehouse management system)wms为例创建聚合项目 1、创建空项目文件夹 2、创建父工程 删掉src&#xff0c;配置夫工程的pom配置 <properties><maven.compiler.source>8</maven.compiler.source><…

【C++】C++入门实战教程(打造属于自己的C++知识库)

目录 目录 写在前面 1.C学习路线 2.本教程框架介绍 一.C基础部分 1.程序编码规范 2.程序运行与编译 3.关键字 4.常用数据类型 5.运算符相关 二.C进阶部分 1.面向对象编程 2.函数编程 3.模板编程 4.多线程与并发 5.STL介绍及使用 6.内存模型与优化 三.C实战部…

【vue教程】一. 环境搭建与代码规范配置

目录 引言Vue 框架概述起源与设计理念核心特性优势 Vue 开发环境搭建环境要求安装 Vue CLI创建 Vue 项目项目结构介绍运行与构建 组件实例基础模板响应式更新 代码规范为什么要使用代码规范在 Vue 项目中使用 ESLint 、PrettierESLint配置 ESLintrules 自定义错误级别 Prettier…

【Linux杂货铺】3.程序地址空间

1.程序地址空间的引入 fork(&#xff09;函数在调用的时候子如果是子进程则返回0&#xff0c;如果是父进程则返回子进程的pid&#xff0c;在代码中我们分别在子进程和父进程读取全局变量g_val的时候居然出现了俩个不同的值。如下&#xff1a; #include<stdio.h> #includ…

【Linux信号】阻塞信号、信号在内核中的表示、信号集操作函数、sigprocmask、sigpending

我们先来了解一下关于信号的一些常见概念&#xff1a; 实际执行 信号的处理动作 称为信号递达。 信号从产生到递达的之间的状态称为信号未决。 进程可以选择阻塞(Block)某个信号。 被阻塞的信号产生时是处于未决状态的&#xff0c;知道进程解除对该信号的阻塞&#xff0c;该…

01. 课程简介

1. 课程简介 本课程的核心内容可以分为三个部分&#xff0c;分别是需要理解记忆的计算机底层基础&#xff0c;后端通用组件以及需要不断编码练习的数据结构和算法。 计算机底层基础可以包含计算机网络、操作系统、编译原理、计算机组成原理&#xff0c;后两者在面试中出现的频…

FGF14:脑部疾病新潜力靶标

成纤维细胞生长因子14&#xff08;FGF14&#xff09;是FGF11亚家族成员&#xff0c;在神经元的所有基本特性&#xff08;内在放电、兴奋性和抑制性神经元的突触传递和可塑性&#xff09;中发挥作用。 &#xff08;数据来源AlphaFold&#xff09; FGF14由247个氨基酸组成&#x…

一键运行 ComfyUI SD3!大规模医学 VQA 评测数据集上线,涉及超 20 个人体器官和部位

为了进一步推进 AI4S 的普适化&#xff0c;HyperAI超神经策划了「Meet AI4S」系列直播栏目。第一期直播将于 7 月 17 日 19:00 准时上线&#xff01; 我们邀请到了浙江大学遥感与地理信息系统博士生丁佳乐&#xff0c;他的分享主题为「神经网络为房价的空间异质性提供新解释」&…

c# 容器变换

List<Tuple<int, double, bool>> 变为List<Tuple<int, bool>>集合 如果您有一个List<Tuple<int, double, bool>>并且您想要将其转换为一个List<Tuple<int, bool>>集合&#xff0c;忽略double值&#xff0c;您可以使用LINQ的S…

Python函数 之 变量

1.引用【了解】 定义变量的时候, 变量和数据 都会在内存开辟空间 变量所对应的内存空间中存储的是 数据所在内存的地址 (平时理解为 将数据存储到变量中即可) 变量中保存数据的地址,就称为是引用 Python 中所有数据的传递,传递的都是引用(即地址) 赋值运算符(), 会改变变量的引…

全面升级的对象创建——抽象工厂模式(Python实现和JAVA实现)

1. 引言 大家好&#xff01;在之前的文章中&#xff0c;我们探讨了简单工厂和工厂方法模式&#xff1a; 轻松创建对象——简单工厂模式&#xff08;Python实现&#xff09; 轻松创建对象——简单工厂模式&#xff08;Java实现&#xff09; 灵活多变的对象创建——工厂方法模式…

鸿蒙瀑布流和欢迎页(1)

1.瀑布流 https://gitee.com/openharmony/docs/blob/master/zh-cn/application-dev/reference/apis-arkui/arkui-ts/ts-container-waterflow.md他有官网文档&#xff0c;有个瀑布流的案例 自定义一类实现官方瀑布流接口 // WaterFlowDataSource.ets// 实现IDataSource接口的…

开发技术-Java BigDecimal 精度丢失问题

文章目录 1. 背景2. 方法3. 总结 1. 背景 昨天和小伙伴排查一个问题时&#xff0c;发现一个 BigDecimal 精度丢失的问题&#xff0c;即 double a 1.1;BigDecimal ba new BigDecimal(a).subtract(new BigDecimal(0.1));System.out.println(ba);输出&#xff1a; 1.000000000…

做数据线的绿联,怎么做NAS就不灵了?

点击文末“阅读原文”即可参与节目互动 剪辑、音频 / 姝琦 运营 / SandLiu 卷圈 监制 / 姝琦 封面 / 姝琦Midjourney 产品统筹 / bobo 场地支持 / 声湃轩北京录音间 绿联的NAS设备最近频频出问题&#xff0c;从升级系统需要擦除数据&#xff0c;到最近的SSL私钥泄露事件&…

【新书速递】使用MATLAB进行雷达系统分析和设计(第四版)(2022)

来源&#xff1a;公众号高山防务 一、目录 目录 1雷达定义和术语 1.1雷达系统分类和波段 1.1.1高频&#xff08;HF&#xff09;和甚高频&#xff08;VHF&#xff09;雷达&#xff08;A和B波段&#xff09; 1.1.2超高频&#xff08;UHF&#xff09;雷达&#xff08;C波段&am…