【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!

news2025/1/23 3:54:08

1,关于xinference

https://www.bilibili.com/video/BV14x421U74t/

【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。

Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。

官方网站:
https://inference.readthedocs.io/zh-cn/latest/index.html

启动Xinference服务
https://gitee.com/fly-llm/xinference-run-llm

项目地址:
https://github.com/xorbitsai/inference

2,安装qwen 1.5 大模型

发现代码已经支持啦:

https://github.com/xorbitsai/inference/pull/1161

      {
        "model_format": "awq",
        "model_size_in_billions": "0_5",
        "quantizations": [
          "Int4"
        ],
        "model_id": "Qwen/Qwen1.5-0.5B-Chat-AWQ"
      },

然后就可以查看全部支持的模型进行启动

2024-04-02 22:51:48,866 xinference.model.llm.llm_family 1358 INFO     Caching from Modelscope: qwen/Qwen1.5-0.5B-Chat-AWQ
2024-04-02 22:51:48,982 - modelscope - INFO - PyTorch version 2.1.2+cu121 Found.
2024-04-02 22:51:48,984 - modelscope - INFO - Loading ast index from /root/autodl-tmp/modelscope/ast_indexer
2024-04-02 22:51:49,301 - modelscope - INFO - Loading done! Current index file version is 1.13.3, with md5 2ce72687914bb920fc5ddbea16bddaae and a total number of 972 components indexed
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████| 839/839 [00:00<00:00, 287kB/s]
Downloading: 100%|█████████████████████████████████████████████████████████████████████████████████████| 52.0/52.0 [00:00<00:00, 39.5kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████| 205/205 [00:00<00:00, 158kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████| 7.11k/7.11k [00:00<00:00, 255kB/s]
Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████| 1.59M/1.59M [00:00<00:00, 6.58MB/s]
Downloading:   0%|                                                                                             | 0.00/747M [00:00<?, ?B/s]

可以进行下载,说明模型已经支持了:

curl -X 'POST' 'http://0.0.0.0:9997/v1/chat/completions' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen-chat",
    "messages": [
        {
            "role": "user",
            "content": "北京景点"
        }
    ],
    "max_tokens": 512,
    "temperature": 0.7
  }'

{"id":"chatc043f510-f100-11ee-b0dc-0242ac110004","object":"chat.completion","created":1712069603,"model":"qwen1.5-chat","choices":[{"index":0,"message":{"role":"assistant","content":"北京是中国的首都,拥有众多的文化遗产和风景名胜。以下是一些热门的北京景点:\n\n1. 故宫:故宫是中国明清两代的宫殿,被誉为“皇家的后宫”。这里有大量的宫殿、文物和艺术品,是了解中国古代建筑艺术的最好地方。\n\n2. 二里头:二里头是北京的一条历史悠久的街道,有许多保存完好的古建筑和商店。这里的建筑风格独特,充满了历史韵味。\n\n3. 颐和园:颐和园是清朝皇家园林的瑰宝,也是世界文化遗产。这里有大量古建筑和园林艺术,是了解中国古代园林艺术的好地方。\n\n4. 淮河风光:北京的淮河风光是北京市的标志之一,也是中国最美的风景之一。这里有众多的河流风光,是骑行和步行的好地方。\n\n5. 颐和园荷花:颐和园的荷花是皇家园林的代表,也是中国最美的风景之一。这里有众多的荷花,是观赏荷花的好地方。\n\n6. 人民英雄纪念碑:人民英雄纪念碑是北京的标志性建筑,是展示中国历史和人民英雄的重要场所。\n\n7. 北京动物园:北京动物园是世界上最大的动物保护基地,也是北京的一道亮丽的风景线。这里有众多的动物,是了解动物保护的重要场所。\n\n以上是一些在北京的主要景点,还有许多其他的景点等待游客探索。"},"finish_reason":"stop"}],"usage":{"prompt_tokens":21,"completion_tokens":288,"total_tokens":309}}

测试接口正常

速度特别快。瞬间返回:

在这里插入图片描述

3,还支持函数调用!

# encoding:utf-8

import openai
import json

client = openai.OpenAI(
    base_url="http://127.0.0.1:9997/v1",
)
messages = [
    {"role": "system", "content": "你是一个有用的助手。不要对要函数调用的值做出假设。"},
    {"role": "user", "content": "北京 现在的天气怎么样?"}
]

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_current_weather",
            "description": "获取当前天气",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "城市,例如北京",
                    },
                    "format": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "description": "使用的温度单位。从所在的城市进行推断。",
                    },
                },
                "required": ["location", "format"],
            },
        },
    }
]

chat_completion = client.chat.completions.create(
    model="qwen1.5-chat",
    messages=messages,
    tools=tools,
    temperature=0.7
)
func_name = chat_completion.choices[0].message.tool_calls[0].function.name
print('func_name', func_name)
func_args = chat_completion.choices[0].message.tool_calls[0].function.arguments
func_args_dict = json.loads(func_args)
print('func_args', func_args_dict['location'])

返回 北京。

4,运行qwen1.5 的gguif 版本报错

没有运行成功:
https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/qwen1.5-chat.html

xinference launch --model-name qwen1.5-chat --size-in-billions 0_5 --model-format ggufv2 --quantization q2_k
Launch model name: qwen1.5-chat with kwargs: {}
Traceback (most recent call last):
  File "/root/miniconda3/bin/xinference", line 8, in <module>
    sys.exit(cli())
  File "/root/miniconda3/lib/python3.10/site-packages/click/core.py", line 1157, in __call__
    return self.main(*args, **kwargs)
  File "/root/miniconda3/lib/python3.10/site-packages/click/core.py", line 1078, in main
    rv = self.invoke(ctx)
  File "/root/miniconda3/lib/python3.10/site-packages/click/core.py", line 1688, in invoke
    return _process_result(sub_ctx.command.invoke(sub_ctx))
  File "/root/miniconda3/lib/python3.10/site-packages/click/core.py", line 1434, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  File "/root/miniconda3/lib/python3.10/site-packages/click/core.py", line 783, in invoke
    return __callback(*args, **kwargs)
  File "/root/miniconda3/lib/python3.10/site-packages/click/decorators.py", line 33, in new_func
    return f(get_current_context(), *args, **kwargs)
  File "/root/miniconda3/lib/python3.10/site-packages/xinference/deploy/cmdline.py", line 746, in model_launch
    model_uid = client.launch_model(
  File "/root/miniconda3/lib/python3.10/site-packages/xinference/client/restful/restful_client.py", line 873, in launch_model
    raise RuntimeError(
RuntimeError: Failed to launch model, detail: [address=0.0.0.0:26349, pid=1449] No available slot found for the model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1564947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系统IO函数接口

目录 前言 一. man手册 1.1 man手册如何查询 1.2 man手册基础 二.系统IO函数接口 三.open打开文件夹 3.1 例1 open打开文件 3.2 open打开文件代码 3.3 例2 创建文件 四.write写文件 4.1 write写文件 五. read读文件 5.1 read读文件与偏移 5.2 偏移细节 5.3 read读文件代码 六.复…

1,static 关键字.Java

目录 1.概述 2.定义格式和使用 2.1 静态变量及其访问 2.2 实例变量及其访问 2.3 静态方法及其访问 2.4 实例方法及其访问 3.小结 1.概述 static表示静态&#xff0c;是Java中的一个修饰符&#xff0c;可以修饰成员方法&#xff0c;成员变量。被static修饰后的&#xff…

STM32CubeMX配置步骤详解零 —— 引言

引子 初识 笔者接触STM32系列MCU有些年头了。初次接触是2015年&#xff0c;那时是在第二空间&#xff08;北京&#xff09;科技有限公司上班&#xff0c;是以STM32F407&#xff08;后缀好像是RGT6或ZGT6&#xff0c;记得不是很清楚了&#xff09;为主芯片做VR头戴式设备&…

40道Java经典面试题总结

1、在 Java 中&#xff0c;什么时候用重载&#xff0c;什么时候用重写&#xff1f; &#xff08;1&#xff09;重载是多态的集中体现&#xff0c;在类中&#xff0c;要以统一的方式处理不同类型数据的时候&#xff0c;可以用重载。 &#xff08;2&#xff09;重写的使用是建立…

githacker安装使用

githack下载不了文件&#xff0c;换个工具&#xff01; 项目地址 WangYihang/GitHacker: &#x1f577;️ A .git folder exploiting tool that is able to restore the entire Git repository, including stash, common branches and common tags. (github.com) 安装 pyth…

光伏行业项目管理系统解决方案!企智汇光伏项目管理系统!

光伏行业项目管理系统解决方案旨在通过整合和优化项目管理流程&#xff0c;提高光伏项目的执行效率和质量。以下是企智汇软件详细的光伏行业项目管理系统解决方案的框架&#xff1a; 一、系统概述 企智汇光伏行业项目管理系统是一个集项目规划、执行、监控和收尾于一体的综合…

Vue3:用Pinia的storeToRefs结构赋值store数据

一、情景描述 我们学习了Pinia之后&#xff0c;知道&#xff0c;数据是配置在Pinia的state里面的。 那么&#xff0c;如果有多个字段需要取出来使用&#xff0c;并且不丢失数据的响应式&#xff0c;如何优雅的操作了&#xff1f; 这里就用到了Pinia的storeToRefs函数 二、案…

【CANN训练营笔记】AscendCL图片分类应用(C++实现)

样例介绍 基于PyTorch框架的ResNet50模型&#xff0c;对*.jpg图片分类&#xff0c;输出各图片所属分类的编号、名称。 环境介绍 华为云AI1s CPU&#xff1a;Intel Xeon Gold 6278C CPU 2.60GHz 内存&#xff1a;8G NPU&#xff1a;Ascend 310 环境准备 下载驱动 wget ht…

CAPL实现关闭TCP连接的几种方式以及它们的区别

在讲正文前,我们有必要复习下关闭TCP连接的过程:四次挥手。 假设A和B建立TCP连接并进行数据传输,当A的数据发送完后,需要主动发起断开连接的请求: A发送FIN报文,发起断开连接的请求B收到FIN报文后,首先回复ACK确认报文B把自己的数据发送完,发送FIN报文,发起断开连接的…

探索网红系统功能菜单架构的设计与优化

随着社交媒体和数字化内容的普及&#xff0c;网红经济正在成为新兴的产业。在网红经济体系中&#xff0c;网红系统的功能菜单架构对于平台的用户体验和运营效率至关重要。本文将深入探讨网红系统功能菜单架构的设计与优化&#xff0c;为网红经济的发展提供新的思路和方法。 --…

HWOD:自守数

一、知识点 break只会结束最里面的一层循环 int型数按位比较的时候&#xff0c;可以直接求余比较&#xff0c;无需转换为char型数组后再按下标比较 二、题目 1、描述 自守数是指一个数的平方的尾数等于该数自身的自然数。例如&#xff1a;25^2 625&#xff0c;76^2 5776…

软考高级架构师:文件管理-位示图概念和例题

一、AI 讲解 文件管理在操作系统中负责文件的存储、检索、共享和保护。管理空闲空间是其中的一项重要任务&#xff0c;以确保文件系统的高效和灵活性。常见的空闲空间管理方法有空闲区表法、空闲链表法、位示图法和成组链表法。 下面通过表格形式概括这些方法的特点和应用场景…

Python快速入门系列-9(Python项目实战)

第九章:Python项目实战 9.1 开发一个简单的Web应用9.1.1 项目概述9.1.2 环境准备9.1.3 项目结构9.1.4 代码实现9.1.4.1 创建数据库模型9.1.4.2 创建视图9.1.4.3 实用工具函数9.1.4.4 运行应用9.1.5 模板设计9.2 数据分析与可视化项目9.2.1 项目概述9.2.2 环境准备9.2.3 数据分…

file_get_contents(‘php://input‘); 这个postman要如何传参

在 Postman 中传递参数给 file_get_contents(php://input); 是通过请求的 Body 部分来实现的。使用 Postman 进行 API 接口测试时&#xff0c;可以按照以下步骤来传递参数&#xff1a; 打开 Postman 并创建一个新的请求。在请求的 URL 地址栏输入你的 API 地址。选择请求方法为…

Spark实战:词频统计

文章目录 一、Spark实战&#xff1a;词频统计&#xff08;一&#xff09;Scala版1、分步完成词频统计2、一步搞定词频统计 &#xff08;二&#xff09;Python版1、分步完成词频统计2、一步搞定词频统计 二、实战总结 一、Spark实战&#xff1a;词频统计 &#xff08;一&#x…

【Python时序预测系列】基于ConvLSTM实现单变量时间序列预测(源码)

这是我的第252篇原创文章。 一、引言 ConvLSTM是一种融合了卷积神经网络&#xff08;CNN&#xff09;和长短期记忆网络&#xff08;LSTM&#xff09;的混合神经网络结构&#xff0c;专门用于处理时空序列数据。ConvLSTM结合了CNN对空间特征的提取和LSTM对时间序列建模的能力&a…

CentOS7安装flink1.17完全分布式

前提条件 准备三台CenOS7机器&#xff0c;主机名称&#xff0c;例如&#xff1a;node2&#xff0c;node3&#xff0c;node4 三台机器安装好jdk8&#xff0c;通常情况下&#xff0c;flink需要结合hadoop处理大数据问题&#xff0c;建议先安装hadoop&#xff0c;可参考 hadoop安…

曲线降采样之道格拉斯-普克算法Douglas–Peucker

曲线降采样之道格拉斯-普克算法Douglas–Peucker 该算法的目的是&#xff0c;给定一条由线段构成的曲线&#xff0c;找到一条点数较少的相似曲线&#xff0c;来近似描述原始的曲线&#xff0c;达到降低时间、空间复杂度和平滑曲线的目的。 附赠自动驾驶学习资料和量产经验&…

【C++】哈希之位图

目录 一、位图概念二、海量数据面试题 一、位图概念 假如有40亿个无重复且没有排序的无符号整数&#xff0c;给一个无符号整数&#xff0c;如何判断这个整数是否在这40亿个数中&#xff1f; 我们用以前的思路有这些&#xff1a; 把这40亿个数遍历一遍&#xff0c;直到找到为…

AI音乐GPT时刻来临:Suno 快速入门手册!

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…