Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API调用和WebUI对话机器人

news2025/1/24 0:47:38

阿里巴巴通义千问团队发布了Qwen2系列开源模型,该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14B以及Qwen2-72B。对比当前最优的开源模型,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的Llama3-70B等大模型。

Qwen2-72B模型评测

老牛同学今天部署和体验Qwen2-7B-Instruct指令微调的中等尺寸模型,相比近期推出同等规模的开源最好的Llama3-8BGLM4-9B等模型,Qwen2-7B-Instruct依然能在多个评测上取得显著的优势,尤其是代码及中文理解上。

Qwen2-7B模型

特别注意: 虽然Qwen2开源了,但仍然需要遵循其模型许可,除Qwen2-72B依旧使用此前的Qianwen License外,其余系列版本模型,包括Qwen2-0.5BQwen2-1.5BQwen2-7B以及Qwen2-57B-A14B等在内,均采用Apache 2.0许可协议。

下载Qwen2-7B-instruct模型文件

为了简化模型的部署过程,我们直接下载GGUF文件。关于GGUF文件介绍,请详见部署Llama3-8B大模型的文章:玩转AI,笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端

打开Qwen2-7B-Instruct-GGUF模型文件列表(https://modelscope.cn/models/qwen/Qwen2-7B-Instruct-GGUF/files),我们选择qwen2-7b-instruct-q5_k_m.gguf并下载:

Qwen2-7B量化模型文件

我们可以根据自己需要,选择下载其它版本的模型文件!

启动Qwen2-7B-Instruct大模型

GGUF模型量化文件下载完成后,我们就可以来运行Qwen2-7B大模型了。

在启动Qwen2-7B大模型之前,我们首先需要安装Python依赖包列表:

pip install llama-cpp-python
pip install openai
pip install uvicorn
pip install starlette
pip install fastapi
pip install sse_starlette
pip install starlette_context
pip install pydantic_settings

然后打开一个Terminal终端窗口,切换到GGUF模型文件目录,启动Qwen2-7B大模型(./qwen2-7b-instruct-q5_k_m.gguf即为上一步下载的模型文件路径):

# 启动Qwen2大模型

# n_ctx=20480代表单次回话最大20480个Token数量
python -m llama_cpp.server \
   --host 0.0.0.0 \
   --model ./qwen2-7b-instruct-q5_k_m.gguf \
   --n_ctx 20480

Qwen2-7B启动成功

Qwen2-7B-instruct 命令行对话客户端

CLI命令行的客户端,可以参考之前LLama3-8B大模型的文章:https://mp.weixin.qq.com/s/MekCUJDhKzuUnoykkGoH2g

# client.py

from openai import OpenAI

# 注意服务端端口,因为是本地,所以不需要api_key
client = OpenAI(base_url="http://127.0.0.1:8000/v1",
                api_key="not-needed")

# 对话历史:设定系统角色是一个只能助理,同时提交“自我介绍”问题
history = [
    {"role": "system", "content": "你是一个智能助理,你的回答总是容易理解的、正确的、有用的和内容非常精简."},
]

# 首次自我介绍完毕,接下来是等代码我们的提示
while True:
    completion = client.chat.completions.create(
        model="local-model",
        messages=history,
        temperature=0.7,
        stream=True,
    )

    new_message = {"role": "assistant", "content": ""}

    for chunk in completion:
        if chunk.choices[0].delta.content:
            print(chunk.choices[0].delta.content, end="", flush=True)
            new_message["content"] += chunk.choices[0].delta.content

    history.append(new_message)
    print("\033[91;1m")

    user_input = input("> ")
    if user_input.lower() in ["bye", "quit", "exit"]:  # 我们输入bye/quit/exit等均退出客户端
        print("\033[0mBYE BYE!")
        break

    history.append({"role": "user", "content": user_input})
    print("\033[92;1m")

启动CLI对话客户端:python client.py

Qwen2-7B启动成功

至此,我们可以与Qwen2-7B-Instruct进行对话,体验Qwen2大模型的魅力了。

如果我们主要是通过API的方式使用Qwen2大模型,那么Qwen2部署就到此结束了。

接下来的章节,我们部署WebUI对话客户端,通过Web界面的方式使用Qwen2大模型,并且可以分享出去~

Qwen2-7B-Instruct WebUI客户端

结合Ollama工具,搭建WebUI客户端,可参考之前Llama3-8B大模型的文章:一文彻底整明白,基于Ollama工具的LLM大语言模型Web可视化对话机器人部署指南

第一步: 我们需要下载安装Ollama本地大模型管理工具:

Ollama提供了MacOSLinuxWindows操作系统的安装包,大家可根据自己的操作系统,下载安装即可:

Ollama下载

安装包下载之后的安装过程,和日常安装其他软件没有差别,包括点击Next以及Install等安装ollama到命令行。安装后续步骤中,我们可无需安装任何模型,因为我们在上文中我们已经安装了Qwen2-7B大模型,后面可以直接使用。

第二步: 安装Node.js编程语言工具包

安装Node.js编程语言工具包和安装其他软件包一样,下载安装即可:https://nodejs.org

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安装完成之后,可以验证一下 Node.js 的版本,建议用目前的最新v20版本:

node -v

老牛同学安装的版本:v20.13.1(最新版本)

第三步: 基于GGUF模型文件创建Ollama模型

在我们存放Qwen2-7B的 GGUF 模型文件目录中,创建一个文件名为Modelfile的文件,该文件的内容如下:

FROM ./qwen2-7b-instruct-q5_k_m.gguf

然后在Terminal终端,使用这个文件创建Ollama模型,这里我把Ollama的模型取名为Qwen2-7B

$ ollama create Qwen2-7B -f ./Modelfile
transferring model data 
using existing layer sha256:258dd2fa1bdf98b85327774e1fd36e2268c2a4b68eb9021d71106449ee4ba9d5 
creating new layer sha256:14f4474ef69698bf4dbbc7409828341fbd85923319a801035e651d9fe6a9e9c9 
writing manifest 
success

最后,通过Ollama启动我们刚创建的大语言模型:

ollama run Qwen2-7B

启动完毕,其实我们已经有了一个和之前差不多的控制台对话界面,也可以与Qwen2-7B对话了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们不想要这个模型了,也可以通过命令行删除模型文件:ollama rm Qwen2-7B

我们也可以查看本地Ollama管理的模型列表:ollama list

Ollama存放模型文件根目录:~/.ollama

第四步: 部署Ollama大模型Web对话界面

控制台聊天对话界面体验总归是不太好,接下来部署 Web 可视化聊天界面。

首先,下载ollama-webuiWeb 工程代码:git clone https://github.com/ollama-webui/ollama-webui-lite

然后切换ollama-webui代码的目录:cd ollama-webui-lite

设置 Node.js 工具包镜像源,以接下来下载 Node.js 的依赖包更加快速:npm config set registry http://mirrors.cloud.tencent.com/npm/

安装 Node.js 依赖的工具包:npm install

最后,启动 Web 可视化界面:npm run dev

WebUI启动成功

如果看到以上输出,代表 Web 可视化界面已经成功了!

第五步: 通过WebUI愉快与Qwen2-7B对话

浏览器打开 Web 可视化界面:http://localhost:3000/

可以看到Ollama的初始化页面,默认没有模型,需要选择,我们选择刚创建并部署的Qwen2-7B模型:

选择Qwen2-7B大模型

底部就是聊天输入框,至此可以愉快的与Qwen2-7B聊天对话了:

总结:Qwen2-7B比Llama3-8B快

老牛同学验证和对比,在文本推理上,Qwen2-7B确实比Llama3-8B要快很多。后续老牛同学中文文本推理相关的API接口,就主要采用更快Qwen2-7B大模型了~

其他:Ollama工具常用用法

从上文的介绍可以看到,基于Ollama部署一个大模型的 Web 可视化对话机器人,还是非常方便。下面整理了部分Ollama提供的用法或者。

Ollama 命令工具

# 查看当前Ollama的模型
ollama list

# 增量更新当前部署的模型
ollama pull Qwen2-7B

# 删除一个模型文件
ollama rm Qwen2-7B

# 复制一个模型
ollama cp Qwen2-7B Qwen2-newModel

Ollama API结果返回

curl http://localhost:11434/api/generate -d '{
  "model": "Qwen2-7B",
  "prompt":"为什么天空是蓝色的?"
}'

Ollama API聊天对话

curl http://localhost:11434/api/chat -d '{
  "model": "Qwen2-7B",
  "messages": [
    { "role": "user", "content": "为什么天空是蓝色的?" }
  ]
}'

关注本公众号,我们共同学习进步👇🏻👇🏻👇🏻

微信公众号:老牛同学

微信公众号:老牛同学

Qwen2-7B 开源大模型

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API调用和WebUI对话机器人

Llama3-8B 开源大模型

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于Llama 3搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

GLM-4-9B 开源大模型

本地部署GLM-4-9B清华智谱开源大模型方法和对话效果体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API使用和搭建WebUI界面

大模型应用

借助AI大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI已来,我与AI一起用Python编写了一个消消乐小游戏

Python游戏编程:一步步用Python打造经典贪吃蛇小游戏


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1816119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

乡镇联盟一镇一码联合创始人第一届第二次研讨会在中山圆满落幕

乡镇联盟一镇一码联合创始人第一届第二次研讨会在中山圆满落幕 近日,由“乡镇联盟一镇一码”项目的联合创始人余向强先生亲自主持的第一届第二次研讨会在中山成功举行。此次研讨会汇聚了来自全国各地的乡镇代表、行业专家及联盟核心成员,共同探讨乡镇发…

MySql 报错之 Truncated incorrect DOUBLE value: ‘111-7357916-9889033‘

1. 背景 查询sql时,出现报错:Truncated incorrect DOUBLE value: ‘111-7357916-9889033’ 2. 问题可能原因 2.1 数据类型不匹配 可能错误地将一个本应作为字符串处理的列或值用于了需要数值类型的计算或比较。检查SQL语句,确保数值类型…

【OpenGL学习】OpenGL不同版本渲染管线汇总

文章目录 一、《OpenGL编程指南》第6版/第7版的渲染管线二、《OpenGL编程指南》第8版/第9版的渲染管线 一、《OpenGL编程指南》第6版/第7版的渲染管线 图1. OpenGL 2.1、OpenGL 3.0、OpenGL 3.1 等支持的渲染管线 二、《OpenGL编程指南》第8版/第9版的渲染管线 图2. OpenGL …

威胁预警 | Anatsa 银行木马被下载超过数万次

最近,研究人员发现 Anatsa 银行木马的传播有所抬头。这种复杂的恶意软件欺骗受害者在不知不觉中安装后,通过全球的金融应用程序来窃取敏感凭据和财务信息。攻击者通过多种技术拦截和收集数据。 概述 Anatsa 是已知的安卓银行木马,针对全球超…

C语言调用so/dll动态库

文章目录 windowslinux C语言调用动态链接库 windows C语言调用windows下的动态库dll; 待实现 linux C语言调用linux下的动态库so; 准备C代码&#xff0c;并编译为so base.c #include <stdio.h>int funcBase(){printf("func base is running...");return …

每日5题Day23 - LeetCode 111 - 115

每一步向前都是向自己的梦想更近一步&#xff0c;坚持不懈&#xff0c;勇往直前&#xff01; 第一题&#xff1a;111. 二叉树的最小深度 - 力扣&#xff08;LeetCode&#xff09; /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeN…

小公司要求真高

大家好&#xff0c;我是白露啊。 最近看到一个爽文帖&#xff0c;标题就是——“小公司要求真高”。 事情是这样的&#xff0c;一家的小公司在拿到简历之后&#xff0c;HR直接对楼主说&#xff1a;“你不合适&#xff0c;简历不行。” 言外之意就是嫌弃简历单薄&#xff0c;看…

车载网络安全指南 网络安全框架(二)

返回总目录->返回总目录<- 目录 一、概述 二、网络安全组织管理 三、网络安全活动 四、支撑保障 一、概述 汽车电子系统网络安全活动框架包含汽车电子系统网络安全活动、组织管理以及支持保障。其中,网络安全管理活动是框架的核心,主要指汽车电子系统生命周期各阶段…

WebGL开发时尚设计系统

开发一个基于WebGL的时尚设计系统可以为用户提供一个互动、实时的3D体验&#xff0c;允许他们设计和试穿虚拟服装。这个系统可以广泛应用于时尚设计、电子商务、虚拟试衣间等领域。以下是开发此系统的主要步骤和关键技术。北京木奇移动技术有限公司&#xff0c;专业的软件外包开…

代码小浣熊 - 软件智能研发助手

介绍 代码小浣熊是一款基于商汤大语言模型的软件智能研发助手。它利用先进的自然语言处理和人工智能技术&#xff0c;为软件开发者提供从需求分析、架构设计到代码编写、软件测试等全流程的智能支持。无论是专业的软件工程师&#xff0c;还是编程初学者&#xff0c;代码小浣熊…

数据结构——02-算数表达式-栈-实验题目分享

一、实验题目 算数表达式计算&#xff1a; 设计算法根据用户输入的合法表达式计算结果并显示出来 表达式中的符号为、-、*、/、&#xff08;、&#xff09; 表达式中数字为整数 二、实验环境 Windows 11 Visual Studio Code &#xff08;总体代码在最后&#xff09; 三…

计算机视觉基础课程知识点总结

图像滤波 相关: 核与图像同向应用&#xff0c;不翻转。 卷积: 核在应用前翻转&#xff0c;广泛用于信号处理和深度学习&#xff08;现在常说的二维卷积就是相关&#xff09;。 内积: 向量化的点积操作&#xff0c;是相关和卷积的一部分。 模板匹配&#xff1a;通过在图像中…

python数据分析-笔记本内存和价格预测分析

一、背景和研究意义 计算机已成为现代社会不可或缺的工具&#xff0c;广泛应用于个人生活、学术研究和商业领域。随着科学技术的飞速发展&#xff0c;计算机不仅在性能上不断突破&#xff0c;在种类和品牌上也呈现出多样化和差异化。无论是办公、娱乐、学习还是创作&#xff0…

华为支持手指关节手势的原理

华为的指关节手势有指关节截屏、指关节录屏、指关节区域截屏、指关节分屏等。该技术的实现是靠触控结合了其他一些传感器实现的。 华为的专利&#xff1a; 一种手势控制方法、装置、终端设备和存储介质——华为技术有限公司 专利中提到以往终端设备对于手势的识别都是基于位置和…

【机器学习300问】114、什么是度量学习?三元组损失又是什么?

这些天都在加强自己的CV基本功&#xff0c;之前做过的人脸识别项目里有很多思考&#xff0c;在学习了这些基础知识后&#xff0c;我再次回顾了之前的人脸识别项目。我发现&#xff0c;很多之前困惑不解的问题现在都有了清晰的答案。 一、什么是度量学习&#xff1f; 度量学习也…

vue相关的2个综合案例,网页打字练习

for循环的应用 /* 1. 用for循环控制台打印0到100 */ for (var i 0; i < 100; i) {console.log(i) } /* 2. 用for循环控制台打印100到0 */ for (var i 100; i > 0; i--) {console.log(i) }网页打字练习案例练习 <template><div class"main"><…

安灯(andon)系统如何帮助工厂流水线实现精益生产

在当今竞争激烈的制造业领域&#xff0c;实现精益生产已成为众多工厂追求的目标。而安灯&#xff08;Andon&#xff09;系统在这一过程中发挥着至关重要的作用。 安灯&#xff08;Andon&#xff09;系统通过及时反馈和沟通机制&#xff0c;让生产过程中的问题能够迅速被察觉和解…

【面向就业的Linux基础】从入门到熟练,探索Linux的秘密(二)

主要内容介绍可tmux和vim的一些常用操作&#xff0c;可以当作笔记需要的时候进来查就行。 文章目录 前言 一、tmux和vim 二、Linux系统基本命令 1.tmux教程 2. vim教程 3.练习 总结 前言 主要内容介绍可tmux和vim的一些常用操作&#xff0c;可以当作笔记需要的时候进来查就行…

清远mes系统开发商 盈致科技

清远MES系统开发商盈致科技为企业提供专业的MES系统解决方案&#xff0c;帮助企业实现生产过程的数字化管理和优化。盈致科技的服务范围包括但不限于以下方面&#xff1a;MES系统定制开发&#xff1a;盈致科技可以根据清远企业的实际需求定制开发适合的MES系统&#xff0c;满足…

大神出新品,吴恩达开源机器翻译智能体项目

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…