大家好,我是AI研究者, 今天教大家部署 一个阿里云通义千问大模型。
QwQ大模型简介
QwQ是由阿里云通义千问(Qwen)团队推出的开源推理大模型,专注于提升AI在数学、编程和复杂逻辑推理方面的能力。其核心特点包括:
-
深度自省能力
-
能够主动质疑自身假设,进行多轮自我反思,优化推理过程,类似于人类的深度思考模式16。
-
在解决“猜牌问题”等复杂逻辑推理任务时,展现出类似人类的逐步分析能力9。
-
-
对标OpenAI o1模型
-
在MATH-500评测中达到90.6%的准确率,超越OpenAI的o1-preview和o1-mini模型17。
-
在编程任务(LiveCodeBench)和研究生级科学推理(GPQA)测试中表现优异7。
-
-
高效架构设计
-
采用动态推理路径,根据问题复杂度调整计算深度,提高效率1。
-
仅325亿参数(QwQ-32B-Preview),在较小规模下实现高性能推理8。
-
-
开源与易用性
-
阿里云首个开源AI推理模型,支持本地部署及二次开发,适用于科研、教育、编程辅助等场景36。
-
-
当前局限性
-
语言切换时可能出现表达不连贯7。
-
复杂逻辑推理时可能陷入循环思考9。
-
QwQ的推出标志着国产大模型在推理能力上的重要突破,尤其在数学和编程领域展现出接近研究生水平的分析能力。
部署步骤
首先需要安装ollama,这个在我之前的文章已经讲到了,这里就不在赘述。
我们进入到ollama的官网:
https://ollama.com/
找到上方的Models ,然后点击
此时会跳转到模型列表页面:
点击 qwq 链接进去,此时我们会看到下拉框中有各个版本的大模型,如下图所示:
模型参数(1.5B、7B、8B等)是什么意思?
这些数字代表模型的 参数量(比如1.5B=15亿,7B=70亿),你可以简单理解为模型的“脑细胞数量”:
- 参数越多 → 模型越聪明(能处理复杂任务,比如写代码、逻辑推理),但需要的计算资源也越多。
- 参数越少 → 模型更轻量(反应快、适合简单任务),但对复杂问题可能表现一般。
举个例子:
- 1.5B 模型 ≈ 一个“高中生”水平(能聊天、写短文)。
- 7B 模型 ≈ “大学生”水平(能写代码、分析问题)。
- 70B 模型 ≈ “教授”水平(专业级回答,但需要顶级显卡)。
K_M , fp 是什么意思?
q4_K_M, q8_0, fp16 这些指的是模型精度。这里的 q4 指的是 4bit 量化,q8 指的是 8bit 量化,fp16 就是原版模型。
因为量化都是有损的,只要把握数字越小,模型体积越小,所以模型能力会更弱这个逻辑就行。所以 q4 就是 QwQ32b 家族中,体积最小,性能有可能是最弱的那个(不排除 8bit 量化也都差不多的效果)。
我们部署就选用 32b-q4_K_M,选用它的原因很简单, 体积小。耗能低。
点进 32b-q4_K_M , 找到右边的复制 安装命令:
打开cmd, 粘贴上面复制的命令, 等待下载。
等了很久,如果出现了 “unable to allocate CUDA0 buffer” , 表示你的GPU内存不足。
然后运行 “nvidia-smi”, 查看 占用GPU的进程,然后全部关掉。
然后重新运行命令, 还是不行的话,就是机器跟不上了!
如果成功了,默认是运行了模型,直接可以在cmd输入命令对话, 如果关掉了,下次运行就要输入 运行模型命令:
ollama run 模型名称