【记录】大模型｜Windows 下 Hugging Face 上的模型的通用极简调用方式之一

news2025/4/8 2:33:54

这篇文是参考了这篇，然后后来自己试着搭了一下，记录的全部过程：【翻译】Ollama｜如何在 Ollama 中运行 Hugging Face 中的模型_ollama 导入 huggingface-CSDN 博客
另外还参考了这篇：无所不谈,百无禁忌,Win11 本地部署无内容审查中文大语言模型 CausalLM-14B - 知乎

文章目录

- 步骤 1：下载 GGUF 格式模型
- - 1 示例
  - 2 如何查找 GGUF 模型
- 步骤 2：部署
- - 1 安装 Visual Studio installer 的 C++ 桌面开发组件
  - 2 安装 cmake
  - 3 安装 CUDA（一般显卡都装了驱动，不过可能没装nvcc这些命令工具，nvcc没装就再装装）
  - 4 下载llama.cpp
  - 5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip
  - 6 运行指令
- 步骤3：展示

步骤 1：下载 GGUF 格式模型

这个格式才是量化版本，不用自己编译了。

具体内存或显存的要求你们可以自己考虑，我的电脑独显 3060 6G 的 14B 的量化模型没啥问题。

1 示例

https://huggingface.co/TheBloke/CausalLM-14B-GGUF
https://huggingface.co/hfl/chinese-llama-2-13b-gguf/tree/main

2 如何查找 GGUF 模型

一般情况你在链接后面加-gguf就有量化版本了；
找不到的话可以去 Github 的 README 里搜 GGUF 关键词，比如下图：

步骤 2：部署

1 安装 Visual Studio installer 的 C++ 桌面开发组件

Visual Studio 2022 IDE - 适用于软件开发人员的编程工具
在这里插入图片描述

2 安装 cmake

https://cmake.org/download/

3 安装 CUDA（一般显卡都装了驱动，不过可能没装nvcc这些命令工具，nvcc没装就再装装）

https://developer.nvidia.com/cuda-downloads

4 下载llama.cpp

https://github.com/ggerganov/llama.cpp/releases，选自己的版本，我下载的是llama-b3772-bin-win-cuda-cu12.2.0-x64.zip。
在这里插入图片描述

5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip

进入目录，在这个目录下打开命令行工具，创建一个目录models，把gguf模型放进去（你也可以选择用绝对路径，一个意思）。
在这里插入图片描述

6 运行指令

.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv（改成你自己的模型名字）

步骤3：展示

在命令行去运行：

在这里插入图片描述

会运行得到这种东西：
在这里插入图片描述

运行的时候还能加上一些额外的参数，比如这样：.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv --chat-template llama2，这时指令模板就会发生变化，如下所示：

在这里插入图片描述

好了。

本账号所有文章均为原创，欢迎转载，请注明文章出处：https://shandianchengzi.blog.csdn.net/article/details/142438818。百度和各类采集站皆不可信，搜索请谨慎鉴别。技术类文章一般都有时效性，本人习惯不定期对自己的博文进行修正和更新，因此请访问出处以查看本文的最新版本。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2155699.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！