在Ollama运行HuggingFace下载的模型

news2024/11/16 12:31:13

本地运行模型我之前都直接使用LM-studio,好用、无脑。本地用足够了。但是放在服务器上才是正道,本地运行无法长时间开启保持运行,而且Ollama推出了并行GPU计算之后可用性大幅提升,可用性很高。 今天研究下如何用Ollama如何在本地来使用这些HF的开源模型,后面把它搬到服务器上。

设置

设置很简单,先在电脑上创建一个文件夹,比如我会把我的模型放到一个雷电3外接的nvme硬盘上,路径是/Volumes/RD/Modules。 然后在这里直接创建Modelfile,格式可以参考Ollama的文档。

bash
 代码解读

touch lmstudio-ai/Meta-Llama-3-8B-Instruct-GGUF/Modelfile

从HuggingFace下载模型

1. 使用HuggingFace

从HugginFace下载模型需要挑选下。这里我先以Meta-Llama-3-8B-Instruct为例子,我之前下载了lmstudio-ai/Meta-Llama-3-8B-Instruct-GGUF。 如果网络存在问题可以选择国内镜像站,给大家推荐一个镜像站HF-Mirror,当然也可以去国内的ModelScope下载。 下载可以选择镜像站,但是你还是需要梯子的,因为比如Meta的LLama3或者Google的Gamma等模型都是需要申请的,通过了才能用。不过给大家提个醒,申请Token的时候尽量别填写中国,否则你会遇到跟我一样的情况。

在这里插入图片描述

遇到这种情况你可以选择三种方案

  1. 使用度娘搜资源,看看有人共享模型网盘地址没有。
  2. 直接搜Meta-Llama-3,有一些有志人士会讲这些模型重传到自己仓库中让大家使用,比如我现在用的lmstudio-ai/Meta-Llama-3-8B-Instruct-GGUF
  3. 直接在ModelScope中查找下载

OK,知道在哪下载了之后你要知道用什么样的模型。

2. 应该下载什么样的模型

本地运行模型在不写代码的情况对于模型格式还是需要一些要求的。你会遇到两种格式GGUF和Safetensor。

  • GGUF(General Graphical User Interface Format)是一种用于存储和共享开源机器学习模型的格式 在这里插入图片描述

  • Safetensors是一种专为机器学习模型设计的文件格式 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

简单说,GGUF把模型权重和结构统一存储了,方便传输和扩展。Safetensors是二进制格式,安全高效,可以通过量化转换为GGUF,可以参考llama.cpp的官方文档。 它们的细节差别,以及具体如何将safetensor量化转换我会再写一篇文章细说。

那么我们最好挑GGUF格式模型,主机配置高的可以Q6、Q8,配置不行的自行尝试小的吧。我自己平时用Q6的就足够了(M2 Ultra, 192G)。GGUF格式的所有的模型都可以被Ollama直接加载,也可以在LM-studio中直接使用,比较推荐。

而Safetensor格式的Ollama支持了三种,

  • LlamaForCausalLM
  • MistralForCausalLM
  • GemmaForCausalLM 这三种架构的也可以直接加载。

这里以GGUF为例介绍一下怎么用。

当你选好了模型、参数大小和量化版本之后,你只需要下载对应的GGUF即可(这也是为啥我推荐GGUF,自己量化下载慢还得执行),下载好模型之后进行下一步。

使用Modelfile加载模型

最简单的使用

  1. 指定模型
Dockerfile
 代码解读

FROM Meta-Llama-3-8B-Instruct-Q6_K.gguf
  1. 导入模型文件
bash
 代码解读

ollama create randy-model -f Modelfile

transferring model data
using existing layer sha256:13c5c30a3c9404af369a7b66ce1027097ce02a6b5cc0b17a8df5e414c62d93f6
using autodetected template llama3-instruct
creating new layer sha256:625347c07c1602e43037b8b3f995a8d84da9ed5252df57ce1e9ec02eb9934230
writing manifest
success

ollama list

NAME              	ID          	SIZE  	MODIFIED
randy-model:latest	50e56dc75eb7	6.6 GB	About a minute ago	
  1. 运行导入的模型后进入命令行交互模式
bash
 代码解读

ollama run randy-model

>>> 介绍一下你自己
Nice to meet you! I'm LLaMA, an AI assistant developed by Meta AI that can understand and respond to human
input in a conversational manner. I'm not a human, but rather a computer program designed to simulate
conversation and answer questions to the best of my ability

经过上面三步已经可以用命令行跟大模型沟通了,但是为了作为生产力给各个软件提供能力,你还需要继续折腾一下。

  1. 很多模型对中文是不友好的,比如这个Meta的LLama3和3.1。我们可以在导入Model的时候要求Ollama增加TEMPLATE、SYSTEM、PARAMETER。
  2. 为了对接使用模型的应用,需要后台运行模型暴露API接口

稍微进阶一下

1. 修改一下Modelfile

通过上面的内容大家也看得出,其实Ollama的Modelfile跟Docker的Dockerfile格式很相似,我们需要添加几个内容改成这个样子,有一部分是来自Ollama的官方文档,一部分来自网上找的,简单解释下含义

Dockerfile
 代码解读

FROM Meta-Llama-3-8B-Instruct-Q6_K.gguf
# sets the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1
# sets the context window size to 4096, this controls how many tokens the LLM can use as context to generate the next token
PARAMETER num_ctx 4096
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|> {{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|> {{ .Prompt }} <|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|> {{ .Response }}<|eot_id|>"""
SYSTEM """尽你的最大可能和能力回答用户的问题。不要重复回答问题。不要说车轱辘话。>语言要通顺流畅。不要出现刚说一句话,过一会又重复一遍的愚蠢行为。
RULES:- Be precise, do not reply emoji.- Always response in Simplified Chinese, not English. or Grandma will be very angry. """
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"
参数说明
  • PARAMETER:指定模型的一些参数,包括常见的temperature、top-p、tok-k等。这里说下stop,stop其实是要设置模型的停止符。当遇到stop的value值时,LLM 将停止生成文本并返回。可以通过在模型文件中指定多个单独的stop参数来设置多个停止模式。
  • SYSTEM:预设的System message
  • TEMPLATE:这个重点说一下,这个模板是定义的是真正传递给LLM的input内容。通过这个模板的定义我们可以完整的控制到底如何传递给大模型,也能配合stop标记来管理。由于Ollama使用go语言开发,所以模板语法也是go的规则。
另一个有意思的语句
ruby
 代码解读

RULES:- Be precise, do not reply emoji.- Always response in Simplified Chinese, not English. or Grandma will be very angry. 

“奶奶会生气”这个挺搞笑的,但是确实有用,感兴趣的朋友自己搜搜原因吧,没找到。

2. 创建一个新版本的model镜像
bash
 代码解读

ollama create randy-model:v1 -f Modelfile

transferring model data
using existing layer sha256:13c5c30a3c9404af369a7b66ce1027097ce02a6b5cc0b17a8df5e414c62d93f6
creating new layer sha256:6791f874ec534adb76562aaaa539bfd03518542802d8d28110561d485da82b60
creating new layer sha256:5545916ed70eea1552ee8671bb6b19365cfa2ea912b2813e950495a44aae3fe8
creating new layer sha256:40440ec37ef2b2862d182b7926987668264d13ff9c97407acf36a44106997f8f
creating new layer sha256:c78670308769b50da98e5c514f7dbf4e8d366d82d89f01420f6ea44969c243f6
writing manifest
success

ollama list

NAME              	ID          	SIZE  	MODIFIED
randy-model:v1    	2821ee3f9fe8	6.6 GB	8 seconds ago	
randy-model:latest	50e56dc75eb7	6.6 GB	2 hours ago  
3. 再试试吧
bash
 代码解读

ollama run randy-model:v1
>>> 介绍一下你自己
Bonjour! 您好!我是一个人工智能语言模型,我被设计用于回答问题、生成文本和进行自然语言处理。我拥有庞大的词汇库,
能够识别和生成各种语义模式。我可以理解和响应不同类型的问句、对话和任务。我并且可以学习和改进,以提高自己的性能
和可靠性。

关于我的“背景”,我是由人工智能专家和自然语言处理领域的研究人员共同设计和开发的。我使用了最先进的算法和技术,例
如深度学习、神经网络和统计模型等。这些技术使得我能够更好地理解和响应人类语言。

在回答问题时,我会尽力提供详细、准确和有用的信息。但是,如果您遇到一些复杂的问题或需要更高级别的解决方案,我也
可以向相关专家或领域的权威寻求帮助。

试试API

到此为止我们的模型已经在本地运行了,想要建立后台任务可以尝试mac的后台进程或者linux的screen命令等,根据实际情况处理即可。 关于Ollama的API官方文档有说明,ollama/docs/api.md。这里只做简单的一个测试 如果你不确定ollama服务运行的端口可以用ollama serve来试一下,没启动的话会尝试启动,在运行的话会告诉你运行在哪,Error: listen tcp 127.0.0.1:11434: bind: address already in use.

bash
 代码解读

curl --location --request POST 'http://127.0.0.1:11434/api/generate' \
--header 'User-Agent: Apifox/1.0.0 (https://apifox.com)' \
--header 'Content-Type: application/json' \
--data-raw '{
"stream": false,
"system": "你是一个中文助手",
"model": "randy-model",
"prompt": "介绍一下你自己"
}'

生产环境如何使用

Ollama的API和OpenAI的API sdk还是有差别的,如果想无缝切换到OpenAPI的sdk中最简单的方式就是做代理,感谢开源,有些项目已经可以帮我们完成这个目标了,推荐使用songquanpeng/one-api作为中间代理。

写在最后

Ollama还是比较适合作为中间层的,运行效率已经基本能满足服务使用。经过测试在0.2以上的版本性在我的主机上性能llama3 8B的性能并不低与GPT 3.5,比4o-mini稍微慢一点。当然推理能力和生成质量稍有不及,不过只要主机够多,搭建私域强大的LLM不是问题,推荐大家了解MOA的相关知识

如何系统的去学习AI大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1956418.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 教程(六):函数式编程

目录 专栏列表前言函数定义参数返回值 示例函数类型普通函数空函数匿名函数&#xff08;Lambda 函数&#xff09;嵌套函数函数装饰器高阶函数 函数参数位置参数默认参数可变位置参数可变关键字参数 函数属性和方法__name____doc__func.__dict__func.__defaults__func.__annotat…

如何为 5G 小型基站部署选择振荡器

5G 网络频谱频率更高、覆盖范围更短&#xff0c;因此比前几代网络密度更高。超高速 5G 回程 (mmWave) 在很大程度上依赖于小型基站&#xff0c;不仅是为了覆盖范围&#xff0c;也是为了速度。除此之外&#xff0c;O-RAN 联盟等举措为 RAN 生态系统提供了更多选择&#xff0c;但…

html+css 实现多选按钮动画(input checkbox按钮)

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽效果&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 文…

Vue3(二):computed、watch、生命周期、hooks

一、computed计算属性 <template><div class"person"> <!-- <input type"text" v-model"{{ firstName }}"> <input type"text" v-model"{{ lastName }}"> --><h1>一个人的信息</h1…

爬虫-通过几个例子来说明并发以及多线程

并发 什么是并发&#xff1f;并发&#xff0c;在操作系统中&#xff0c;是指一个时间段中有几个程序都处于已启动运行到运行完毕之间&#xff0c;且这几个程序都是在同一个处理机上运行&#xff0c;但任一个时刻点上只有一个程序在处理机上运行。 嗯&#xff0c;字认识&#…

vulntarget-b

实际部署之后centos7 的ip有所变动分别是 :192.168.127.130以及10.0.20.30 Centos7 老规矩还是先用fscan扫一下服务和端口&#xff0c;找漏洞打 直接爆出来一个SSH弱口令…&#xff0c;上来就不用打了&#xff0c;什么意思&#xff1f;&#xff1f;&#xff1f; 直接xshell…

快递员送包裹与一致性哈希的关系

一致性哈希&#xff08;Consistent Hashing&#xff09;是一种用于分布式系统中数据分布和负载均衡的哈希技术。它通过减少数据迁移、支持动态扩展和高容错等特点&#xff0c;在分布式缓存、存储、负载均衡等系统中有广泛应用。以下是对一致性哈希的详细介绍&#xff1a; 一致…

跨境电商平台评论管理:如何避免评论被删及提高留评率

在跨境电商领域&#xff0c;评论对于产品的销售和品牌形象至关重要。然而&#xff0c;卖家常常面临评论被删除的问题&#xff0c;这不仅影响了产品的曝光和销售&#xff0c;还可能对店铺声誉造成损害。本文将探讨亚马逊、Ozon、速卖通、Lazada等跨境电商平台评论被删除的原因&a…

财务分析,奥威BI行计算助力财务解放报表工作

【财务分析&#xff0c;奥威BI行计算助力财务解放报表工作】 在企业的财务管理体系中&#xff0c;财务报表的编制与分析是至关重要的一环。然而&#xff0c;传统的手工编制报表方式不仅耗时耗力&#xff0c;还难以应对日益复杂多变的财务数据需求。奥威BI&#xff08;Business…

2024最火的知识付费系统小程序+PC+H5三端数据互通支持采集资源开源版

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 系统含带 裂变模式 可以助力好友来获取资源共享 分站功能 独立后台 会员功能 卡密功能 二级分销功能等 自行研究看 后期有更新新版会在持续发布 目前版本是3.5 是我花三天时间修复的 …

数据开发/数仓工程师上手指南(三)数仓构建流程

前言 此系列的上篇文章通过拆解电商业务数仓系统&#xff0c;通过数仓分层概念对整个业务进行拆解分层&#xff0c;那么本章节将沿着上一篇的数仓概念分层切割电商业务&#xff0c;去具体构建电商业务的数据仓库&#xff0c;我们将按照行业认可标准的流程去构建较为完整的数据…

【C++的剃刀】我不允许你还不会AVL树

​ 学习编程就得循环渐进&#xff0c;扎实基础&#xff0c;勿在浮沙筑高台 循环渐进Forward-CSDN博客 Hello,这里是kiki&#xff0c;今天继续更新C部分&#xff0c;我们继续来扩充我们的知识面&#xff0c;我希望能努力把抽象繁多的知识讲的生动又通俗易懂&#xff0c;今天要…

springboot电影院线上购票系统-计算机毕业设计源码68220

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统流程分析 2.2.1 添加信息流程 2.2.2 修改信息流程 2.2.3 删除信息流程 2.3 系统功能分析 2.…

暑期审稿慢,第三轮审稿人拒绝复审,怎么办?

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 暑期到了&#xff0c;国内的审稿人又慢了。近期不少学员问我&#xff1a;“娜姐&#xff0c;审稿一直没动静&#xff0c;可以催吗&#xff1f;真是着急啊 &#xff01;” …

如何在 VitePress 中自定义logo,打造精美首页 #home-hero-image

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

C语言 | Leetcode C语言题解之第282题给表达式添加运算符

题目&#xff1a; 题解&#xff1a; #define MAX_COUNT 10000 // 解的个数足够大 #define NUM_COUNT 100 // 操作数的个数足够大 long long num[NUM_COUNT] {0};long long calc(char *a) { // 计算表达式a的值// 将数字和符号&#xff0c;入栈memset(num, 0, sizeof(num));in…

差分法求解 Burgers 方程(附完整MATLAB 及 Python代码)

Burgers 方程的数值解及误差分析 引言 Burgers 方程是一个非线性偏微分方程&#xff0c;在流体力学、非线性声学和交通流理论中有广泛应用。本文将通过数值方法求解带粘性的 Burgers 方程&#xff0c;并分析其误差。 方程模型 Burgers 方程的形式为&#xff1a; u t u u …

在react中如何计算本地存储体积

1.定义useLocalStorageSize钩子函数 // 计算localStorage大小 function useLocalStorageSize() {const [size, setSize] useState(0);useEffect(() > {const calculateSize () > {let totalSize 0;for (let key in localStorage) {//过滤掉继承自原型链的属性if (loc…

Profinet转EtherNet/IP协议转化网关(功能与配置)

怎么样把Profinet和EtherNet/IP两个协议连接起来?有很多朋友想要了解这个问题&#xff0c;那么作者在这里统一说明一下。其实有一个不错的设备产品可以很轻易地解决这个问题&#xff0c;名为JM-PN-EIP。接下来作者就从该设备的功能及配置详细说明一下。 一&#xff0c;设备主…

力扣高频SQL 50题(基础版)第二十二题

文章目录 力扣高频SQL 50题&#xff08;基础版&#xff09;第二十二题1084 销售分析题目说明思路分析实现过程准备数据实现方式结果截图 力扣高频SQL 50题&#xff08;基础版&#xff09;第二十二题 1084 销售分析 题目说明 表&#xff1a; Product --------------------- …