Llama2通过llama.cpp模型量化 WindowsLinux本地部署

news2025/1/11 12:36:47

Llama2通过llama.cpp模型量化 Windows&Linux本地部署

什么是LLaMA 1 and 2

LLaMA,它是一组基础语言模型,参数范围从7B到65B。在数万亿的tokens上训练的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需求助于专有和不可访问的数据集。特别是,LLaMA-13B在大多数基准测试中都优于GPT-3(175B),并且LLaMA65B与最好的型号Chinchilla-70B和PaLM-540B具有竞争力。

Meta 出品的 Llama 续作 Llama2,一系列模型(7b、13b、70b)均开源可商用。Llama2 在各个榜单上精度全面超过 Llama1,同时也超过此前所有开源模型。

但是对于本机部署大模型,LLaMA要求相对于还是偏高,因此本次使用开源方案llama.cpp进行模型量化,在Windows平台进行CPU量化版本测试,Linux平台进行GPU量化版本测试。

注:以下所有下载步骤均需要科学上网,否则会很折磨。

实验设备详情(供参考)

Windows平台

为笔记本平台,拯救者Y9000P

  • CPU: 13th Intel i9-13900HX × \times × 1
  • GPU: NVIDIA GeForce RTX4060 (8GB) × \times × 1
  • 内存: 32GB

运行情况:CPU流畅运行llama2-13B-chat 8Bit量化版本,卡顿运行16Bit量化版本。GPU版本加速超级快,相当于文心一言或者Chatgpt的生成速度。

运行情况:
在这里插入图片描述
在这里插入图片描述

Linux平台

实验室服务器

  • COU: 9th Intel® Core™ i9-9940X CPU @ 3.30GHz × \times × 14
  • GPU: NVIDIA GeForce RTX2080Ti (11GB) × \times × 4
  • 内存: 64GB

运行情况:13B和7B都运行十分流程,但70B的不知道为啥突然下载不了了,没法测试。

模型部署详细步骤

下载并配置llama库

  • 下载llama

    git clone https://github.com/facebookresearch/llama.git
    
  • 配置环境

    创建虚拟环境,防止之前其他环境安装的包导致的冲突

    conda create -n llama python=3.10
    

    进入虚拟环境

    conda activate llama
    

    进入工程目录

    cd llama
    

    安装环境依赖

    pip install -e .
    
  • 申请模型下载链接

    进入该链接:Mete website申请下载模型,内容如实填写,为了尽快通过,可以填写美国机构和学校,应该会快一些,当时没敢试国内的,怕被拒(被OpenAI搞怕了)

    之后会来如下邮件,复制马赛克部分的网址:
    在这里插入图片描述

  • 下载模型

    • Windows平台

      sh download.sh
      
    • Linux平台

      bash download.sh
      

    之后跟着流程将之前复制的链接粘贴进入即可,然后选择需要下载的模型,关于模型的区别可以自行Bing,chat版本的这里更加推荐,参数量方面7B的一般大部分设备都可以跑,我使用13B版本的也可以正常运行,根据个人所需进行选择。

    • 注:Windows平台在下载的时候,可能会面临wget: command not found错误,跟下述链接进行即可

      关于在Windows10环境下运行.sh文件报错 wget: command not found的解决办法

下载并配置llama.cpp库

  • 下载llama.cpp

    git clone https://github.com/ggerganov/llama.cpp.git
    
    cd llama.cpp
    
  • 编译 Build

    • Linux平台

      直接进入工程目录make即可:

      make
      

      我在autodl服务器和实验室服务器实测都没有问题

    • Windows平台

      Windows平台需要安装cmake和gcc,这个我本机此前有安装好,如果有没有安装的请自行百度安装

      编译:

      mkdir build
      
      cd build
      
      cmake ..
      
      cmake --build . --config Release
      
  • CUDA加速版编译,添加一部分指令即可

    • Linux平台

      make LLAMA_CUBLAS=1
      
    • Windows平台

      mkdir build
      cd build
      cmake .. -DLLAMA_CUBLAS=ON
      cmake --build . --config Release
      

模型量化

  • 准备数据

    将llama中下载好的数据 (llama-2-7B-chat) 拷贝到llama.cpp中的./models中,同时将llama主目录中的tokenizer_checklist.chk和tokenizer.model也复制到./models中。

    参考以下:

    G:.
    │  .editorconfig
    │  ggml-vocab-aquila.gguf
    │  ggml-vocab-baichuan.gguf
    │  ggml-vocab-falcon.gguf
    │  ggml-vocab-gpt-neox.gguf
    │  ggml-vocab-llama.gguf
    │  ggml-vocab-mpt.gguf
    │  ggml-vocab-refact.gguf
    │  ggml-vocab-starcoder.gguf
    │  tokenizer.model
    │  tokenizer_checklist.chk
    │
    └─13B
            checklist.chk
            consolidated.00.pth
            consolidated.01.pth
            params.json
    
  • 进行量化

    进入虚拟环境,安装依赖

    cd llama.cpp
    
    conda activate llama
    

    安装依赖

    pip install -r requirements.txt
    

    进行16Bit转换

    python convert.py models/13B/
    

    这一步如果报错。修改./models/(模型存放文件夹)/params.json
    将最后"vocab_size":中的值改为32000即可

    • Linux 4 or 8 bit量化

      ./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q4_0.gguf q4_0
      

      路径根据自己的路径进行调整,如果进行8bit量化,将命令中的q4_0改为q8_0:

      ./quantize ./models/7B/ggml-model-f16.gguf ./models/7B/ggml-model-q8_0.gguf q8_0
      

      8bit肯定比4bit好,但根据设备情况量力而行

    • Windows 4 or 8 bit量化

      .\build\bin\Release\quantize.exe .\models\13B\ggml-model-f16.gguf .\models\13B\7B\ggml-model-q4_0.gguf q4_0
      

      更改bit也参考上述

加载并启动模型

CPU版本

  • Windows平台

    .\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
    
  • Linux平台

    ./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt
    

GPU加速

只需在命令中加上加上-ngl 1

其中可以对数量进行修改,最大为35,我在4060上实测20达到最佳

  • Windows平台

    .\build\bin\Release\main.exe -m .\models\13B\ggml-model-q4_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f .\prompts\chat-with-bob.txt -ngl 20
    
  • Linux平台

    ./main -m ./models/13B/ggml-model-q8_0.gguf  -n 256 -t 18 --repeat_penalty 1.0 --color -i -r "User:" -f ./prompts/chat-with-bob.txt -ngl 20
    

在提示符 > 之后输入你的prompt,cmd/ctrl+c中断输出,多行信息以\作为行尾。如需查看帮助和参数说明,请执行./main -h命令。下面介绍一些常用的参数:

-c 控制上下文的长度,值越大越能参考更长的对话历史(默认:512)
-ins 启动类ChatGPT对话交流的instruction运行模式
-f 指定prompt模板,alpaca模型请加载prompts/alpaca.txt
-n 控制回复生成的最大长度(默认:128)
-b 控制batch size(默认:8),可适当增加
-t 控制线程数量(默认:4),可适当增加
--repeat_penalty 控制生成回复中对重复文本的惩罚力度
--temp 温度系数,值越低回复的随机性越小,反之越大
--top_p, top_k 控制解码采样的相关参数

具体信息参考:https://github.com/ggerganov/llama.cpp/tree/master/examples/main

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1195437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

编码规范集合

文章目录 前言命名规范项目命名目录命名文件命名命名严谨性 HTML 书写规范结构、样式、行为分离缩进文件编码语义化IE 兼容模式viewport为移动端设备优化,设置可见区域的宽度和初始缩放比例iOS 图标favicon(网站图标,移动端默认可用于添加到桌…

微信小程序前端开发

目录 前言: 1. 框架选择和项目搭建 2. 小程序页面开发 3. 数据通信和接口调用 4. 性能优化和调试技巧 5. 小程序发布和上线 前言: 当谈到微信小程序前端开发时,我们指的是使用微信小程序框架进行开发的一种方式。在本文中,我…

100+ Windows运行命令大全,装B高手必备

操作电脑关闭、重启、注销、休眠的命令细则: 用法: shutdown [/i | /l | /s | /sg | /r | /g | /a | /p | /h | /e | /o] [/hybrid] [/soft] [/fw] [/f] [/m \\computer][/t xxx][/d [p|u:]xx:yy [/c "comment"]] 没有参数 显示帮助。这与键入 /? 是一样的。…

第七章 :Spring Boot web开发常用注解(二)

第七章 :Spring Boot web开发常用注解(二) 前言 本章节知识重点:作者结合自身开发经验,以及觉察到的一个现象:Springboot注解全面理解和掌握的并不多,对注解进行了全面总结,共分两个章节,可以作为web开发工程师注解参考手册,SpringBoot常用注解大全,一目了然!。本…

python机器学习——随机森林

随机森林 随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并结合它们的预测结果来进行分类或回归。 算法原理: 决策树(Decision Tree): 随机森林由多个决策树组成。决策树是一种基于树…

增强地理热图:Highcharts Maps v11.2.0 Crack

Highcharts Maps v11.2.0 添加了对地理热图插值的支持,允许您在类似温度图的图表的已知数据点之间添加估计值。 Highcharts Maps 提供了一种符合标准的方法,用于在基于 Web 的项目中创建逻辑示意图。它扩展了用户友好的 Highcharts JavaScript API&#…

JTS: 18 DistanceToPoint 最近距离计算

这里写目录标题 版本代码 版本 org.locationtech.jts:jts-core:1.19.0 链接: github 代码 import org.locationtech.jts.algorithm.distance.DistanceToPoint; import org.locationtech.jts.algorithm.distance.PointPairDistance; import org.locationtech.jts.geom.Coordin…

【Qt-23】ui界面设计-ToolBar

1、ToolBar 右击主窗体添加工具栏 新建动作,可设置图标,图标有本地文件和资源两种方式。 修改toolButtonStyle的属性,可设置图标与汉字显示的方式。 页面跳转: connect(ui->action, SIGNAL(triggered()), this, SLOT(openWid…

抖音直播矩阵玩法,直播矩阵引流项目,每日精准引流500左右

今天我再分享一个专注于纯直播带货的玩法,这个案例不论是导流还是直播模式,都值得我们深入关注。某音直播矩阵玩法,每日精准引流500 这种直播方式通常会邀请两位模特,一个展示产品,一个递交产品,无需过多的…

小程序开发——小程序页面的配置与生命周期

目录 1.小程序的页面配置 2.页面的生命周期 3.页面跳转 4.页面间的参数传递 5.新闻客户端案例讲解 6.小结 1.小程序的页面配置 页面的配置设置app.json中的window配置项的内容(页面中配置项会覆盖app.json的window中相同的配置项),其属…

【狂神说Java】SpringCloud-Netflix

✅作者简介:CSDN内容合伙人、信息安全专业在校大学生🏆 🔥系列专栏 :狂神说Java 📃新人博主 :欢迎点赞收藏关注,会回访! 💬舞台再大,你不上台,永远…

利用梯度上升可视化卷积核:基于torch实现

利用梯度上升可视化卷积核 文章目录 前言基本原理版本和包结果展示 简单绘图修改源码绘图方法一 方法二(推荐) 报错解决总结 前言 基于梯度上升的可视化是一种常用的技术,用于理解卷积神经网络(CNN)中的卷积核是如何对…

Kali常用配置(持续更新)

1. 同步系统时间 命令:dpkg-reconfigure tzdata ,这个命令可以同时更新系统时间和硬件时间。 然后选择区域和城市,中国可以先选择Asia,然后选择Shanghai 2.更换系统数据源 # vim /etc/apt/sources.list #不是root用户的话需要…

ElasticSearch文档分析

ElasticSearch文档分析 包含下面的过程: 将一块文本分成适合于倒排索引的独立的 词条将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall 分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里: 字符过滤器 首先&a…

PMCW体制雷达系列文章(1) – PMCW体制雷达综述

说明 相位调制连续波(Phase-modulated continuous wave, PMCW)雷达,或又被称为数字雷达,近年来开始被应用于汽车雷达领域。而且因其特有的一些优势(精度高、抗干扰能力强等)被认为是车载毫米波雷达的发展趋势之一(从目前占主导的调频连续波(Frequency-mo…

美国材料与试验协会ASTM发布新版玩具安全标准 ASTM F963-23

美国材料与试验协会ASTM发布新版玩具安全标准 ASTM F963-23 2023年10月13日,美国材料与试验协会(ASTM)发布了新版玩具安全标准ASTM F963-23 ​根据CPSIA的规定,当ASTM将ASTM F963的拟定修订意见通知CPSC时,若CPSC认为…

QRadioButton、QCheckBox样式表

QRadioButton、QCheckBox样式表 实现效果Chapter1 QRadioButton样式表详细描述示例效果源码样式表 Chapter2 QRadioButton样式表 实现效果 QRadioButton{spacing: 2px;color: white; } QRadioButton::indicator {width: 60px;height: 35px; } QRadioButton::indicator:unchecke…

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(三)

员工分页查询和账号启用禁用功能 1. 员工分页查询1.1 需求分析和设计1.1.1 产品原型1.1.2 接口设计 1.2 代码开发1.2.1 设计DTO类1.2.2 封装PageResult1.2.3 Controller层1.2.4 Service层接口1.2.5 Service层实现类1.2.6 Mapper层 1.3 功能测试1.4 代码完善 2. 启用禁用员工账号…

《QT从基础到进阶·二十》QThreadPool线程池的使用

什么情况下比较适合用线程池? 比如我有上百个任务要同时处理,难道开上百个线程?NO!!! 有了线程池的加持,自动给任务分配线程处理, 多线程不再是真爱~ 线程池创建: 1、自…

CAS、Synchronized 原理

什么是CASCAS应用原子类自旋锁CAS的ABA问题 Synchronized 原理锁升级优化锁消除优化锁粗化优化 什么是CAS 什么是CAS?Compare and swap :比较和交换 一个CAS操作涉及: 我们假设内存中的原数据V,旧的预期值A,需要修改…