本地LLM VLM性能评测

news2024/11/16 19:53:36

作为一名数据工程师,我对测试一些生成式 AI 模型并在本地安装/运行模型很感兴趣。大型语言模型 (LLM) 和视觉语言模型 (VLM) 是最有趣的。OpenAI 提供了 ChatGPT 网站和移动应用程序。微软创建了 Windows 11 Copilot 供我们使用。但是,我们无法控制哪些数据被发送到互联网并存储在他们的数据库中。他们的系统不是开源的,就像神秘的黑匣子一样。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 

1、LLM & VLM模型选择和评测环境

一些慷慨的公司(如 Meta 和 Mistral AI)或个人开源了他们的模型,活跃的社区逐层构建工具,以便我们可以轻松地在家用电脑上运行 LLM 和 VLM。本文(在 Raspberry Pi 上运行本地 LLM 和 VLM)测试了具有 8GB RAM 的 Raspberry Pi 5。它是一台信用卡大小的小型单板计算机 (SBC)。我希望找到更便宜的计算机/解决方案或虚拟机来测试生成令牌或字符的性能,以便它能为我或普通大众提供物有所值的服务。应该考虑的是文本输出速度、文本输出质量和金钱成本。

评估生成的内容由其他研究方完成。就像这个提到的 mistral-7b 在知识、推理和理解方面优于 llama2-13b。这就是为什么我在 LLM 测试中包含 mistral 和 llama2 的原因。

Ollama 目前可以在 macOS、Linux 和 Windows 上的 WSL2 上运行。使用 WSL2 不易控制内存使用率和 CPU 使用率,因此我排除了 WSL2 的测试。生态系统中可以下载多个 LLM 和 VLM 模型。这就是为什么我使用 Ollama 作为测试平台,在多个系统上使用不同的 AI 模型进行基准测试。

Ollama安装非常简单。在终端中,运行以下命令即可:

curl https://ollama.ai/install.sh | sh

我构建了一个工具来测试不同系统上 Ollama LLM 生成的 token/sec 的吞吐量。代码 (ollama-benchmark) 用 Python3 编写,并根据 MIT 许可开源。如果你觉得应该添加更多功能或修复错误,请告诉我。文本输出质量可能不容易衡量,因此我在此实验中专注于文本输出速度。(token/s 越高越好)

用于测试的机器或虚拟机的技术规格:

  • Raspberry Pi 5,8GB RAM((Ubuntu 23.10 64 位操作系统)四核 64 位 Arm CPU)
  • Ubuntu 23.10 64 位操作系统,4 核处理器和 8GB RAM,通过安装在 Windows 11 笔记本电脑主机上的 VMware Player 17.5。
  • Ubuntu 23.10 64 位操作系统,8 核处理器和 16GB RAM,通过安装在 Windows 11 桌面主机上的 VMware Player 17.5。
  • Apple Mac mini(Apple M1 芯片)(macOS Sonoma 14.2.1 操作系统)8 核 CPU(4 个性能核心和 4 个效率核心)、8 核 GPU、16GB RAM
  • NVIDIA T4 GPU(Ubuntu 23.10 64 位操作系统)、8 vCPU、16GB RAM

为了使比较更具说服力和一致性,Raspberry Pi 5 安装了 Ubuntu 23.10 64 位操作系统。操作系统安装步骤可参见此视频 :

视频 1:Raspberry Pi 5 安装 Ubuntu 23.10 64 位操作系统

在 Ollama 网站的 llama2 模型页面中,提到了以下内容。

内存要求:

  • 7b 参数模型通常需要至少 8GB 的​​ RAM
  • 13b 参数模型通常需要至少 16GB 的 RAM

我们要测试的模型:

  • mistral:7b (LLM)
  • llama2:7b (LLM)、llama2:13b (LLM)
  • llava:7b、llava:13b(图像转文本、图像问答)(VLM)

从内存限制来看,以下是我想在不同机器上测试性能的模型:

示例提示存储在 benchmark.yml 中:

version: 1.0
modeltypes:
  - type: instruct
    models:
      - model: mistral:7b
    prompts:
      - prompt: Write a step-by-step guide on how to bake a chocolate cake from scratch.
        keywords: cooking, recipe
      - prompt: Develop a python function that solves the following problem, sudoku game
        keywords: python, sudoku
      - prompt: Create a dialogue between two characters that discusses economic crisis
        keywords: dialogue
      - prompt: In a forest, there are brave lions living there. Please continue the story.
        keywords: sentence completition
      - prompt: I'd like to book a flight for 4 to Seattle in U.S.
        keywords: flight booking

每一轮,使用 5 个不同的提示来评估输出 token/s。记录 5 个数字的平均值。我首先运行了 Raspberry Pi 5,这是录制的视频 :

视频 2:Raspberry Pi 5 运行 ollama-benchmark

2、基准测试结果

不同模型在不同系统上 token/s 的基准测试总结如下:

表 3:运行 ollama-benchmark 的机器/虚拟机吞吐量性能结果

关于 LLMs & VLM 推理吞吐量性能结果的思考:

  • 从上面的视频中我们可以看到,计算利用率主要发生在 GPU 核心和 GPU VRAM 上。
  • 要更快地运行推理,请选择功能强大的 GPU。
  • 假设人类与 AI 模型之间的舒适交互伴随着 7 个 token/秒的吞吐量流速,13 个 token/秒的速度对于大多数人来说太快了,如视频 6 所示。
  • 未来支持 AI 的操作系统(Copilot)将至少拥有 16GB 的 RAM。AI 的输出有意义/值得信赖,不会太快,也不会太慢。这部分也与微软宣布的消息一致:微软为 AI PC 设置了 16GB 的默认 RAM — 机器还需要 40 TOPS 的 AI 计算:报告。

3、结束语

在本地运行 LLM 不仅可以增强数据安全性和隐私性,还可以为专业人士、开发人员和爱好者打开一个充满可能性的世界。

有了这个吞吐量性能基准,我不会使用 Raspberry Pi 5 作为 LLM 推理机,因为它太慢了。我想说在 Apple Mac mini M1(16GB RAM)上运行 LLM 和 VLM 就足够了。如果你想要更强大的机器来更快地运行 LLM 推理,那就去租用带有 GPU 的云虚拟机吧。


原文链接:本地LLM & VLM性能评测 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1909318.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PCB翘曲如何修复?

怎么样的PCB板才算板翘曲? 在实际生产中,PCB都不是100%平整,或多或少都会有点弯曲。那PCB翘曲标准是多少? 据IPC《刚性印制板的鉴定与性能规范》要求中,生产电路板允许最大翘曲和扭曲为0.75%-1.5%之间。 按照IPC标准&a…

DBA 数据库管理 部署Mysql 服务,基础查询

数据库:存储数据的仓库 数据库服务软件: 关系型数据库: 存在硬盘 ,制作表格的 数据库的参数 [rootmysql50 ~]# cat /etc/my.cnf.d/mysql-server.cnf 主配置文件 [mysqld] datadir/var/lib/mysql 存放数据库目录…

智谱AI开源代码生成大模型 CodeGeeX4-ALL-9B

智谱AI 旗下的代码生成大模型 CodeGeeX 正式发布第四代开源版本:CodeGeeX4-ALL-9B,其是集代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等能力于一体的代码大模型,是目前百亿(10B)参数以…

299k stars利用Public APIs提升开发效率:探索APILayer提供的开源资源

299k stars利用Public APIs提升开发效率:探索APILayer提供的开源资源 在现代软件开发中,API(应用程序接口)是实现应用间通信和功能扩展的关键工具。公共API(Public APIs)则为开发者提供了宝贵的资源&#…

2024QS世界大学学科排名(各学科详细)

2024QS全球高校学科排名附榜单: 人文与艺术相关学科全球Top10 社会科学与管理相关学科全球Top10 自然科学相关学科全球Top10 工程与技术相关学科全球Top10 生命科学与医学相关学科全球Top10

Matlab基础语法篇(上)

Matlab基础语法(上) 一、基知(一)界面介绍(二)常用快捷键(三)常用指令(四)Matlab帮助系统 二、运算基础(一)变量(二&#…

几级系统需要做等保?

正常来说只要是在运营的系统都需要做等保,无论是内网还是外网,等保常见的系统一般分成五个级别,一级最低,五级最高,不同级别的系统国家的监管程度也不一样,具体如下: 第一级:系统运…

暑期备考2024小学生古诗文大会:吃透真题和知识点(持续)

2024年上海市小学生古诗文大会的自由报名初赛将于10月19日(星期六)正式开始,还有3个多月的时间。 为帮助孩子们备考,我持续分享往年上海小学生古诗文大会真题,这些题目来自我去重、合并后的1700在线题库,每…

跨境传输需要遵守哪些准则,如何做到有效管控?

在全球化的商业环境中,跨国企业面临着数据跨境传输的挑战。随着业务的扩展,企业需要在不同国家和地区之间高效、安全地传输大量数据。选择合适的跨境传输方案对于保障数据安全、提高业务效率、遵守法律法规至关重要。 跨境传输数据需要遵守的准则和规定主…

【机器学习】特征选择:精炼数据,提升模型效能

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 特征选择:精炼数据,提升模型效能引言为何进行特征选择&a…

消费盲返模式,让消费者真实消费的钱返利回来?

盲返模式是一种基于消费者参与的商业模式,其核心在于通过购买指定产品或服务,消费者能够获得一定比例的利润分配,但具体返利金额是不确定的,因此被称为“盲返”。这种模式以其独特的优势和创新的玩法,在电商领域尤其是…

企业微信hook接口协议,移除群成员通知

移除群成员通知 返回示例 {"flag": 0, "receiver": 0, "sender_name": "", "is_room": 1, "server_id": 15318083, "send_time": 1687688952, "sender": 1688855749266556, "referid&…

编程范式之函数式编程

目录 前言1. 函数式编程的定义2. 函数式编程的特点2.1 纯函数2.2 不可变性2.3 高阶函数2.4 惰性求值 3. 函数式编程的应用场景3.1 并行计算3.2 数据分析3.3 Web开发 4. 函数式编程的优缺点4.1 优点4.2 缺点 5. 代表性的编程语言5.1 Haskell5.2 Scala5.3 Clojure 6. 示例代码结语…

Android手机恢复出厂设置后可以恢复数据吗?

“我有一台小米 8 Lite,上周我收到了 OTA 更新作为通知。在执行此操作时,手机崩溃并进入启动循环。没有办法检索数据,所以我最终擦除了它。现在,我想问一下是否真的有任何有用的应用程序/程序可以在恢复出厂设置后从Android手机恢…

大厂面试:算法考前必看汇总(全)

hello hello~ ,这里是绝命Coding——老白~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页:绝命Coding-CSDN博客 &a…

温度传感器的常见故障及处理方法

温度传感器作为现代工业、科研及日常生活中不可或缺的重要元件,其稳定性和准确性直接影响到设备的运行效率和安全。然而,由于各种因素的影响,温度传感器在使用过程中常会遇到一些故障。本文将针对这些常见故障进行分析,并提出相应…

Codeforces Round #956 (Div. 2) and ByteRace 2024(A~D题解)

这次比赛也是比较吃亏的,做题顺序出错了,先做的第三个,错在第三个数据点之后,才做的第二个(因为当时有个地方没检查出来)所以这次比赛还是一如既往地打拉了 那么就来发一下题解吧 A. Array Divisibility …

数据结构与算法:顺序表和链表

目录 一、线性表 二、顺序表 三、链表 一、线性表 线性表( linear list )是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构,常见的线性表:顺序表、链表、栈、队列、字符串... 线性表在逻辑上是线…

IC认证介绍

IC认证是什么? IC是加拿大工业部Industry Canada的简称,作为政府机构,负责电子电器产品进入加拿大市场的认证事务。与美国的FCC相似,IC目前只在电磁干扰上做限制。一般规定:仅限制EMI,认证方式也与FCC相同…

idea http client插件上传文件,并忽略https证书验证

上传文件 ### 传临时素材 图片 POST https://qyapi.weixin.qq.com/cgi-bin/media/upload?access_token{{access_token}}&typeimage Content-Type: multipart/form-data; boundary----WebKitFormBoundarywKUX3Xj6aL5Wssnb------WebKitFormBoundarywKUX3Xj6aL5Wssnb Conten…