GGML简单介绍

news2025/1/2 3:09:51

GGML是一个用于机器学习的张量库,可以在商用硬件上实现大型模型和高性能。它被llama.cpp和whisper.cpp使用

C语言编写
16位浮点支撑
整数量化支持(如4位、5位、8位)
自动分化
内置优化算法(如ADAM, L-BFGS)
针对苹果芯片进行优化
在x86架构上利用AVX / AVX2的内在特性
通过WebAssembly和WASM SIMD的Web支持
无第三方依赖
运行时期间零内存分配
引导语言输出支持

随着自然语言处理(NLP)技术的不断发展,大型语言模型(LLM)如Llama2在多个领域展现出强大的潜力。然而,这些模型的计算需求通常很高,尤其是在推理阶段。为了解决这个问题,量化和在资源受限的环境中运行模型成为了研究的热点。GGML和LangChain是两个开源框架,它们可以帮助你在CPU上高效地运行量化的Llama2模型。

网站

ggml.aiicon-default.png?t=N7T8http://ggml.ai/ 

开源地址:https://github.com/ggerganov/ggml

Examples

Short voice command detection on a Raspberry Pi 4 using whisper.cpp

Simultaneously running 4 instances of 13B LLaMA + Whisper Small on a single M1 Pro

Running 7B LLaMA at 40 tok/s on M2 Max

llama-podcast-1-final-lq.gif

Here are some sample performance stats on Apple Silicon June 2023:

  • Whisper Small Encoder, M1 Pro, 7 CPU threads: 600 ms / run
  • Whisper Small Encoder, M1 Pro, ANE via Core ML: 200 ms / run
  • 7B LLaMA, 4-bit quantization, 3.5 GB, M1 Pro, 8 CPU threads: 43 ms / token
  • 13B LLaMA, 4-bit quantization, 6.8 GB, M1 Pro, 8 CPU threads: 73 ms / token
  • 7B LLaMA, 4-bit quantization, 3.5 GB, M2 Max GPU: 25 ms / token
  • 13B LLaMA, 4-bit quantization, 6.8 GB, M2 Max GPU: 42 ms / token
The ggml way
  • Minimal

    We like simplicity and aim to keep the codebase as small and as simple as possible

  • Open Core

    The library and related projects are freely available under the MIT license. The development process is open and everyone is welcome to join. In the future we may choose to develop extensions that are licensed for commercial use

  • Explore and have fun!

    We built ggml in the spirit of play. Contributors are encouraged to try crazy ideas, build wild demos, and push the edge of what’s possible

Projects
  • whisper.cpp

    High-performance inference of OpenAI's Whisper automatic speech recognition model

    The project provides a high-quality speech-to-text solution that runs on Mac, Windows, Linux, iOS, Android, Raspberry Pi, and Web

  • llama.cpp

    Inference of Meta's LLaMA large language model

    The project demonstrates efficient inference on Apple Silicon hardware and explores a variety of optimization techniques and applications of LLMs

Contributing
  • The best way to support the project is by contributing to the codebase

  • If you wish to financially support the project, please consider becoming a sponsor to any of the contributors that are already involved:

    • llama.cpp contributors
    • whisper.cpp contributors
    • ggml contributors
Company

ggml.ai is a company founded by Georgi Gerganov to support the development of ggml. Nat Friedman and Daniel Gross provided the pre-seed funding.

We are currently seeking to hire full-time developers that share our vision and would like to help advance the idea of on-device inference. If you are interested and if you have already been a contributor to any of the related projects, please contact us at jobs@ggml.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1819118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能:项目管理的新视角与未来影响

随着科技的飞速发展,人工智能(AI)已经从科幻小说中的概念变为现实生活中的强大工具。作为一名工作多年的项目管理人员,我深感AI在项目管理领域中的潜力和影响。在这篇文章中,我将从项目管理人员的角度,探讨…

晶圆代工市占洗牌,中芯跃居第三名 | 百能云芯

市场研究机构集邦咨询(TrendForce)最新发布的调查显示,今年第1季前五大晶圆代工厂第1季排名出现明显变动,除了台积电(TSMC)继续蝉联第一名,中芯国际(SMIC)受惠消费性库存…

视频媒介VS文字媒介

看到一篇蛮有思考意义的文章就摘录下来了,也引起了反思 目录 一、视频的定义 二、”视频媒介“与”文字媒介”作对比 1.形象 VS 抽象 2.被动 VS 主动 三、视频的缺点-【更少】的思考 1.看视频为啥会导致【更少的思考】 2.内容的【浅薄化】 3.内容的【娱乐化…

一文讲清:bom管理系统是什么?在生产管理中有什么作用?

在制造业中,物料清单(Bill of Materials,简称BOM)扮演着至关重要的角色。物料清单(BOM)是制造或维修产品所需的材料、组件和零件的结构化综合列表,以及所需材料的数量、名称、描述和成本。简而言…

【代码随想录】【算法训练营】【第36天】[452]用最少数量的箭引爆气球 [435]无重叠区间 [763]划分字母区间

前言 思路及算法思维,指路 代码随想录。 题目来自 LeetCode。 day 36,周三,最难坚持的一天~ 题目详情 [452] 用最少数量的箭引爆气球 题目描述 452 用最少数量的箭引爆气球 解题思路 前提:区间可能重叠 思路:…

对接钉钉Stream模式考勤打卡相关事件的指南

钉钉之前的accessToken是公司级别的,现在的accessToken是基于应用的,接口的权限也是基于应用的。所以第一步是在钉钉开放平台(https://open-dev.dingtalk.com/)创建一个应用。 创建好应用之后,因为我们后续还需要调用钉…

分布式事务seata之AT与TCC模型

1. seata分布式事务简介 seata是一款开源的分布式事务解决方案,致力于提供高性能和简单易用的分布式事务服务。 Seata提供了AT、TCC、SAGA和XA事务模型,为用户打造一站式的分布式解决方案。 简单来说,Seata就是针对主流事务解决方案的封装…

Unity:Text-TextMeshPro 不显示中文

共计四步: 一、去C盘复制一份字体: C:\Windows\Fonts二、粘贴到你的项目里(任意文件位置),得到“MSYH”: 三、右键字体文件,依次点击create–>TextMeshPro–>FontAsset: …

visdom使用时所遇的问题及解决方法

最近在用visdom进行可视化的过程中,虽然可有效的避免主机拒绝访问(该问题的解决方法,请参考深度学习可视化工具visdom使用-CSDN博客)即在终端输入python -m visom.server 1.训练过程中visdom出现ValueError: too many file descr…

科技项目验收测试必须进行吗?软件测试公司推荐

科技项目验收测试是指在科技项目开发周期中,对项目完成后进行的一种测试和评估工作。它的目的是验证项目是否达到预期的要求,并确保项目交付给客户前达到预期的质量标准。 一、科技项目验收测试的必要性   科技项目验收测试是项目管理中不可或缺的一个…

5.5 Python 迭代器与生成器

文章目录 1. 三元表达式1.1 格式1.2 示例1.3 嵌套 2. 生成式2.1 列表生成式2.2 字典生成式2.3 集合生成式2.4 元组生成式 3. 可迭代对象4. 迭代器4.1 迭代器的优缺点4.2 迭代器的惰性机制4.3 生成迭代器4.4 文本IO包装器4.5 字符串迭代器4.6 列表迭代器4.7 字典键迭代器4.8 元组…

怎么改图片尺寸更方便?在线图片改大小的使用方法

图片怎么快速改尺寸呢?在网上传图或者做其他用途时,经常会对图片的尺寸有要求,当拍摄或者制作的图片太大或者太小时,都会导致图片的无法正常使用,那么就需要按照规定将图片改大小之后才能正常使用。 在遇到图片修改大…

ui自动化中,隐式等待和显示等待什么时候使用

隐式等待 在页面刷新加载时,页面元素还没有出来,这个时候如果去找元素就会找不到报错 或者点了一个菜单,页面加载时 用笨办法,就是用sleep等待固定的时间,这种浪费的时间比较多,就可以用隐式等待&#xf…

酷暑骄阳,热情似火丨deepin校园联盟走进湖北大学,共话开源新篇章

内容来源:deepin(深度)社区 炎炎夏日,骄阳似火,6月11日,deepin校园联盟湖北大学站交流活动如期举行。在湖北大学计算机与信息工程学院,deepin(深度)社区研发工程师王溢学为热情似火的学子们开展…

打造地下管廊智慧监测解决方案-守护城市生命线|计讯物联

方案背景 地下综合管廊是城市基础设施的关键部分,即在城市地下建造一个隧道空间,将电力、通信,燃气、供热、排水等各种工程管线集于一体,被视为城市的“生命线”。随着城市化进程的加快,地下管线的数量、种类和密度不断…

动态规划:最长重复子数组

本题不算难,但是如果直接想dp数组怎么定义的话就会头晕,先想递推公式的含义就知道为什么需要冗余的dp[0][0]了 class Solution {public int findLength(int[] nums1, int[] nums2) {int res 0;//1.确定dp数组含义int[][] dp new int[nums1.length1][nu…

不懂产品和工艺的小白能学好FMEA吗?

在制造业的广阔天地里,FMEA(Failure Modes and Effects Analysis,失效模式与影响分析)一直被视为质量控制的关键武器。然而,很多人认为只有懂产品和工艺的行家才能玩转FMEA,对于小白来说似乎遥不可及。今天…

智慧环保一体化平台简介

据悉,环保问题日益受到人们的关注,智慧环保一体化平台作为解决环保问题的有力工具,正逐渐走进人们的视野。朗观视觉智慧环保一体化平台通过整合各类环保资源,实现环境数据的实时监测、分析与管理,为环境保护提供智能化…

windows10蓝屏原因自检记录

背景 跑训练的过程中电脑自动重启了,为了满足长期训练的需要,研究一下死机原因 查看系统日志 右键我的电脑——管理——系统工具——事件查看器——系统 检索级别为错误的内容,在死机时间附近查找相关日志,发现如下日志 计算机…

【第六篇】SpringSecurity的权限管理

一、权限管理的实现 服务端的各种资源要被SpringSecurity的权限管理控制可以通过注解和标签两种方式来处理。 放开了相关的注解后在Controller中就可以使用相关的注解来控制了 JSR250注解 /*** JSR250*/ @Controller @RequestMapping("/user") public class UserC…