LLMC：大语言模型压缩工具的开发实践

LLMC：大语言模型压缩工具的开发实践

news2025/4/8 18:33:39

关注：青稞AI，学习最新AI技术
青稞Talk主页：qingkelab.github.io/talks

大模型的进步，正推动我们向通用人工智能迈进，然而庞大的计算和显存需求限制了其广泛应用。模型量化作为一种压缩技术，虽然可以用来加速大模型并且有效降低显存需求，但量化后也可能会带来精度风险。

在这里插入图片描述

在由北航、商汤、南洋理工等团队联合推出的即插即用的大模型压缩工具包：LLMC中，不仅支持DeepSeekv2(2.5)等MOE模型以及Qwen2VL、Llama3.2等VLM模型的量化，还支持包括整型量化、浮点量化等量化方案，以及AWQ、GPTQ、SmoothQuant 和 Quarot 等先进量化算法。

LLMC可以利用最先进的压缩算法提高效率并减少模型体积，同时不影响预测精度。目前已开源，大家可以直接使用

https://github.com/ModelTC/llmc

12月16日晚8点，青稞Talk第32期，商汤科技研究院谷石桥和雍洋两位模型压缩研究员，将对LLMC进行直播分享，主题为《LLMC：大语言模型压缩工具的开发实践》。

他们将从工具框架设计，常用算法解读和工具使用方式等角度，为大家详细讲解LLMC及实践，希望大家可以从中获益。

主讲嘉宾

谷石桥，商汤科技研究院模型压缩研究员，毕业于天津大学，现主要研究方向为深度学习的模型压缩技术，目前已在EMNLP，PatternRecognition, TCSVT等发表多篇论文。

雍洋，商汤科技研究院模型压缩研究员，毕业于西安交通大学，现主要研究方向为深度学习的模型压缩技术，目前已在AAAI，EMNLP，ACM MM等发表多篇论文。

主题提纲

LLMC：大语言模型压缩工具的开发实践

1、大模型压缩及量化风险

2、大模型压缩包 LLMC 的框架设计

3、LLMC 落地实践和推理后端部署

4、自定义扩展新算法、模型及评测数据

直播时间

12月16日（周一）20:00 - 21:00

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2259658.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Linux】常用Linux命令大全（持续更新）

【Linux】常用Linux命令大全（持续更新）

前言汇总常用linux命令及用法，方便大家在日常工作中操作linux的便捷性一、top命令 top 是一个在 Linux 系统上常用的实时系统监控工具。它提供了一个动态的、交互式的实时视图，显示系统的整体性能信息以及正在运行的进程的相关信息在键入top命令…

阅读更多...

VLC还是SmartPlayer？Windows平台RTSP播放器低延迟探讨

VLC还是SmartPlayer？Windows平台RTSP播放器低延迟探讨

技术背景好多开发者在用过大牛直播SDK的RTSP播放器后，都希望我们也分享下，如何在Windows平台实现低延迟的RTSP播放？低延迟的RTSP播放器，说起来容易做起来难，下面，我们从以下维度做个探讨： 播…

阅读更多...

28. Three.js案例-创建圆角矩形并进行拉伸

28. Three.js案例-创建圆角矩形并进行拉伸

28. Three.js案例-创建圆角矩形并进行拉伸实现效果知识点 WebGLRenderer (WebGL渲染器) WebGLRenderer 是 Three.js 中用于渲染 3D 场景的主要渲染器。构造器 WebGLRenderer( parameters : Object ) 参数类型描述parametersObject渲染器的配置参数，可选。 …

阅读更多...

启明智显ZX7981PC：5G时代的新选择，全屋网络无缝覆盖

启明智显ZX7981PC：5G时代的新选择，全屋网络无缝覆盖

在这个飞速发展的5G时代，每一个细微的科技进步都在推动着我们的生活向更加智能、便捷的方向发展。近日，启明智显再次引领科技潮流，正式发布其最新的5G CPE产品——ZX7981PC。作为继7981PG与7981PM之后的又一次迭代升级，ZX7981PC凭…

阅读更多...

Qt控件的盒子模型，了解边距边线和内容区

Qt控件的盒子模型，了解边距边线和内容区

这篇专门讲讲一个控件在绘制时的视觉样式。我们平常在对控件设置样式时，需要设置控件的一些外边距，内边距，边线，还有文字内容，贴上图片等。那么对于一个控件，到底怎么实现这些设置的呢？ 先看下面…

阅读更多...

docker简单私有仓库的创建

docker简单私有仓库的创建

1：下载Registry镜像导入镜像到本地中 [rootlocalhost ~]# docker load -i registry.tag.gz 进行检查 2：开启Registry registry开启的端口号为5000 [rootlocalhost ~]# docker run -d -p 5000:5000 --restartalways registry [rootlocalhost ~]# dock…

阅读更多...

操作系统（5）进程

操作系统（5）进程

一、定义与特点定义：进程是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。特点： 动态性：进程是动态创建的，有它自身的生命周期，…

阅读更多...

OLLAMA+FASTGPT+M3E 大模型本地化部署手记

OLLAMA+FASTGPT+M3E 大模型本地化部署手记

目录 1.安装ollama 0.5.1 2.下载大模型 qwen2.5 3b 3.开启WSL 4.更新wsl 5.安装ubuntu 6.docker下载 6.1 修改docker镜像源 6.2 开启WSL integration 7.安装fastgpt 7.1 创建fastgpt文件夹 7.2 下载fastgpt配置文件 8.启动容器 9.M3E下载 9.1 下载运行命令 9.2…

阅读更多...

[创业之路-190]：《华为战略管理法-DSTE实战体系》-2-华为DSTE战略管理体系概要

[创业之路-190]：《华为战略管理法-DSTE实战体系》-2-华为DSTE战略管理体系概要

目录一、DSTE战略管理体系与BLM的关系 1、DSTE战略管理体系概述 2、BLM模型概述 3、DSTE与BLM的关系二、重新认识流程 1. 流程就是业务本身，流程是业务过程的可视化： 2. 流程是业务最佳路径的经验教训总结： 3. 流程是战略知识资产、…

阅读更多...

强化学习路径规划：基于SARSA算法的移动机器人路径规划，可以更改地图大小及起始点，可以自定义障碍物，MATLAB代码

强化学习路径规划：基于SARSA算法的移动机器人路径规划，可以更改地图大小及起始点，可以自定义障碍物，MATLAB代码

一、SARSA算法概述 SARSA（State-Action-Reward-State-Action）是一种在线强化学习算法，用于解决决策问题，特别是在部分可观测的马尔可夫决策过程（POMDPs）中。SARSA算法的核心思想是通过与环境的交互来学习一…

阅读更多...

ABAQUS进行焊接仿真分析（含子程序）

ABAQUS进行焊接仿真分析（含子程序）

0 前言焊接技术作为现代制造业中的重要连接工艺，广泛应用于汽车、船舶、航空航天、能源等多个行业。焊接接头的质量和性能直接影响到结构件的安全性、可靠性和使用寿命。因此，在焊接过程中如何有效预测和优化焊接过程中的热效应、应力变化以及材料变形等问题，成为了焊接研…

阅读更多...

electron常用方法

electron常用方法

一，,electron设置去除顶部导航栏和menu 1，electron项目在创建BrowserWindow实例的main.js页面添加frame：false属性 2，electron-vue项目在src/main/index.js文件下找到创建窗口的方法（createWindow）&…

阅读更多...

location和重定向、代理

location和重定向、代理

location匹配的规则和优先级在nginx当中，匹配的对象一般是URI来匹配 http://192.168.233.62/usr/local/nginx/html/index.html 182.168.233.61/ location匹配的分类： 多个location一旦匹配其中之一，不在匹配其他location 1、精确匹配 …

阅读更多...

用拉普拉斯变换的方差算法实现相机自动对焦

用拉普拉斯变换的方差算法实现相机自动对焦

使用拉普拉斯变换的方差来计算图像的清晰度的主要原因是拉普拉斯算子可以有效检测图像的边缘和高频细节。图像的清晰度与边缘强度和高频分量的丰富程度密切相关，以下是更详细的解释： 1. 拉普拉斯算子的作用拉普拉斯算子是一种二阶导数算子，定义为：它可以在图像中检测快…

阅读更多...

【考前预习】3.计算机网络—数据链路层

【考前预习】3.计算机网络—数据链路层

往期推荐【考前预习】2.计算机网络—物理层-CSDN博客【考前预习】1.计算机网络概述-CSDN博客浅谈云原生--微服务、CICD、Serverless、服务网格_云原生cicd-CSDN博客子网掩码、网络地址、广播地址、子网划分及计算_子网广播地址-CSDN博客浅学React和JSX-CSDN博客目录 1.数…

阅读更多...

【Kafka】Kafka-Eagle 和 Kafka-UI 的安装使用

【Kafka】Kafka-Eagle 和 Kafka-UI 的安装使用

前言 Kafka Eagle 提供了完善的管理页面，可以监控 Kafka 集群的整体运行情况，很方便的去管理和可视化 Kafka 集群的一些信息，例如 Broker 详情、性能指标趋势、Topic 集合、消费者信息等，在生产环境中经常使用。一、MySQL 环境…

阅读更多...

HCIA-Access V2.5_2_2_2网络通信基础_IP编址与路由

HCIA-Access V2.5_2_2_2网络通信基础_IP编址与路由

网络层数据封装首先IP地址封装在网络层，它用于标识一台网络设备，其中IP地址分为两个部分，网络地址和主机地址，通过我们采用点分十进制的形式进行表示。 IP地址分类对IP地址而言，它细分为五类，A,B,C,D,E,…

阅读更多...

TÜLU 3: Pushing Frontiers inOpen Language Model Post-Training

TÜLU 3: Pushing Frontiers inOpen Language Model Post-Training

模型：https://huggingface.co/allenai 技术报告：https://allenai.org/papers/tulu-3-report.pdf 数据集：https://huggingface.co/collections/allenai/tulu-3-datasets-673b8df14442393f7213f372 GitHub：https://github.com/al…

阅读更多...

【卷积神经网络】LeNet实践

【卷积神经网络】LeNet实践

模型建立数据初始化根据模型搭建前向传播打印模型结构前向传播数据初始化 def __init__(self):super(LeNet, self).__init__()# 第一层卷积层：# 输入：灰度图像 (1通道，大小 28x28)# 输出：6个特征图 (大小 28x28, 通过padding2保…

阅读更多...

ubuntu20.04复现 Leg-KILO

ubuntu20.04复现 Leg-KILO

这里写目录标题 opencv版本问题下载3.2.0源代码进入解压后的目录创建构建目录运行 CMake 配置配置时指定一个独立的安装目录，例如 /opt/opencv-3.2：出错： 使用多线程编译错误1： stdlib.h: 没有那个文件或目录错误2：er…

阅读更多...

推荐文章

最新文章