源2.0-M32大模型发布4bit/8bit量化版! 运行显存仅需23GB,性能可媲美LLaMA3

news2024/11/16 5:36:48

        近日,浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

        源2.0-M32量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,通过采用领先的量化技术,将原模型精度量化至int4和int8级别,并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率,在不同硬件和软件环境中均能高效运行,降低了模型移植和部署门槛,让用户使用更少的计算资源,就能获取源2.0-M32大模型的强大能力。

        源2.0-M32大模型是浪潮信息“源2.0”系列大模型的最新版本,其创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型,大幅提升了模型算力效率。

        模型量化(Model Quantization)是优化大模型推理的一种主流技术,它显著减少了模型的内存占用和计算资源消耗,从而加速推理过程。然而,模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度,是量化技术面临的核心挑战。

        源2.0-M32大模型研发团队深入分析当前主流的量化方案,综合评估模型压缩效果和精度损失表现,最终采用了GPTQ量化方法,并采用AutoGPTQ作为量化框架。为了确保模型精度最大化,一方面定制化适配了适合源2.0-M32结构的算子,提高了模型的部署加载速度和多线程推理效率,实现高并发推理;另一方面对需要量化的中间层(inter_layers)进行了严格评估和筛选,确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别,在模型精度几乎无损的前提下,提升模型压缩效果、增加推理吞吐量和降低计算成本,使其更易于部署到移动设备和边缘设备上。

        评测结果显示,源2.0-M32量化版在多个业界主流的评测任务中性能表现突出,特别是在MATH(数学竞赛)、ARC-C(科学推理)任务中,比肩拥有700亿参数的LLaMA3大模型。

        总之,源2.0-M32大模型量化版在保持推理性能的前提下,显著降低了计算资源消耗和内存占用,其采用的GPTQ量化方法通过精细调整,成功将模型适配至int4和int8精度级别。通过定制化算子优化,源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升,确保在不同硬件和软件环境中均能高效运行。未来,随着量化技术的进一步优化和应用场景的拓展,源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用,为用户提供更高效的智能服务。

源2.0-M32量化版已开源,下载链接如下:

Hugging Face平台下载链接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4

https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平台下载链接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

始智AI平台下载链接:

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-gguf-int4

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf-int4

https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066929.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

删除Eureka注册中心已经注册的服务

1.登录Eureka查看需要删除的服务。 2.使用postman或者apipost工具,请求方式DELETE, 接口地址输入:eureka的ip地址/eureka/apps/ Application / Status 例如: http://192.168.194.60:8761/eureka/apps/VUE-MANAGER-SERVICE/10.42.0.138:vue-manager…

酷家乐 同盾滑块分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 有相关问题请第一时间头像私信联系我…

【Hot100】LeetCode—114. 二叉树展开为链表

目录 1- 思路技巧——借助指针 2- 实现⭐114. 二叉树展开为链表——题解思路 3- ACM 实现 原题连接:114. 二叉树展开为链表 1- 思路 技巧——借助指针 思路:通过 ① 将左子树的右下结点的 .next ——> 拼接到当前节点的右子树上。 构造 cur 指针&a…

KPaaS还是ESB?怎样选择合适的集成方案?

在全球经济一体化和数字化转型的背景下,企业正面临着前所未有的挑战与机遇。随着业务的快速发展,企业内部的信息系统日益复杂,系统间的信息孤岛、系统割裂以及高昂的维护成本等问题逐渐凸显,严重制约了企业的创新能力和市场竞争力…

Live800:以数据驱动的客户服务优化,精准洞察,超越期待

在当今这个数字化时代,企业之间的竞争已不仅仅局限于产品本身的质量与功能,更在于如何通过卓越的客户服务体验来赢得客户的忠诚与信赖。数据,作为这一转型过程中的核心驱动力,正引领着客户服务向更加精准、高效、个性化的方向迈进…

3ds Max - 导出顶点色模型

很久之前的笔记,整理归档; 在3ds Max中,给模型添加VetexPaint修改器后,可以给模型(顶点色通道R\G\B默认值为255\255\255)刷不同颜色的顶点色(默认为黑色,即让RGB通道都为0&#xff0…

最新SD换脸插件ReActor,视频换脸全流程!流畅丝滑!(附插件及安装报错说明)

在今天,我给大家继续分享一个使用“ReActor”插件来进行视频换脸的案例。 视频换脸的思路其实也很简单,其实就是把视频的每一帧都提取出来,然后把每一帧的图片都进行换脸,最后重新把这些图片重新合成一个视频。 废话不多说&…

下载bison操作步骤

bison官网链接 bison-3.8.2官网源代码下载链接 选择下载版本

strchr 和 strrchr

char *strchr(const char *s, int c); 在 s 中查找第一次出现字符c的位置,返回指向找到的位置,找不到返回null。 char *strrchr(const char *s, int c); 在 s 中查找最后一次出现字符c的位置,返回指向找到的位置,找不到返回null。…

用Python插入SVG到PDF文档

将SVG(可缩放矢量图形)文件插入到PDF(便携式文档格式)文件中不仅能够保留SVG图像的矢量特性,确保图像在任何分辨率下都保持清晰,还能够充分利用PDF格式在跨平台文档分享方面的优势,使得技术文档…

解决 mfc140.dll 文件丢失的问题,5种mfc140.dll解决方法

当您尝试启动一个用 Microsoft Visual Studio 2015 开发的 Windows 应用程序时,如果出现“无法找到 mfc140.dll 文件”的错误,请不要紧张。这类问题通常由DLL文件缺失、损坏或未正确安装引起。好消息是,存在多种解决方案可以帮助您解决这一挑…

打卡学习Python爬虫第五天|Xpath解析的使用

什么是Xpath?是在XML文档中搜索内容的一门语言,HTML可以看作是xml的一个子集。 目录 1、安装lxml模块 2、导入lxml中的etree子模块 3、Xpath使用方法 3.1.选择节点 3.2.选择属性 3.3.选择文本内容 3.4.使用通配符*过滤节点 3.5.使用中括号[]索引…

半个小时写一个自动发朋友圈的工具

最近一直在完善我的手控达人系统,解决了很多难题。白天没事时想思路,晚上写代码验证。这不昨天又加了一个发朋友圈功能。自动发朋友圈,点赞功能。 效果请看:【微信自动发朋友圈,一键发朋友圈,点赞,金币&…

鸿道Intewell操作系统国产ARM生态:芯驰D9(9360)

随着全球经济环境的变化和国家政策的推动,国产操作系统和芯片产业正在迅速发展,成为提升国家竞争力的关键因素。国产工业操作系统与国产芯片的发展对于推动国内工业的自主可控和技术创新具有重要意义。 鸿道Intewell操作系统国产ARM生态:芯驰…

【ACM稳定出版,高录用稳检索】第八届电子信息技术与计算机工程国际学术会议(EITCE 2024,10月18-20)

第八届电子信息技术与计算机工程国际学术会议(EITCE 2024)将于2024年10月18日至20日在中国海口举办。 本次会议旨在汇集全球电子信息技术与计算机工程领域的学者、科研专家及行业实践者,共同探讨该领域的最新研究成果、技术进展与学术动态。会…

工业排污检测算法实际算法应用算法价值算法源码、算法样本展示

工业排污检测算法识别是环境保护领域的一项重要技术手段,它结合了图像识别、声音识别、数据分析等多种先进技术,以实现对工业排污行为的全面监测和准确分析。以下是关于工业排污检测算法识别的详细阐述: 一、算法原理 工业排污检测算法通过…

YOLOv9改进策略【注意力机制篇】| 引入SimAM注意力模块(一个简单的,无参数的卷积神经网络注意模块)

一、本文介绍 本文记录的是基于SimAM注意力模块的YOLOv9目标检测方法研究。SimAM注意力模块通过优化能量函数来获得每个神经元的三维权重,而无需引入额外的参数或增加计算复杂度。若是有轻量化需求的小伙伴,无参的注意力模块也许是一个不错的选择。 文章…

MATLAB 手动实现体素中心点采样抽稀法(72)

. 往期文章回顾 MATLAB 自定义体素中心点采样抽稀法(72) 一、算法简介二、算法实现1.代码2.效果总结一、算法简介 下面是手动实现的体素采样法,用于对点云数据抽稀,减少点云数量,具体的方法就是建立空间三维体素,每个内部存在点云的体素,选择体素中心点保留,最终得到…

使用kafka改造分布式事务

文章目录 1、kafka确保消息不丢失?1.1、生产者端确保消息不丢失1.2、kafka服务端确保消息不丢失1.3、消费者确保正确无误的消费 2、生产者发送消息 KafkaService3、UserInfoServiceImpl -> login()4、service-account - > AccountListener.java 1、kafka确保消…

电磁炮设计

视频链接: 电磁炮视频 项目简介 这个项目电磁炮主要是,测试电磁炮原理部分的简易制作,对原理有初步认识,升压电路采用的是boost电路,IGBT作为开关管,电解电容作为储能元件。 项目功能 本设计是基于STM32F4…