GLM-4-9B性能究竟如何?

news2024/11/18 20:43:11

GLM-4-9B 开源系列模型

前言

QQ截图20240605201737.png

自 2023 年 3 月 14 日 ChatGLM-6B 开源以来,GLM 系列模型受到广泛认可。特别是在 ChatGLM3-6B 开源后,针对让小模型能够拥有更为强大的能力这一目标,GLM 技术团队展开了诸多的探索性工作。历经将近半年的探索历程,他们成功推出了第四代 GLM 系列的开源模型,即 GLM-4-9B。

介绍GLM-4-9B

QQ截图20240605201931.png

GLM-4-9B在预训练时引入大语言模型进入数据筛选流程,获得 10T 高质量多语言数据,数据量超 ChatGLM3-6B 模型 3 倍多,且采用 FP8 技术高效预训练,训练效率比第三代模型提高 3.5 倍。考虑多数用户显存大小后,将模型规模提升至 9B,预训练计算量增加 5 倍。

综合各种技术升级和经验,GLM-4-9B 模型有更强推理性能、更长上下文处理能力、多语言、多模态和 All Tools 等突出能力。其系列包括基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。

基于强大预训练基座,GLM-4-9B 的中英文综合性能比 ChatGLM3-6B 提升 40%,在一些方面如 AlignBench、IFeval、Natural Code Bench 等显著提升,对比 Llama 3 8B 模型也不逊色,中文学科方面提升达 50%。其上下文从 128K 扩展到 1M tokens,可处理约 200 万字输入。GLM-4-9B-Chat-1M 模型在 1M 上下文长度下进行“大海捞针”实验显示出出色无损处理能力。

多语言方面支持 26 种语言,还改进了 tokenizer 词表大小,编码效率提高 30%,在多语言测试中显著超越 Llama-3-8B-Instruct。Function Call 能力大幅升级,与 GPT-4 相当。All Tools 能力即能理解和使用一系列外部工具,GLM-4 模型已升级此能力,GLM-4-9B 也具备,且开源仓库有完整 All Tools Demo。

同时,还首次推出基于 GLM 基座的开源多模态模型 GLM-4V-9B,采用类似 CogVLM2 架构设计,能处理高分辨率输入,通过降采样减少 token 开销,未引入额外视觉专家模块,直接混合文本和图片数据训练,性能优势明显,在一些任务中与 GPT-4V 不相上下。

总结

​GLM 技术团队经近半年努力推出 GLM-4-9B 开源模型,它具有更强推理性能、更长上下文处理等突出能力和诸多特点,这也展示出了GLM团队在AI方面的成果。

如果你对算力感兴趣或有需求,可以来厚德云官方看看!厚德云是专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1792074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么要做与运算?网关如何和ip做与运算?

在计算机网络中,“与运算”是一个基本而重要的概念,尤其在IP地址和子网掩码的处理中起着关键作用。本文将解释为什么要进行与运算,以及网关如何和IP地址进行与运算。 为什么要做与运算? 1. 确定网络地址 与运算(AND…

PhpSpreadsheet表格导出

个人笔记记录 使用PhpSpreadsheet 导出excel。 多重表头生成excel 表 //读取数据库public function demo1(){// 连接数据库$config Config::get(databaseedc);$db Db::connect($config);$data $db->name("xxxx")->alias(a)->field(main_header, sub_hea…

在 Win系统安装 Ubuntu20.04子系统 WSL2 (默认是C盘,第7步开始迁移到D盘,也可以不迁移)

1、简介 WSL在Windows 10上原生运行Linux二进制可执行文件,不用单独安装虚拟机。 WSL2是WSL的第二个版本,提供了与WSL相比的显著性能改进和完全的系统呼叫兼容性。通过运行Linux内核在一个轻量级虚拟机(VM)中实现。 2、安装 电…

SAP PP学习笔记14 - MTS(Make-to-Stock) 按库存生产(策略10),以及生产计划的概要

上面讲了SAP里面的基础知识,BOM,作业手顺(工艺路线),作业区(工作中心),MRP,MPS等概念,现在该到用的时候了。 SAP PP学习笔记07 - 简单BOM,派生BO…

将单列数据帧转换成多列数据帧

文章目录 1. 查看数据文件2. 读取数据文件得到单例数据帧3. 将单列数据帧转换成多列数据帧 在本次实战中,我们的目标是将存储在HDFS上的以逗号分隔的文本文件student.txt转换为结构化的Spark DataFrame。首先,使用spark.read.text读取文件,得…

金融行业数字化上云及信创改造过程中的一些问题及解决方案|合集①

Q:对金融机构来讲,什么是一切业务运行的前提? 金融机构的业务连续性对系统的稳定性要求极高。任何系统故障都可能导致严重的业务中断和经济损失。因此,金融机构需要IT基础架构能够提供高稳定性的服务,确保业务的连续运…

[沫忘录]MySQL InnoDB引擎

[沫忘录]MySQL InnoDB引擎 逻辑存储结构 InnoDB采用 “表、段,区, 页、行” 这样的层级结构进行存储。 **表空间(tablespace)**ibd文件,主要用于存储记录、索引等数据,一个mysql实例可有多个表空间,甚至能通过innodb…

.NET周刊【6月第1期 2024-06-02】

国内文章 一文带你了解.NET能做什么? https://www.cnblogs.com/Can-daydayup/p/18214473 .NET是一个免费、开源、跨平台的开发平台框架,广泛应用于桌面、Web、移动、云服务、游戏、物联网、大数据和人工智能等领域开发。它支持C#、Visual Basic、F#等…

SSL代码签名最佳实践

代码签名就是软件发布者使用全球可信的证书颁发机构CA颁发的代码签名证书对软件代码进行签名,由此来验证软件开发者的真实身份,确保软件代码的完整性和可信任性。然而,攻击者一直试图渗透代码签名,意将恶意软件嵌入可信代码中。由…

finalshell刚连上就断,这个参数你注意到了吗

在实际应用中可能一不下心弄错一个参数就会让你的finalshell刚连上就断,如下图所示。 1、进入ssh目录下,修改ssh_config文件 2、修改UseDNS no,并把前面的#去掉。 注:如果在ssh_config文件见不到UseDNS yes ,可以打开sshd_config,他们是在…

视频怎么压缩变小?推荐三个压缩方法

视频怎么压缩变小?在数字时代,视频已成为我们日常生活和工作中不可或缺的一部分。然而,随着视频质量的提升,视频文件的大小也随之增加,这给存储和分享带来了不小的挑战。幸运的是,市面上有许多视频压缩软件…

Java学习笔记 集合的使用

在实际的项目中开发过程中,会有很多的对象,如何高效、方便的管理这些对象,是影响程序性能与可维护性的重要环节。在Java语言中为这个问题提供了一套完美的解决方案,也就是接下来要介绍的集合框架。 1.1 集合框架的结构 从Collect…

什么是 Batch Normalization 批标准化和全连接层

Batch Normalization 神经元在经过激活函数之后会处于饱和状态,无论后续怎么变化都不会再起作用。 每一层都会进行batch normalization的处理! without normalization 会导致数据分布再饱和区 全连接层: 全连接层(fully connected layers&a…

DPDK基础组件一(mbuf、ring、pktmbuf_pool)

一、rte_mbuf 此部分转自:https://zhuanlan.zhihu.com/p/616314276 1.mbuf结构 mbuf是报文中的描素的结构体,是整个转发过程中最核心的数据结构之一。主要针对于mbuf的常用API与基本原理做一个简单的介绍。 mbuf:报文内存存储结构,存储在mempool中mempool:使用环形缓冲…

【kubernetes】k8s集群中的ingress(对外服务)规则详解

目录 一、Ingress 简介 1.1service的作用 1.2外部访问方案 (四种)🌹🌹🌹 部署externalIPs 1.3Ingress 是什么 二、Ingress 组成🌹🌹🌹 三、Ingress 工作原理🐱&#x1f…

一维时间序列信号的小波时间散射变换(MATLAB 2021)

小波散射变换的目的在于获取第一层次的特征信息,即免疫平移、轻微形变的信息。而低通的滤波器能够获取输入信号的概貌,获取反映其整体大尺度特征的信息,以图像为例,由低通滤波器选取的信号对于图像的平移、伸缩、旋转等局部变化有…

【QT5】<总览二> QT信号槽、对象树及样式表

文章目录 前言 一、QT信号与槽 1. 信号槽连接模型 2. 信号槽介绍 3. 自定义信号槽 二、不使用UI文件编程 三、QT的对象树 四、添加资源文件 五、样式表的使用 六、QSS文件的使用 前言 承接【QT5】<总览一> QT环境搭建、快捷键及编程规范。若存…

计算机发展史 | 从起源到现代技术的演进

computer | Evolution from origins to modern technology 今天没有参考资料哈哈 PPT:(评论区?) 早期计算工具 算盘 -算盘是一种手动操作的计算辅助工具,起源于中国,迄今已有2600多年的历史,是…

告别鼠标:蓝牙无线安卓模拟鼠标,绘图板,手写板操作电脑PC端,卡卡罗特也说好,儿童节快乐

家人们,上链接了:https://download.csdn.net/download/jasonhongcn/89387887 横屏模式: 竖屏模式: 操作说明: 1. 手势滑动模拟鼠标移动 2. 界面如果有滚动条,右手指按紧,通过左手指移动实现…

智慧医疗新纪元:可视化医保管理引领未来

在数字化浪潮席卷全球的今天,我们的生活正在经历前所未有的变革。其中,智慧医保可视化管理系统就像一股清新的风,为医疗保障领域带来了全新的活力与可能。 想象一下,在繁忙的医院里,患者和家属不再需要为了查询医保信息…