智谱GLM-4-9B,超越Llama3,多模态媲美GPT4V

news2024/10/7 6:51:26
前言

在 2023 年 3 月发布开源对话模型 ChatGLM-6B 后,智谱 AI 迅速成为国内外开源大模型领域的重要力量。今年 6 月,智谱 AI 再次发力,开源了其第四代 GLM 系列模型 —— GLM-4-9B,并首次加入了多模态能力。该模型不仅在性能上超越了 Llama 3 8B,更在多模态能力方面展现出与 GPT-4V 相媲美的实力。

  • Huggingface模型下载:https://huggingface.co/collections/THUDM/glm-4-665fcf188c414b03c2f7e3b7

  • AI快站模型免费加速下载:https://aifasthub.com/models/THUDM

技术特点

GLM-4-9B 采用了多项技术创新,使其在性能和功能上取得了重大突破:

  • 10T 高质量多语言数据: 智谱 AI 在预训练阶段引入了大语言模型参与数据筛选,最终获得了 10T 高质量多语言数据,是 ChatGLM3-6B 模型的 3 倍以上。这一突破性的数据量提升了模型的理解和生成能力,特别是多语言理解和生成能力。

  • FP8 技术提升训练效率: 为了提升训练效率,智谱 AI 采用了 FP8 技术进行高效的预训练,相较于第三代模型,训练效率提升了 3.5 倍。FP8 是指使用 8 位浮点数进行模型训练,相比传统的 32 位浮点数,能够显著减少显存占用和计算量,从而加速训练速度。

  • 模型规模提升: 为了在有限显存的情况下探索性能的极限,智谱 AI 将模型规模提升至 9B,并将预训练计算量增加了 5 倍。这进一步提升了模型的性能,使其能够处理更复杂的任务,并生成更高质量的文本和图像。

  • 长文本处理能力: GLM-4-9B 模型的上下文长度从 128K 扩展到了 1M tokens,这意味着模型能够同时处理 200 万字的输入,相当于两本红楼梦或者 125 篇论文的长度。这得益于智谱 AI 在模型架构和训练方法上的改进,使得模型能够更有效地处理长文本,并保持较高的准确性和效率。

  • 多语言能力: GLM-4-9B 支持包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语、波兰语、日语、荷兰语、阿拉伯语、土耳其语、捷克语、越南语、波斯语、匈牙利语、希腊语、罗马尼亚语、瑞典语、乌克兰语、芬兰语、韩语、丹麦语、保加利亚语和挪威语在内的 26 种语言。智谱 AI 通过扩展词表大小,并对多语言数据进行专门的训练,使得模型在多语言理解和生成任务上取得了显著的提升。

  • Function Call 能力: ChatGLM3-6B 模型的函数调用一直广受各大开发者喜爱。GLM-4-9B 模型的函数调用能力更上一层楼,相比上一代提升了 40%,在 Berkeley Function-Calling Leaderboard 上,GLM-4-9B 模型的 Function Call 能力与 GPT-4 不相上下。函数调用能力是衡量模型理解和执行代码的能力,这一提升使得 GLM-4-9B 能够更加灵活地处理用户请求,并能够完成更加复杂的任务。

  • All Tools 能力: “All Tools”即模型能够理解和使用一系列外部工具(比如代码执行、联网浏览、画图、文件操作、数据库查询、API 调用等)来辅助回答问题或完成任务。GLM-4-9B 模型支持 All Tools 功能,并提供了完整的 All Tools Demo,用户可以在本地拥有一个轻量级的清言平替。

  • 多模态能力: 智谱 AI 首次推出了基于 GLM 基座的开源多模态模型 GLM-4V-9B。该模型采用了与 CogVLM2 相似的架构设计,能够处理高达 1120 x 1120 分辨率的输入图片,并通过降采样技术有效减少了 token 的开销。为了减小部署与计算开销,GLM-4V-9B 没有引入额外的视觉专家模块,而是采用了直接混合文本和图片数据的方式进行训练,在保持文本性能的同时提升多模态能力。

性能表现

GLM-4-9B 在多个方面展现出优异的性能:

  • 基础能力提升: GLM-4-9B 的中英文综合性能相比 ChatGLM3-6B 提升了 40%,并在中文对齐能力 AlignBench、指令遵从 IFeval、工程代码 Natural Code Bench 等基准数据上都取得了非常显著的提升。对比训练量更大的 Llama 3 8B 也并不逊色,英文方面实现小幅领先,中文学科方面更是有着高达 50% 的提升。

  • 长文本处理: GLM-4-9B-Chat-1M 模型在 1M 的上下文长度下展现出了出色的无损处理能力。

  • 多语言能力: 评测显示,ChatGLM-4-9B 模型的多语言能力全面超过了 Llama-3 8B。

  • 多模态能力: 尽管 GLM-4V-9B 的参数量仅为 13B,但它成功地超越了许多参数量更大的开源模型,在众多任务中,GLM-4V-9B 的性能与 GPT-4V 不相上下。

应用场景

GLM-4-9B 的强大能力使其在多个领域具有广泛的应用场景:

  • 学术研究: 为研究者提供一个可复现、可解释的平台,推动大模型技术的发展。

  • 工业应用: 可以被应用于各种需要自然语言处理技术的行业,例如金融、医疗、电商等,为企业提供更加智能化的服务。

  • 个人用户: 可以为个人用户提供智能助手、创作工具等服务,提升生活效率和娱乐体验。

总结

智谱 AI 开源 GLM-4-9B,标志着中国开源大模型技术取得了新的突破。该模型在性能和功能方面都展现出强大的优势,并首次加入了多模态能力,为大模型技术发展注入了新的活力。未来,智谱 AI 将持续发展和优化 GLM 系列模型,为更多用户提供更优质、更便捷的服务。

模型下载

Huggingface模型下载

https://huggingface.co/collections/THUDM/glm-4-665fcf188c414b03c2f7e3b7

AI快站模型免费加速下载

https://aifasthub.com/models/THUDM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1834197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件改为开机自启动

1.按键 win R,输入“shell:startup”命令, 然后就可以打开启动目录了,如下: 2.然后,把要开机启动的程序的图标拖进去即可。 参考:开机启动项如何设置

Table 布局的妙用 - 多行联动布局

1. 前言 最近产品需求遇到一个布局的问题, 大致是两列, 两行的关系, 左侧的文案区域的高度根据右侧内容的高度自动撑满, 左侧文案的宽度根据左侧单元格的最大宽度来适配, 大致如下: 我们通过一般用DIVCSS的…

《汇编语言程序设计》例子之查找最大数

以下是第5章中讲到的 CMOV 的指令的例子,原来的源码是这样的: # cmovtest.s - An example of the CMOV instructions .section .data output:.asciz "The largest value is %d\n" values:.int 105, 235, 61, 315, 134, 221, 53, 145, 117, 5 …

一看就会!Win11文件资源管理器的打开方法!

在Win11电脑操作中,用户可以借助文件资源管理器轻松管理文件或文件夹。但是,许多新手用户不知道要怎么操作才能顺利打开文件资源管理器?接下来小编给大家介绍五种简单快速的打开Win11系统文件资源管理器的方法。 方法 1:WindowsE …

在无人问津时买入,在人声鼎沸时离开

标题今天看到钉大的公众号里面看到的。 在无人问津时买入,在人声鼎沸时离开。 现在应该就是无人问津时。 我从2019年8月开始定投,在2021年1月和2021年7月分别两次达到了收益最高点,之后就一路下跌,到现在已经跌了两年半了。收益…

LDO电容选型指南

1 为什么电容的选择至关重要 电容往往被人们所忽视,在许多工程师的心目中,电容不过是两个导体加上中间的隔离电解质。总而言之,它们属于最低级的电子元件之一。 工程师们通常通过添加一些电容的办法来解决噪声问题。这是因为他们普遍将电容视…

数学学习与研究杂志社《数学学习与研究》编辑部2024年第6期目录

课改前沿 基于核心素养的高中数学课堂教学研究——以“直线与圆、圆与圆的位置关系”为例 张亚红; 2-4 核心素养视角下初中生数学阅读能力的培养策略探究 贾象虎; 5-7 初中数学大单元教学实践策略探索 耿忠义; 8-10《数学学习与研究》投稿:cn7kantougao…

ChatGPT付费创作系统V3.0.2独立版 WEB+H5+小程序端 (H5端界面美化+Pika视频作品广场+SunoAI 文生歌)系统部署教程

播播资源GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序,是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。当前全民热议ChatGPT,流量超级大,引流不要太简单!一键下单即可拥有自己的GPT!无限…

AI视频分析预警系统

AI视频分析预警系统是一个基于深度学习算法和图像处理技术的软硬件一体化人工智能分析预警系统。该系统能够主动识别和分析视频内容,以识别关键事件和可疑活动,并在必要时发出预警。以下是关于AI视频分析预警系统的主要特点和功能: 系统构成 …

Android 大话binder通信 (上)

戳蓝字“牛晓伟”关注我哦! 用心坚持输出易读、有趣、有深度、高质量、体系化的技术文章 本文摘要 用故事的方式把binder通信的整个过程都描述出来,binder通信都经历了哪些节点,在这些节点上的数据有哪些变化,同时还对binder通…

vue3组合式api的正确用法

组合式函数Composables 打开你的vscode, 随便粘贴复制出一段代码,你会看见是这种吧。 在复杂的业务逻辑的压力下,很容易就会写出这种流水账代码,更糟糕的是可能会有类似于使用一个reactive包裹页面中所有数据,然后在按顺序写me…

关于百度seo不得不说的几点

在2023年之前,百度的seo还是很好做的。但现在可以说百度seo已经没啥价值了。不信你搜索几个关键词看看首页的排名状况就知道了。首页位置除了广告基本上都是给你百度自家的产品和一些合作的大平台网站,给独立小站点没有留下一点点空间。 现在做百度seo&…

基于深度学习网络的USB摄像头实时视频采集与手势检测识别matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 系统架构 4.2 GoogLeNet网络简介 4.3 手势检测 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 训练过程如下: 将摄像头对准手势,然后进行…

Java基础学习-方法

目录 方法基础概念 方法的格式: 案例:最简单方法的定义 案例:带参数的方法调用 案例:求圆的面积 带有返回值的方法: 方法注意点 方法的重载: ​编辑 案例:数组的遍历: 案例…

2024.6.17 作业 xyt

今日作业: 升级优化自己应用程序的登录界面。 要求: 1. qss实现 2. 需要有图层的叠加 (QFrame) 3. 设置纯净窗口后,有关闭等窗口功能。 4. 如果账号密码正确…

如何使用GPT-4 生成高效实用的PPT

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

【Linux】Jenkins Pipeline流水线详解及基于Jenkins流水线实现自动更新项目(实战)

👨‍🎓博主简介 🏅CSDN博客专家   🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入&#xff01…

传感器在智能家居中的应用

在物联网时代,智能家居成为人们生活中的重要组成部分。而传感器作为实现智能家居的基础设备,起到了关键的作用。不同类型的传感器能够获取环境中的各种参数,并通过物联网技术实现与智能家居系统的连接。例如,温度传感器可以实时监…

华为OD机试 - 火星文计算2(Java 2024 D卷 100分)

华为OD机试 2024D卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(D卷C卷A卷B卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

stm32学习-软件I2C读取MPU6050

接线 SDAPB11SCLPB10 I2C 对操作端口的库函数进行封装 void MyI2C_W_SCL(uint8_t BitValue)//写 {GPIO_WriteBit(GPIOB, GPIO_Pin_10, (BitAction)BitValue);Delay_us(10); }void MyI2C_W_SDA(uint8_t BitValue)//写 {GPIO_WriteBit(GPIOB, GPIO_Pin_11, (BitAction)BitValu…