GLM-4多模态重磅更新!摸着OpenAI过河!

news2024/11/6 9:27:55

智谱CEO张鹏说:OpenAI摸着石头过河,我们摸着OpenAI过河
摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗?

听到GLM-4发布的当天,我就去试用了一下GLM-4,毕竟是国内 全自研第四代基座大模型GLM-4!

实际体验

我依次测试了多模态、ALL Tools、个性化智能定制功能。

多模态

首先测试其图片理解能力,上传了一张猫片:

从结果来看,它基本上理解了这个图片的内容。

上传一张更复杂的图片试试呢?图片里有几个人?几个男人几个女人?

我也是学CV的,它答不准的原因在于底层图片识别、图像分割能力的不足,还需要继续努力。

为了测试它到底是不是真的理解图片里的含义,我上传了五环的图片,它成功的告诉我这个是五环,代表世界五大洲的团结和合作,赞!

All Tools

All Tools其实代表的是模型能否理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。

我首先提了一个问题来验证联网能力:

它通过联网搜索的方式给出了答案:

总体来说,给出的内容还算不错。

我想进一步看看它的信息整合能力如何,于是让它进行表格的整理,这次等待的时间比较长,因为联网搜索了很久···,甚至还超时失败了,最终也没成功。

代码解释(CodeInterpreter)能力如何呢?先问了一下运行环境,但是无法给出准确的内存限制等,只给出了一些支持的代码或者运行库,值得注意的是,在运行的代码里本身不能联网:

为了测试基本的代码能力,我让它进行python得文件读取和保存:

画图能力如何呢?尝试一个主体进行三种风格的爆改:

怎么说呢,虽然在细节方面还不够好,比不上Dalle-3、SD或者MJ,但是已经基本能够满足要求了。可以满足给小朋友或者简单场景的绘画需求。

GLMs个性化智能体定制

这个功能其实瞄准的就是GPTs了,甚至从官方公告上来看,未来GLMs也将开放出开发者权限,并且进行收益分成(但是现在有个问题,GLM本身是不收费的,怎么盈利分成呢?可能的答案是:进行会员收费;回答里嵌套广告)

MaaS平台和API

按照智谱AI官方的说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)

据智谱AI CEO张鹏介绍GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。 它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

此次发布的 GLM-4,在多个评测集上性能已接近或超过GPT-3.5,个别项目上几乎持平GPT-4。其中以下四个能力更新,是 GLM-4 最大的亮点:

  • 多模态能力:推出了CogView3代,效果超过开源SD模型,逼近 DALLE-3。
  • All Tools能力:GLM-4能自主理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。
  • GLMs个性化智能体定制:用户可以通过智谱清言官方网站创建属于自己的GLM智能体,无需编程基础。
  • MaaS平台和API:GLM-4登陆了Maas平台,提供API访问,支持开发者内测Assistant API。

数据指标

数据集表现

MMLU(Massive Multitask Language Understanding):评估大模型的对于知识的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能达到GPT4的94%

GSM8K(Grade School Math 8K):测试数学能力,小学数学和初中数学水平。GLM-4得分87.6,达到GPT-4的95%;

MATH:数学测试,涉及到一些较难的逻辑推理,GLM-4得分47.9,达到GPT-4的91%

BBH(Big Bench Hackathon):偏综合测试,比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3,达到GPT-4的99%水平

HellaSwag:偏常识测试,GLM-4得分85.4,达到GPT-4的90%水平

HumanEval:纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72,达到GPT-4的100%水平。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到 90%水平,超过GPT-3.5。

对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。

大海捞针测试, GLM-4模型能够在128K文本长度内实现几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

展望

在 2023 年,智谱 AI 基于 GLM-130B 研发了 ChatGLM,并经过三个版本的迭代,逐渐增加了多模态理解、代码解释、网络搜索增强等新功能。

去年年初,智谱 AI 承诺要在 2023 年底实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。作为一年前设定的目标,GLM-4 的性能已经有了显著提升。从标准的大模型评估角度来看,整体上已经逼近了 GPT-4。

希望国产大模型能够更进一步,我很担心未来在AI领域,又出现被掐脖子的事情~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FPGA物理引脚,原理(Pacakge and pinout)-认知3

画FPGA芯片引脚封装图(原理),第一是参考开发板(根据一下描述了解总览),第二是研究Datasheet. ASCII Pinout File Zynq-7000 All Programmable SoC Packaging and Pinout(UG585) 1. Pacakge overview 1.1&#xff0…

小封装高稳定性振荡器 Sg2520egn / sg2520vgn, sg2520ehn / sg2520vhn

描述 随着物联网和ADAS等5G应用的实施,数据流量不断增长,网络基础设施变得比以往任何时候都更加重要。IT供应商一直在快速建设数据中心,并且对安装在数据中心内部/内部的光模块有很大的需求。此应用需要具有“小”,“低抖动”和“…

npm run dev 启动vue的时候指定端口

使用的是 Vue CLI 来创建和管理 Vue 项目, 可以通过设置 --port 参数来指定启动的端口号。以下是具体的步骤: 打开命令行终端 进入您的 Vue 项目目录 运行以下命令,通过 --port 参数指定端口号(例如,这里设置端口号…

PBR材质纹理下载

03:10 按照视频里的顺序 我们从第6个网站开始倒数 点击本行文字或下方链接 进入查看 6大网站地址 网址查看链接: http://www.uzing.net/community_show-1962-48-48-35.html 06 Tectures Wood Fence 001 | 3D TEXTURES 简介:最大的纹理网站之一&#x…

2024美赛数学建模思路 - 案例:异常检测

文章目录 赛题思路一、简介 -- 关于异常检测异常检测监督学习 二、异常检测算法2. 箱线图分析3. 基于距离/密度4. 基于划分思想 建模资料 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 一、简介 – 关于异常…

操作系统-操作系统的发展与分类

文章目录 总览手工操作阶段批处理系统-单道批处理系统批处理系统-多道批处理系统分时操作系统实时操作系统其他操作系统小结 总览 绿框部分重点考察 手工操作阶段 有孔代表1,没孔代表0 程序写到纸带上,然后机器读取执行纸带上的内容,然后…

Python 一行命令部署http、ftp服务

Python 一行命令部署http服务 文章目录 Python 一行命令部署http服务具体操作命令如下浏览器返回下载Python 一行命令部署FTP服务 具体操作命令如下 这个比nginx相对来说更加简单,可以用于部署特殊场景时如银行等部署时,各种权限控制,内网之间…

Docker五部曲之五:通过Docker和GitHub Action搭建个人CICD项目

文章目录 项目介绍Dockerfile解析compose.yml解析MySQL的准备工作Spring和环境变量的交互 GitHub Action解析项目测试结语 项目介绍 该项目是一个入门CICD-Demo,它由以下几部分组成: Dockerfile:用于构建自定义镜像compose.yml:…

使用opencv把视频转换为灰色并且逐帧率转换为图片

功能介绍 使用opencv库把视频转换为灰色,并且逐帧率保存为图片到本地 启动结果 整体代码 import cv2 import osvc cv2.VideoCapture(test.mp4)if vc.isOpened():open, frame vc.read() else:open Falseos.makedirs("grayAll", exist_okTrue) i 0 wh…

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?

深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度? 目录 深度学习和机器学习中针对非时间序列的回归任务,有哪些改进角度?引言1 数据预处理2 数据集增强3 特征选择4 模型选择5 模型正则化与泛化6 优化器7 学习率8 超…

【RT-DETR有效改进】轻量级网络ShuffleNetV2(附代码+修改教程)

前言 大家好,这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进,内容持续更新,每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本,同时修改内容也支持ResNet32、ResNet101和PP…

StarRocks 生成列:百倍提速半结构化数据分析

半结构化分析主要是指对 MAP,STRUCT,JSON,ARRAY 等复杂数据类型的查询分析。这些数据类型表达能力强,因此被广泛应用到 OLAP 分析的各种场景中,但由于其实现的复杂性,对这些复杂类型分析将会比一般简单类型…

Resnet结构的有效性解释

Resnet结构的有效性解释 先看一看Resnet网络的块结构: 根据上图,设有函数 z ( l ) x ( l − 1 ) F ( x ) ( l − 1 ) (1) \mathbf{z}^{(l)}\mathbf{x}^{(l-1)}\mathcal{F}(\mathbf{x})^{(l-1)}\tag{1} z(l)x(l−1)F(x)(l−1)(1) 考虑由式 ( 1 ) (1…

广和通AI解决方案“智”赋室外机器人迈向新天地!

大模型趋势下,行业机器人将具备更完善的交互与自主能力,逐步迈向AI 2.0时代,成为人工智能技术全面爆发的重要基础。随着行业智能化,更多机器人应用将从“室内”走向“室外”,承担更多高风险、高智能工作。复杂的室外环…

小麦淀粉行业研究:预计2029年将达到13亿美元

此前,小麦淀粉整体市场价格稳定运行,8月下旬,受疫情、原料供应、运输和市场需求等多重因素影响,小麦淀粉价格上涨。9月份以来,小麦淀粉价格一直延续8月份价格稳定运行,无明显波动,走货较8月份有…

【leetcode】招商银行学习计划经典笔试题(java版本含注释)

目录 前言第一天21. 合并两个有序链表(简单)3. 无重复字符的最长子串(中等) 第二天1. 两数之和(简单)199. 二叉树的右视图(中等)124. 二叉树中的最大路径和(困难&#xf…

Debian 10.13.0 安装图解

引导和开始安装 这里直接回车确认即可,选择图形化安装方式。 选择语言 这里要区分一下,当前选中的语言作为安装过程中安装器所使用的语言,这里我们选择中文简体。不过细心的同学可能发现,当你选择安装器语言之后,后续安…

Java-NIO篇章(2)——Buffer缓冲区详解

Buffer类简介 Buffer类是一个抽象类,对应于Java的主要数据类型,在NIO中有8种缓冲区类,分别如下: ByteBuffer、 CharBuffer、 DoubleBuffer、 FloatBuffer、 IntBuffer、 LongBuffer、 ShortBuffer、MappedByteBuffer。 本文以它的…

Yolov8_使用自定义数据集训练模型1

前面几篇文章介绍了如何搭建Yolov8环境、使用默认的模型训练和推理图片及视频的效果、并使用GPU版本的torch加速推理、导出.engine格式的模型进一步利用GPU加速,本篇介绍如何自定义数据集,这样就可以训练出识别特定物体的模型。 《Yolov8_使用自定义数据…

Mysql:重点且常用的 SQL 标签整理

目录 1 <resultMap> 标签 2 <sql> 标签 3 <where> 标签 4 <if> 标签 5 <trim> 标签 6 <foreach> 标签 7 <set> 标签 1 <resultMap> 标签 比如以下代码&#xff1a; <resultMap type"SysCollege" id&qu…