偏偏不信文心大模型4.0比肩GPT-4!我为它们安排了一场龙虎斗!

news2025/1/18 9:09:07

作者 | 卖萌酱

大家好,我是卖萌酱。盲猜点进本文的不少小伙伴也看了昨天的百度世界大会,百度创始人、董事长兼CEO李彦宏官宣文心大模型4.0发布,其中一句话让卖萌酱印象深刻:文心大模型4.0综合水平与GPT-4相比已经毫不逊色!有图有证据:

敢在如此大的场合正式喊出这样的口号,以卖萌酱对百度的了解,说明这个测评至少在百度内部已经做的相当完善了,否则是不可能敢直接这样喊口号的。但卖萌酱多少觉得有点不可思议,这么短的时间内,真就赶上了GPT-4???话不多说,卖萌酱果断搞来了内测码——直!接!上!评!测!

评测维度

众所周知,卖萌酱此前第一时间评测了通义千问、百川智能、讯飞星火等国产大模型,也形成了一套case驱动的比较有意思的评测方式,可以让读者小伙伴们超出冷冰冰的榜单数字,更加真切的感受到两个大模型的真实效果对比。评测整体围绕模型的语言理解、推理、生成、知识、记忆这五个维度展开设计,设计了以下11类评测题:

  • 干崩大模型的简单常识推理题

  • 打败80%人类的中文语言理解题

  • 再上点难度:语言理解+逻辑推理

  • 成年人不擅长的古诗生成题

  • 本土文化考察:90后专属非主流文字识别

  • 弱智吧经典战役

  • 知识问答:四大名著考察

  • GPT-4最擅长的数学计算

  • GPT-4最擅长的代码题

  • 测测翻译腔

评测开始

干崩大模型的简单常识推理题

首先祭出这个曾经把全体大模型(包括文心一言3.5、通义千问、讯飞星火、ChatGPT等)都干崩了的常识推理Case:

文心大模型4.0

GPT-4

卖萌酱直接惊呆了。文心4.0完胜!几个月过去了,GPT-4还是做不对,但亲测文心4.0成为了目前全世界唯一一个把这个case做对的大模型。再来一题!

文心大模型4.0

GPT-4

都做对了,优秀!本题打平!

打败80%人类的中文语言理解题

在语言理解问题上,简单case测试没意义!来,直接上难度!

文心大模型4.0

GPT-4

好吧,不好意思,难度上调过头了,把文心4.0和GPT4.0都干懵了。这局打平。

再来一个!

文心大模型4.0

GPT-4

本以为这个case两个模型也都要翻车,没想到文心和GPT竟然都做对了,牛了牛了,本题打平。比不出来?那就再来一题!

文心大模型4.0

GPT-4

好吧,竟然又打平了。我承认你俩的语言理解能力都很强,不分伯仲:)

再上点难度:语言理解+逻辑推理

文心大模型4.0

GPT-4

虽然GPT-4和文心4.0答案都对了,但推理过程是错的,这局算打平!再来一道!

文心大模型4.0

GPT-4

可以看到,文心4.0逐步分析,展现出了清晰的推理逻辑,而 GPT-4 则明显晕了,效果惊艳,文心4.0胜!

成年人不擅长的古诗生成题

随手写诗太简单,来,给你们上点难度!

文心大模型4.0

GPT-4

牛了,果然还是百度更懂中文。文心4.0胜!

本土文化考察:90后专属非主流文字识别

80、90后一定还记得当年在QQ空间上流行的非主流文字,来,看看你俩有没有刷过QQ空间!

文心大模型4.0

GPT-4

果然,通过这道题,能看出百度是有20年前的互联网记忆的,OpenAI在本土化方面的表现被百度碾压,符合预期!

弱智吧经典战役

这就必须祭出每逢大模型发布时,卖萌酱的必考题:

文心大模型4.0

GPT-4

文心4.0完胜!GPT-4太失败了,时隔半年,它还是认为生蚝煮熟后就变成了熟蚝。哦不对,它进化了,它现在认为煮熟后叫做“蚝”或者“煮熟的蚝”。

知识问答:四大名著考察

相信大家已经通过上面的评测感受到了文心4.0在中文语言理解等方面对GPT-4形成的碾压。OK,我们继续出击,接着考察一下两个模型对四大名著的掌握程度。

文心4.0

GPT-4

离大谱!GPT-4不仅真的胡乱编造起来林黛玉倒拔垂杨柳的故事,连孙悟空、观音都搬出来了。

GPT-4最擅长的数学计算

在卖萌酱之前的评测中,GPT-4的数学计算完爆一众国产模型。来,时刻半年,再来PK一波!

文心大模型4.0

GPT-4

芜湖!GPT-4竟然答错了,文心4.0在这道数学计算题上赢了GPT-4!当然这只是一个例子,有兴趣的小伙伴可以找更多case进行测试。

GPT-4最擅长的代码题

直接上NLP算法工程师最熟悉的分词算法,看看NLP大模型对NLP算法的理解能力。

文心大模型4.0

GPT-4

文心大模型4.0的代码能力的确有了不错的提升,本题打平!

测测翻译腔

做机器翻译容易,但想要翻译出来的内容非常地道,不带翻译腔,其实很难。

文心大模型4.0

GPT-4

仔细对比下,文心4.0的英翻中的结果翻译腔明显更弱,翻译的更加地道,本题文心4.0胜!再来一道!

文心大模型4.0

GPT-4

这道题,是真牛了,文心4.0竟然翻译成了古诗…文心4.0胜!好啦,Case层面就测试到这里。需要注意的是,由于case有限,尽管从这不到20个case中,看起来文心大模型4.0效果比GPT-4效果好很多,但实际上由于测试类型覆盖不够全,因此不能得出置信的文心大模型4.0比GPT-4强的结论,仅能作为一个对两个大模型能力特色的感性认知。整体上,卖萌酱感觉非常的超出预期,文心大模型4.0相比3.5版本的提升实在是太太太太太大了!这也难怪,李彦宏可以这么自信的做官宣。

一些想法

最后,卖萌酱想借此重要的时间节点,谈一谈自己的看法。伴随着8月底《生成式人工智能服务管理暂行办法》的颁布,国产大模型开始从“做出来”走向“用起来”。用?好不好用?怎么用?当下大模型作为通用人工智能的“基础模型”,整个生成式 AI 赋予全产业万亿级别的想象力几乎都基于这些大模型的综合能力。那么,什么是大模型的综合能力?如果从人类智能上推及己身,人类可以对基于复杂自然语言或图像的符号进行理解与处理,对抽象符号的理解奠定了智能产生的基础,人类智能也可以流畅地输出符合语法规范且有意义的语言符号。此外,人类具有更加高级的逻辑推理与判断的能力,这类逻辑能力可以排除许多“不可行解”,使得人类智能可以高效的完成任务。最后,人类智能还具有记忆的能力,我们可以顺畅的和任何一个人进行多轮的对话,对话间的上下文信息都可以被我们的大脑储存,从单轮到多轮,记忆能力赋予了智能更大的想象空间。简单归纳,大模型带来的智能涌现,主要体现在理解、生成、逻辑与记忆四大能力之上。 然而一直以来,国内外无数大模型测评榜单来来去去回回,其中哪怕是在中文能力之上,始终位居榜首纹丝不动的仍然是目前世界上最先进的大模型——GPT-4。早在世界大会之前,文心大模型4.0要来了的爆料早早就在坊间里疯传,关于文心4.0到底能不能打过 GPT-4 的讨论热闹非凡,包括小瑶读者群里也有不少讨论。而昨天伴随着文心大模型4.0的发布,经卖萌酱测评后,可以带有主观色彩的给出答案了:“文心大模型4.0综合水平与GPT-4相比确实已经毫不逊色!”

事实上,对于任何一个目标朝向通用人工智能的大模型而言,理解、生成、逻辑、记忆这四大能力并不是严格可分互相排斥的,在几乎所有的大模型落地场景之中,比如文本生成创作、代码辅助、智能解题等等都依赖于四大能力的通力配合。这四大能力相辅相成,才有可能敲开未来 AI 原生应用时代的大门。通过上面从四大能力出发并且不断切换不同展示能力的视角与问题,可以看到文心大模型4.0已然在综合能力上可以逼近并比肩 GPT-4,甚至在一些强调文化背景的问题中展现了超越 GPT-4 的态势。然而,在大模型目前飞速发展急速迭代的今天,文心大模型4.0综合能力比肩 GPT-4 的意义,不仅仅是在某一个单一的数据集、单一的指标中小小的超越或做到了一些 GPT-4 没有做到的事。也许正如李彦宏在百度世界大会上谈到的那样:“大模型带来的智能涌现,是开发AI原生应用的基础。”文心大模型在4.0时代综合能力的进化,是为未来一个智能时代的到来奠基。除了文心大模型4.0以外,2023百度世界上还展现了基于基础模型带来的搜索、GBI、文库、网盘、地图等十余款应用。这些基于基础模型的 AI 原生应用才是文心大模型4.0比肩 GPT-4 的真正意义!百度,或许已经占据了AI原生时代的高地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1107534.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python二次开发Solidworks:画砂轮

先根据输入参数计算出绘制砂轮需要的数据,然后绘制草图,完全标注后生成旋转体,具体代码如下: import sympy as sy import numpy as np import matplotlib.pyplot as pltx1,y1为第一条直线端点坐标(-10,0),theta_l1为角度,取5*np.…

C语言实现用弦截法求 f(x)=x^3-5*x^2+16*x-80=0 的根

完整代码: //用弦截法求 func(x)x^3-5*x^216*x-800 的根 //弦截法就是用函数上两点&#xff0c;连线的斜率近似代替f(x) //公式为Xn1Xn−(Xn−Xn−1)*func(Xn)/(func(Xn)−f(Xn−1))#include<stdio.h> #include<math.h>//求f(x)的值 double func(double x){return…

博客后台模块

一、后台模块-准备工作 1. 前端工程启动 前端工程下载链接 https://pan.baidu.com/s/1TdFs4TqxlHh4DXyLwYuejQ 提取码&#xff1a;mfkw 项目sql文件下载链接 链接&#xff1a;https://pan.baidu.com/s/1DQCGN4wISSDlOkqnVWYwxA 提取码&#xff1a;mfkw 命令行进入keke-vu…

工业4.0时代数字化工厂的几个特点

随着工业4.0时代的到来&#xff0c;数字化工厂成为了制造业的重要组成部分。数字化工厂管理系统是一种应用数字化、自动化和物联网等技术与产业融合的全新生产方式&#xff0c;旨在提高生产效率、降低成本、提升产品质量&#xff0c;并增强企业的核心竞争力。 数字化工厂的核心…

用友GRP-U8 SQL注入漏洞复现

0x01 产品简介 用友GRP-U8R10行政事业财务管理软件是用友公司专注于国家电子政务事业&#xff0c;基于云计算技术所推出的新一代产品&#xff0c;是我国行政事业财务领域最专业的政府财务管理软件。 0x02 漏洞概述 用友GRP-U8的bx_historyDataCheck jsp、slbmbygr.jsp等接口存…

链上房产赛道项目 ESTATEX 研报:以 RWA 的方式释放房产市场的潜力

在上个世纪初&#xff0c;随着全球人口的指数型增长以及城市化趋势加速&#xff0c;全球房地产行业逐渐进入到发展的爆发期与红利期。一方面人口的暴增与城市化进程的的加速&#xff0c;让住宅和商业房地产逐渐形成了刚需&#xff0c;另一方面全球经济飞速发展&#xff0c;让越…

Leetcode.4 寻找两个正序数组的中位数

题目链接 Leetcode.4 寻找两个正序数组的中位数 hard 题目描述 给定两个大小分别为 m m m 和 n n n 的正序&#xff08;从小到大&#xff09;数组 n u m s 1 nums1 nums1 和 n u m s 2 nums2 nums2。请你找出并返回这两个正序数组的 中位数 。 算法的时间复杂度应该为 O…

Pinia学习-存储数据、修改数据以及持久化实现

Pinia是什么&#xff1f; Pinia 是 Vue 的存储库&#xff0c;实现全局变量的定义 这里定义的变量信息&#xff0c;任何页面都可以使用&#xff0c;代替原来的VueX 官网&#xff1a;https://pinia.web3doc.top/ 4.2 Pinia存储数据 4.2.1获取存储数据 实现步骤&#xff1a;…

比例夹管阀及其高精度压力和流量控制解决方案

摘要&#xff1a;针对卫生和无菌流体系统中柔性管路内的压力和流量控制&#xff0c;本文介绍了采用电控夹管阀的高精度控制解决方案。解决方案基于反馈控制原理&#xff0c;采用压力传感器或流量传感器进行测量并反馈给程序控制器&#xff0c;控制器驱动夹管阀来改变柔性管路的…

双目视觉实战--单视图测量方法

目录 一.简介 二、2D变换 1. 等距变换&#xff08;欧式变换&#xff09; 2. 相似变换 3. 仿射变换 4. 射影变换&#xff08;透视变换&#xff09; 5. 结论 三、影消点与影消线 1. 平面上的线 2. 直线的交点 3. 2D无穷远点 4. 无穷远直线 5. 无穷远点的透视变换与仿…

Yakit单兵作战神器简单使用

文章目录 免配置抓包破解编码数据包DNSLog 官网下载地址&#xff1a;https://yaklang.com/ 使用文档&#xff1a;https://www.yaklang.com/products/intro 免配置抓包 会启动一个和BurpSuite一样的内置浏览器 访问地址&#xff0c;就会拦截到数据包 也可以在history里查看 破解…

屏幕录制视频编辑软件 Camtasia 2023 mac中文版软件功能

Camtasia 2023 mac是一款功能强大的屏幕录制和视频编辑软件&#xff0c;可以用于制作教育课程、演示文稿、培训视频等。它具有一系列工具和功能&#xff0c;包括屏幕录制、视频编辑、音频编辑、字幕、特效等&#xff0c;使用户可以轻松地创建高质量的视频内容。 Camtasia2023的…

DH48WK 温控器参数设置

北京东昊力伟科技有限责任公司 温控仪、温度控制器 产品特点&#xff1a; 可外接温度传感器Pt100、Cu50、K、E、J、N、T、R、S、B兼容输入&#xff1b;PID控制输出、位式控制输出、继电器报警输出&#xff1b;控温能满足设定温度值的0.2℃&#xff1b;既可用于加热控制、也可…

VR数字政务为我们带来了哪些便捷之处?

每每在政务大厅排队的时候&#xff0c;总是在想未来政务服务会变成什么样子呢&#xff1f;会不会变得更加便捷呢&#xff1f;今天我们就来看看VR数字政务&#xff0c;能够为我们带来哪些便捷之处吧&#xff01; 传统的政务服务中&#xff0c;不仅办事流程复杂&#xff0c;而且每…

5.2 加载矢量图层(delimitedtext,spatialite,wfs,memory)

文章目录 前言加载矢量(vector)图层delimitedtextQGis导入CSV代码导入 SpatiaLite data provider (spatialite)QgsDataSourceUriQGis导入spatialite代码导入 Web服务WFS (web feature service) data provider (wfs)QGis添加图层代码添加 Memory data providerType (memory)QGis…

腾讯云服务器带宽下载速度快吗?多线BGP和CN2高速网络

腾讯云服务器公网带宽下载速度计算&#xff0c;1M公网带宽下载速度是128KB/秒&#xff0c;5M带宽下载速度是512KB/s&#xff0c;腾讯云10M带宽下载速度是1.25M/秒&#xff0c;腾讯云百科txybk.com来详细说下腾讯云服务器不同公网带宽实际下载速度以及对应的上传速度对照表&…

dig 简明教程

哈喽大家好&#xff0c;我是咸鱼 不知道大家在日常学习或者工作当中用 dig 命令多不多 dig 是 Domain Information Groper 的缩写&#xff0c;对于网络管理员和在域名系统(DNS)领域工作的小伙伴来说&#xff0c;它是一个非常常见且有用的工具。 无论是简单的 DNS 解析查找还…

第三章 数据结构与算法——栈和

栈和队列被称为插入和删除受限制的线性表。 &#x1f341;一、栈的基本概念 &#x1f315;&#xff08;一&#xff09;栈的概念&#xff1a; ①&#xff1a;栈是一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。 进行数据插入和删除操作的一端 称为栈…

四川竹哲电子商务有限公司让抖音带货更轻松

随着电子商务的飞速发展&#xff0c;带货直播成为了新的行业热点。四川竹哲电子商务有限公司&#xff0c;一家在电子商务领域有着深厚实力和丰富经验的企业&#xff0c;正以其独特的视角和策略&#xff0c;引领着抖音带货的发展趋势&#xff0c;让这个新型商业模式更加轻松、高…

C++初阶(三)

文章目录 一、auto关键字(C11)1、auto简介2、auto使用规则1、 auto与指针和引用结合起来使用2、 在同一行定义多个变量 3、auto不能推导的场景1、 auto不能作为函数的参数2、 auto不能直接用来声明数组3、特性总结 二、基于范围的for循环(C11)1、范围for的语法2、 范围for的使用…