从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

news2024/10/24 15:16:12

引言

首先,来看问题:

123456*987654等于多少,给出你计算的过程。

从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想当然的认为这样一个简单的计算问题,应该很容易得到正确的结果和答案,可是从得到的回答看,大模型的逻辑推理能力显然还不太行,还有这样或者那样的问题。

比较结果

下面表格是这个问题国内的几个大模型回答的结果比较(后附回答截图)。唯一笔者认为完美无错的给出解答的是文心大模型turbo4.0,果然花钱的就是要香一些。在回答问题的过程中,笔者诧异的发现文心大模型3.5、通义千问2.5、月之暗面在子计算过程中犯几乎一样的错误,难免会让人浮想联翩:三个大模型是同一个模型出来的?对比chagpt,计算过程不完整,结果也错误。看来国外和国内的在推理逻辑上并没差多少。

从我的角度看,如果给出的计算过程正确,说明具有一定的推理逻辑能力。但是为什么一个简单的计算结果却还是出错,让笔者又不得不怀疑现在大模型的逻辑推理能力,对数学计算并不完全理解?

模型

计算过程

结果

对问题的理解

文心大模型3.5

缺少部分子计算,子计算过程存在错误

错误

理解,给出了计算过程

文心大模型4.0

复杂化计算,计算过程存在错误

错误

理解,给出了计算过程,但给出了复杂化的计算过程

文心大模型turbo4.0

正确

正确

理解,给出了计算过程

通义千问2.5

部分子计算过程错误

错误

理解,给出了计算过程

深度求索2.5

正确

错误

理解,给出了计算过程

月之暗面

部分子计算过程错误

错误

理解,给出了计算过程

星火大模型

正确

错误

部分理解,再次提问才给出了计算过程

智普轻言

缺少部分子计算过程,子计算过程存在错误

正确

部分理解,再次提问才给出了计算过程

Chatgpt4o

缺少部分子计算过程

错误

理解,给出了计算过程

结论

从测试结果来看,笔者认为文心大模型turbo4.0逻辑性推理性都还可以,深度求索2.5次之,其他的暂时还不太行。大名鼎鼎的chagpt过程和结果也不行,所以咱们也不要妄自菲薄,相信国人的智慧。

具体的过程和结果看截图:

文心大模型3.5

123456为毛乘以4确等于740736,请记住这个结果,后边部分的模型计算过程中也会出这样的错,师出同门吗?位数全搞错了,还少位数。

文心大模型4.0

看到这个因式分解,脑洞之大开,不得不让人感叹很强大,说一声厉害,但一顿操作猛如虎,结果只能让人呵呵了。

文心大模型turbo4.0

完美,虽然最后结果可能调用了计算器或者代码,但使用的目的不就是为了省心,不出错吗。花了1毛钱,找的免费试用的链接,花钱的就是香。


通义千问2.5

计算过程中的个位、千位计算错误,明明写的123456*4,实际值却是乘以6。


深度求索2.5

推理过程正确,但为毛结果错误???


月之暗面

计算的逻辑有些问题,没理解不同的位数,个十百位混乱,但计算步骤正确,但是结果又是错误(按混乱后的个十百位计算出的结果之和)。这个第一个结果(740736),和文心一言3.5、通义千问一样的错误,让人不得不怀疑这三个模型是同根同源的。


星火大模型

第一次回答没给出计算过程,结果应该是调用计算器或者编程给出的,第二次给出计算过程,中间的计算正确,最后计算结果错误,又让人搞不懂了。推测无上下文逻辑联系功能,否则不会给出错误的结果还一本正经的胡说,稍微多几项的加法就算错就不行了。


智普轻言

第一次明明白白的告诉结果是调用代码生成的,第二次给出计算过程,部分子计算不正确,但结果又正确了,这让人也搞不懂了。推测结果是基于上下文,但是中间这个逻辑推理不行,说明并不理解计算。


Chatgpt4o

千位、万位计算缺失,也不过如此。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2222494.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

红队-安全见闻篇(上)

声明 学习视频来自B站UP主 泷羽sec的个人空间-泷羽sec个人主页-哔哩哔哩视频,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 一.编程与开发 1.后端语言学习 C语⾔:⼀种通⽤的…

[解决]在Arduino IDE 打开 ino 类型文件处于read only editor模式

今天打开一个ino类型文件发现这个问题,无法编辑…… 解决方法:右键点击ino类型文件(你打开的那个)进入属性栏 发现只读被勾上,取消打勾并点击最下方的确认 现在就可以编辑啦

Unity目录居然这么写就不会被引入到项目内

只要加一个小符号~ 这是一个约定俗成的符号么~~~~ 当然,代码管理器还是识别的 也,只要稍微加一些规则,去避免代码入库 只要一天不死,还是能在程序员这个座位上看到新的东西 什么时候才到尽头??&#xff1f…

服务器数据恢复—EXT3文件系统下邮件数据被误删的数据恢复案例

服务器数据恢复环境: 邮件服务器中有一组由8块盘组成的RAID5阵列, 上层是Linux操作系统EXT3文件系统。 服务器故障: 由于误删除导致文件系统中的邮件数据丢失。 服务器数据恢复过程: 1、将故障服务器中所有硬盘做好标记后取出,硬…

面试必备:RabbitMQ与Kafka核心知识点总结

写在前面 🔥我把后端Java面试题做了一个汇总,有兴趣大家可以看看!这里👉 ⭐️在无数次的复习巩固中,我逐渐意识到一个问题:面对同样的面试题目,不同的资料来源往往给出了五花八门的解释&#…

Windows电脑怎么设置局域网内共享磁盘?

一、设置局域网磁盘共享 1、假设这是电脑A,先启动公用文件夹共享: (1)点击【控制面板】 (2)点击【网络和Internet】 (3)点击【网络和共享中心】 (4)点击【…

【linux网络编程】 | 网络基础Ⅰ| 认识网络

前言: 在本节几乎不讲任何网络协议的系结, 只是将网络的概念搭建起来。本节将会讲到网络的一些专有名词, 概念, 以及网络的结构划分等等。 主要是带大家做一下前期知识的铺垫。 下面, 开始我们的学习吧! ps:本节内容因…

成功解决pycharm软件中按住Ctrl+点击指定函数却不能跳转到对应库中的源代码

成功解决pycharm软件中按住Ctrl点击指定函数却不能跳转到对应库中的源代码 目录 解决问题 解决方法 解决问题 在pycharm软件中按住Ctrl点击指定函数却不能跳转到对应库中的源代码 解决方法

docker容器无法连接宿主机mysql排查

1、docker无法访问宿主机 在docker容器内,需要访问当前docker容器的网关,例如172.xx.0.1,即可访问宿主机,因此需要保证docker的网络配置正确 查看当前docker容器的网关: docker inspect 你的容器名或者容器id 显示…

《深度学习》 了解YOLO基本知识

目录 一、关于YOLO 1、什么是YOLO 2、经典的检测方法 1)one-stage单阶段检测 模型指标介绍: 2)two-stage多阶段检测 二、关于mAP指标 1、概念 2、IOU 3、关于召回率和准确率 4、示例 5、计算mAP 一、关于YOLO 1、什么是YOLO YOL…

图的最小生成树算法--普里姆(Prim)算法和克鲁斯克尔(Kruskal)算法

一、图的最小生成树 最小生成树(Minimum spanning tree,MST)是最小权重生成树(Minimum weight spanning tree)的简称,是一个连通加权无向图中一棵权值最小的生成树。 在一给定的无向图 G ( V , E ) G …

Bug:通过反射修改@Autowired注入Bean的字段,明确存在,报错 NoSuchFieldException

【BUG】通过Autowired注入了一个Bean SeqNo,测试的时候需要修改其中的字段。通过传统的反射,无论如何都拿不到信息,关键是一方面可以通过IDEA跳转,一方面debug也确实能看到这个字段。但是每次调用set方法报错:NoSuchFi…

C++ [项目] 愤怒的小鸟

现在才发现C游戏的支持率这么高,那就发几篇吧 零、前情提要 此篇为 制作,由于他没有CSDN,于是由我代发 一、基本介绍 支持Dev-C5.11版本(务必调为英文输入法),基本操作看游戏里的介绍,怎么做的……懒得说,能看懂就看注释,没有的自己猜,如果你很固执……私我吧 …

伺服电动缸用途分析

力姆泰克伺服电动缸是一种先进的电动执行器,由伺服电动机和传动机构组成。它能够提供高精度的位置控制和力量输出,并具有快速响应和高重复性的特点。 力姆泰克伺服电动缸可广泛应用于自动化系统和机械设备中,例如工业机械、机床、自动化生产…

什么是恶意爬虫,有什么应对措施

在当今数字化时代,网络爬虫作为一种重要的数据收集工具,广泛应用于搜索引擎、数据分析、商业情报等领域。然而,恶意爬虫的出现,却给网站安全带来了前所未有的挑战。今天我们就来简单了解下什么是恶意爬虫,爬虫对网站的…

npm install node-sass安装失败

需求:搭建前端开发环境时,npm install报错,错误提示安装node_modules时,node-sass依赖包安装失败,网上找了好久解决方法,大家提示采用淘宝源等方式安装,都失败了了,尝试了很久终于找…

基于WIFI的智能台灯设计

1系统整体设计 本次围绕LED台灯,来设计一款基于WIFI的智能台灯,结合STM32单片机和多种传感器来共同完成该设计,整个设计的主要功能如下: 1.有自动和手动模式,自动模式自动调节光强,手动模式即手动控制&am…

垂起固定翼无人机挂载迫击抛投器技术详解

垂起固定翼无人机挂载迫击抛投器技术是一种结合了固定翼无人机长航时、高速度和垂直起降灵活性的先进技术。以下是对该技术的详细解析: 一、技术背景与优势 垂起固定翼无人机通过结合固定翼和多旋翼的设计,实现了无需长距离滑行跑道的垂直起降&#xf…

写了一个SpringBoot的后端管理系统(仅后端)pine-manage-system

文章目录 前言正文🚀 技术栈🛠️ 功能模块📁 项目结构🌈 接口文档🚀 项目启动 附录项目功能代码示例1、数据库拦截器-打印sql执行时间2、数据记录变更拦截器3、用户角色数据权限拦截器4、实体转换器接口5、触发器模版6…

青少年编程能力等级测评CPA C++ 四级试卷(2)

青少年编程能力等级测评CPA C 四级试卷(2) 一、单项选择题(共15题,每题3分,共45分) CP4_2_1. 下列有关面向对象程序设计的叙述中,不正确的是( )。 A.面向对…