一文谈谈文心一言对比ChatGPT4.0的差距

news2026/2/12 7:11:55

对于想体验文心一言的朋友，可以进行申请尝试，快速入口

如果想体验ChatGPT的朋友，可以自行fq注册；但是由于现在限制注册并且不稳定，对于不会用梯子不想注册的朋友可以使用这个进行访问，快速入口

关于ChatGPT对我们的帮助，可以参考我往期博客

看到一篇国金证券的研报，其中对GPT4.0、3.5和文心一言做了一组详细测试。

最后立下的结论大致是这样：

从研报结论来看，国金证券说这三算是互有胜负，总体上GPT-4略胜一筹。

不过我仔细瞅了眼对比结果，感觉研报说的还是太委婉了...

尤其是在数字、代码、归纳和推理这些能力，GPT4几乎把文心一言给完爆。

我放一些研报中的案例，大家可以直观感受一下模型的差距~

第一个是简单数学问题，求线性方程组：

文心一言的回答，直接跳过计算流程，给了个错误答案，因为没有流程，连错哪儿都不知道

相比之下GPT4.0把算法流程给讲的比较清楚，也很细节。

重点是国金证券竟然说GPT4.0的Y值算错了，说GPT3.5算的Y=3/7是正确答案，看的我一脸疑惑。

大家看看，难道是我多年不做题，数学退化了？

其次就是文学创作这块，这俩也是有一些差距：

比如写一个刘红发大财的故事，文心一言理解成人物是刘红发。

而且GPT4.0在故事的形象度、丰富度和生动度上来说要牛X不少，感觉已经有写小说的潜力了。

文心一言虽然故事也凑合，但细节度方面上看暂时被完爆…

接着看逻辑推理能力。

这环节文心一言又错了，直接顺推说，点了沙拉就一定点了牛排。

而事实上就是纯粹的错误。

GPT4.0给了正确的答案。

此外逻辑推理环节还有一个。

就是问“为什么我总是在最后一个地方找到丢失的物品”。

实际上这是给AI挖了个坑，本质上这是个谬论。

然而文心一言也压根没注意到这个问题，然后说了一通没有逻辑的解释。

而GPT4一开始就说出了问题的本质，“丢失的物品肯定是最后一个地方找到的”。

不过后面的解释我感觉没有必要，属于是明明说对了又强行解释一遍...

不过文心一言也不是完全没有优点，在一些中文类目，他经常会给出一些实操案例。

先不说能不能行，但它起码也算是有自己的特色了，敢于推荐...

比如同样都是问如何赚100万，文心一言给出了一些具体的实操案例，而不是空话，比较有趣。

这估计也和模型的调教方式有关哈。

GPT4在些问题里边回答的就比较像是套用模板，感觉过于死板。

然后就是在投资理财这块，直接问想买一个年化4%的理财，文心一言竟然给了一款具体名称的银行理财（其实是货币基金）

先不说合不合规，货基4%现在是肯定不可能做到的。

目前它最新的7日年化也只有2%左右，我也不知道文心一言哪来的结论。

不会以后问我想看个什么病，然后给我推荐莆田的某医院吧~

相比之下GPT要严谨很多，虽然说的也是空话为主，但涉及金融投资这块GPT似乎都是这个样，没法。

不过文心一言有一个案例挺牛，在揣摩男女情感心思上，这轮赢麻了。

这次是解释“你没有错，都是我的错”这句话，文心一言在男女吵架后对反话的理解完全到位，点赞。

不过后面补充这块就有点瞎扯了，大家自行判断。

而GPT的话，说的就是传统的字面意义观点，显然还是没完全理解我们中国特色表达方式。

但后面GPT也补救了一下，说不能完全确定，要看具体情况，算是挽回一些场子。

总的来说，研报中的测试大概就这些，对比结果一目了然，GPT4.0更严谨，“智商”似乎也更高一些。

不过文心一言在“情商”方面也算能打，有更多中文数据训练的优势，至少对话一些日常问题能应付。

好比GPT更像逻辑思维缜密的直男，而文心一言更像一个心直口快，大大咧咧的人。

只不过面对高难度题目来说，智商明显还不够，毕竟技术差距摆在那，慢慢来吧。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/456703.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

CTF之SSRF常见绕过

CTF之SSRF常见绕过

1.绕过localhost和127.0.0.1 当程序中限制了我们使用localhost和127.0.0.1时，便可以利用进制转换来绕过 http://0x7F.0.0.1 //16进制 http://0177.0.0.1 //8进制 http://2130706433 //10进制整数格式 http://0x7F000001 16进制整数格式 http://127.1 //省略模式 h…

阅读更多...

【算法】C程序的运行速度测试

【算法】C程序的运行速度测试

C语言程序的运行速度测试代码随想录上提到了一点，即我们应该学会估计一个时间复杂度较高的算法，在机器上的运行速度。如果题目给出的数据量级在高复杂度的算法中会超时，那就应该放弃使用这个代码，而想其他时间复杂度更优的解法…

阅读更多...

QMS-云质说质量 - 9 我和我的客户投诉(1) - 逢年过节要祈祷

QMS-云质说质量 - 9 我和我的客户投诉(1) - 逢年过节要祈祷

云质QMS原创转载请注明来源作者：王洪石逢年过节都要祈祷在某外资汽车零部件企业工作的那些年，无论在质量部还是项目部，都是成天和客户打交道，也经常面对各种各样的客户投诉。尤其是当质量经理的那些年，每年都要被…

阅读更多...

docker搭建简单elk日志系统5(logstash管道配置文件logstash.conf)

docker搭建简单elk日志系统5(logstash管道配置文件logstash.conf)

1.查看logstash管道配置文件logstash.conf cd ~/elk/logstash/pipeline/ cat logstash.conf默认的配置文件输入是beat； beat表示ELK Stack中的核心组件Beats; Beats指轻量型数据采集器，是一些列beat的合称；目前官网上的beat有： …

阅读更多...

sql注入 Quine注入解析

sql注入 Quine注入解析

前言 quine注入,即查询的结果是查询的语句首先看看如下sql语句会返回什么 select replace(".",char(46),".");返回了一个点匹配字符串".“中ascii码为46的字符并替换为”.“,也就是将”.“转换为”."并返回继续看下面这个sql语句 selec…

阅读更多...

状态机编程

状态机编程

//定义的枚举 typedef enum { KEY_UP 1, //按键按下 Edge_Lead2, //前沿抖动 KEY_DOWN 3, //按键松开 Edge_Back4, //后沿抖动 } KEY_Status; 主函数： #include "stm32f4xx.h" #include "led.h" #include "delay.h" #include "…

阅读更多...

QMS-云质说质量 - 8 颠覆你的认知，中小型企业数字化转型更容易成功

QMS-云质说质量 - 8 颠覆你的认知，中小型企业数字化转型更容易成功

数字化转型，不但不遥远，而且似乎离我们每个人的生活还非常近。尤其是近几年，出于政府号召与扶持，市场竞争以及企业自身发展需要等各方面原因，越来越多的企业已经开始或者正在准备进行数字化转型。即使是规模一两百人的…

阅读更多...

MATLAB如何自定义颜色图（colormap）

MATLAB如何自定义颜色图（colormap）

MATLAB有一套自己的颜色库，常用的都有，但是数量不算太多。我们有时候需要用到一些MATLAB没有的colormap，比如Python的Matplotlib就有很多的colormap，我们也有可能需要自己来定义一些渐变的颜色。本片笔记主要是介绍colormap如何自…

阅读更多...

在vite中使用mockjs， vite中使用vite-plugin-mock

在vite中使用mockjs， vite中使用vite-plugin-mock

相信前端同学都会碰见类似的问题，就是页面可能很快写完了，但是接口同学还在缓慢设计表中！ 这个时候咳咳，你就可以去摸鱼了或者看小说了但实际上可不能这样哦，要老老实实做个打工人步入正题了在vite中有个mock的插…

阅读更多...

SpringCloud学习6（Spring Cloud Alibaba）断路器Sentinel熔断降级

SpringCloud学习6（Spring Cloud Alibaba）断路器Sentinel熔断降级

文章目录服务熔断降级Sentinel高并发请求模拟（这里我们使用contiperf来进行测试）修改tomcat配置最大线程数引入测试依赖编写测试代码服务雪崩服务雪崩的容错方案（隔离、超时、限流、熔断、降级）隔离机制：超时机制&am…

阅读更多...

混淆电路（GC）

混淆电路（GC）

基本概念在混淆电路框架下，任意功能函数可被表示为一个与门和异或门组成的布尔电路，协议的参与方由生成方（Garbler）和计算方（Evaluator）组成。 **大致的流程：**生成方生成密钥并加密查找表&am…

阅读更多...

淘宝天猫数据查询（天猫智能手环数据分析）

淘宝天猫数据查询（天猫智能手环数据分析）

近几年，中国智能可穿戴设备市场规模不断增长，也取得了傲人的成绩。从可穿戴设备市场整体发展来看，智能手环是一大主角。智能手环市场接受度和认可度的逐渐提升，为各类厂商提供了更多机会，同时这也蕴含了更多市场增量空…

阅读更多...

分享两个有意思的登录界面

分享两个有意思的登录界面

1.带有浮动占位符和灯光按钮的登录界面先上效果：代码如下： <!DOCTYPE html> <html lang="en"> <head>

阅读更多...

L2-2 天梯赛的赛场安排

L2-2 天梯赛的赛场安排

作者陈越单位浙江大学天梯赛使用 OMS 监考系统，需要将参赛队员安排到系统中的虚拟赛场里，并为每个赛场分配一位监考老师。每位监考老师需要联系自己赛场内队员对应的教练们，以便发放比赛账号。为了尽可能减少教练和监考的沟通负担&#…

阅读更多...

this.$set的正确使用

this.$set的正确使用

this.#set(obj, key, value) 我们在项目开发的过程中，经常会遇到这种情况：为data中的某一个对象添加一个属性 <template><div class"hello"><button click"setMessage">添加属性</button>{{ student.name…

阅读更多...

开发IM（即时通讯）服务端

开发IM（即时通讯）服务端

首先讲讲IM（即时通讯）技术可以用来做什么：可以说几乎所有高实时性的应用场景都需要用到IM技术。本篇将带大家从零开始搭建一个轻量级的IM服务端，麻雀虽小，五脏俱全，我们搭建的IM服务端实现以下功能&#x…

阅读更多...

gpt.4.0-gpt 国内版

gpt.4.0-gpt 国内版

gpt 使用 GPT（Generative Pre-trained Transformer）是一种预训练的语言模型，可用于多种自然语言处理任务，如情感分析、文本分类、文本生成等。下面是使用GPT的一些步骤和建议： 确定任务和数据集：首先&…

阅读更多...

选择美国虚拟主机需注意的安全问题

选择美国虚拟主机需注意的安全问题

在选择美国虚拟主机时，安全性应该是您首要关注的问题。虚拟主机通常是网站托管的最便宜和最方便的方式之一，但也存在安全问题。在本文中，我们将讨论一些您应该注意的安全问题，并提供一些解决方案来保护您的网站。一、了解虚拟主机…

阅读更多...

Linux 配置与磁盘管理

Linux 配置与磁盘管理

目录物理设备的命名规则Linux中硬盘分区部分Linux在分区上建立文件系统挂载Linux硬盘管理工具LVM逻辑卷管理器物理卷、卷组合逻辑卷的建立逻辑卷的使用LVM整体创建流程硬盘配额配置（针对用户或者群组使用的空间） 物理设备的命名规则 Linux系统内核中的…

阅读更多...

分析trace 知识点分析的很全面

分析trace 知识点分析的很全面

Total time breakdown：依据关键tag拆分，比如binderapplication/activitystart/doframe 找出时间差异大tag的cpu status ：Running/Runnable/Sleeping/Uninterruptible sleep Running:SW-diff-check 或 cpu能力(大小核或频率） Runna…

阅读更多...

推荐文章

最新文章