一个关于宏定义的问题,我和ChatGPT、NewBing、Google Bard、文心一言 居然全军覆没?

news2025/1/12 12:02:02

文章目录

  • 一、问题重述
  • 二、AI 解题
    • 2.1 ChatGPT
    • 2.2 NewBing
    • 2.3 Google Bard
    • 2.4 文心一言
    • 2.5 小结

一、问题重述

今天在问答模块回答了一道问题,要睡觉的时候,又去看了一眼,发现回答错了。

问题描述:下面的z的值是多少。

#define FUN(a,b) a<b?a:b

int x = 5, y = 8, z;
z = 4 + FUN(x, y);

我当时的回答是:z=4+5=9

但是编译运行的结果是:8

在这里插入图片描述

又看了一眼,恍然大悟,我曾经在文章中写过:宏的替换是简单的文本替换(请好好理解这句话),它在预处理阶段进行。当编译器遇到宏名称时,会将其替换为定义中指定的代码片段。宏替换是直接替换,没有类型检查或语法分析。

上面的代码经过预处理后是:

z = 4 + 5 < 8 ? 5:8 ;

现在,z=8应该没问题了。

二、AI 解题

突然好奇,这个问题,AI会不会做错呢,结果令我大吃一惊😲😲

2.1 ChatGPT

第一次问:
在这里插入图片描述

我说答案是8,他依旧坚持9,来来回回拉扯好几次:
在这里插入图片描述
n次拉扯后:
在这里插入图片描述

2.2 NewBing

只能说孺子可教:
在这里插入图片描述

2.3 Google Bard

情况跟ChatGPT差不多:

(1)
在这里插入图片描述

(2)

在这里插入图片描述

2.4 文心一言

这位更是重量级😅: 毕竟它自称擅长文本创作这方面。

在这里插入图片描述
其他国内模型就不展开了,差不多。

2.5 小结

(1)注意细节

我明明知道宏定义是文本替换,仍然反了错,实属不该。

(2)AI 并不完全可靠

从这个例子就可以看出,现在,AI 并不完全可靠(当然AI成长的很快)。如果我不知道宏定义的知识,当问了几个AI模型后,可能就会坚信那个错误答案。所以,对信息的甄别能力是很重要的。另外,也要提升自己的能力,才能在未来更好地使用AI工具。

为什么这些AI模型会犯错呢?

它们并不是万能的,本文的这个问题也不是什么复杂的难题,它们却全答错了,而且还要纠正半天。这应该与模型的训练数据有关,或许很少有人像上面那样写代码,或许很多人都犯这个错。对于保密程度很高的内容、前沿技术、特殊情况…AI或许不比人高明。

(3)AI模型版本

上面的问答中,NewBing的效果相对较好,轻轻一点就能修正错误。

  • ChatGPT iOS手机APP中使用的免费版本是:GPT-.5,Plus是4.0。
    在这里插入图片描述

  • ChatGPT网页版 :5.10号已经放弃使用GPT-3.5的Lagacy版本,现在使用的是default版本,应该是做了优化,Plus用户可以选择GPT4。
    在这里插入图片描述

  • NewBing手机版和网页版都是:GPT-4.0
    在这里插入图片描述

从上面的叙述可以发现,GPT-4貌似比GPT-3.5好上许多。

GPT-4 的提升:

可以在GPT-4的paper中看到与3.5的对比。
在这里插入图片描述

paper摘要:

这是一种大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中的能力不如人类,但 GPT-4 在各种专业和学术基准测试中表现出人类水平的表现,包括通过模拟律师考试,得分在应试者的前 10% 左右。 GPT-4 是一种基于 Transformer 的预训练模型,用于预测文档中的下一个标记。培训后的对齐过程会提高真实性和遵守所需行为的措施的性能。该项目的核心组成部分是开发可在广泛范围内表现可预测的基础设施和优化方法。这使我们能够基于不超过 GPT-4 计算量的 1/1,000 的训练模型准确预测 GPT-4 性能的某些方面。

总结一下GPT3.5和GPT4.0的区别:

  1. GPT3和GPT4的最大不同之处在于规模,GPT3拥有175B参数,而GPT4拥有3.3T参数,可以有效地解决复杂语言任务。

  2. 另一个重要的不同之处在于GPT4使用了树型推理(Tree-Based Reasoning)来完成建模,这使得GPT4更加稳定、精确、高效。GPT4的模型可以有效地解决自然语言交互(NLU)和自然语言理解(NLU)等复杂NLP任务。

  3. 更创造性的写作能力,包括编歌曲、写剧本、学习用户写作风格

  4. 可以接受图片输入(暂不可用)、并生成字幕等

  5. 可以处理超过25000字长文本

  6. 智能程度大幅提升。以美国BAR律师执照统考为例:GPT3.5可以达到10%水平分,GPT4可以达到90%水平分。生物奥林匹克竞赛从GPT3.5的31%水平分,直接飙升到99%水平分,国际奥赛金奖水准。

真是一场历史性变革~



~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/629394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Redis】Redis持久化机制RDB与AOF

目录 一、RDB 1、概念 2、RDB文件保存 3、执行RDB 4、触发RDB 5、fork原理 6、RDB的缺点 二、AOF 1、概念 2、开启AOF 3、触发AOF 4、触发重写AOF 三、区别 一、RDB 1、概念 RDB全称为Redis Database Backup File&#xff08;Redis数据备份文件&#xff09;&…

提示工程师指南3-Prompt工程-高级提示

高阶Prompting 到这一步&#xff0c;应该很明显&#xff0c;改进提示有助于在不同任务上获得更好的结果。这就是Prompt工程背后的整个理念。 虽然之前的例子很有趣&#xff0c;但在我们深入了解更高级的概念之前&#xff0c;让我们先正式地介绍一些概念。 文章目录 高阶Promp…

中国机器元宇宙手术机器人市场迎来爆发期,思哲睿能否借势上市?

手术机器人作为一种能够辅助医生进行精准、微创的外科手术的高端医疗设备&#xff0c;近年来受到了国内外医疗界的广泛关注和重视。随着我国人口老龄化、医疗需求增加、医疗技术进步等因素的推动&#xff0c;手术机器人市场规模呈现快速增长态势。 在这样一个充满机遇和挑战的市…

docker部署prometheus+grafana视图监控

效果 一、grafana可视化平台部署 docker run -d \--namegrafana \--restartalways \-p 3000:3000 \grafana/grafanagrafana我也是部署在170.110服务器上&#xff0c;192.168.170.110:3000访问grafana 默认账号密码都是admin 二、部署exportor采集信息 针对各类数据库平台系统…

ASP.NET Core MVC 从入门到精通之Html辅助标签补充及模型校验基础

随着技术的发展&#xff0c;ASP.NET Core MVC也推出了好长时间&#xff0c;经过不断的版本更新迭代&#xff0c;已经越来越完善&#xff0c;本系列文章主要讲解ASP.NET Core MVC开发B/S系统过程中所涉及到的相关内容&#xff0c;适用于初学者&#xff0c;在校毕业生&#xff0c…

7. user-Agent破解反爬机制

文章目录 1. 为什么要设置反爬机制2. 服务器如何区分浏览器访问和爬虫访问3. 反爬虫机制4. User-Agent是什么5. 如何查询网页的User-Agent6. user-agent信息解析7. 爬虫程序user-agent和浏览器user-agent的区别8. 代码查看爬虫程序的user-agent9. 在代码中加入请求头信息 1. 为…

wkhtmltopdf踩坑记录

1. 不支持writing-mode。 需求是文字纵向排列&#xff0c;内容从左到右&#xff0c;本来用的是writing-mode: tb-rl;&#xff0c;插件转pdf后发现失效。 解决方法&#xff1a; 让每一列文字单独用一个div容器包裹&#xff0c;对它的宽度进行限制&#xff0c;控制每一行只能出现…

MySQL 搭建数据库表

创建MySQL数据表需要以下信息&#xff1a; 表名表字段名定义每个表字段 语法 以下为创建MySQL数据表的SQL通用语法&#xff1a; CREATE TABLE table_name (column_name column_type); 复制 以下例子中我们将在 RUNOOB 数据库中创建数据表runoob_tbl&#xff1a; CREATE …

2023第十六届“认证杯”数学建模网络挑战赛第一阶段比赛经历分享

个人名片&#xff1a; &#x1f405;作者简介&#xff1a;一名大二在校生&#xff0c;热爱生活&#xff0c;爱好敲码&#xff01; \ &#x1f485;个人主页 &#x1f947;&#xff1a;holy-wangle ➡系列内容&#xff1a; &#x1f5bc;️ tkinter前端窗口界面创建与优化 &…

【C++】特殊类

目录 前言 一、设计一个类&#xff0c;不能被拷贝 C98方法 C11方法 二、设计一个类&#xff0c;只能在堆上创建对象 方法一 方法二 三、设计一个类&#xff0c;只能在栈上创建对象 方法一 方法二 四、设计一个类&#xff0c;不能被继承 C98方式 C11方法 五、设计…

darknet yolo标注、训练详细说明

文章目录 1、标注数据1.1、标注1.2、生成训练列表文件train.txt1.3、转换数据标注格式 2、训练数据整理2.1、修改train.txt路径2.2、修改yolov3.cfg2.3、obj.name和obj.data2.4、训练脚本文件trian.sh2.5、测试脚本文件test.sh 3、训练 本文对应的脚本文件和程序下载链接 darke…

chatgpt赋能python:Python如何保存成文件

Python如何保存成文件 Python是一种十分强大和流行的编程语言&#xff0c;它的灵活性和易于使用使得它成为了一个应用广泛的语言。在Python中&#xff0c;我们可以使用多种方式将编写的代码保存成文件&#xff0c;从而能够实现对需要的内容的复用和分享。本文将会介绍Python中…

利用谷歌DevTool解决web网页内存泄漏问题

目录 web网页内存泄漏 主要的内存泄漏来源 利用谷歌DevTool定位内存泄漏问题 性能Performance 主要功能 Performance insights性能数据分析 Memory内存 三种模式 相关概念 解决内存泄漏问题 第一步 &#xff1a;是否内存泄漏&#xff1a;js堆直增不降&#xff1b;降…

001Mybatis常用的网站及工具

MyBatis中文网https://mybatis.net.cn/ MyBatis Dynamic SQL – MyBatis Dynamic SQLhttps://mybatis.org/mybatis-dynamic-sql MyBatis GitHubMyBatis has 37 repositories available. Follow their code on GitHub.https://github.com/mybatis/ mybatis-spring-boot-auto…

探究Jetpack(二)之LiveData

目录 LiveData的基本用法比较安全的LiveData使用方法map和switchMapmapswitchMap LiveData是Jetpack提供的一种响应式编程组件&#xff0c;它可以包含任何类型的数据&#xff0c;并在数据发生变化的时候通知给观察者 LiveData特别适合与ViewModel结合在一起使用&#xff0c;虽然…

大数据Doris(三十七):Spark Load导入HDFS数据

文章目录 Spark Load导入HDFS数据 一、准备HDFS数据 二、创建Doris表 三、创建Spark Load导入任务

C语言编程—常量

常量是固定值&#xff0c;在程序执行期间不会改变。这些固定的值&#xff0c;又叫做字面量。 常量可以是任何的基本数据类型&#xff0c;比如整数常量、浮点常量、字符常量&#xff0c;或字符串字面值&#xff0c;也有枚举常量。 常量就像是常规的变量&#xff0c;只不过常量…

云原生系列一:Aeraki --- 管理 Istio 服务网格中任何 7 层协议

导语:Aeraki Mesh 是 CNCF 的沙箱项目,它可以帮助你在服务网格中管理任何七层协议。 今天由叶秋学长来介绍如何通过 Aeraki 来在服务网格中为 Dubbo、Thrift 等协议的服务提供七层流量路由、本地限流、全局限流,以及如何基于 Aeraki Protocol快速开发一个自定义协议,并在 I…

CKA 06_Kubernetes 工作负载与调度 Pod 管理 yaml 资源清单 标签 Pod 生命周期 容器探针

工作负载与调度 1. Pod 管理1.1 kubectl 命令 2. yaml 资源清单2.1 yaml 文件的格式2.2 编写 yaml 资源清单 3. 标签3.1 节点标签选择器 考试题目&#xff1a;pod 中运行 nginx 和 memcache 容器4. Pod 生命周期4.1 Init 容器 5. 容器探针5.1 探测类型5.2 配置存活、就绪和启动…

驱动进化之路:总线设备驱动模型

了解总线设备驱动模型之前&#xff0c;可以先了解常规驱动程序的编写&#xff1a; LED驱动程序框架 驱动设计的思想&#xff1a;面向对象/分层/分离&#xff08;以LED操作为例&#xff09; 此次总线设备驱动模型程序的编写基于上述两种框架。 1. 总线设备驱动模型框架 在led_d…