为什么你在用 ChatGPT 的提示词 Prompt 似乎效果不如人意?

news2024/9/24 3:26:16

 在使用ChatGPT的神奇提示词Prompt时,或许你会发现它的效果并不总是如人所愿。让我们看看其中的原因,以及如何避免这类问题。

aaa1add5892f43df8b3f95026ada68d0.png

01

最近继续在研究以大模型人工智能LLM为大脑的专属知识库的开发技术。偶然看到这么一个智力游戏题目,让大模型回答,检验模型的推理能力。

“You've got to defuse a bomb by placing exactly 5 gallons of water on a sensor. 

The problem is, you only have a 4 gallon jug and a 3 gallons jug on hand! How can you achieve this task?“(你必须在传感器上放5加仑的水来拆除炸弹。问题是,你手头只有一个4加仑的罐子和一个3加仑的罐子!你怎样才能完成这项任务?)

照例扔给 ChatALL 这个工具,它会自动将一个问题发给多个大语言模型。工具的介绍、安装使用过程见文章《ChatALL:发现最佳答案的神奇AI机器人!》

ChatGPT3.5

39168b6b335f3093418bc8039c945166.png

前面的推理步骤对了,但是后面没对。

ChatGPT-4

ebe8aca5327617f71cf7aab5b581203d.png

这个回答对了。

讯飞星火

584397e06eb101ced19bf2469481decd.png

这个家伙在乱答。

谷歌的 Bard

8e4a01fc1cb81b01c79aed51ca9a370e.png

4d7fe0950762e8dbf17f67254589fa4c.png

前面推理解题的过程对了,但是下面每个步骤的容器所装的水,有不对的地方。

Claude2

56798a5ef51a6f73e78777cd46d97622.png

很意外,英文的问题,模型也用了中文回答。个人猜测可能之前都是中文问问题,而且多次要求翻译,模型自动选择了中文回答问题。

但是推理过程也没对。

下面,神奇的地方来了。如果我把问题换成中文:“如何用一个4加仑和3加仑的水壶准确倒出5加仑的水?”,再次挨个提问大模型。

ChatGPT3.5居然挂了。

cc9a40435bc3f212f4577bbbf116c4d6.png

讯飞星火表现不错,前面推理部分对了,后面出错了。

7cabc9df8e15a4c00894d8e253c8ee28.png

谷歌的Bard回答跟英文一样,前面对,最后一步没对。

163101ebd564cdc3e683109a03ff8ec5.png

f5ee4b84918c32050ca8fd6d2c97a95c.png

Claude2 表现比英文好

fb14a8862b90b0f971a4b7c9f3c648c9.png

回答的推理过程,到第5步前面部分还是对的。

02

结果对比

ChatGPT4:完胜

ChatGPT3.5:英文进行了推理,没对,中文干脆回答不行。

Bard:中英文表现一致,都是前面的推理部分对了,后面不对。

讯飞星火:英文乱答,中文对了前面部分。

Claude2:不论中英文问题,会根据用户的偏好,使用同一种语言回答问题。但是推理过程不论中英文,前面对了部分,后面部分不对。

上面的对比结果,又一次证实了朋友刚刚交流说的“ GPT4确实比我见到的都显著强一些“。确实,要是不强,就对不起后面这句话:“岂止收费,还特别贵“。

在最开始使用 ChatALL 这个工具时,曾经用另外一道逻辑题比较各模型的推理能力:“一个猎人向南走了一英里,向东走了一英里,向北走了一英里,此时恰好回到起点。他看到一只熊,于是开枪打了它。这只熊是什么颜色的?”。比较的细节见文章《ChatALL:发现最佳答案的神奇AI机器人!》。

当时奇怪一点:“ChatGPT 和 Claude 居然挂了,没回答出来。但是通过 Poe 调用的ChatGPT3.5(Sage 也是基于 ChatGPT3.5) 回答了出来,这个就很意外,不知道直接调用,和通过 Poe 调用,是加了提示词的区别?“

通过这次切换提问的语言,确实发现了一个秘密:模型在不同的语言之间的推理能力是不同的。换句话说,ChatGPT 3.5 的英文推理能力比中文推理能力要强。

这也是为什么我最近在学习和研读用大模型做应用系统代码的时候,作者提醒用英文写 Prompt 的缘故。

把用户的提问翻译成英文,然后用英文的提示词 Prompt,获得 ChatGPT 大模型的回答后,再翻译成中文返回给最终用户

所以,这种开发方案也解释了上面的疑惑。Poe 调用 ChatGPT 回答问题也应该是采用这种方式,所以通过Poe提问时,ChatGPT 3.5 实际用的是英文推理能力,它就能回答出熊是白色的。如果直接提问,因为中文推理能力不够,所以没有回答出来。

但是,ChatGPT 4 目前看起来中/英文推理能力都一样强悍,尚不清楚是在架构上做了调整,还是训练的数据集上加强了。外界只有一些猜测的信息:《Claude 2 解读 ChatGPT 4 的技术秘密:细节:参数数量、架构、基础设施、训练数据集、成本》

回到标题说的问题,为什么有时候我们拿到一个据说好用的提示词Prompt,但是效果没有想象中的好呢?两个原因:

  1.  大部分情况下,我们接触到的好用的提示词,是英文翻译成中文的。

  2. 在ChatGPT3.5上,大模型的英文推理能力比中文强。

例如这篇文章《被卖到 2w 的 ChatGPT 提示词 Prompt 你确定不想要吗?》,这里面提到的,这个被卖到2W的提示词是英文的,国内拿过来后,把它翻译成了英文,自然效果就没英文那么万能,以及效果打了折扣。

以及这篇文章《AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!》,对大模型进行提示攻击的,也是英文提示词。

03

熊是什么颜色的?

写到这里,我又好奇的测试了一下各模型,上面推理“熊的颜色”问题。

中文提问

031bc2f3f9d5b4741199bfa722651938.png

四个模型表现不错,全部回答正确。

英文提问

168036fcd9b24260c549387c49353d38.png

看来模型们也在进化,至少这个曾经提过的问题,都已经可以正确回答了。

个人推测,模型厂商可能用添加知识库的方法修正了。

阅读推荐:

AI巨头对决:ChatGPT、Bard、Claude 同台竞技:解析一段相同的人工智能代码

教程|使用免费GPU 资源搭建专属知识库 ChatGLM2-6B + LangChain

AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被"提示攻击"攻陷!

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HummerRisk V1.3.0 发布

HummerRisk V1.3.0发布: 大家好,HummerRisk 1.3.0和大家见面了,在这个版本中我们继续在多云接入管理、多云检测方式、云资源态势方面提供新的能力,并增加了新的镜像仓库支持类型,并优化了云的区域选择、优化规则组内容…

如何提高单测覆盖率

相关工具推荐: TestMe:用于快速生成测试类 一、抽象一个公共类,将TestMe的配置内容该类MockTest import lombok.extern.slf4j.Slf4j; import org.junit.Before; import org.junit.runner.RunWith; import org.mockito.junit.MockitoJUnitRunner;impor…

基于SpringBoot+Vue的4S店车辆管理系统设计与实现(源码+LW+部署文档等)

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

浅浅了解线程池

线程池 1.线程池基本概念(了解)1.1 什么是线程池1.2 为什么使用线程池1.3 线程池的优势 2.创建池的方式3.线程池的工作原理(重点)3.1 线程池的七大参数3.2 线程池的四种拒绝策略AbortPolicyCallerRunsPolicyDiscardPolicyDiscardOldestPolicy 3.3 任务队列 4. 自定义线程池(代码…

提供实习证明和奖学金!面向本科生、研究生的 AI 夏令营!第二期开放报名

无论你是新手还是有AI基础 只要你对AI方向感兴趣,有热情 欢迎你加入Datawhale AI 夏令营 联合科大讯飞、阿里云天池 面向在校本科生、研究生 提供暑期实践学习机会 第二期正式开放报名 线上活动,全程免费 报名时间:2023/7/26 - 2023/8/1 1 关…

​渔网格及多边形网格(蜂窝图)表现空间分布特征

重新排版新发。渔网格及多边形网格(蜂窝图)表现空间分布特征。 练习数据: 爬取的山东省胶东五市文保单位。 先上结果图 1.渔网图表现空间分布特征 整体步骤是先对数据做核密度分析,用渔网工具创建渔网格与点,然后将核密度的值赋至渔网格上,最后进行一系列可视化表达。 …

抖音seo短视频矩阵系统源代码开发技术分享

抖音SEO短视频矩阵系统是一种通过优化技术,提高在抖音平台上视频的排名和曝光率的系统。以下是开发该系统的技术分享: 熟悉抖音平台的算法 抖音平台的算法是通过分析用户的兴趣爱好和行为习惯,对视频进行排序和推荐。因此,开发人员…

HTML+CSS+JavaScript:实现京东秒杀倒计时效果

一、产品需求 下图是京东首页的京东秒杀倒计时 我们将模仿京东倒计时做一个下班倒计时效果&#xff08;如下图&#xff09; 二、代码素材 我先把缺失JS部分的代码放在这里&#xff0c;感兴趣的小伙伴可以先自己试试 <!DOCTYPE html> <html lang"en">&…

ABB机器人与S7-1200PLC实现位置坐标数据发送和接收的具体方法

ABB机器人与S7-1200PLC实现位置坐标数据发送和接收的具体方法 上次和大家分享了ABB机器人与S7-1200 PLC进行Socket通信时的基本设置和简单编程测试,具体可查阅以下链接中的内容: S7-1200与ABB机器人进行SOCKET通信的具体方法 本次继续和大家分享,通过Socket通信(TCP)实现…

DSA之图(3):图的遍历

文章目录 0 图的遍历1 图的遍历方法1.1 深度优先搜索DFS1.1.1 DFS的思想1.1.2 邻接矩阵DFS的实现1.1.3 邻接矩阵DFS的代码实现1.1.4 非连通图的DFS遍历1.1.5 DFS算法效率分析 1.2 广度优先搜索BFS1.2.1 BFS的思想&#xff08;连通图&#xff09;1.2.2 BFS的思想&#xff08;非连…

【机器学习】分类算法 - 模型选择与调优GridSearchCV(网格搜索)

「作者主页」&#xff1a;士别三日wyx 「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」&#xff1a;零基础快速入门人工智能《机器学习入门到精通》 模型选择与调优 1、交叉验证2、网格搜索3、模型选择与调优API4、案…

IntelliJ IDEA 2023.2 最新变化

主要更新 AI Assistant 限定访问 Ultimate 在此版本中&#xff0c;我们为 IntelliJ IDEA 引入了一项重要补充 – AI Assistant。 AI Assistant 当前具备一组由 AI 提供支持的初始功能&#xff0c;提供集成式 AI 聊天&#xff0c;可以完成一些任务&#xff0c;例如自动编写文档…

在win10上安装spinal hdl完全教程(一篇文章就够了)

一 参考文章 SpinalHDL 开发环境搭建一步到位(图文版) - 极术社区 - 连接开发者与智能计算生态 (aijishu.com)https://aijishu.com/a/1060000000255643SpinalHDL(一)——环境搭建 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/146529005

Android安卓实战项目(4)---提供给阿尔兹海默症患者的APP(源码在文末)

Android安卓实战项目&#xff08;4&#xff09;—提供给阿尔兹海默症患者的APP&#xff08;源码在文末&#xff09; 一.项目运行介绍 1.大致浏览 &#xff08;1&#xff09;开机界面 &#xff08;2&#xff09;主界面 &#xff08;3&#xff09;Read Instructions界面 &…

运维:Windows11操作系统安装VMware16.1.1图文教程(附下载)

目录 一、VMware 16.1.1 介绍 二、安装教程 三、下载地址 一、VMware 16.1.1 介绍 VMware 16.1.1 是一款功能非常强大虚拟化软件&#xff0c;它允许用户在一台计算机上创建和运行多个虚拟机&#xff08;Virtual Machine&#xff09;相当于拥有多台服务器。这些虚拟机可以模拟…

JUC高并发编程(二)——Synchronized关键字

文章目录 前言为什么要用Synchronized关键字 并发编程中的三个问题可见性原子性有序性 Synchronized保证三大特性使用synchronized保证可见性使用synchronized保证原子性用synchronized保证有序性 Synchronized的特征可重入特征不可中断特征 前言 synchronized 关键字&#xff…

Python爬虫时遇到SSL证书验证错误解决办法汇总

在进行Python爬虫任务时&#xff0c;遇到SSL证书验证错误是常见的问题之一。SSL证书验证是为了确保与服务器建立的连接是安全和可信的&#xff0c;但有时候可能会由于证书过期、不匹配或未受信任等原因导致验证失败。为了解决这个问题&#xff0c;本文将提供一些实用的解决办法…

提高业务效率:利用手机号在网状态 API 进行智能筛选

引言 随着科技的不断发展&#xff0c;手机已成为现代人生活中不可或缺的工具。人们通过手机完成通信、娱乐、购物等各种活动&#xff0c;使得手机号成为了一个重要的个人标识。对于企业而言&#xff0c;了解手机号的在网状态对于业务发展和客户管理至关重要。为了提高业务效率…

https和http有什么区别

https和http有什么区别 简要 区别如下&#xff1a; ​ https的端口是443.而http的端口是80&#xff0c;且二者连接方式不同&#xff1b;http传输时明文&#xff0c;而https是用ssl进行加密的&#xff0c;https的安全性更高&#xff1b;https是需要申请证书的&#xff0c;而h…

Linux常用命令——dpkg-statoverride命令

在线Linux命令查询工具 dpkg-statoverride Debian Linux中覆盖文件的所有权和模式 补充说明 dpkg-statoverride命令用于Debian Linux中覆盖文件的所有权和模式&#xff0c;让dpkg于包安装时使得文件所有权与模式失效。 语法 dpkg-statoverride(选项)选项 -add&#xff1…