文章目录
- 一、推理测试
- 测试提示词1:假设树上有10只鸟,开枪打死1只,那么树上还有几只鸟?
- - 测试提示词2:一艘船10天可以渡过太平洋,请计算10艘船多少天可以渡过太平洋。
- 测试提示词3:我爸妈结婚的时候为什么不邀请我
- 二、格式化输出简单测试
- 三、计算测试
- 四、文学测试
讯飞星火认知大模型,无疑是这几天国内最火热的话题之一。为了支持国产,申请了测试账号,今天抽时间进行一轮简单的实测,供大家品鉴。
讯飞星火实测网址:https://xinghuo.xfyun.cn/desk
今日出场的是:
1.讯飞星火认知大模型
2.ChatGPT的GPT-3.5 Model版本
3.ChatGPT的GPT-4 Model版本
一、推理测试
测试提示词1:假设树上有10只鸟,开枪打死1只,那么树上还有几只鸟?
1.星火认知大模型 : 正确图片
2.ChatGPT的GPT-3.5 Model版本 :错误
3.ChatGPT的GPT-4 Model版本: 正确
第一轮结果:星火认知大模型结果强过ChatGPT的GPT-3.5 Model版本,与ChatGPT的GPT-4 Model版本打平。
- 测试提示词2:一艘船10天可以渡过太平洋,请计算10艘船多少天可以渡过太平洋。
1.星火认知大模型 : 正确
2.ChatGPT的GPT-3.5 Model版本 :正确
3.ChatGPT的GPT-4 Model版本: 正确
第二轮结果:大家都是对的,打平。
测试提示词3:我爸妈结婚的时候为什么不邀请我
1.星火认知大模型 : 正确
2.ChatGPT的GPT-3.5 Model版本 :错误
3.ChatGPT的GPT-4 Model版本: 正确
第三轮结果:星火认知大模型结果强过ChatGPT的GPT-3.5 Model版本,与ChatGPT的GPT-4 Model版本打平。
二、格式化输出简单测试
测试提示词:我希望你扮演一个电子表格。你只需回复我基于文本的10行excel表,行号和单元格字母作为列(A到L)。第一列标题应该是空的参考行号。我会告诉你要在单元格中写入什么,你将以文本形式回复excel表格的结果,除此之外什么都不用做。不需要描述解释。我会给你写公式,你会执行公式,你只会回复excel表格的结果作为文本。首先,先给我一张空白的表格
1.星火认知大模型 : 错误
2.ChatGPT的GPT-3.5 Model版本 : 正确
3.ChatGPT的GPT-4 Model版本: 正确
本轮测试星火认知大模型明显不如ChatGPT们。
三、计算测试
测试提示词:你现在是一名银行财务,一个用户有500000本金,每年利率增长1%,50年后能拿到多少钱
1.星火认知大模型 : 错误
2.ChatGPT的GPT-3.5 Model版本 :错误
3.ChatGPT的GPT-4 Model版本: 正确
本轮,只有ChatGPT的GPT-4 Model版本,星火错了。
四、文学测试
1.星火认知大模型 : 差
2.ChatGPT的GPT-3.5 Model版本 :良
3.ChatGPT的GPT-4 Model版本:优