中文竞技场大测评
- 活动入口
- 大模型评测
- 写作创作相关
- 代码相关
- 知识常识
- 中文游戏
- 人类价值观
- 模型自动对话
- 体验感受
活动入口
这次的中文竞技场大模型评测活动,内容很有趣,包含了写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的测评,涵盖的面很广,内容也很丰富,那么下面就开始我们的体验之旅吧。顺便说一下,这次的体验不需要复杂的操作步骤,你只需要输入你想知道的问题即可,测评上手无压力。
大模型评测
在开始大模型评测之前,首先提供一下大模型评测地址:https://modelscope.cn/studios/LLMZOO/Chinese-Arena/summary?spm=a2c6h.12873639.article-detail.8.bfa743e4hHORL3 页面如图
下面开始正式测评中文竞技场大模型问题回复效果。
写作创作相关
这里我首先体验一下写作相关,因为自己平时也会写写博文,因此写作这方面体验一下写作效果如何。
第一个问题:七夕
第二个问题:缅北电诈
第三个问题:日本倾倒核废水
以上三个问题都处于写作创作相关领域下,相比而言,模型A(Model A: ziya-llama-13b-v1)的生成效果更好;而模型B(Model B: belle-llama-13b-2m-v1)对于写作创作领域的理解可能有差异,理论上对于不同的话题进行写作创作,不应需要和第一个话题关联。相关联的话那就是聊天一样的上下文,而不是写作创作相关领域了。
代码相关
作为Java开发者,对于代码相关的问题还是有挺多想问的,那么下面火速开始问答吧
第一个问题:生成一个学员对象
第二个问题:是一段代码
public static void main(String[] args) {
String a = "22:00";
String b = "07:00";
a = a.substring(0,a.indexOf(":"));
b = b.substring(0,b.indexOf(":"));
System.out.println(Integer.parseInt(a));
System.out.println(Integer.parseInt(b));
System.out.println(Integer.parseInt(b) < Integer.parseInt(a));
}
第三个问题:Java实现冒泡算法
对于以上三个问题都处于代码相关领域下,相比而言,模型A(Model A: baichuan-13b-chat-v1)的生成效果没有模型B好,模型B(Model B: chatglm-6b-v2)对于一些基础的代码描述,可以直接生成相关的内容,另外模型A在第二个问题的执行过程中错误解析了代码中的内容,而模型B不但正确打印了代码执行结果,还详细分析了代码操作意义,更切合需要一些。
知识常识
对于知识常识能聊的方面就比较多,可以有很多想问的
第一个问题:为什么要工作
第二个问题:手机有什么用
第三个问题:为什么会下雨
第四个问题:什么是职场PUA
在知识常识领域上,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: ChatPLUG-100Poison)对于知识常识问题的回答基本都在可理解范围,回答的都可以,内容虽不是完全相同,但是是从不同角度回答同一个问题,很不错。
中文游戏
下面开始体验中文游戏领域的大模型,看一下是否能达到预期
第一个问题:什么是 鱿鱼游戏
第二个问题:答非所问 两个模型的回复效果都不太好,可能是问题提问的不够详细
第三个问题:什么是 答非所问
第四个问题:和尚打伞-无法无天
在中文游戏领域,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: moss-moon-003-sft-v1)对于部分问题不能返回想要的结果,另外对于一些尚未训练到的谚语,领个模型都报错了,每次error都会把页面卡死,我尝试了多次第四个问题都是这样的结果。
人类价值观
对于人类价值观领域的问题,直接上问题吧
第一个问题:什么是 好人不长久,坏人活千年
第二个问题:为什么说 傻人有傻福
第三个问题:什么是 长江破浪会有时,直挂云帆济沧海
第四个问题:为什么要做一个善良的人,而不是一个坏人
在人类价值观领域模型上,模型A(Model A: ChatPLUG-100Poison)的回答效果更准确一下,特别是第三个问题,模型B(Model B: ChatPLUG-initial)回答的对于原文的出处竟然都弄错了,因此来说模型A的效果更好一些。
最后一个NLP专业领域这个日常接触的不是很多,也测试了一些内容,这里就不再多写了,大家有兴趣的可以自行去体验哈。
模型自动对话
这里我体验了一下 火车站台 的自动对话,对话效果不是太好
餐馆场景的自动对话还是比较准确的
超市场景的自动对话也还可以
体验感受
对于这次的中文竞技场大模型评测中所提到的写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的体验,整体上效果还是不错的,通过模型A与模型B生成内容的比对,以及一些固定场景下自动对话的生成,为后续将大模型的训练成果运用与日常生活中提供素材,可以说不同场景下的对话内容的训练以及自动对话的生成,可以提供很多场景下的AI为顾客服务,单说模型提供的场景中
就很多方面了。不过目前各个场景的训练数据量不太多,希望后续可以有更多的场景支持以及可以针对不同的顾客问题提供精准的回答等方面来完善模型自动对话功能。
本次测评到这里也就结束了,整体的体验感受很不错,模型训练话成果也比较显著,赞一个。