最近,随着备受关注的文心一言正式免费向全社会开放,再次引起了社会层面对国产大模型的兴趣。
以文心一言为代表的国产大模型性能究竟如何?如果将它们相互比较,并且和GPT系列模型等国际前沿水平的LLM进行比较,会得到什么样的结果呢?笔者对此非常好奇,于是决定自己动手试试。
01
评估策略与数据准备
全面评估大型语言模型的性能是一件相当复杂的任务。不仅需要制定周全的策略,还需要准备大量的数据和评估程序,并结合自动化验证指标和主观评价来进行综合判断。
笔者目前还是一名学生,没有能力投入足够资源做全面评估,所以选择在一个垂直领域当中做一下力所能及的小数据集测试。
当下,笔者正在做一个知识图谱项目,整理了一份春秋战国时期的历史类知识图谱,根据图谱内容,正好可以整理出若干问题答案。于是,我们选取了20个与春秋战国相关的问题。
这些问题的特点是:既具备知识性,又是历史数据(不是最新资讯,不用考虑信息是否已经存储在 LLM中的问题),同时还可以根据现有知识图谱直接获得正确答案。
因此,我们实际上是生成了一份样本数为 20 的问题答案对数据集(QA pair dataset)。
借助这个小小的数据集,我们用来对文心一言、讯飞星火、GPT-4和GPT3.5进行评估测试。
02
文心一言、讯飞星火、GPT-4与GPT3.5的问答结果
我们采用的评估方式为将这20个问题分别输入到以上四个大型语言模型(LLM)的网页版界面中,并要求它们进行回答。各个LLM都给出了答案,但效果不同。关于各个模型问答的详情请参考本文最后的 “06 附录:数据详情” 部分,此处,我们先看结果:
文心一言答对18题,正确率为90%
讯飞星火答对13题,正确率为65%
GPT-4答对12题,正确率为60%
GPT3.5答对11题,正确率为55%
经过与标准答案的对比,我们发现文心一言在准确率上远高于讯飞星火、GPT-4和GPT3.5,达到了惊人的90%。而相较之下,讯飞星火、GPT-4和GPT3.5的准确率分别为65%、60%和55%,三者比较接近。
03
用户体验打分
此外,为了让实验数据更加细化以及实现多样化的评估,我们又人工对每个模型的答案进行了打分,其中每道题的满分为5分。打分的规则如下:
5分:答案正确、完整,语言清晰易懂(在无法给出正确答案的同时,答案意为“不知道”也评为5分)
4分:答案正确、不完整、语言清晰易懂
3分:答案正确,语言晦涩、不流畅
2分:答案部分正确、语言清晰易懂
1分:答案少部分正确
0分:答案错误
四个模型的打分情况详情请见:https://github.com/microsoft/SmartKG/blob/master/Resources/Data/Excel/input/SprintAutumn/大语言模型对20个问题的回答及打分.xlsx
总之,在打分评估方面,文心一言仍然显著领先,获得了出色的平均分4.3 分,讯飞星火平均分为3.0分,勉强及格。而GPT-4和GPT3.5的平均分分别为 2.8 和 2.35, 均未及格。
04
比较、分析和猜想
我们发现,GPT3.5和GPT-4对历史事件的细节掌握较差,尤其是针对关于某个具体历史事件或人物的问题,文心一言可以给出准确答案时,GPT系列模型却回答错误。这可能是因为GPT系列模型的训练数据集并不包含春秋战国时期的具体信息。而文心一言作为百度开发的大型语言模型,其训练数据集很可能包含了大量关于中国历史的资料,从而对于历史事件的细节掌握更加准确。
GPT3.5 和GPT-4回答错误的题目中有6道题目具有较高的重合度,这可能是由于它们所使用的训练数据集在春秋战国时期的数据较为相似,并且都基于Transformer架构,底层逻辑较为类似,所以导致模型在处理某些问题时得出相似的错误答案。
然而,相较于其他三个模型,GPT-4在提供更具体描述的答案方面表现更出色。举例来说,在回答问题16:“哪些人物有不止一个称号?”时,GPT-4不仅提供了人物的名字,还额外提供了具体的人物称号。针对问题17:“著名的春秋五霸分别来自哪五个国家?”,GPT-4除了回答国名,还额外给出了春秋五霸是谁。GPT-4在这个方面之所以更出色的原因,可能是因为其训练数据更加丰富,模型规模更大,具备通用的语言理解和上下文感知能力,因此能够提供更为全面的答案。
讯飞星火模型虽然在准确率和分数上略高于GPT系列模型,但其回答表现仍有待提高,其中一个主要问题是,当遇到一些无法回答的问题时,讯飞星火模型可能会采用一种类似于“答非所问”的方式来回应。当问题涉及某个事件对某个国家或个人的影响时(例如问题5:“齐国和魏国为什么爆发了桂林之战?” 和 问题 7:“春秋战国时期的长平之战对于赵国和秦国的发展有何影响?”),讯飞星火模型可能会给出类似于“有重大影响”这样的泛泛答案,试图以此来模糊问题或逃避具体回答。
05
结尾
根据上面的实验结果可以看出,不同模型在回答春秋战国问题时各有优势和不足。文心一言在准确性和历史细节方面表现出色,适合被应用于需要精确的答案的场景。而GPT-4则在提供更具体和丰富描述方面更强,适合需要更深入分析的情境。GPT3.5和讯飞星火的总体表现稍显不足。
当然,本文陈述的只是笔者个人通过一个细分垂直领域的极小数据集得出的手动测评结果,距离全面完整的评估、比较各中LLM还相距甚远。在此分享感受与做法,也是抛砖引玉,希望能看到更多领域、更大范围的对LLM的评估结果。
06
附录:数据详情
四个LLM回答中国春秋战国历史知识二十个问题的结果如下所示(其中红色部分为错误回答):
问题一
《孙子兵法》的作者是谁,他是哪个国家的军事家?
正确答案:《孙子兵法》的作者是孙武,他是中国/齐国的军事家。
文心一言
《孙子兵法》的作者是孙武,他是春秋时期齐国的军事家。
讯飞星火
《孙子兵法》的作者是孙武,他是春秋时期的齐国人。
GPT-4
《孙子兵法》的作者是孙武,他是中国的军事家。
GPT3.5
《孙子兵法》的作者是孙武,他是中国的军事家。
问题二
成语“千金买骨”的出处是哪里,解释是什么?
正确答案:成语“千金买骨”出自《战国策·燕策一》,意思是指用重金买下千里马的骨头,表示对求贤若渴的态度和决心。
文心一言
成语“千金买骨”出自《战国策·燕策一》,意思是指用重金买下千里马的骨头,表示对求贤若渴的态度和决心。
讯飞星火
成语“千金买骨”的出处是《战国策》。这个成语的意思是比喻为了得到人才而不惜代价。
GPT-4
成语“千金买骨”的出处是《左传》,解释通常为用重金购买战士的尸骨以表敬重,也可比喻人的才干或品质有很高的价值。
GPT3.5
成语“千金买骨”的出处是《后汉书·马援传》,意为用千金购买一块骨头,比喻不惜重金购得珍贵之物。
问题三
参加城濮之战的楚国将领有哪些?
正确答案:参加城濮之战的楚国将领是成得臣(子玉)。
文心一言
参加城濮之战的楚国将领是成得臣。
讯飞星火
参加城濮之战的楚国将领有成得臣、斗越椒等。
GPT-4
参加城濮之战的楚国将领包括楼缓、壤地方等。
GPT3.5
参加城濮之战的楚国将领包括春申君黄歇、伍子胥等。
问题四
同时参加城濮之战和邲之战的国家有哪些?
正确答案:同时参加城濮之战和邲之战的国家有晋国和楚国。
文心一言
同时参加城濮之战和邲之战的国家有晋国和楚国。
讯飞星火
同时参加城濮之战和邲之战的国家有晋国、楚国、齐国、卫国、鲁国、宋国、陈国、蔡国和秦国。
GPT-4
同时参加城濮之战和邲之战的国家有齐国和宋国。
GPT3.5
同时参加城濮之战和邲之战的国家是楚国和秦国。
问题五
齐国和魏国为什么爆发了桂林之战?
正确答案:齐国和魏国爆发了桂林之战是因为齐国干涉了魏国和赵国之间的战争。
文心一言
齐国和魏国爆发了桂林之战是因为齐国干涉了魏国和赵国之间的战争。
讯飞星火
齐国和魏国爆发了桂林之战,这场战争对赵国和秦国的发展有很大影响。
GPT-4
齐国和魏国爆发桂林之战的原因主要是争夺土地和权力。
GPT3.5
齐国和魏国爆发桂林之战是因为两国争夺桂林地区的控制权。
问题六
战国七雄中的哪个国家最终统一了中国,开创了秦朝?
正确答案:战国七雄中的秦国最终统一了中国,开创了秦朝。
文心一言
战国七雄中的秦国最终统一了中国,开创了秦朝。
讯飞星火
秦国最终统一了中国,开创了秦朝。
GPT-4
战国七雄中秦国最终统一了中国,开创了秦朝。
GPT3.5
战国七雄中最终统一中国、开创了秦朝的国家是秦国。
问题七
春秋战国时期的长平之战对于赵国和秦国的发展有何影响?
正确答案:长平之战对于赵国和秦国的发展造成深远影响,赵国削弱,秦国得以强大。
文心一言
春秋战国时期的长平之战对于赵国和秦国的发展有何影响。这个问题的答案比较复杂,可以参考相关历史文献。
讯飞星火
长平之战是发生在战国时期赵国和秦国之间的一场著名战役,这场战役对于赵国和秦国的发展都有很大的影响。
GPT-4
春秋战国时期的长平之战使赵国元气大伤,国势日衰;对秦国而言,巩固了国力,为统一六国奠定了基础。
GPT3.5
长平之战对于赵国和秦国的发展造成深远影响,赵国削弱,秦国得以强大。
问题八
哪件事件标志着春秋时期的结束和战国时期的开始?
正确答案:标志着春秋时期的结束和战国时期的开始的事件是三家分晋
文心一言
标志着春秋时期的结束和战国时期的开始的事件是三家分晋和田陈篡齐。
讯飞星火
春秋时期结束和战国时期开始的标志是公元前475年吴越争霸战争的失败。
GPT-4
公元前403年馆陶之战(即晋国灭赵国,将其分化为韩、赵、魏三国)标志着春秋时期的结束和战国时期的开始。
GPT3.5
春秋时期结束、战国时期开始的标志事件是郑国灭亡(战国初期的齐桓公四年)。
问题九
苏秦和张仪共同访问过哪些国家?
正确答案:苏秦和张仪共同访问过赵国、魏国、燕国、齐国、楚国、韩国等。
文心一言
苏秦和张仪共同访问过的国家有赵国、燕国和韩国。
讯飞星火
苏秦和张仪共同访问过中山国、燕国、齐国等国家。
GPT-4
苏秦和张仪共同访问过齐、楚、燕、汉、赵、韩、魏等国家。
GPT3.5
苏秦和张仪共同访问过赵国、魏国、燕国等。
问题十
成语“悬梁刺股”是从谁的经历衍生的?
正确答案:成语“悬梁刺股”是从苏秦/孙敬的经历中衍生的。
文心一言
成语“悬梁刺股”是从苏秦的经历中衍生的。
讯飞星火
“悬梁刺股”是从孙敬的经历中衍生出来的。
GPT-4
成语“悬梁刺股”是从苏轼的故事中衍生的。
GPT3.5
成语“悬梁刺股”源于战国时期的郑国大夫子产的经历。
问题十一
“管仲治齐”和“商鞅变法”有哪些共同点?
正确答案:“管仲治齐”和“商鞅变法”的共同点是它们都推行了法家思想,注重法制建设和经济改革。
文心一言
“管仲治齐”和“商鞅变法”的共同点是它们都推行了法家思想,注重法制建设和经济改革。
讯飞星火
“管仲治齐”和“商鞅变法”有很多共同点,比如都强调以法治国,都有改革措施等。
GPT-4
“管仲治齐”和“商鞅变法”的共同点主要有:加强封建中央集权,推行法治,重视农业和发展国民经济,实行严格的军队管理和征兵制度。
GPT3.5
“管仲治齐”和“商鞅变法”都是战国时期改革的代表,致力于国家的发展与强大。
问题十二
春秋战国时期秦国在谁的治理下变得强盛起来?
正确答案:秦国在商鞅/秦穆公的治理下变得强盛起来。
文心一言
秦国在商鞅的治理下变得强盛起来。
讯飞星火
秦国在秦穆公的治理下变得强盛起来。
GPT-4
秦国在商鞅的治理下变得强盛起来。
GPT3.5
秦国在秦穆公的治理下变得强盛起来。
问题十三
齐桓公和秦孝公作为春秋时期的明君,他们的治国策略有何相似之处?
正确答案:齐桓公和秦孝公作为春秋时期的明君,他们的治国策略相似之处包括:重视法治、强化中央集权、扩大国土、倡导和平共处。
文心一言
齐桓公和秦孝公作为春秋时期的明君,他们的治国策略的相似之处在于都推行了改革,注重经济发展和国家实力提升。
讯飞星火
齐桓公和秦孝公作为春秋时期的明君,他们的治国策略相似之处在于都强调以德治国。
GPT-4
齐桓公和秦孝公作为春秋时期的明君,他们的治国策略相似之处包括:重视法治、强化中央集权、扩大国土、倡导和平共处。
GPT3.5
齐桓公和秦孝公都推行了改革政策,重用人才,提升国力,促进国家繁荣。
问题十四
历史上第一次经济改革是哪个事件?
正确答案:历史上第一次经济改革是管仲改革。
文心一言
历史上第一次经济改革是管仲改革。
讯飞星火
历史上第一次经济改革是管仲的改革。
GPT-4
历史上第一次经济改革通常被认为是中国战国时期的商鞅变法。
GPT3.5
历史上第一次经济改革是商鞅变法,发生在战国时期的秦国。
问题十五
哪些国家参与了不止一次著名战役?
正确答案:参与了不止一次著名战役的国家有晋国、齐国、秦国、楚国等。
文心一言
参与了不止一次著名战役的国家有晋国、齐国、秦国、楚国等。
讯飞星火
参与了不止一次著名战役的国家有晋国、楚国、齐国、秦国等。
GPT-4
参与过不止一次著名战役国家的例子包括楚国、秦国等。
GPT3.5
参与了不止一次著名战役的国家包括秦国、楚国、赵国等。
问题十六
哪些人物有不止一个称号?
正确答案:不止一个称号的人物例子有:孔子(称号:孔子,孔夫子)、老子(称号:老子,李耳、太上老君)等。
文心一言
有不止一个称号的人物有姜小白、田文、赵雍等。
讯飞星火
有不止一个称号的人物有孔子(儒家学派创始人)、荀子(荀况)、韩非子(法家代表人物)等。
GPT-4
不止一个称号的人物例子有:孔子(称号:孔子,孔夫子)、老子(称号:老子,李耳、太上老君)等。
GPT3.5
有不止一个称号的人物包括孔子(孔夫子、仲尼)、孟子(孟子、孟轲)等。
问题十七
著名的春秋五霸分别来自哪五个国家?
正确答案:春秋时期的五霸分别来自齐国、晋国、秦国、楚国和燕国。
文心一言
著名的春秋五霸分别来自齐国、晋国、楚国、宋国、秦国。
讯飞星火
著名的春秋五霸分别来自齐桓公、晋文公、楚庄王、吴王阖闾和越王勾践所在的国家。
GPT-4
著名的春秋五霸分别来自齐国(齐桓公)、晋国(晋景公)、秦国(秦穆公)、晋国(晋文公)、楚国(楚庄王)。
GPT3.5
春秋时期的五霸分别来自齐国、晋国、秦国、楚国和燕国。
问题十八
孔子是什么学派的创始人?
正确答案:孔子是儒家学派的创始人。
文心一言
孔子是儒家学派的创始人。
讯飞星火
孔子是儒家学派的创始人。
GPT-4
孔子是儒家学派的创始人。
GPT3.5
孔子是儒家学派的创始人。
问题十九
孔子的弟子中有谁在晋国担任过帝师?
正确答案:子夏在晋国担任过帝师。
文心一言
孔子的弟子中在晋国担任过帝师的是端木赐。
讯飞星火
孔子的弟子中有曾子在晋国担任过帝师。
GPT-4
孔子的弟子子夏(字:卜商)在晋国担任过帝师。
GPT3.5
孔子的弟子子贡曾在晋国担任过帝师。
问题二十
春秋战国时期的"春秋五霸"中,谁是最后一个被称为"霸"的国君?
正确答案:春秋战国时期的"春秋五霸"中,最后一位被称为"霸"的国君是越王勾践/楚庄王。
文心一言
春秋战国时期的"春秋五霸"中,最后一位被称为"霸"的国君是越王勾践。
讯飞星火
春秋五霸中最后一个被称为“霸”的国君是越王勾践。
GPT-4
春秋战国时期的"春秋五霸"中,楚庄王(春秋末期)是最后一个被称为"霸"的国君。
GPT3.5
春秋战国时期的“春秋五霸”中,最后一个被称为“霸”的国君是韩国的韩昭侯。
欢迎关注微软 ATP 官方账号
微软 ATP 一手资讯抢先了解
点击“阅读原文” | 了解更多 AI 赋能案例