大模型battle，哪家才是真的“价美”也“物美”

news2026/2/12 14:01:39

大模型battle，哪家才是真的“价美”也“物美”

物美价廉
何为物美价廉
大模型battle
基础能力测试：
专业能力测试：
中文特性能力测试：
逻辑推理能力测试：
创新能力测试：
安全性与合规性测试：
写在最后

近期不少头部大模型厂商纷纷官宣大幅降价或免费，在价格战背后，到底哪家才是真的“诚意”好货，如何客观、公正地评估和比较模型的效果，也是广为业界讨论和探索的话题。

物美价廉

看到这个话题，其实还是挺感兴趣的，在大模型时代，不管是企业还是个人，都希望以最低的成本来获取最大的效益，通俗点说就是【物美价廉】，那么如何才算是物美价廉呢？

何为物美价廉

物美价廉包含两部分：【价廉】是明码标价，不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看，这个一目了然，没什么争议。
但是【物美】该如何判断，什么样的大模型，或者说哪个厂家的大模型是真的物美呢？这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle，看看效果如何，这样在心里至少对各厂家的大模型有一个基础的认知了。

大模型battle

在进行各厂家大模型battle之前，我先让通义千问帮我生成了几个battle用的问题。
在这里插入图片描述
由于篇幅的关系，我的大模型battle对象选择模型A和模型B，battle的问题就按照上面6个场景依次进行并且附上评价。
进入OpenCompass大模型竞技场，选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】，battle开始…

基础能力测试：

输入内容【给出古诗“静夜思”的原文，并解释诗中所蕴含的情感和意象】
在这里插入图片描述
我认真的看了两家大模型对于古诗静夜思所蕴含的情感和意象的描述，关于诗人内心的孤寂，思念故乡的心境都理解到位，模型B更详细一些

专业能力测试：

输入内容【解释DNA复制的过程，并讨论其中的关键酶及其功能】
在这里插入图片描述
关于这个问题的回答，结果基本也就一目了然，模型A主要关心的是问题的后半句的解释，而模型B关注的是问题整体的解释，模型B回答内容更丰富详尽一些

中文特性能力测试：

输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】
在这里插入图片描述

这个问题我截了两幅图，为什么截两幅图，大家基本也就一眼能看出来原因了。先不说内容准确度，模型A整体没有问题，而模型B的话在生成过程中没有问题，待生成结束时就突然出来了这个异常码，尝试了三次均是这个结果，