大模型battle,哪家才是真的“价美”也“物美”

news2024/9/20 12:33:06

大模型battle,哪家才是真的“价美”也“物美”

  • 物美价廉
  • 何为物美价廉
  • 大模型battle
  • 基础能力测试:
  • 专业能力测试:
  • 中文特性能力测试:
  • 逻辑推理能力测试:
  • 创新能力测试:
  • 安全性与合规性测试:
  • 写在最后

近期不少头部大模型厂商纷纷官宣大幅降价或免费,在价格战背后,到底哪家才是真的“诚意”好货,如何客观、公正地评估和比较模型的效果,也是广为业界讨论和探索的话题。

物美价廉

看到这个话题,其实还是挺感兴趣的,在大模型时代,不管是企业还是个人,都希望以最低的成本来获取最大的效益,通俗点说就是【物美价廉】,那么如何才算是物美价廉呢?

何为物美价廉

物美价廉包含两部分:【价廉】是明码标价,不同大模型厂家的价格可以到不同厂家提供的大模型官网页面查看,这个一目了然,没什么争议。
但是【物美】该如何判断,什么样的大模型,或者说哪个厂家的大模型是真的物美呢?这就需要我们借助今天的【OpenCompass大模型竞技场】来让各个大模型之间进行battle,看看效果如何,这样在心里至少对各厂家的大模型有一个基础的认知了。

大模型battle

在进行各厂家大模型battle之前,我先让通义千问帮我生成了几个battle用的问题。
在这里插入图片描述
由于篇幅的关系,我的大模型battle对象选择模型A和模型B,battle的问题就按照上面6个场景依次进行并且附上评价。
进入OpenCompass大模型竞技场,选择大模型【ERNIE 4.0 8K 0329】和【Qwen1.5 72B Chat】,battle开始…

基础能力测试:

输入内容【给出古诗“静夜思”的原文,并解释诗中所蕴含的情感和意象】
在这里插入图片描述
我认真的看了两家大模型对于古诗 静夜思 所蕴含的情感和意象的描述,关于诗人内心的孤寂,思念故乡的心境都理解到位,模型B更详细一些

专业能力测试:

输入内容【解释DNA复制的过程,并讨论其中的关键酶及其功能】
在这里插入图片描述
关于这个问题的回答,结果基本也就一目了然,模型A主要关心的是问题的后半句的解释,而模型B关注的是问题整体的解释,模型B回答内容更丰富详尽一些

中文特性能力测试:

输入内容【分析并解释“绿水青山就是金山银山”这句话背后的哲学思想和现实意义】
在这里插入图片描述
在这里插入图片描述
这个问题我截了两幅图,为什么截两幅图,大家基本也就一眼能看出来原因了。先不说内容准确度,模型A整体没有问题,而模型B的话在生成过程中没有问题,待生成结束时就突然出来了这个异常码,尝试了三次均是这个结果,

逻辑推理能力测试:

输入内容【假设所有A都是B,有些B是C,那么可以推断出哪些关于A和C的关系?请给出理由】
在这里插入图片描述
这个问题结合个人的理解,模型A的回答更严谨,也更正确一些,而模型B回答的分析详细的情况。

创新能力测试:

输入内容【创造一个新的科幻故事情节,其中人工智能与人类共同探索外太空的新家园】
在这里插入图片描述
这里截图只能显示两个大模型厂家关于这个问题的部分内容,但是还是可以看出,模型A在创新上更符合条件,整个故事情节也是现有影视作品没有的,而模型B给出的回答内容也有一定的可参考性

安全性与合规性测试:

输入内容【针对网络欺凌现象,提出一套有效的预防和应对策略,确保平台内容健康】
在这里插入图片描述
从截图上来看,模型A和模型B回复的都比较全面丰富。

写在最后

以上的测试样本比较少,并不能真实反映两个大模型平台的语言模型生成能力,另外不同的大模型对于不同场景的能力也各不相同,因此这里不具备参考性。对于模型的胜负评定也是只代表个人的理解,不具备通用性,其他大模型个人用的比较少,这里受限于篇幅的原因,就不再一一进行battle了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Qt窗口】—— 对话框

目录 (一) 对话框介绍 (二)对话框的分类 2.1 模态对话框 2.2 非模态对话框 2.3 混合属性对话框 (三)内置对话框 消息对话框 QMessageBox 颜色对话框 QColorDialog 字体对话框 QFontDialog 输入对…

RK3588 系列之1—串口连接

RK3588 系列之1—串口连接 1.串口转USB芯片驱动2.使用MobaXterm进行串口链接3.注意事项 1.串口转USB芯片驱动 根据使用的芯片安装不同的驱动,常见的如CH340。装完驱动后,通过设备管理器,查看开发板与个人PC连接情况,记住占用的端…

超声波智能水表通讯方式有哪些?

超声波智能水表采用多种通讯方式实现数据传输,包括但不限于有线连接、无线网络、以及短距离无线通信技术,这些方式各有优劣,适用于不同的应用场景。 一、通讯方式概述 1.有线通讯 -RS-485接口:这是一种半双工的串行通信接口标准…

微服务框架二

微服务 微服务技术栈 服务发现概念 服务发现两种方式 客户端发现 服务端服务发现 服务发现技术对比 Nacos架构图 基于dubbo nacos服务调用 Nacos核心源码解析 registery 具体实现在nacosServiceRegistery setbeat 返回clientBeatInterval

cannot import name ‘greycomatrix‘ from ‘skimage.feature.texture‘ 解决方法

症状: ImportError: cannot import name ‘greycomatrix’ from ‘skimage.feature’ (D:\ProgramData\anaconda3\Lib\site-packages\skimage\feature_init_.py) 解决方案 将涉及的grey全部替换为gray即可

黑神话·悟空亢金龙怎么打?亢金龙全攻略

走到湖心庙宇,长得像弥勒缩小版的小和尚出现了。 他为师为师的叫着,似乎还想收天命人为徒,跟着他修行似得。 不过,他身上的乾坤袋出卖了自己,不是黄眉大仙是谁? 不知为何,曾经从金铙里救出悟空的亢金龙居…

Minkowski分形电路生成工具[程序附后]

此工具用于生成Minkowski分形电路,应用领域可参考分形电路的纪录片或CNKI论文。运行环境在Altium Designer中,可用于Altium Designer全系列的版本中。 程序界面如下图所示,可以支持外框和迭代次数的更改。 程序下载链接: Minkows…

加载:loader实现

1、利用内联汇编显示字符串 通过反复调用BIOS显示字符的方式来显示一个完整的字符串,该功能将用于loader在初始化过程中显示初始化进度、错误信息。 具体代码 // 16位代码,必须加上放在开头,以便有些io指令生成为32位 __asm__(".code…

STM32外设SPI(串行通信),W25Q64(8Mb)

1 非易失存储器:E2PROM,FLASH(断电不丢失) 2 易失存储器:SRAM,DRAM 3 W25Q64 1 从00 00 00 到 7F FF FF 2 block(块),sector(扇区) ,page(页区) 写数据到FLASH(256字节) 读数据很快&#…

002.Python爬虫系列_初识协议

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

论文学习哇

2024.7.18 1.A gated cross-domain collaborative network for underwater object detection 对图像进行增强 摘要:水下存在低对比度和低光的问题,有的学者通过水下图像增强来提高图片质量,但会移除或者改变水下物体的细节。所以作者探索两…

【Android】使用 ADB 查看 Android 设备的 CPU 使用率

目录 一 查看整体CPU使用率 1 top 二 查看特定应用的CPU使用率 1 获取特定应用的进程 ID (PID) 2 使用 top 命令并过滤该 PID 三 常见的CPU相关命令参数 1 adb shell top 参数 一 查看整体CPU使用率 1 top top命令将显示当前所有进程的 CPU 使用情况,包括每…

Codeforces Round 969 (Div. 2) 题ABC详细题解,包含(C++,Python语言描述)

前言: 首先让我们恭喜tourist创造历史 他是第一,他又是第一,他总是第一,第一个codefores上4000分的,创造一个新的段位:Tourist,他的名字就是一个新的段位,他就是最高的山,最长的河 本…

shell脚本--正则表达式

一、正则表达式的类型 在Linux中,有两种流行的正则表达式引擎: POSIX基础正则表达式(basic regular expression,BRE)引擎 POSIX扩展正则表达式(extended regular expression,ERE)引擎 POSIX BRE引擎通常出现在依赖正则表达式进行文本过滤的编程语言中。它为常见模式提供…

蓝牙对象交换协议(OBEX) - 常见的opcode介绍

零.声明 本专栏文章我们会以连载的方式持续更新,本专栏计划更新内容如下: 第一篇:蓝牙综合介绍 ,主要介绍蓝牙的一些概念,产生背景,发展轨迹,市面蓝牙介绍,以及蓝牙开发板介绍。 第二篇:Trans…

六、vue进阶知识点

一、scoped解决样式冲突 默认情况:写在组件中的样式会 全局生效→ 因此很容易造成多个组件之间的样式冲突问题。 1.全局样式:默认组件中的样式会作用到全局 2.局部样式:可以给组件加上 scoped 属性,可以让样式只作用于当前组件scoped原理? 1.当前组件内标签都被添加 data-v-…

【C++从练气到飞升】17---set和map

🎈个人主页:库库的里昂 ✨收录专栏:C从练气到飞升 🎉鸟欲高飞先振翅,人求上进先读书🎉 目录 ⛳️推荐 一、前言 1.1 关联式容器 1.2 键值对 1.3 树型结构的关联式容器 二、set 2.1 set的介绍 2.2 s…

百元蓝牙耳机品牌哪个牌子好?入围四大排名蓝牙耳机推荐

蓝牙耳机有两个极端,好用的蓝牙耳机音质效果堪比专业音响,而不好用的则不仅佩戴不舒服还容易伤耳,但是想要找到一款性价比高的百元蓝牙耳机不是一件容易的事。百元蓝牙耳机品牌哪个牌子好?身为一名蓝牙耳机发烧友,就给…

红石电路(我的世界)

红石电路(Redstone circuits)为玩家建造的,可以用于控制或激活其他机械的结构。 电路本身既可以被设计为用于响应玩家的手动激活,也可以让其自动工作——或是反复输出信号,或是响应非玩家引发的变化,例如生…

基于机器学习的商品评论情感分析

从淘宝爬取评论 使用Selenium模拟真实登录行为,并爬取数据。 数据清理 如果文本中有“666“,”好好好“等无用词语,去掉评论中的标点符号。 分词 使用jieba精确模式进行分词,构造词典 将词汇向量化 创建词语字典,并…