《人工智能大模型体验报告2.0》发布

news2024/11/23 20:12:37

ChatGPT 崛起引发新一轮生成式AI热潮,国内科技企业纷纷布局。据不完全统计,截至目前,国内大模型数量已达上百个。在这些大模型中,谁的表现最好,智能性最高,用户体验最强?8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》(以下简称报告)给出了答案。

报告显示,与2023年6月相比,当前中国大模型产品进步显著。

具体来看,讯飞星火在工作提效方面优势明显,百度文心一言基础能力表现出色,商汤商量则在情商方面表现优秀。

落实到基础能力、智商能力、情商能力和工具提效四大能力综合得分上,当前国内各主流大模型中,排名前五的分别为科大讯飞星火、百度文心一言、商汤商量、智谱ChatGLM和360智脑。

其中科大讯飞得分1013,仅比人类答案落后1分;百度文心一言1010分,商汤商量983分,智谱ChatGLM和360智脑分别为983分、951分。

据了解,此次测评为保证结果的客观公平性,无论是在题目设计上、对标Benchmark(人类)上,还是打分权重、专家测评团队上,相对于6月份的《人工智能大模型体验报告》,均进行了全面升级。

其中,在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;

在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;

在打分标准上,本次测评根据对产业、生活的实际价值,对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计;

在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。

此外,本次测评还设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。

报告显示,在智商评估方面,人类在智商方面仍然具有明显优势。

课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。

结果显示,讯飞星火、智谱AI-ChatGLM表现突出,百度文心一言、昆仑万维天工表现优良。

在工作效率提升方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量。

结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。

在情商方面,AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势,和更灵活的处理能力。

通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/882957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【华为认证数通高级证书实验-分享篇2】

实验拓扑 注:代码块为各交换机路由器中的配置命令 配置拓扑文件 实验要求 实现全网通 实验配置 SW3 [SW3]v b 10 20 [SW3]int e0/0/1 [SW3-Ethernet0/0/1]po link-t a [SW3-Ethernet0/0/1]po de v 10 [SW3-Ethernet0/0/1]int e0/0/2 [SW3-Ethernet0/0/2]po li…

【云计算原理及实战】初识云计算

该学习笔记取自《云计算原理及实战》一书,关于具体描述可以查阅原本书籍。 云计算被视为“革命性的计算模型”,因为它通过互联网自由流通使超级计算能力成为可能。 2006年8月,在圣何塞举办的SES(捜索引擎战略)大会上&a…

热电联产在综合能源系统中的选址定容研究(matlab代码)

目录 1 主要内容 目标函数 程序模型 2 部分代码 3 程序结果 1 主要内容 该程序参考《热电联产在区域综合能源系统中的定容选址研究》,主要针对电热综合能源系统进行优化,确定热电联产机组的位置和容量,程序以33节点电网和17节点热网为例…

Windows11 wsl2安装Ubuntu-20.04

Ubuntu系统开机报错(无法开机启动) Linux启动报错或无法启动的解决方法 Windows11 64bit系统 1.Windows11系统上,启用虚拟机平台 2.Windows11系统上,先启用"适用于Linux的Windows子系统",然后在Windows11上安装Ubuntu-20.04系统 3…

软考:中级软件设计师:数据库模式、ER模型

软考:中级软件设计师:数据库模式、ER模型 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准…

杨氏矩阵!!!!

杨氏矩阵🐸 📕题目要求: 杨氏矩阵 题目内容📚: 有一个数字矩阵,矩阵的每行从左到右是递增的,矩阵从上到下是递增的,请编写程序在这样的矩阵中查找某个数字是否存在。 🧠题…

Linux编程——进程间通信(信号灯集、消息队列)

目录 一、信号灯集1.1 概念1.2 信号灯集创建步骤⭐⭐⭐1.3 信号灯集对应函数 二、消息队列 一、信号灯集 1.1 概念 信号灯(semaphore),也叫信号量。它是不同进程间或一个给定进程内部不同线程间同步的机制;System V的信号灯是一个或者多个信号灯的一个…

三星电子首席技术官:BSPDN技术开发计划曝光,背部供电技术创新

在ETNews的报道之后,三星电子的代工部门首席技术官Jung Ki-tae Jung透露了该公司在BSPDN技术开发方面的计划。 BSPDN技术是一项创新技术,旨在更好地利用半导体晶圆背面空间的潜力。虽然该技术尚未在全球范围内实施,但三星电子成为首家公开披…

ApiPost设置全局令牌

为了避免请求接口每次都要请求登录,获取令牌鉴权,我们可以设置全局令牌(token),避免处处单独使用令牌,造成环境混乱,使用如下: 接口设置 我们先配置好请求接口和请求参数&#xff0…

QTreeWidget基本属性操作

文章目录 一、背景设置1、添加背景颜色之前与之后的对比1.2背景设置的两种方式 2、边框设置2.1、演示以上参数的实际效果2.1.1、无边框、虚线、实线边框演示2.1.2、边框的3D效果 一、背景设置 1、添加背景颜色之前与之后的对比 1.2背景设置的两种方式 通过QT设计界面中的改变…

基于eBPF技术构建一种应用层网络管控解决方案

引言 随着网络应用的不断发展,在linux系统中对应用层网络管控的需求也日益增加,而传统的iptables、firewalld等工具难以针对应用层进行网络管控。因此需要一种创新的解决方案来提升网络应用的可管理性。 本文将探讨如何使用eBPF技术构建一种应用层网络…

观察者模式 Observer Pattern 《游戏编程模式》学习笔记

定义 观察者模式定义了对象间的一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。 这是定义,看不懂就看不懂吧,我接下来举个例子慢慢说 为什么我们需要观察者模式 我们看一个很简…

软件确认测试报告的作用,第三方测试机构进行确认测试的好处

近年来,随着软件产品的不断发展和普及,软件确认测试作为一项重要的质量保障手段也越来越受到关注,主要是为了检测软件产品是否符合需求规格和预期功能,以及是否存在缺陷和问题。对于软件产品开发商来说,进行确认测试是…

未济卦-物不可穷

前言:学无止境,人生没有终点,虽说是六十四卦的最后一卦,仍是“未济”,今天学习未济卦的卦辞和爻辞。 卦辞 亨;小狐汔济,濡其尾,无攸利。 序卦:无不可穷也,故…

计蒜客T1122——最长最短单词

又是一道水题&#xff0c;基本思路是从目标串中根据空格分离出来每一个单词&#xff0c;然后分别找出最大值与最小值&#xff0c;输出即可~ #include <iostream> #include <string> #include <vector> using namespace std;int main(int argc, char** argv)…

车辆维修保养记录接口:数据对接,价格明细表精准展示

随着人们生活水平的提高&#xff0c;私家车越来越多&#xff0c;对车辆的维修保养需求也越来越高。车辆维修保养记录是车主和维修人员都需要关注的重要信息。然而&#xff0c;由于维修保养记录的复杂性和数据量大&#xff0c;人工管理难以胜任&#xff0c;这就需要开发一种接口…

Python源码05:使用Pyecharts画词云图图

**Pyecharts是一个用于生成 Echarts 图表的 Python 库。Echarts 是一个基于 JavaScript 的数据可视化库&#xff0c;提供了丰富的图表类型和交互功能。**通过 Pyecharts&#xff0c;你可以使用 Python 代码生成各种类型的 Echarts 图表&#xff0c;例如折线图、柱状图、饼图、散…

jstat -gcutil 命令使用

jstat -gcutil命令用于监视Java应用程序的垃圾回收情况。它提供了有关堆内存使用情况、垃圾回收器的活动以及垃圾回收的效率的信息。 目录 一、基本语法 二、执行结果 一、基本语法 jstat -gcutil <pid> <interval> <count> 参数解释&#xff1a; <p…

C++11实用技术(四)for循环该怎么写

普通用法 在C遍历stl容器的方法通常是&#xff1a; #include <iostream> #include <vector>int main() {std::vector<int> arr {1, 2, 3};for (auto it arr.begin(); it ! arr.end(); it){std::cout << *it << std::endl;}return 0; }上述代…

科东软件受邀参加第五届国产嵌入式操作系统技术与产业发展论坛

8月12日&#xff0c;第五届国产嵌入式操作系统技术与产业发展论坛暨嵌入式系统联谊会主题讨论会&#xff08;总第29次&#xff09;在杭州成功举行。这次论坛的主题是“面向异构多核智能芯片的混合关键系统研究与应用”&#xff0c;上午是“嵌入式异构多核智能芯片产业发展”的主…