百度文心一言在国产模型中倒数?我看懵了

news2024/11/20 4:49:48

最近几天,我们公众号的社群在纷纷转发一张名为SuperClue 评测的截图。科大讯飞甚至在官号进行了宣传:

alt

由于讯飞星火大模型刚发布,笔者玩的少,它是不是真的是国产最强这个笔者不敢下结论。

各个大模型的研究测试传送门

阿里通义千问传送门:
https://tongyi.aliyun.com

百度文心一言传送门:
https://yiyan.baidu.com

ChatGPT传送门(免墙,可直接测试):
https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇到浏览器警告点高级/继续访问即可):
https://gpt4test.com

但在该评测截图中,当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符,而且在我们的专业NLP技术社群中,大家也纷纷表示一脸懵逼:

alt
alt

好奇之下,笔者去这个superclue榜单的github,想看看这个测评结论是怎么得出来的:

https://github.com/CLUEbenchmark/SuperCLUE

首先笔者注意到这个repo下面已经有一些issue了:

alt
alt

看起来这个离谱的感觉不仅仅是笔者有,果然群众的眼睛还是雪亮的。。。

笔者进一步看了一下这个榜单的评测方式:

alt

好家伙,原来所谓的生成式大模型的测试,竟然全都是让模型做选择题。。。

很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的,那时候的AI模型普遍不具备生成能力,仅仅有判别能力(比如能判别一段文本属于什么类别,选项中哪个是问题的正确答案,判断两段文本的语义是否一致等)。

而生成式模型的评测与判别式模型的评测有相当于大的差异。

例如,对于机器翻译这种特殊的生成任务而言,一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数,绝大多数的生成类评测都要采用人工评测的方式。

例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务,都需要各个待评测模型去自由生成回复,然后人工去对比这些不同模型生成的回复的质量,或人工判断是否满足了任务需求。

当前这一轮的AI竞争,是模型生成能力的竞争,而不是模型判别能力的竞争。最有评价权的是真实的用户口碑,不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。

回想起来前些年——

2019年,OpenAI发布了GPT-2的时候,我们在堆tricks刷榜;2020年,OpenAI发布了GPT-3的时候,我们在堆tricks刷榜;2021-2022年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候,我们还有不少团队在坚持堆tricks刷榜…

希望这一波生成式模型的军备竞赛,我们不要再重蹈覆辙。

那么生成式AI模型到底应该怎么测?

很抱歉,我前面说过,如果想做到无偏测试,非常非常的难,甚至比你自研一个生成式模型出来难得多。难度有哪些?具体抛几个问题:

  • 评测维度该如何划分?按理解、记忆、推理、表达?按专业领域?还是将传统的NLP生成式评测任务杂揉起来?

  • 评测人员如何培训?对于写代码、debug、数学推导、金融法律医疗问答这种专业门槛极高的测试题,该如何招募人员测试?

  • 主观性极高的测试题(如生成小红书风格的文案),该如何定义评测标准?

  • 问几个泛泛的写作类问题就能代表一个模型的文本生成/写作能力了吗?

  • 考察模型的文本生成子能力,篇章生成、问答生成、翻译、摘要、风格迁移都覆盖到了吗?各个任务的占比均匀吗?评判标准都清晰吗?统计显著吗?

  • 在上面的问答生成子任务里,科学、医疗、汽车、母婴、金融、工程、政治、军事、娱乐等各个垂类都覆盖到了吗?占比均匀吗?

  • 如何测评对话能力?对话的一致性、多样性、话题深度、人格化分别怎么设计的考察任务?

  • 对于同一项能力测试,简单问题、中等难度问题和复杂长冷问题都覆盖到了吗?如何界定?分别占比多少?

这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。

因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?

还是那句话,一个生成式模型好不好,真实用户说了算。

一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。

在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。

这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。

想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件

以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:

alt
alt
alt

困难Case解决率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%
  • 文心一言(2023.5.10版本):13/24=54.16%
  • 讯飞星火(2023.5.10版本):7/24=29.16%

这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。

确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。

对于简单问题而言,其实国产模型跟ChatGPT已经没有太大差距。而对于困难问题而言,各个模型各有所长。就笔者团队的综合使用体验来看,文心一言完全足以吊打ChatGLM-6B等学术测试性质的开源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通义千问、讯飞星火等其他大厂出品的国产模型也是相同的道理。

还是那句话,如今连一个无偏的测试基准都没出现,你要那模型排名有啥用?

比起争论各类有偏的榜单排名,不如像笔者团队一样去做一个自己关心的测试集。

能解决你问题的模型,就是好模型。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/516685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

揭开Facebook数据抓取的面纱,深入了解其运作机制

在互联网时代,数据是一切的基础。而社交媒体作为数据存储与传输的重要渠道,其数据价值不言而喻。 那么,Facebook数据抓取是如何进行的呢? 1.API接口 首先,我们需要了解一些基本的概念。Facebook的API(Ap…

微服务#2 Feign 和 Gateway

一. Feign Feign远程调用 Feign的使用步骤 引入依赖 <!--feign客户端依赖--><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId></dependency> 添加Ena…

数组和指针

文章目录 指针和数组指针为什么要有指针如何理解编址指针的内存布局指针解引用如何将数值存储到指定的内存地址栈随机化 数组数组的内存布局&a[0] VS &a步长问题 指针和数组无关C为何要这样设计 指针数组和数组指针数组元素个数是否是数组类型的一部分?是地址的强制转…

国赛推荐方向!Prompt工程设计大赛

近期&#xff0c;大型语言模型&#xff08; LLM&#xff0c;Large Language Model &#xff09;的魅力&#xff0c;让大家惊艳于 AI 的天花板还能继续抬升。具备“涌现能力”的 LLM &#xff0c;许多能力都将被解锁&#xff0c;带来意想不到的精彩礼物。对于用户来说&#xff0…

maven学习总结

生命周期 每个生命周期的各个环节都是由各种插件完成&#xff01;&#xff01;&#xff01;Maven有三个相互独立的生命周期&#xff08;Maven的这三个生命周期不能看成一个整体&#xff09;&#xff01;&#xff01;&#xff01; 我们在开发中描述的项目的生命周期&#xff0…

Java之阻塞队列和消息队列

目录 一.上节复习 1.什么是单列模式 2.饿汉模式 3.懒汉模式 二.阻塞队列 1.什么是阻塞队列 三.消息队列 1.什么是消息队列 2.消息队列的作用 1.解耦 2.削峰填谷 3.异步 四.JDK中的阻塞队列 1.常见的阻塞队列 2.向阻塞队列中放入元素---put() 3.向阻塞队列中拿出元…

python url拼接的方法

Python的 url是一个常用的文件链接&#xff0c;一个文件包含多个 url&#xff0c;在很多网站中&#xff0c;我们都需要拼接多个 url。 在网上我们经常可以看到关于 Python拼接的方法介绍&#xff0c;但是很多都是非常不完整的&#xff0c;今天我们就来了解一下&#xff0c;比较…

晨控CK-FR208-EIP与欧姆龙PLC工业Ethernet/IP协议通讯指南

CK-FR208-EIP 是一款支持标准工业 Ethernet/IP 协议的多通道工业 RFID 读写器&#xff0c;读卡器 工作频率为 13.56MHZ&#xff0c;支持对 I-CODE 2、I-CODE SLI 等符合 ISO15693 国际标准协议格式标签的读写。 读卡器同时支持标准工业通讯协议 Ethernet/IP&#xff0c;方便用…

Linux使用rsync同步文件

1.rsync的概念 rsync&#xff0c;remote synchronize顾名思义就知道它是一款实现远程同步功能的软件&#xff0c;它在同步文件的同时&#xff0c;可以保持原来文件的权限、时间、软硬链接等附加信息。 2.查看rsync 查看服务器端rsync版本 rsync --version rsync命令选项 -…

从GFS到GPT,AI Infra的激荡20年

导读 最近AIGC和LLM的浪潮层层迭起&#xff0c;大有把AI行业过去十年画的饼&#xff0c;一夜之间完全变现的势头。而AI Infra&#xff08;构建AI所需的基础设施&#xff09;&#xff0c;也成了讨论的焦点之一。大众对AI Infra的关注点&#xff0c;往往放在AI算力上——比如A100…

创作纪念日|我在CSDN的第365天(内含粉丝福利)

创作纪念日 大家好&#xff0c;我是陈橘又青&#xff0c;最近因为一直在备考&#xff0c;所以没怎么更新博客&#xff0c;今天起来和往常一样看了一眼私信&#xff0c;发现了一条来自CSDN官方的私信。 打开一看&#xff0c;原来是创作一周年的通知&#xff0c;回想起来&#…

Python数据分析:NumPy、Pandas和Matplotlib的使用和实践

在现代数据分析领域中&#xff0c;Python已成为最受欢迎的编程语言之一。Python通过庞大的社区和出色的库支持&#xff0c;成为了数据科学家和分析师的首选语言。在Python的库中&#xff0c;NumPy、Pandas和Matplotlib是三个最为重要的库&#xff0c;它们分别用于处理数值数组、…

基于密度的无线传感器网络聚类算法的博弈分析(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 提高能源效率是无线传感器网络面临的关键挑战之一&#xff0c;无线传感器网络日益普遍。由于节点&#xff08;传感器&#xff…

服务高可用保障:服务限流,Nginx实现服务限流

一、前言 1.1什么是限流&#xff1f; 限流存在于高可用服务中。 用于高可用的保护手段&#xff0c;主要包括&#xff1a;缓存&#xff0c;降级&#xff0c;限流 限流&#xff1a;只允许指定的事件进入系统&#xff0c;超过的部分将被拒绝服务&#xff0c;排队或者降级处理。 …

【零基础学web前端】html学习,表格标签,列表标签,表单标签(form和input),无语义标签div与span

前言: 大家好,我是良辰丫,今天我们就开始进入前端知识的学习&#x1f49e;&#x1f49e; &#x1f9d1;个人主页&#xff1a;良辰针不戳 &#x1f4d6;所属专栏&#xff1a;零基础学web前端 &#x1f34e;励志语句&#xff1a;生活也许会让我们遍体鳞伤&#xff0c;但最终这些伤…

组织学图像弱监督腺体分割的在线简易示例挖掘

文章目录 Online Easy Example Mining for Weakly-Supervised Gland Segmentation from Histology Images摘要本文方法分割 实验结果 Online Easy Example Mining for Weakly-Supervised Gland Segmentation from Histology Images 摘要 背景 开发AI辅助的组织学图像腺体分割方…

DNDC模型在土地利用变化、未来气候变化下的建模方法及温室气体时空动态模拟

由于全球变暖、大气中温室气体浓度逐年增加等问题的出现&#xff0c;“双碳”行动特别是碳中和已经在世界范围形成广泛影响。“十四五”时期&#xff0c;我国生态文明建设进入了以降碳为重点战略方向、推动减污降碳协同增效、促进经济社会发展全面绿色转型、实现生态环境质量改…

除氟树脂,除氟树脂用啥再生,离子交换除氟,矿井水除氟

氟化物选择吸附树脂 Tulsimer CH-87 是一款去除水溶液中氟离子的专用的凝胶型选择性离子交换树脂。它是具有氟化物选择性官能团的交联聚苯乙烯共聚物架构的树脂。 去除氟离子的能力可以达到 1ppm 以下的水平。中性至碱性的PH范围内有较好的工作效率&#xff0c;并且很容易再生…

2023年苹果企业开发者证书申请流程

第一步&#xff1a;注册apple ID&#xff0c;注意&#xff0c;要使用公司官网域名相关的企业邮箱账号注册&#xff0c;前提是公司要有企业邮箱&#xff0c;开通企业邮箱可用163代理的&#xff0c;也可以自己搭建。 第二步&#xff1a;在移动设备上登录该apple ID&#xff0c;并…

.Net中间件的概念---杨中科笔记

什么是中间件&#xff1f; 中间件是ASP.NET Core的核心组件&#xff0c;MVC框架、响应缓存、身份验证、CORS、Swagger等都是内置中间件。 中间件组成一个管道&#xff0c;整个ASP.NET Core的执行过程就是HTTP请求和响应按照中间件组装的顺序在中间件之间流转的过程。开发人员可…