大模型之基准测试集(Benchmark)-给通义千问2.0做测评的10个权威测基准测评集

news2024/11/23 12:39:41

引言

在去年(2023)云栖大会上,阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍,在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现:

a88ec4ef05b20cebb665ed98ead603c.jpg

上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小

那么问题来了,上图中Benchmark测评集分别是什么?侧重点在哪些方面?

基准测评集介绍

CMMLU


CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

  • 论文:CMMLU: Measuring massive multitask language understanding in Chinese
  • 数据、代码与最新榜单:github.com/haonan-li/C…

image.png

MMLU


MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练。

  • 官网: paperswithcode.com/dataset/mml…
  • 论文: MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING
  • 大模型排行榜: paperswithcode.com/sota/multi-…

C-Eva


C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。是国内两大权威评测之一。C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。

image.png

  • 论文:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
  • 官网:cevalbenchmark.com/
  • 网址:github.com/hkust-nlp/c…
  • 排行:浏览

GSM8K


GSM8K是由OpenAI发布的大模型数学推理能力评测基准。一个由8.5K高质量的语言多样化的小学数学单词问题组成的数据集(其中7.5K训练集,1K测试集)。这些问题都是由人类写手创造的。每个问题需要2-8步推理来求解,主要是使用基本的算术运算(+-/*)进行一连串的基本计算,以得出最终答案。

GSM8K是两大知名数学推理基准之一,该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准。

提出背景:像GPT-3这样的大型语言模型有许多令人印象深刻的技能,包括模仿许多写作风格的能力,以及广泛的事实知识。但GPT难以完成需要精确多步骤推理的任务,比如解决小学数学单词问题。为了匹配人类在复杂逻辑领域中的表现,OpenAI使用验证器在许多解决方案中选择了最好的GSM8K, 他们收集了新的GSM8K数据集来评估其方法,并发布该数据集以促进研究。

  • 论文:Training Verifiers to Solve Math Word Problems
  • 项目:github.com/openai/grad…
  • 博客:openai.com/research/so…

Gaokao-Bench


GAOKAO-bench是一个以中国中考试题为数据集,评估大型语言模型的语言理解和逻辑推理能力的评估框架,收集了2010-2022年全国高考卷的题目, 包含1781道选择题、218道填空题和812道解答题。同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数。所有过程的数据和结果都是公开的。

  • 官网:github.com/OpenLMLab/G…
  • 论文:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

AGIEval


微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文。

  • 论文:AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
  • 数据:github.com/microsoft/A…

MATH


MATH 数学领域的推理和解决问题能力测试, 是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集。MATH与GSM8K类似,但是包含了12500道高中数学竞赛题,每道题都有详细的步骤化解法,可用于教模型生成答案推导和解释。MATH数据集目前对现有模型仍非常具挑战性。

MATH是两大知名数学推理基准之一。

  • 项目地址:github.com/hendrycks/m…
  • 论文:Measuring Mathematical Problem Solving With the MATH Dataset

BBH


BIG bench hard(BBH) 基准,通过选择大语言模型表现出比人类更差性能的具有挑战性的任务,专注于研究大语言模型目前无法解决的任务。BIG-bench Hard是BIG-bench的一个仅包含目前模型表现无法超过人类的任务子集。

BIG-bench 是一个协作基准,旨在从各个方面调查现有的大语言模型。它包括204项任务,涵盖了广泛的主题,包括语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等。通过缩放模型大小,大语言模型甚至可以在BIG-bench上65%的任务中,在少样本设置下的平均人类表现

  • 论文:Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
  • github: github.com/suzgunmirac…

HumanEval


它用于测量从文档字符串合成程序的功能正确性。它由164个原始编程问题组成,评估语言理解、算法和简单数学,其中一些问题与简单的软件面试问题相当。

  • 论文: arxiv.org/abs/2107.03…
  • github: github.com/openai/huma…

MBPP


该基准测试由大约1000个众包Python编程问题组成,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。每个问题都由任务描述、代码解决方案和3个自动化测试用例组成。主要反映大模型的代码理解和生成任务能力。

  • 论文:Program Synthesis with Large Language Models
  • github: github.com/…/mbpp

附录

榜单


UC伯克利主导的「LLM排位赛」

LMSYS Org是UC伯克利(University of California,Berkeley)的研究人员发起的一个大语言模型版排位赛!顾名思义,就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。

  • 官网:lmsys.org/projects/
  • 大语言模型的在线试用与评测:chat.lmsys.org/

该排位赛使用MT-bench作为聊天机器人评估基准。

创始人之一盛颖是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作,目前已获8k星,她是斯坦福大学计算机科学系的博士生。另外两位是Lianmin Zheng和Hao Zhang。

AlpacaEval

  • github: github.com/tatsu-lab/a…
  • 榜单:Alpaca Eval Leaderboard

OpenCompass

  • 官网:opencompass.org.cn
  • 榜单:opencompass.org.cn/leaderboard…

MT-Bench


MT-Bench是一个经过精心设计的基准测试,包含80个高质量的多轮问题。8个主要的类别:写作、角色扮演、提取、推理、数学、编程、知识I(科学技术工程数学)和知识II(人文社科)。其中,每个类别有10个多轮问题,总共160个问题。

下图是LMSYS Org上的2023年榜单上的雷达图:

c395968dbbc1df0ccc642d985b1f496.jpg

项目说明如下:

  • Writing - 写作
  • Humanities - 人类行业
  • Roleplay - 角色扮演
  • STEM - 理工科任务
  • Reasoning - 推理任务
  • Extraction - 提取(蒸馏)
  • Math - 数学任务
  • Coding - 代码任务

MathVista


MathVista由微软发布的全新多模态数学推理基准数据集,同时提供了一份涵盖 112 页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如 GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。

  • 论文:arxiv.org/abs/2310.02…
  • 项目:mathvista.github.io/
  • HF数据集:huggingface.co/datasets/AI…
  • 数据可视化:mathvista.github.io/#visualizat…
  • Leaderboard:mathvista.github.io/#leaderboar…

评测综述的论文:大型语言模型评估综述

  • 论文:A Survey on Evaluation of Large Language Models

欢迎提供更多的


如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖
👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码关注免费领取【保证100%免费】🆓
请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

请添加图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2161148.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Springboot共享充电宝管理系统JAVA|VUE|SSM计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档(1万字以上)开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统:Window操作系统 2、开发工具:IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

openEuler普通用户su root时Permission denied

openEuler普通用户su root时Permission denied 背景: openEuler默认普通用户是不能通过su切换到root用户的 如果想通过su切换到root,有以下两个解决办法 1、修改/etc/pam.d/su 文件 [rootlocalhost ~]# vim /etc/pam.d/su #修改21行,将“…

视频怎么制作成二维码?视频轻松生成二维码的3步操作

现在很多人为了能够更快捷的实现视频内容的分享,会通过将视频生成二维码的方式,让其他人可以通过扫描二维码来查看视频内容。这种方式不需要用户存储视频,扫码就能够在设备上查看视频,有利于提升查看视频的便捷性,可以…

图片压缩工具免费怎么找?归纳了这几个压缩工具

有哪些图片压缩工具免费?在数字化时代,图像已成为我们生活中不可或缺的一部分。无论是网站设计、社交媒体分享还是文件传输,高质量的图片都扮演着重要的角色。但高质量往往意味着大文件体积,这可能会导致加载速度变慢或存储空间不…

打造以太坊数据监控利器:InfluxDB与Grafana构建Geth可视化分析平台

前言 以太坊客户端收集大量数据,这些数据可以按时间顺序数据库的形式读取。为了简化监控,这些数据可以输入到数据可视化软件中。在此页面上,将配置 Geth 客户端以将数据推送到 InfluxDB 数据库,并使用 Grafana 来可视化数据。 一…

Android13中Android.mk和Android.bp预编译多种架构文件

需求: 1, 当前有多个架构的config文件,但是需要不同架构使用不同config文件 2, 必须将config文件拷贝到out/host目录下 常规思路 在Android.bp中, 一般在编译多架构文件时,都会使用arch属性&#xff…

Tauri 应用 input 输入自动大写问题定位解决

使用 Tauri React 开发 MinApi(http api接口测试工具) 时,在 Mac 系统中遇到一个很奇怪的问题:在 input 输入框中输入内容时,如果输入的是全小写英文字母,会自动将首字母转换为大写,效果如下图所示。 问题定位 经过排…

WebRTC关键技术及应用场景:EasyCVR视频汇聚平台高效低延迟视频监控解决方案

众所周知,WebRTC是一项开源的实时通信技术,它通过集成音频、视频和数据传输到Web浏览器中,使得实时通信变得简单且无需任何插件或第三方软件。WebRTC不仅是一个API,也是一系列关键技术和协议的集合,它的出现改变了传统…

代码随想录算法训练营Day14 | 226.翻转二叉树、101. 对称二叉树、104.二叉树的最大深度、111.二叉树的最小深度

目录 226.翻转二叉树 101. 对称二叉树 104.二叉树的最大深度 111.二叉树的最小深度 226.翻转二叉树 题目 226. 翻转二叉树 - 力扣(LeetCode) 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例1&#…

Android下反调试与反反调试

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/ 反调试检测 反调试检测的几种方式。 1. TrackerId 首先,通过 IDA Pro 的调试器附加到当前 app 进程 关于IDA Pro调试android app的详细教程可以…

必应广告投放推广收费标准和流程

在当今竞争激烈的商业环境中,如何精准高效地推广产品与服务,成为企业面临的重大挑战。微软必应Bing广告平台,凭借其强大的技术实力和精准的数据分析能力,已成为众多企业广告推广的首选。云衔科技作为业界领先的数字化营销服务商&a…

【机器学习-无监督学习】聚类

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…

安卓系统升级后,关于Fiddler工具不能抓取https接口问题

问题原因? 目前安卓手机可以抓取的https接口都在安卓7.0版本以下,有时候抓取Android7.0版本或以上的接口抓取不到 因为Android7.0之后常规手段不能抓Https的包,应用会默认不信任用户安装的证书(手机里自己安装的证书),只信任系统…

最新版FaceFusion3.0.0,最强AI换脸,表情修改,视频换脸,年龄修改,多人换脸,面部遮挡换脸,参数调优

主要修改:表情修改,视频换脸,年龄修改,多人换脸,面部遮挡换脸,参数调优 变更日志 改造一切皆工作的建筑介绍pixel boost换脸者为面部检测器添加多角度处理引入年龄修正处理器推出 Live Portrait 表情恢复处理器推出由 Live Portrait 提供支持的脸部编辑处理器用res…

视频制作软件哪个好?前十名推荐!

在视频制作领域,选择合适的软件是提升创作效率和作品质量的关键。本文将根据软件的适用人群:新手入门和专业领域,以及推荐的书籍,为您详细介绍视频制作软件的前十名。 新手入门级别: 1.影忆 功能特点:新手入…

浙大数据结构:05-树9 Huffman Codes

这道题难度挺大,写起来较为费劲,这里我依然使用了STL库,使得代码量大幅减少不过百行,便于大家理解。 机翻: 1、条件准备 数组存储字符对应频率,n,student存储输入多少字符,有多少学生测试。 …

【Transformers基础入门篇2】基础组件之Pipeline

文章目录 一、什么是Pipeline二、查看PipeLine支持的任务类型三、Pipeline的创建和使用3.1 根据任务类型,直接创建Pipeline,默认是英文模型3.2 指定任务类型,再指定模型,创建基于指定模型的Pipeline3.3 预先加载模型,再…

用二维码收集信息时,在后台可以查看、统计哪些数据?

大家都知道,在二维码上关联表单,就可以扫码填写信息了。那么,收集到的数据在哪里查看?具体可以查看到哪些数据呢? 如果是用草料二维码平台搭建的二维码,前往后台,在表单列表中找到对应的表单&a…

智能Ai语音机器人的应用价值有哪些?

随着时间的推移,人工智能的发展越来越成熟,智能时代也离人们越来越近,近几年人工智能越来越火爆,人工智能的应用已经开始渗透到各行各业,与生活交融,成为人们无法拒绝,无法失去的一个重要存在。…

【解密 Kotlin 扩展函数】命名参数和默认值(十三)

导读大纲 1.0.1 命名参数1.0.2 默认参数值 上一节讲述如何自定义 joinToString 函数来代替集合的默认字符串表示 文末遗留下几个待优化问题–传送门 1.0.1 命名参数 我们要解决的第一个问题涉及函数调用的可读性 例如,请看下面的joinToString调用: joinToString(collection,&…