多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染

news2025/1/16 5:59:27

随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

在这个「亩产八万斤」,「10 天一个 SoTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。

为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。

  • 代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • 官方主页: https://lmms-lab.github.io/

  • 论文地址: https://arxiv.org/abs/2407.12772

  • 榜单地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月发布以来, LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars,超过 30+ contributors,总计包含 80 多个数据集和 10 多个模型,并且还在持续增加中。

标准化测评框架

为了提供一个标准化的测评平台,LMMs-Eval 包含了以下特性:

  1. 统一接口: LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展,通过定义模型、数据集和评估指标的统一接口,方便了使用者自行添加新的多模态模型和数据集。

  2. 一键式启动:LMMs-Eval 在 HuggingFace 上托管了 80 多个(且数量不断增加)数据集,这些数据集精心从原始来源转换而来,包括所有变体、版本和分割。用户无需进行任何准备,只需一条命令,多个数据集和模型将被自动下载并测试,等待几分钟时间即可获得结果。

  3. 透明可复现:LMMs-Eval 内置了统一的 logging 工具,模型回答的每一题以及正确与否都会被记录下来, 保证了可复现性和透明性。同时也方便比较不同模型的优势与缺陷。

LMMs-Eval 的愿景是未来的多模态模型不再需要自行编写数据处理、推理以及提交代码。在当今多模态测试集高度集中的环境下,这种做法既不现实,测得的分数也难以与其他模型直接对比。通过接入 LMMs-Eval,模型训练者可以将更多精力集中在模型本身的改进和优化上,而不是在评测和对齐结果上耗费时间。

评测的「不可能三角」

LMMs-Eval 的最终目标是找到一种 1. 覆盖广 2. 成本低 3. 零数据泄露 的方法来评估 LMMs。然而,即使有了 LMMs-Eval,作者团队发现想同时做到这三点困难重重,甚至是不可能的。

如下图所示,当他们将评估数据集扩展到 50 多个时,执行这些数据集的全面评估变得非常耗时。此外,这些基准在训练期间也容易受到污染的影响。为此, LMMs-Eval 提出了 LMMs-Eval-Lite 来兼顾广覆盖和低成本。他们也设计了 LiveBench 来做到低成本和零数据泄露。

LMMs-Eval-Lite: 广覆盖轻量级评估

在评测大模型时,往往庞大的参数量和测试任务会使得评测任务的时间和成本急剧上升,因此大家往往会选择使用较小的数据集或是使用特定的数据集进行评测。然而,有限的评测往往会使得对于模型能力的理解有所缺失,为了同时兼顾评测的多样性和评测的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以在模型开发过程中提供有用且快速的信号,从而避免现在测试的臃肿问题。如果我们能够找到现有测试集的一个子集,在这上面的模型之间的绝对分数和相对排名与全集保持相似,那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显著点,LMMs-Eval 首先使用 CLIP 和 BGE 模型将多模态评测数据集转换为向量嵌入的形式并使用 k-greedy 聚类的方法找到了数据显著点。在测试中,这些规模较小的数据集仍然展现出与全集相似的评测能力。

随后 LMMs-Eval 使用了相同的方法制作了涵盖更多数据集的 Lite 版本,这些数据集旨在帮助人们节省开发中的评测成本,以便快速判断模型性能

LiveBench: LMMs 动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展,开源模型在分数比较往往优于商用模型,如 GPT-4V,但在实际用户体验中却有所不及。动态的、用户导向的 Chatbot Arenas 和 WildVision 在模型评估中越来越受欢迎,但是它们需要收集成千上万的用户偏好,评估成本极高。

LiveBench 的核心思想是在一个不断更新的数据集上评估模型的性能,以实现零污染且保持低成本。作者团队从网络上收集评估数据,并构建了一条 pipeline,自动从新闻和社区论坛等网站收集最新的全球信息。为了确保信息的及时性和真实性,作者团队从包括 CNN、BBC、日本朝日新闻和中国新华社等 60 多个新闻媒体,以及 Reddit 等论坛中选择来源。具体步骤如下:

  1. 捕捉主页截图并去除广告和非新闻元素。

  2. 使用当前最强大的多模态模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)设计问题和答案集。由另一模型审查和修订

  3. 问题,确保准确性和相关性。

  4. 人工审查最终的问答集,每月收集约 500 个问题,保留 100-300 个作为最终的 \livebench 问题集。

  5. 采用 LLaVA-Wilder 和 Vibe-Eval 的评分标准 – 评分模型根据提供的标准答案评分,得分范围为 [1, 10]。默认评分模型为 GPT-4o,还包括 Claude-3-Opus 和 Gemini 1.5 Pro 作为备选。最终的报告结果将基于得分转换为 0 到 100 的准确率指标。

未来也可以在我们动态更新的榜单里查看多模态模型在每个月动态更新的最新评测数据,以及在榜单上的最新评测的结果。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2062594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

NSSM 注册exe服务

参考链接:https://www.cnblogs.com/magicMaQaQ/p/18174409 下载NSSM:[NSSM - the Non-Sucking Service Manager](NSSM - the Non-Sucking Service Manager) 解压得到的压缩包 使用管理员权限运行 cmd,来到解压后的目录,执行nssm…

信息学奥赛知识点(十二)----栈和队列

一、栈 栈是只能在某一端插入和删除的特殊线性表。 用桶堆积物品,先堆进行的压在底下,随后一件一件往上堆。取走时,只能从上面一件一件取。堆和取都在顶部进行。底部一般是不动的。 栈就是一种类似桶堆积物品的数据结构,进行删…

Go 1.23 新特性:Timer 和 Ticker 的重要优化

作者:陈明勇 个人网站:https://chenmingyong.cn 文章持续更新,如果本文能让您有所收获,欢迎点赞收藏加关注本号。 微信阅读可搜《程序员陈明勇》。 这篇文章已被收录于 Github,欢迎大 家Star 催更并持续关注。 前言 G…

js 实现对一个元素得拉伸

前言: 最近写一个项目遇到了需要拉伸调整一个元素得大小(宽高)。所以打算实现一下。 思路就是用 mousedown、mousemove、mouseup 来实现。 mousemove是动态获取坐标,然后 动态改变元素宽度 js自己实现: html里实现…

CentOS7发送邮件如何配置SMTP服务器发信?

CentOS7发送邮件安全设置?CentOS7发信性能优化方法? 对于使用CentOS7操作系统的用户而言,配置SMTP服务器以发送邮件是一个关键步骤。AokSend将详细介绍如何在CentOS7中配置SMTP服务器发信的方法和注意事项。 CentOS7发送邮件:准…

C#发邮件时如何确保邮件内容的安全和隐私?

C#发邮件性能优化的策略?如何设置C#发邮件的功能? 在使用C#发邮件时,如何确保邮件内容不被泄露、篡改或非法访问,已成为开发者需要面对的关键问题。AokSend将探讨在C#发邮件过程中,确保邮件内容安全和隐私的几种有效方…

你也想转行成为一名程序员吗?作为过来人的我希望你想清楚这几个问题再做决定

1 有个朋友突然找我:“现在的工作不想干了,我现在转行搞IT能不能行?学哪个编程语言比较有前景?现在去搞网络安全应该没问题吧?”我相信,很多人出于各种原因都在考虑要不要进行职业转换,迷茫又焦…

2024年最新Pycharm专业版激活码+Pycharm详细安装汉化教程

一、PyCharm激活 激活码: KQ8KMJ77TY-eyJsaWNlbnNlSWQiOiJLUThLTUo3N1RZIiwibGljZW5zZWVOYW1lIjoiVW5pdmVyc2l0YXMgTmVnZXJpIE1hbGFuZyIsImxpY2Vuc2VlVHlwZSI6IkNMQVNTUk9PTSIsImFzc2lnbmVlTmFtZSI6IkpldOWFqOWutuahtiDorqTlh4blupflkI0iLCJhc3NpZ25lZUVtYWlsIjoi…

动态规划part13

647. 回文子串 给定一个字符串,你的任务是计算这个字符串中有多少个回文子串。 具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被视作不同的子串。 class Solution:def countSubstrings(self, s: str) -> int:dp [[Fa…

Chat App 项目之解析(九)

Chat App 项目介绍与解析(一)-CSDN博客文章浏览阅读468次,点赞12次,收藏3次。Chat App 是一个实时聊天应用程序,旨在为用户提供一个简单、直观的聊天平台。该应用程序不仅支持普通用户的注册和登录,还提供了…

ArcGIS小技巧:编辑一个面的边界时,如何让相邻面同步修改

欢迎关注同名微信公众号,更多文章推送: 在ArcGIS中手动编辑2个相邻面的共同边界时,通常需要2个面都跟着修改: 一般做法是用【整形要素工具】,但是【整形要素工具】不能选择多个要素执行,所以需要执行2次&am…

GoFly框架登录Token使用

token是验证请求接口用户身份的标识,框架建议开发者在识别用户身份时使用token尽量不要明文传用户标识数据。 一、生成用户登录token 通过routeuse.GenerateToken生成登录token,方法返回生成的token字符串和err错误提示,其中routeuse.UserC…

删除或丢失的移动硬盘数据如何恢复?三种办法助你找回宝贵资料

在数字化时代,移动硬盘已成为我们存储重要数据不可或缺的工具。然而,数据丢失或误删除的情况时有发生,让人倍感焦虑。别担心,本文将为你详细介绍如何恢复删除或丢失的移动硬盘数据,帮助你找回那些宝贵的资料。 一、检…

太仓自闭症谱系(ASD)儿童

在我国,自闭症谱系(ASD)儿童被称为“星星的孩子”,他们犹如夜空中闪烁的星星,孤独而遥远。为了关爱这些特殊的孩子,让他们更好地融入社会,太仓市星星雨特殊儿童康复中心应运而生。这家康复中心致…

【YashanDB认证】YCA学习记录

第一章:YashanDB基础介绍 国产化数据库的发展及未来 崖山数据库系统:YashanDB是【深圳计算科学研究院】完全自主研发设计的新型数据库系统,经过工信部下述机构权威检测,内核代码自主率100%。 YashanDB 核心交易型数据库 企业级…

拆卸并简单分析一个充电宝线路板

原因 一个很久的充电宝,电量完全不能满足使用,拆解下来的保护板分析 结构图解 除了下图,还有一些外围电路 工作原理图解 电池保护芯片XB8606A(停产) VM连接的是充电口的负极,而这个芯片通过控制电池…

IEEEtran类模板中算法Algorithm的写法

1、注释掉默认的引用 % \usepackage{algorithmic} % \usepackage{algorithm}2、在\begin{document}之前加以下内容 \usepackage[ruled,norelsize,vlined,linesnumbered]{algorithm2e} \makeatletter \newcommand{\removelatexerror}{\let\latexerror\gobble} \makeatother3、…

2 kubeflow系统架构 学习笔记

1 Kubeflow生态系统 2 生态系统说明 2.1. Hardware(硬件层) 提供计算资源的底层硬件支持。GPU(如NVIDIA)通常用于加速机器学习和深度学习的计算任务,而Intel和AMD则可能提供CPU计算资源。 2.2. Infrastructure&…

线程池【详解】

线程池 1、 线程池概念 如果有非常多的任务需要非常多的线程来完成,每个线程的工作时间不长,就需要创建很多线程,工作完又立即销毁[线程频繁创建和销毁线程] 频繁创建和销毁线程非常消耗性能,那么线程池,就是可以创建一些线程,放在"池子"中,用的时候去池子取一个线…

RJ45网口链接器和PCB板结构再生产上需要注意那些方面

华强盛电子导读:工程技术前面199中间2643后面0038 关于网口和PCB板板结合插件会出现几个问题 ...网口的尺寸结构,PCB板板的孔位小,这里强调,建议孔位开大一点,便于生产插件方便。 在插件生产过程中,RJ45网…