GenAI-Arena:首个多模态生成 AI 排名开放平台

news2024/11/19 2:29:51

      生成式 AI 指的是能够生成新内容(如图像、视频、文本等)的人工智能技术。近年来,生成式 AI 在图像和视频生成领域取得了突破性进展,例如:

  • 艺术创作:生成式 AI 可以根据文本描述生成各种风格的艺术作品,例如风景画、人物肖像、抽象艺术等。
  • 视觉内容增强:生成式 AI 可以用于视频剪辑、图像修复、图像风格迁移等,提升视觉内容的品质和效果。
  • 医疗影像:生成式 AI 可以用于医学图像的生成和分割,辅助医生进行诊断和治疗。

      尽管生成式 AI 取得了显著进展,但评估这些模型的性能仍然是一个挑战。传统的评估指标,例如 PSNR、SSIM、LPIPS、FID 等,虽然在某些方面提供了有价值的洞察,但在提供模型整体性能的全面评估方面往往不足,尤其是在涉及主观质量如美学和用户满意度时。

      GenAI-Arena 旨在解决这一问题。它是一个开放的评估平台,允许用户参与评估不同的图像和视频生成模型。用户可以生成图像或视频,将它们并排比较,并为它们投票。通过利用用户的反馈和投票,GenAI-Arena 旨在提供一个更民主、更准确的模型性能评估方法。

1 生成式 AI 评估指标和生成式 AI 评估平台

1.1 生成式 AI 评估指标

  • CLIPScore:通过计算图像和文本的 CLIP 嵌入的余弦相似度来衡量图像和文本的一致性。
  • IS (Inception Score):衡量图像的多样性和清晰度。
  • FID (Fréchet Inception Distance):衡量真实图像分布和生成图像分布之间的差异。
  • PSNR (Peak Signal-to-Noise Ratio):衡量图像的重建质量。
  • SSIM (Structural Similarity Index):衡量图像的结构相似性。
  • LPIPS (Learned Perceptual Image Patch Similarity):衡量图像的感知相似性。
  • MLLM (Multimodal Large Language Model) 作为评估指标:例如,T2I-CompBench 使用 miniGPT4 评估文本到图像生成任务,TIFA 使用视觉问答技术评估文本到图像生成任务,VIEScore 使用 MLLM 作为统一的评估指标。

1.2 生成式 AI 评估平台

  • T2I-CompBench:评估组合文本到图像生成任务。
  • HEIM:提供文本到图像任务的全面评估框架,包括安全性、毒性等方面。
  • ImagenHub:评估文本到图像、图像编辑和其他图像生成任务。
  • VBench:提供视频生成任务的评估方法。
  • EvalCrafter:评估大型视频生成模型。
  • Chatbot Arena:评估 LLM 的性能,用户可以通过聊天的方式与 LLM 进行交互并为其投票。

2 平台的设计与实现

GenAI-Arena是首个具有全面评估能力的平台,它不仅支持多种任务,包括文本到图像的生成、文本引导的图像编辑和文本到视频的生成,而且还包括一个公共投票过程,以确保标签的透明度。

2.1 设计概述

GenAI-Arena 提供一个直观和全面的评估平台,用于生成模型,促进用户交互和参与。平台围绕三个主要任务构建:文本到图像生成、图像编辑和文本到视频生成。每个任务都支持一组特性,包括

  • 匿名并排投票系统:用户可以将两个匿名模型的输出并排比较,并根据偏好进行投票。
  • 对战 playground:用户可以输入提示,生成两个模型的输出并进行比较。
  • 直接生成标签:用户可以直接生成模型的输出,并进行比较和投票。
  • 排行榜:根据用户的投票,为所有评估模型生成 Elo 排行榜。

具体如下图所示

2.2 设计的关键

2.2.1 标准化推理

GenAI-Arena 标准化现有模型的代码库,并固定了超参数和提示格式,这使得不同模型的推理公平且可复现。遵循 ImagenHub 的做法,构建了 VideoGenHub 这个新库,旨在标准化不同文本到视频和图像到视频模型的推理过程。找到了这些模型的最佳超参数,以确保它们的最高性能。

2.2.2 投票规则

匿名战斗部分旨在确保无偏见的投票和对生成模型的准确评估。这部分的规则如下:

  • 用户输入一个提示,然后用于从同一任务类别的两个匿名模型生成输出。
  • 两个匿名模型生成的输出并排呈现以供比较。
  • 用户可以根据他们的偏好进行投票,使用选项:1)左边更好;2)右边更好;3)平局;4)两者都不好。这四个选项用于计算 Elo 排名。
  • 用户做出决定后,点击“投票”按钮提交他们的投票。重要的是要确保整个过程中模型的身份保持匿名。如果在互动过程中透露了模型身份,则不会计算投票。

2.2.2 模型集成

GenAI-Arena 集成了各种最先进的生成式 AI 模型,涵盖了不同的任务和技术。

2.2.2.1 文本到图像生成

SDXL、SDXL-Turbo 和 SDXL-Lightning 都是基于 SDXL衍生的,而 SDXL-Turbo和 SDXL-Lightning采用了不同的蒸馏方法。

2.2.2.2 图像引导的图像编辑

一些是即插即用方法,不需要任何训练,如 Pix2PixZero、InfEdit、SDEdit 等。这些方法可以应用于广泛的扩散模型。一些模型如 PnP 和 Prompt2Prompt 需要 DDIM 反演,这比其他方法需要的时间长得多。模型还包括了专门训练的图像编辑模型,如 InstructP2P 、MagicBrush 和 CosXLEdit 。

2.2.2.3 文本到视频生成

AnimateDiff 、ModelScope 、LaVie 是从 SD-1.5 初始化的,并通过注入运动层来捕获帧之间的时间关系继续训练的。与此相反,StableVideoDiffusion 和 VideoCrafter2是从 SD-2.1 初始化的。除了这些模型,还包括了 OpenSora ,它使用了类似 Sora 的扩散变换器架构进行联合时空注意力。

2.2.3 Bradley-Terry 模型

GenAI-Arena 使用 Bradley-Terry 模型进行统计估计 Elo 排名,以克服直接 Elo 计算的局限性。

2.2.4 置信区间

为了进一步调查估计的 Elo 评分的变异性,GenAI-Arena 使用了 Huber 等人描述的 "三明治" 标准误差。也就是说,对于每一轮,我们记录基于从前一轮中抽取的相同数量的战斗的估计 Elo 评分。这个过程持续了 100 轮。我们选择最低的采样 Elo 评分作为置信区间的下限,最高的采样 Elo 评分作为 Elo 评分的上限。

2.2.5 GenAI-Museum

当前 GenAI-Arena 在 Hugging Face Zero GPU 系统上运行模型,单个生成推理的时间通常在 5 到 120 秒之间。与自回归语言模型不同,后者使用如 VLLM 、SGLang等推理加速技术在不到一秒钟的时间内生成响应,扩散模型社区并没有这样强大的基础设施。因此,预计算成为减轻计算开销和简化用户交互的必要方式。

GenAI-Museum 作为一个预计算数据池,包含来自现有数据集或用户收集的各种输入,以及每个模型的输出。基于此,额外实现了一个 "随机样本" 按钮,以促进随机生成提示并立即检索相应的图像或视频。这个功能通过每次点击 "随机样本" 按钮时向部署的 GenAI-Museum 发送请求,接收输入和两个随机模型的预计算输出来操作。通过这种方式,我们在 GPU 上节省了计算时间,使用户能够在 UI 上进行即时比较和投票,并平衡每个独特输入的投票,以便我们逐渐收集所有模型的完整组合的投票。

3  GenAI-Arena 排行榜

  • 在图像生成方面,总共收集了 4443 票。当前排名最高的模型是 Playground V2.5 和 Playground V2,这两个模型都由 Playground.ai 发布,它们遵循与 SDXL 相同的架构,但是使用私有数据集进行训练。相比之下,SDXL 仅排名第七,明显落后。这一发现突显了训练数据集的重要性。在 Playground 模型之后是 StableCascade,它采用了高效的级联架构来降低训练成本。StableCascade 仅需要 SD-2.1 的 10% 训练成本,然而它在我们的排行榜上显著超过了 SDXL。这突显了扩散架构在实现强大性能方面的重要性。
  • 在图像编辑方面,总共收集了 1083 票。MagicBrush、InFEdit、CosXLEdit 和 InstructPix2Pix 排名较高,因为它们可以在图像上执行局部编辑。PNP 通过特征注入保留了结构,因此限制了编辑的多样性。像 Prompt-to-Prompt、CycleDiffusion、SDEdit 和 Pix2PixZero 这样的旧方法,在编辑过程中经常导致完全不同的图像,尽管图像质量很高,这也解释了这些模型排名较低的原因。
  • 在文本到视频方面,总共有 1568 票。T2VTurbo 以最高的 Elo 得分领先,表明它是最有效的模型。紧随其后的是 StableVideoDiffusion 排名第二。VideoCrafter2 和 AnimateDiff 的 Elo 得分非常接近,显示出几乎等同的能力。LaVie、OpenSora、ModelScope 和 AnimateDiff-Turbo 以递减的得分紧随其后,表明性能逐渐降低。

4 GenAI-Bench数据集

使用 Llama Guard 作为 NSFW 过滤器,以确保用户输入的提示适合广泛的受众,并保护基准测试的用户不接触到可能有害或冒犯的内容。在文本到图像生成任务中,总共收集了 4.3k 匿名投票,在过滤后剩下 1.7k 投票用于安全内容。观察到大量提示因性内容而被过滤掉,这占据了废弃数据的 85.6%。

  • 数据集:用户投票数据,包含文本到图像生成、图像编辑、文本到视频生成任务。
  • 相关性分析:将用户投票与 CLIPScore, GPT-4o, Gemini-1.5-Pro, Idefics2, Mantis 等指标进行相关性分析。

官网:https://huggingface.co/datasets/TIGER-Lab/GenAI-Bench

5 结论

  • 成功构建了第一个基于用户偏好的多模态生成式 AI 排名平台,填补了现有评估平台的空白。
  • 通过社区投票和 Elo 排名系统,提供了透明且可持续的评估方式。
  • 收集了超过 6000 票,为模型性能提供了可靠的评估结果。
  • 通过用户投票分析,揭示了现有 Elo 排名系统的局限性,并展示了用户投票的高质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1811769.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汽车EDI:波森Boysen EDI项目案例

企业A作为Boysen 的供应商,为了响应Boysen的号召,需要与其实现EDI对接。由于企业A此前并没有EDI项目的实施经验,对EDI项目的实施流程、技术要求等内容不知道应该从何下手。 为了实现EDI对接意味着企业A需要具备自己的EDI系统,从而…

jdk8连接sqlserver数据库

这里写目录标题 解决方案:1.进入jdk的安装目录:2. 删除TLSv1、TLSv1.1、3DES_EDE_CBC 删除3.jdk、jre下面的security都需要删除![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/d93467a91c8d47c2a4b95842e34a9ef1.png) 报错原因:The server selected protocol versi…

应急加固-网站入侵后应急流程

实验需求: bugku的在线实验平台,找到黑客入侵的方式,并确定黑客入侵的ip地址、首次webshell的密码、找到webshell并删除、找到黑客留下的后门中黑客服务器的ip及端口、删除定时任务和脚本、找到黑客添加的账号并删除、修复mysql的getshell漏…

【ARM Cache 及 MMU 系列文章 1.4 -- 如何判断 L3 Cache 是否实现】

文章目录 Cluster Configuration Register代码实现什么是Single-Threaded Core?什么是PE(Processor Execution units)?Single-Threaded Core与PE的关系对比多线程(Multithreading)Cluster Configuration Register 同 L2 Cache 判断方法类似,ARMv9 中也提供了一个自定义…

安装docker+mysql的一些坑

yum -y install docker 提示missing signature 参考这里 https://www.8a.hk/news/content/8235.html 因为docker客户端太老了 systemctl enable docker systemctl start docker systemctl status docker 显示activate基本没有问题 docker pull 总是io timeout docker pull m…

【Vue】getters

除了state之外,有时我们还需要从state中筛选出符合条件的一些数据,这些数据是依赖state的,此时会用到getters getters就类似于属性中的计算属性 这个getter只有获取,如果需要设置修改,还是需要经过mutations getters里…

使用Langchain与ChatGLM实现本地知识库(二)

前言 大语言模型也只是将用户提供的大规模数据集训练而来,也并非万能的什么都知道,特别是一些小众知识、内部数据或私密的个人数据等,此时ChatGLM3肯定会胡乱回答就是ChatGPT4也不一定能给出满意回答;不少公司、个人都有自己的知…

可视化数据科学平台在信贷领域应用系列二:数据清洗

上一篇文章中,某互联网银行零售信贷风险建模专家使用数据科学平台Altair RapidMiner——完成了数据探索工作,《可视化数据科学平台在信贷领域应用系列一:数据探索》。本次这位建模专家再次和大家分享数据准备的第二步骤,数据清洗。…

什么是单片机?单片机的详解

单片机(Microcontroller Unit,简称 MCU)是一种集成了处理器、存储器、输入/输出接口和其他外设功能的微型计算机系统。它可以用于各种应用领域,如嵌入式系统、自动化控制、通信设备、家电、汽车电子等。 单片机的基本结构 以下是…

限流器设计思路(浅入门)

限流器(Rate Limiter)是一种用于控制系统资源利用率和质量的重要机制。它通过限制单位时间内可以执行的操作数量,从而防止系统过载和保护服务的可靠性。在程序设计中,可以使用多种方式来实现限流器,下面是几个常见方案的介绍: 令牌…

这三款很实用的工具,助你事半功倍!

AllDup——删除重复文件的工具 AllDup是一款用于删除电脑内重复文件的工具,避免重复占用电脑的存储空间,支持搜索整个文件夹中的重复文件或者使用对比功能,查询出不同文件夹中相同的文件。 使用排除功能,可以过滤掉某些不需要搜索…

SpringCloudAlibaba组件集成

SpringCloudAlibaba组件集成 Nacos服务注册与发现 1.Nacos认识与安装 1.1.什么是Nacos Nacos和Eureka有着相同的能力,甚至更为强大,作为Dubbo 生态系统中重要的注册中心实现。官方对它有如下定义: Nacos致力于帮助您发现,配置…

亚信安慧AntDB数据库与云信达eCloud Data Master 云数据管理系统软件V4完成兼容性互认证

日前,湖南亚信安慧科技有限公司(简称:亚信安慧)与南京云信达科技有限公司(简称:云信达),完成了AntDB数据库产品与云信达eCloud Data Master云数据管理系统软件V4的兼容性互认证。 双…

javaWeb项目-在线考试系统详细功能介绍

项目关键技术 开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架:ssm、Springboot 前端:Vue、ElementUI 关键技术:springboot、SSM、vue、MYSQL、MAVEN 数据库工具:Navicat、SQLyog 1、Java简介 Java语…

mysql中 事务的隔离级别与MVCC

大家好。今天我们来讲一下事务的隔离级别和MVCC。在讲之前,我们先创建一张表,方便我们的讲解: CREATE TABLE hero ( number INT, name VARCHAR(100), country varchar(100), PRIMARY KEY (number) ) EngineInnoDB CHARSETutf8;创建完毕后我…

专业编程显示器明基RD280U,赋能开发者共创科技新纪元

距离ChatGPT问世仅有17个月,OpenAI就推出了颠覆生产力的GPT-4o。这是整个智能时代的一次再进化,GPT-4o不但能实时处理文本、音频和图像,甚至能在232毫秒内实时响应音频输入,几乎与真人对话无异。 当人们惊叹于这项“充满人性”的…

Docker未授权访问漏洞详解

目录 Docker简介 Docker未授权访问漏洞原理 Docker未授权访问漏洞复现 环境搭建 漏洞利用 写入密钥免密登录 写入计划任务反弹shell fofa实战 Docker简介 Docker是一个开源的引擎,可以轻松地为任何应用创建一个轻量级的、可移植的、自给自足的容器。 Docke…

DDei在线设计器-DDeiCore-图形插件

DDei-Core-图形 DDei-Core-图形插件包含了基础绘图形状与基础流程形状两个分组,大约100来个图形,能够满足很基本的框图、架构图、流程图的绘制。 图形以分组的形式组织,一个分组中包含多个图形,一个图形也能够同时存在于多个分组。…

李廉洋:6.11黄金原油持续震荡,今日美盘最新分析策略。

黄金消息面分析:周一(6月10日)金价有所回升,此前一个交易日,金价创下了三年半以来的最大跌幅,原因是中国和美国公布的数据令押注中国需求和美联储降息的投机者感到失望。截至发稿,现货金上涨0.5…

【Unity+AI01】在Unity中调用DeepSeek大模型!实现AI对话功能!

要在Unity中调用DeepSeek的API并实现用户输入文本后返回对话的功能,你需要遵循以下步骤: 获取API密钥: 首先,你需要从DeepSeek获取API密钥。这通常涉及到注册账户,并可能需要订阅相应的服务。 集成HTTP请求库&#xf…