GPT-4o首次引入!全新图像自动评估基准发布!

news2024/11/26 2:54:20

目录

01 什么是DreamBench++?

02 与人类对齐的自动化评估

03 更全面的个性化数据集

04 实验结果


面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。

对此,来自清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中科院和旷视的研究人员共同推出了一项新基准——DreamBench++。

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计的提示词以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。结果显示,DreamBench++与人类评价高度一致。

01 什么是DreamBench++?

DreamBench++是一个全新的评估工具,在个性化图像评估领域实现了两项关键技术突破:

  1. 引入支持多模态的GPT-4o,实现与人类偏好的深度对齐和自动化评估。
     
  2. 推出了一个更为全面和多元化的数据集。

02 与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。研究人员选择直接打分而非对比,以避免不同方法生成的图像顺序影响结果,并减少标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的提示词:

  • 任务描述:明确评估的目标和要求。
     
  • 评分标准解释:详细说明评估的依据。
     
  • 评分范围定义:设定评分的量化标准。
     
  • 格式规范:确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训的标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

03 更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。构建过程包括以下步骤:

  • 获取主题关键词:团队挑选并生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体、活物和风格化图片三种类型。
     
  • 图片收集:收集来源包括Unsplash、Rawpixel和Google Image Search。挑选背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
     
  • 提示词(prompt)生成:引导GPT-4o生成不同复杂程度的提示词。这些提示词的复杂性与生成任务的难度相对应。

04 实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

  • 在图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
     
  • 在文本遵循方面,CLIP-T的评分则相对较低。
     
  • GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅关注单一方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了79.64%的一致性。


在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%。

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%。这也侧面说明,通过设计提示词,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,DreamBench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。同时,Emu2在非自然或复杂图像上的表现也会下降。

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

DeepSeek-Coder-v2击败GPT-4 Turbo,成为竞技场最强开源编码模型!


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1875932.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高级运维工程师讲述银河麒麟V10SP1服务器加固收回权限/tmp命令引起生产mysql数据库事故实战

高级运维工程师讲述银河麒麟V10SP1服务器加固收回权限/tmp命令引起生产MySql数据库事故实战 一、前言 作为运维工程师经常会对生产服务器进行安全漏洞加固,一般服务厂商、或者甲方信息安全中心提供一些安全的shell脚本,一般这种shell脚本都是收回权限&…

Websocket在Java中的实践——自动注册端点

大纲 依赖自动注册端点端点测试 在 《Websocket在Java中的实践——握手拦截器》中我们使用握手拦截器实现了路径解析的工作。这个过程略显复杂,因为路径解析这样比较底层的工作应该由框架来解决,而不应该交由开发者来做。本文介绍的自动注册端点的功能就…

开箱即用的fastposter海报生成器

什么是 fastposter ? fastposter 海报生成器是一款快速开发海报的工具。只需上传一张背景图,在对应的位置放上组件(文字、图片、二维码、头像)即可生成海报。 点击代码直接生成各种语言 SDK 的调用代码,方便快速开发。 软件特性&…

2024高考录取分数线一览表(含一本线、二本线、专科线)

2024年全国各地的高考录取分数线已经全部公布,查大学网(www.chadaxue.com)为大家整理全国31个省市高考录取分数线汇总,包括本科批(一本分数线线和二本分数线)、专科批和特殊类招生控制分数线汇总&#xff0…

ArcGIS中将测绘数据投影坐标(平面坐标)转地理坐标(球面经纬度坐标)

目录 前言1.测绘数据预览1.1 确定带号1.2 为什么是对Y轴分带,而不是对X轴分带? 2 测绘数据转shp2.1 添加数据2.2 显示XY数据2.3 添加经纬度字段2.4 计算经纬度 3.shp数据重投影4.总结 前言 最近在刚好在做一个小功能,将测绘数据转为经纬度坐标…

2024年值得信赖的在线代理IP服务商

在当今的网络世界中,代理IP服务成为了许多企业和个人在进行网络数据处理、多账号管理等任务时不可或缺的工具。然而,面对市场上众多的代理IP服务商,如何挑选出真正值得信赖的服务商成为了一大难题。作为专业的测评团队,我们近期对…

cuda编码入门学习笔记

在日常深度学习和科学计算中,使用图形处理器(GPU)进行加速是一个常见的做法。CUDA (Compute Unified Device Architecture) 是英伟达公司提供的用于GPU编程的平台和编程模型。同时它是一种并行计算模型,允许开发人员使用标准C语言对GPU进行编程。CUDA的核心思想是将任务分解为…

React+TS前台项目实战(二十一)-- Search业务组件封装实现全局搜索

文章目录 前言一、Search组件封装1. 效果展示2. 功能分析3. 代码详细注释4. 使用方式 二、搜索结果展示组件封装1. 功能分析2. 代码详细注释 三、引用到文件,自行取用总结 前言 今天,我们来封装一个业务灵巧的组件,它集成了全局搜索和展示搜…

关于vs code中Live Server插件安装后无法打开的问题

一、问题情况 安装好Live Server插件之后,点击open with live server只会出现界面右下角落的提示,但是不会跳转到浏览器的页面:如下所示: 二:解决步骤 1、首先进行扩展设置,默认将浏览器的设置为chrome浏览…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于改进目标级联分析法的交直流混联系统发电-备用分布式协同调度》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

MFC扩展库BCGControlBar Pro v35.0新版亮点 - 工具栏、菜单全新升级

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中,并为您节省数百个开发和调试时间。 BCGControlBar专业版 v35.0已全新发布了,这个版本改进类Visual Studio 2022的视觉主题、增强对多个…

昇思25天学习打卡营第11天 | ResNet50迁移学习

内容介绍: 在实际应用场景中,由于训练数据集不足,所以很少有人会从头开始训练整个网络。普遍的做法是,在一个非常大的基础数据集上训练得到一个预训练模型,然后使用该模型来初始化网络的权重参数或作为固定特征提取器…

算法力扣刷题记录 二十三【151.翻转字符串里的单词】

前言 字符串篇,继续。 记录 二十三【151.翻转字符串里的单词】 – 一、题目阅读 给你一个字符串 s ,请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 单词…

【Python报错】已解决 ModuleNotFoundError: No module named ‘transformers‘

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 ModuleNotFoundError: No module named ‘transformers’ 是一个常见的错误,它表明你的Python环境中没有安装t…

2023阿里巴巴全球数学竞赛决赛中的LLM背景题解析(应用与计算数学部分第2题)...

早点关注我,精彩不错过! 最近闹得沸沸扬扬的姜萍事件果真又成了世界就是个草台班子的有力论据。无论真相如何,各自心怀鬼胎,自有策略的合作看起来就一定是一场场的闹剧。 无意作过多评论,也绝不妄下言论,就…

Unity之自定义Text组件默认属性值

内容将会持续更新,有错误的地方欢迎指正,谢谢! Unity之自定义Text组件默认属性值 TechX 坚持将创新的科技带给世界! 拥有更好的学习体验 —— 不断努力,不断进步,不断探索 TechX —— 心探索、心进取!…

硬件实用技巧:刚挠板pcb是什么

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140060334 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

SQLServer 表值构造函数 (Transact-SQL)

在 SQL Server 中,表值构造函数(Table Value Constructor, TVC)是一种用于在单个语句中插入多行数据到表中的语法。它允许你以行内表值表达式(row-valued expression)的形式指定多行数据,并将这些数据作为一…

基于weixin小程序周边美食系统的设计

管理员账户功能包括:系统首页,个人中心,用户管理,美食店铺管理,菜品分类管理,标签管理,菜品信息管理,系统管理 微信端账号功能包括:系统首页,美食店铺&#x…

ROS2使用Python创建服务提供者、消费者

1.创建服务提供者 ros2 pkg create example_service_rclpy --build-type ament_python --dependencies rclpy example_interfaces --node-name service_server_02 service_server_02.py 代码 #!/usr/bin/env python3 import rclpy from rclpy.node import Node # 导入接口 …