LLM-as-Judge真的更偏好AI输出？

LLM-as-Judge真的更偏好AI输出？

news2025/4/16 5:59:23

论文标题

Do LLM Evaluators Prefer Themselves for a Reason?

论文地址

https://arxiv.org/pdf/2504.03846

代码地址

https://github.com/wlchen0206/llm-sp

作者背景

弗吉尼亚大学，乔治华盛顿大学

实践建议

在将LLM部署为评估器之前，应严格评估其在目标任务上的效果；
尽可能使用更大的模型作为评估器，并采用test-time scaling；
可以使用多组评估器分别评估各自擅长的任务

动机

得益于LLM强大的通用能力，学术界与各工业界越来越喜欢使用大模型来作为评估器，即LLM-as-judge。然而这种评估方法可能存在比较多的偏见，比如更喜欢自己产生的输出、更长更详细的输出、特定风格的输出等等，其中“更长更详细”、“特定风格”等偏好是显式的，基本上可以通过提示词来优化，而“自己产生的输出”是隐式的，不体现为某一具体特征，所以无法通过提示词来限制与优化

本文旨在系统性探究“自我偏好”的真实性，以及相应的优化手段

本文方法

在存在客观正确答案的任务上（数学、事实、代码）进行验证，着重考察以下3个量化指标：

自我偏好比率： 评估器偏好自己生成结果的比例。
合法自我偏好比率： 评估器偏好自己生成结果，且结果是正确的比例。
有害自我偏好倾向： 评估器偏好自己生成的错误结果的比例。

实验结果

测试对象：

评估器： Llama、Qwen、Gemma、Mistral、Phi、GPT和DeepSeek等涵盖多种的参数规模；
被评估者： Llama-3.2-1B、Gemma-2-2B、Mistral-7B

一、更好的生成器就是更好的评估器

各尺寸、家族的大模型，评估准确性与它们自己完成相应任务的准确性高度相关

在这里插入图片描述

二、自我偏好确实存在，但大部分情况下是正确的

下图可见，越大尺寸的模型自我偏好越强，但同时其准确率也越强，即大部分“偏见”都是正确的

在这里插入图片描述

错误的自我偏好确实存在，但未必体现“模型越强偏见越大”

在这里插入图片描述

三、推理越长，有害的偏好越少

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2335729.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【软考-架构】13.3、架构复用-DSSA-ABSD

【软考-架构】13.3、架构复用-DSSA-ABSD

✨资料&文章更新✨ GitHub地址：https://github.com/tyronczt/system_architect 文章目录 1、软件架构复用2、特定领域软件架构DSSADSSA的三个基本活动参与DSSA的四种角色人员建立DSSA的过程三层次模型考试真题第一题第二题 3、基于架构的软件开发ABSD的软件开发…

阅读更多...

色温插值计算借鉴

色温插值计算借鉴

色温插值计算方法借鉴： 摘至：Understanding the in-camera rendering pipeline & the role of AI and deep learning

阅读更多...

SnailJob：分布式环境设计的任务调度与重试平台！

SnailJob：分布式环境设计的任务调度与重试平台！

背景近日挖掘到一款名为“SnailJob”的分布式重试开源项目,它旨在解决微服务架构中常见的重试问题。在微服务大行其道的今天，我们经常需要对某个数据请求进行多次尝试。然而，当遇到网络不稳定、外部服务更新或下游服务负载过高等情况时，请求…

阅读更多...

$网络安全-Http\Https协议和Bp抓包$

网络安全-Http\Https协议和Bp抓包

1. http协议，有请求必有相应， 请求协议， 响应协议； 2. 密码学加密机制及常用算法和常用名称说明： 算法密钥明文数据密文； 加密算法分类和常用算法： 加密算法可以归结为三大类&#xff…

阅读更多...

爱普生FC1610AN5G手机中替代传统晶振的理想之选

爱普生FC1610AN5G手机中替代传统晶振的理想之选

在 5G 技术引领的通信新时代，手机性能面临前所未有的挑战与机遇。从高速数据传输到多任务高效处理，从长时间续航到紧凑轻薄设计，每一项提升都离不开内部精密组件的协同优化。晶振，作为为手机各系统提供稳定时钟信号的关键元件&…

阅读更多...

质粒已被全面解析

质粒已被全面解析

随着微生物研究的不断深入和耐药性问题的日益加剧，了解质粒对开发抗菌策略及生物技术应用意义重大。但现有质粒数据库缺乏细致注释并且工具存在不足。近期，香港城市大学李帅成课题组在Nucleic Acids Research期刊发表研究成果，推出全面注释质…

阅读更多...

实验二．单按键控制LED

实验二．单按键控制LED

1．实验任务如图4.1所示：在P0.0端口上接一个发光二极管L1，按键按一下灯亮，在按一下灯灭。 2．电路原理图 3．系统板上硬件连线把“单片机系统”区域中的P0端口用导线连接到“八路发光二极管指示模块”区域中的L1端口上。 4．程序设计内容

阅读更多...

【ROS】move_base 导航节点概述

【ROS】move_base 导航节点概述

【ROS】move_base 导航节点概述前言move_base 架构move_base 内部模块move_base 外部数据前言本章介绍 ROS 导航系统中的核心节点 move_base，它负责路径规划和导航控制，是系统的调度中心。我们将简要讲解其内部模块结构，以及运行所需的外…

阅读更多...

【FPGA基础学习】DDS信号发生器设计

【FPGA基础学习】DDS信号发生器设计

一、IP核简介 IP核的定义与核心作用定义 IP核是芯片设计中独立功能的成熟模块，例如处理器、存储器、接口协议等。它们以硬件描述语言（HDL）、网表或物理版图形式交付，供其他设计者直接调用，避免重复开发核心作用缩…

阅读更多...

linux ceres库编译注意事项及测试demo

linux ceres库编译注意事项及测试demo

最近linux编译了ceres库,因为要涉及到一个程序源代码的编译，但是反复测试，一直各种错误，所以一个个问题排除； 虽然前面ceres库编译成功了，但是版本自定义扔进去的，所以在进行代码编译的时候各种报错。参考…

阅读更多...

Flux.1+ComfyUI组合实战！本地部署生成高质量AI图片全流程指南

Flux.1+ComfyUI组合实战！本地部署生成高质量AI图片全流程指南

文章目录前言1. 本地部署ComfyUI2. 下载 Flux.1 模型3. 下载CLIP模型4. 下载 VAE 模型5. 演示文生图6. 公网使用 Flux.1 大模型6.1 创建远程连接公网地址 7. 固定远程访问公网地址前言在这个AI技术风起云涌的时代，图像生成模型已经从科幻变成了现实中的‘印钞机…

阅读更多...

css hover 实现鼠标放上去后略微放大的效果

css hover 实现鼠标放上去后略微放大的效果

代码如下： <div class"button">文字</div>css代码如下： .button{width: 100px;height: 50px;margin-top: 100px;margin-left: 100px;color: white;background-color: gray;line-height: 50px;text-align: center;transition: all…

阅读更多...

UWB定位技术目前主要应用在哪些行业（更新2025）

UWB定位技术目前主要应用在哪些行业（更新2025）

UWB定位技术的主要行业应用 ‌一、工业制造领域‌ ‌人员与设备定位‌：通过厘米级精度追踪工人、叉车及设备位置，优化生产流程并提升安全管理效率（如高危区域实时报警）‌。‌防撞预警与工时统计‌：结合电子围栏实现设…

阅读更多...

vscode格式化为什么失效？自动保存和格式化（Prettier - Code formatter，vue-format）

vscode格式化为什么失效？自动保存和格式化（Prettier - Code formatter，vue-format）

vscode自动格式化保存最终配置博主找了好多的插件，也跟着教程配置了很多，结果还是没有办法格式化，最终发现了一个隐藏的小齿轮，配置完后就生效了关键步骤关键配置一定要点小齿轮！！！ 这个小…

阅读更多...

鸿蒙应用元服务开发-Account Kit配置登录权限

鸿蒙应用元服务开发-Account Kit配置登录权限

一、场景介绍华为账号登录是基于OAuth 2.0协议标准和OpenID Connect协议标准构建的OAuth2.0 授权登录系统，元服务可以方便地获取华为账号用户的身份标识，快速建立元服务内的用户体系。用户打开元服务时，不需要用户点击登录/注册按钮&#…

阅读更多...

React ROUTER之嵌套路由

React ROUTER之嵌套路由

第一张是需要修改router文件createBrowserRouterd参数数组中的路由关系第二张是需要在一级路由的index.js中选择二级路由的位置第一步是在全局的router.js文件中加入新的children属性，如图第二步是在一级路由的index.js文件中声明outLet组件默认二级路由在…

阅读更多...

TestNG 单元测试详解

TestNG 单元测试详解

1、测试环境 jdk1.8.0 121 myeclipse-10.0-offline-installer-windows.exe TestNG 插件 org.testng.eclipse 6.8.6.20130607 0745 2、介绍套件(suite):由一个 XML 文件表示,通过<suite>标签定义,包含一个或更多测试(test)。测试(test):由<test>定义&#xf…

阅读更多...

通过python实现bilibili缓存视频转为mp4格式

通过python实现bilibili缓存视频转为mp4格式

需要提前下好ffmpeg import os import fnmatch import subprocess Bilibili缓存的视频，*280.m4s结尾的是音频文件，*050.m4s结尾的是视频，删除16进制下前9个0，即为正常音/视频使用os.walk模块，遍历每一个目录&#xf…

阅读更多...

【分享】Ftrans文件摆渡系统：既保障传输安全，又提供强集成支持

【分享】Ftrans文件摆渡系统：既保障传输安全，又提供强集成支持

【分享】Ftrans文件摆渡系统：既保障传输安全，又提供强集成支持！ 在数字化浪潮中，企业对数据安全愈发重视，网络隔离成为保护核心数据的关键防线，比如隔离成研发网-办公网、生产网-测试网、内网-外网等。网络…

阅读更多...

python每日一练

python每日一练

题目一输入10个整数,输出其中不同的数,即如果一个数出现了多次,只输出一次(要求按照每一个不同的数第一次出现的顺序输出)。解题错误题解 a list(map(int,input().split())) b [] b.append(a[i]) for i in range(2,11):if a[i] not in b:b.append(a[i]) print(b)但是会…

阅读更多...

推荐文章

最新文章