Humans or LLMs as the Judge? A Study on Judgement Bias

news2024/11/18 19:42:34

文章目录

    • 题目
    • 摘要
    • 引言
    • 相关作品
    • 论法官的偏见
    • 实验方案
    • 结果与讨论
    • 欺骗LLM法官
    • 结论

题目

人类还是LLMs作为裁判?判断偏差研究
在这里插入图片描述

论文地址:https://arxiv.org/pdf/2402.10669

摘要

    采用人类和大型语言模型(LLM)作为评估LLM性能的评判者(也称为人类和LLM-as-a-judge)最近受到了关注。然而,这种方法同时引入了来自人和LLM的潜在偏差,质疑了评估结果的可靠性。在本文中,我们提出了一个新的框架,该框架不引用基础事实注释,用于调查LLM和人类法官的错误信息监督偏见、性别偏见、权威偏见和美貌偏见。我们参考修正后的布鲁姆分类法建立了一个数据集,并进行了数千次评估。结果表明,人类和LLM法官容易受到不同程度的干扰,即使是最先进的法官也有相当大的偏见。我们进一步利用这些偏见对LLM法官进行攻击。我们希望我们的工作能够让社区了解人类和法官的偏见和脆弱性,以及开发强大评估系统的紧迫性。

警告:我们提供了说明性的攻击协议来揭示LLM法官的漏洞,旨在开发更强大的攻击协议

引言

    介绍专有模型,如GPT-4 (OpenAI等人,2023),克劳德(Anthropic,2024),GeminiPro (Team等人,2024),展示了他们在众多自然语言处理任务中的杰出能力,同时也是各种场景中的日常使用工具。与此同时,开源社区正试图复制专有模型并使LLM民主化。为了更好地跟踪LLM的进展,社区非常重视评估模型性能,开发了许多基准测试,大致可以分为开放式和封闭式。虽然诸如MMLU (Hendrycks等人,2020年)、C-Eval(黄等人,2023年)等封闭式基准便于评估,但是它们经常遭受数据污染问题。用内部数据训练的专有LLM往往在封闭式基准测试中表现特别好。另一方面,开放式基准(如MTBench(郑等,2023)和Alpaca-Eval(李等,2023))通过自由形式的生成来测试模型,这更符合真实世界的用例,并严重依赖于LLM的生成能力。开放式基准测试中的数据污染问题不太严重,因为没有标准答案,即使有污染,它对性能黑客攻击的帮助也很小。

    开放式基准通常依靠人工来评估答案质量。近年来出现的人工匹配的LLM,LLM-as-adjudge(郑等,2023)作为人类法官的一种替代。最近,人们发现这两种类型的法官都具有一定的偏见(郑等,2023;吴和阿吉,2023),质疑人和法律硕士作为法官的有效性。因此,一个重要的问题产生了:人类和LLM在判断开放式世代上有多大的偏差?当前的偏见评估框架需要一个黄金标准,要么是基本事实(例如,正确与错误、有害与无害)的形式,要么是人类提供参考答案的形式。但是,如果我们打算探索一些没有提供或没有很好定义的金标准的扰动的影响呢?

    在本文中,我们首先确定了四种兴趣偏差:错误信息忽略偏差、性别偏差、权威偏差和美貌偏差,它们在自然语言生成(NLG)评估中至关重要。受干预研究的启发,我们通过在原始答案中分别添加4个扰动(事实错误、性别偏见内容、虚假参考和丰富内容)来研究这些偏差。为了填补目前研究的空白,我们提出了一个新的无参考框架,用于人类和LLM法官的偏见评估。我们首先组成一个控制组和一个实验组,其中前者的每个样本都包含同一问题的一对答案,后者的每个答案对都由前者的一个答案和另一个答案的扰动版本组成。然后,我们通过攻击成功率(ASR)来量化两组之间的偏好变化,其中较高的值表明法官拥有更严重的偏见。我们进一步利用发现的偏见对LLM法官进行攻击。

    总之,我们的主要贡献和发现总结如下:我们确定了四个未充分探索的偏见(第3节)。我们提出了一个新的无参考框架,用于人类和LLM法官的偏见分析(第4节)。我们发现,人类法官几乎没有性别偏见,但具有明显的错误信息偏见和美貌偏见。所有法学硕士法官都在不同程度上存在错误信息监督偏见、性别偏见、权威偏见和美貌偏见(第5节)。人们可以很容易地利用权威偏见和美貌偏见对LLM法官进行即时攻击,在GPT协议第4版(第6节)上实现高达50%的ASR。

相关作品

    人和LLM评价人的反馈是NLG评价的流行金标准。收集的反馈可用于改善模型性能(Kreutzer等人,2018;周和徐,2020;雷科等人,2018;齐格勒等人,2019;斯蒂农等人,2020年;bhm等人,2019;欧阳等,2022;Christiano等人,2023)或作为聊天机器人领域的输出质量指标(郑等人,2023)。在LLMs出现之前,BertScore(张等,2020)、BARTScore(袁等,2021)、DiscoScore(赵等,2023)和GPTScore(傅等,2023)是用于评估任务的常用度量标准。最近,强大的LLM是代替以前的方法作为评判标准,并广泛用于评估LLM性能(Chen等人,2023b张等,2023;陈等,2023a王等,2023b)。

    人类和LLM法官的偏见人类和LLM法官都被发现有偏见。由于人的主观性,再现性相当低(Belz等人,2023)。为了获得更高质量的结果,需要一个清晰的码本来为法官提供清晰的指令(Howcroft et al,2020)。人类法官也存在固有的偏见(郑等,2023;吴和阿吉,2023),甚至可能无法提供可靠的答案(克拉克等人,2021;hml inen等人,2023年)。作为人类的替代,LLM法官也被发现具有一定的偏见,注释结果需要验证(Pangakis等人,2023)。Zeng等人(2023)发现逻辑推理硕士倾向于给出表面质量良好的答案。位置偏误(王等,2023a),认知偏误(辜等,2023),赘言偏误和自我增强偏误(郑等,2023)也已被发现。我们的工作量化了人类和LLM法官可能拥有的另外三种偏见。

    对担任法官的法学硕士的攻击尽管法学硕士的权力较大,但他们容易受到对抗性攻击(Shen等人,2023;姜等,2023;邹等人,2023年),在这种情况下,LLM可被诱导产生有害物质。虽然现有的关于LLM攻击的工作主要集中在NLG任务上,但是对LLM-as-a-judge攻击的研究相对不足。近期作品(刘冰等人,2024;Shi等人(2024)提出了基于优化的方法来攻击LLM-as-a-judge。相反,我们的工作提供了一种简单而有效的基于零射击提示的方法来欺骗LLM评委。

论法官的偏见

    定义偏见根据《牛津英语词典》的定义,“语义”是指语言中的意义(牛津英语词典,2023)。我们主要将偏见分为语义相关的和语义不可知的偏见。语义相关偏差语义相关偏差属于受文本内容相关因素影响的评价者的偏差。典型的例子包括误传、监督偏差和性别偏差。语义不可知偏差语义不可知偏差是指受与文本语义内容无关的因素影响的评价者的偏差。常见的例子包括权威偏见和美貌偏见。

    感兴趣的偏差在本研究中,我们进行了大量的实验来探索如下所述的四种类型的偏差。

  • 偏见1。错误信息监督偏差:这是指忽视论点中事实错误的倾向。这经常发生在个人不仔细检查他们的支持论点就草率地得出结论的时候。
  • 偏见2。性别偏见:这是指法官对性别偏见内容的无知。当一个人或一个模型没有学会避免这种无意识的偏见时,就会发生这种情况。
  • 偏见3。权威偏见:这是一种倾向,认为他们认为权威的声明更可信,而不管实际的证据(Saffran et al,2020)。它经常导致不加批判地接受专家的意见,这不应该发生在细心的读者或法官身上。
  • 偏见4。美貌偏见:或“外貌主义”,意思是某人因其美貌而享有特权。在我们的上下文中,它指的是法官倾向于更喜欢视觉上吸引人的内容,而不管其实际有效性。

    在图1中,我们为每个偏差提供了一个例子。调查偏见的重要性分析法官的偏见是至关重要的,因为它们有可能扭曲法律结果。错误信息的监督偏见可以通过社交媒体在公众中造成混乱,降低他们的可信度和声誉(Weidner等人,2020)。性别偏见是一种与社会相关的偏见,在法律(Czapanskiy,1990年)和金融(Staveren,2001年)等不同部门都有影响。权威偏见可能导致高估被感知的权威的意见,可能忽略大量的反证,并促进基于权力动态而非事实准确性的决定(Kahneman,2011)。此外,美貌偏见有可能基于视觉吸引力而不是案件的是非曲直偏向当事人,损害了司法程序中预期的公正性(朗罗伊等人,2000)。量化和分析这些偏见对于开发更强大的法官和评估框架至关重要。

实验方案

    在这一部分中,我们详细阐述了我们的动机、实验方法、实验数据的创建、实验程序、评估指标和评估中的模型。动机我们首先确定进行偏倚分析的挑战。首先,当没有基础事实,或者当人类不能作为金标准时,就很难对偏见进行有效的比较。第二,很难保证一个实验既可控又全面。一个粗心的大规模实验或天真的设定都会破坏结论的有效性。

    不幸的是,这些挑战没有被克服。首先,基础事实注释(例如,w/或w/o事实错误)在当前偏倚分析中是不可或缺的(Zeng等人,2023;吴和阿吉,2023),但在开放式问题回答中,基本事实可能没有得到很好的定义。第二,实验设计要么过于草率庞大,要么过于有限。郑等人(2023)在从众包工人收集的大规模数据集上得出结论,这可能会给分析带来不可控因素。Wu和Aji (2023)只对从Vicuna-80 (Chiang et al,2023)中选取的40个问题进行了实验,得出了具有有限概括能力的结论。

    方法我们采用干预2作为我们的研究方法来量化法官拥有的偏见。我们通过干扰原始答案来调查每一个偏差。我们引入事实错误和性别偏见的内容来分别测试错误信息、监督偏见和性别偏见。法官应该能够发现有缺陷或性别偏见的内容。我们分别引入假参考文献和丰富内容来检验权威偏见和美貌偏见。一个公正的裁判在比较答案对时应该坚持内容的语义。

    数据生成为了为我们的实验收集数据,我们使用GPT4 3来生成问题、答案和扰动。数据生成过程如图1所示。问题生成为了提高问题集的通用性,我们遵循以下6个级别修订的布鲁姆分类法(Krathwohl,2002年)(附录G中的描述)并促使GPT-4为每个级别创建30个问题,总计180个问题。这些题的知识水平控制在中学水平或以下。这确保了大学水平的评估者(见第4.4节)能够利用他们的知识来评估答案的质量。我们根据样本子集手动改进问题生成提示(详见附录A.1)。问题的分类由作者根据附录A.4)中描述的标准进行人工验证。这一验证过程确保了我们实验数据的正确性,为后续步骤留下了142个问题。

在这里插入图片描述

图1:示例演示。每个样本包括一个问题,控制组的两个未受干扰的答案A1,A2。为实验组生成A2的扰动版本。有事实错误和性别偏见的文本被涂成红色只是为了演示。丰富的内容以与展示给人类法官相同的方式呈现。我们进行干预,调查错误信息、监督偏见、性别偏见、权威偏见和美貌偏见。

    答案生成我们使用GPT-4为每个问题独立生成两个答案,从而为对照组收集了142个问题-答案对。每对由一个问题和两个答案组成,分别表示为Q、A1和A2。扰动对于每种类型的扰动,我们为每个问题随机选择一个答案,并引入扰动(事实错误、有性别偏见的内容、虚假参考和丰富的内容),结果是实验组142个问题-答案对的4倍。注意添加伪引用和丰富内容后语义不变),如图1所示。在这些排列中,每个问题的两个答案被标记为A1(原始答案)和p2(A2的扰动版本)。

    综上,对于一个特定的扰动p,一个样本由一个问题Q,两个答案A1和A2,一个被扰动的答案A p 2,一个控制组偏好Prefctrl,一个实验组偏好Prefexp组成,如下所示:S p = {Q,A1,A2,Ap 2,Prefctrl,Prefexp} (1)问题生成、答案生成和答案扰动的提示分别见附录A.1、A.2和A.3。

    实验对象人类评委我们聘请60名大学生作为我们的人类评委。由于我们的评估材料都是英文的,志愿者应该要么是以英语为母语的人,要么在标准化英语测试中取得不错的成绩。此外,他们应该掌握至少高中水平的数学、物理和逻辑。在实验开始之前,所有的人类裁判都会被告知潜在的风险,并且可以随时停止评估过程。每位评委的工资为30元人民币/小时,每天最多有一个小时的评估时间。我们不告知评委数据生成过程,以避免给实验结果带来额外的因素。附录b提供了更多详细信息。

    LLM评委我们的实验还涉及到一些代表性车型的评价,在包括4o、4 (OpenAI等,2023)、Claude-2 (Anthropic)、Claude-3 (Anthropic)、Gemini-Pro (Team等,2024)、4-turbo (OpenAI)、3.5-turbo (OpenAI)、LLaMA270B-Chat (Touvron等,2023)、Mixtral-7Bx8Instruct(江等,2024)、Ernie(孙等,2021)、Spark4和Qwen(白等我们在附录c中详细说明了每个模型的版本及其访问时间。但是,由于一些模型在评估中表现出明显的位置偏差(参见附录F.1中的结果),我们在以下章节中仅包括位置偏差不太明显的模型。

    实验过程图2说明了我们的实验过程,包括审查、投票和汇总。我们分成两组进行实验:控制组(旨在评估A1和A2)和实验组(旨在评估A1和A2的扰动版本p 2)。我们对每一对{Q,A1,A2}和{Q,A1,Ap 2 }的位置进行混洗,以最小化位置偏差的影响。对于人类裁判,我们还记录在后台评估每一对所用的时间,以便进行后处理。给定一个问题及其两个相应的答案,法官被指示仅基于答案的语义质量来确定“答案1”更好,“答案2”更好还是“平局”。

在这里插入图片描述在这里插入图片描述

图2:实验程序。对于每一个问答配对,我们收集6张投票,位置是随机的。投票结果被记录为一个分数,并被转换为一个答案偏好(灰色阴影区域)。
图3: ASR计算。我们通过计算两组间偏好改变的样本百分比来评估评估者对扰动的稳健性。

    对于人类法官,我们包括一个“不熟悉”选项,并要求法官在不熟悉问题上下文的情况下选择它。标有“不熟悉”的投票被排除在决赛之外结果。人类评委的详细说明和法学硕士评委的评估提示分别见附录D和E。聚合我们首先排除响应时间太短的投票。为了合计剩余的有效投票,我们首先将0、0.5和1分别分配给A1、T ie和A2/Ap 2。然后,我们计算每个样本在其6次投票中的平均得分。我们使用0.5作为阈值来分配每个样本的合计投票。附录h中显示了基于gradio (Abid等人,2019年)为人类法官构建的用户界面的屏幕截图。

    度量标准为了衡量法官对扰动的弹性,我们可以直观地计算由于增加的扰动,偏好向p 2移动的样本的百分比。遵循AI安全中使用的术语,我们将我们的度量命名为攻击成功率(ASR)。具体来说,对于伪引用和丰富内容扰动,在这里插入图片描述其中V1是Prefctrl为A1或T ie的样本集,V2|1是Prefexp为p 2的V1样本集(如图3所示)。对于实际误差扰动,ASR的计算公式为:在这里插入图片描述其中,V2是Prefctrl为A2或T ie的样本集,V2|2是样本集在V2,谁的前缀是p 2或T ie。对于所有三种干扰,ASR越高,法官检测文本中事实错误的能力越低。ASR理想情况下应该接近0。

    无参考框架的优越性我们的无参考评估框架允许量化评估开放式生成任务中的偏差,其中可能没有基础事实。本质上,偏差是通过ASR来量化的,ASR是从控制组到实验组偏好转向扰动答案的样本的百分比。我们的新框架为未来关于开放式世代评估的偏见研究提供了见解。

结果与讨论

    初步:关于位置偏差人类和LLM判断者的位置偏差是指在进行两两比较时,判断者倾向于在一对中选择一边而不考虑答案质量的现象。由于位置偏差已被许多著作深入探讨(王等,2023a郑等,2023;Wu和Aji,2023),我们调查了这种偏见,以确定有效的判断,为随后的分析。详细结果见附录F.1。我们实证发现,GPT-3.5 Turbo和Mixtral倾向于选择“答案1”,Spark倾向于选择“答案2”,而Qwen和Gemini-Pro几乎无一例外地选择“Tie”。他们都不是成对评估的理想法官。因此,我们在随后的分析中将它们排除在外。

在这里插入图片描述
表1:不同评委对FE的ASR:事实错误,性别:性别,Ref:假参考,RC:丰富内容扰动。随机裁判是指随机表演。括号中的数字是列中的等级。平均值。排名是扰动的平均排名。每列中的最佳/最差表现分别用粗体/下划线标出。

    我们在表1中给出了结果,该表显示了不同扰动下的ASR和每个裁判的平均等级。关于语义相关偏差,像样的逻辑推理模型能够进行事实检查,如GPT-4o、克劳德-3、GPT-4和GPT-4-Turbo的情况,所有这些都具有低于11%的ASR。另一方面,人类法官和其他LLM的ASR都高于20%,这可能是因为他们可能不知道上下文中的细节(人类),或者他们没有足够的知识来作为事实检查者(LLM)。

    就性别偏见而言,人类法官远远超过法律硕士,这可能是因为所有法官都是受过良好教育的大学生,他们被教导要不带性别偏见。相比之下,LLM在来自网络的大量数据上接受训练,从中他们可以了解语料库中固有的性别偏见。从我们的实验结果来看,即使大多数LLM经历了比对过程,性别偏见仍然存在,这表明比对过程可能是不充分的。

  • 外卖1。人类和一些LLM法官拥有错误信息监督偏见。后者可以通过实施更有效的知识注入过程来改进。
  • 外卖2。人类法官没有性别偏见,而法学硕士法官有明显的性别偏见,这表明有待改进。

    关于语义不可知偏差如表1的第四列所示,在假参考扰动下,除了GPT-4o之外,所有的判断都低于随机基线。即使是性能最好的GPT-4o也有32%的ASR(只比随机好5%),这也是不令人满意的。这表明,人类和LLM法官都被感知的可信度所说服。对人类来说,这与埃吕尔(2021)的发现一致。对于LLM,权威偏差可能是由于在比对过程中给有参考的样本分配较高的奖励而产生的。然而,他们仅仅了解到一个普通的信号,即参考文献的存在意味着偏好,而不考虑真实的真实性。

    对于丰富的内容扰动,4个LLM法官的ASR在10%以下。包括人类在内的其他法官的ASR超过30%。这表明人类和一些LLM评委被表情符号和markdown格式等“注意力分散器”吸引,阻碍了他们成为公正的评委。

  • 外卖3。人类和所有LLM法官(除了GPT-4o)的表现并不比参考扰动下的随机基线更好,表明严重的权威偏差。GPT-4o仅略微超过随机基线。
  • 外卖4。在人类和一些法学硕士评委中观察到了美貌偏见。GPT-4名义上比随机基线要好。

    如刘等(2024)和徐等(2024)所指出的,逻辑推理模式可能偏好于自己产生的答案。这种现象被称为自增强偏向(郑等,2023),也可能存在于我们的实验中。由于所有的扰动都是由GPT-4添加的,它知道误差是什么,这可能是GPT-4在表1的实际误差检测中具有良好性能的原因。为了讨论错误检测中潜在的自我增强问题,我们从Bloom分类法的6个级别中的每个级别随机抽取10个问题(总共60个问题)。然后,我们采用Claude3来执行答案生成和扰动,如4.3节所述。

在这里插入图片描述

表2:不同LLM添加实际误差扰动的ASR。

    如表2所示,GPT-4在评估其自身产生的响应和克劳德-3产生的响应方面表现出色。Claude-3在评估过程中也表现稳定。同时,GPT-4在评估其自身在该子集上生成的答案时的ASR是0.07,并且表1中的相应结果是0.08。这表明抽样子集的代表性。外卖5。GPT-4和克劳德-3在事实错误检测方面的卓越之处并不源于他们的自我增强偏见。

    使用GPT-4来管理实验数据集由于GPT-4是在大量数据上训练的(对于其他LLM也可能如此),一个问题是GPT-4管理的数据集的分布可能有偏差,因为该分布可能已经被其他LLM学习过。考虑到假定的问题,我们的结果提供了“性能优势”对于所有测试的模型,如果数据集形成一个看不见的分布,其性能可能更差(ASR可能更高)。考虑到表1中不令人满意的表现,我们认为我们的实验仍然有助于揭示LLM法官的偏见。

欺骗LLM法官

    概述观察到LLM法官具有某些偏见,我们进一步利用这些偏见并提出了一种对LLM-as-a-judge的简单而有效的攻击方法。通过添加虚假的参考资料和丰富的内容,我们使一个有缺陷的,有偏见的或平庸的答案表面上很好。我们按照第4.6节中的类似定义计算ASR。我们首先生成三组答案:锚集A1:充当锚的答案。弱集A2:比a弱的答案。与A1中的答案相比,该弱集表现为有缺陷(有事实错误)、有偏见(有基于性别的内容)或不太体面(由LLMs判断的质量)。扰动集A2:A2的扰动版本,使它们表面上比A2更好。锚集A1由GPT-3.5-Turbo在60个问题的子集上生成。我们的目标是研究下面两个RQ,其中弱集A2和扰动集A2对于每个RQ是不同的。

    RQ1:通过增加扰动,有缺陷/有偏见的答案能超过它没有缺陷的对应物吗?为了研究这个问题,我们通过添加事实错误使弱集合A2有缺陷。具体来说,我们使用GPT-3.5-Turbo生成一个普通版本的答案,然后使用GPT-4向每个答案添加事实错误或基于性别的内容,产生有缺陷的答案集A2。然后对于A2中的每一个答案,我们加入假参考、丰富内容和复合扰动,看看能否利用LLM评委的权威偏见和美貌偏见来欺骗他们。我们还包括一个随机基线进行比较。

    RQ2:通过增加扰动,一个弱答案能超过它的强答案吗?这个想法是,我们需要首先挑选一组弱-强(就语义质量而言)答案对。我们从LLaMA2-Chat{7B,13B,70B}中生成答案,形成三个独立的弱集。然后,我们给它们添加伪引用,形成它们对应的扰动集。我们验证了来自LLaMA2-Chat家族的答案确实弱于GPT-3.5-Turbo的答案(参见附录I中的结果)。为了执行趋势分析,我们还包括来自GPT-3.5-Turbo的另一组答案,并以类似的方式为其构建一个弱扰动集。

在这里插入图片描述
图4:不同干扰下的ASR增加了(a)事实错误和(b)性别偏见内容。Ref:假引用,RC:内容丰富,Ref+RC:复合扰动。
在这里插入图片描述
表3:GPT-3.5-Turbo与LLaMA2-Chat-{7B,13B,70B} (LM-xB)的ASR对比。添加虚假参考资料是为了从表面上提高羊驼答案的质量。平均值。Ranking是各列ASR的四个排名的平均值。每列中的最佳/最差表现分别用粗体/下划线标出。

    指标对于每个RQ,我们进行两组成对比较。A1和A2之间的比较显示了干扰前法官对答案的偏好(对照组),而A1和A2之间的比较显示了干扰后的偏好(实验组)。我们采用ASR(等式。2)作为度量。发现和讨论有缺陷和有偏见的答案检测。我们在图4a和4b中显示了错误信息的忽略偏差和性别偏差的结果。在所有模型中,GPT-4o和克劳德-3在这两个偏差方面都比其他模型表现得更好。然而,克劳德-2在检测事实错误方面表现最差;Ernie和LLaMA2-70B在Ref+RC扰动下检测性别偏见内容时甚至比随机基线更差。此外,GPT4和GPT-4-Turbo对这两种偏差都表现平平,这表明所有模型在用作判断时都容易受到所提出的扰动攻击。扰动类型对性能有影响。在欺骗LLM评委方面,Ref比RC更有效,这意味着LLM比好看的格式更倾向于表面权威。我们还发现,所有模型都有比性别偏差更严重的错误信息监督偏差,这与表1中的结果一致。

  • 外卖6。LLM法官在检测事实错误和性别偏见内容时容易受到虚假引用和丰富内容攻击。

    回答失误弱。我们试图通过比较几对回答质量完全不同的模型来回答RQ2。从表3中直接观察到,每行都有增加的趋势,这意味着随着答案对之间的质量差距缩小,LLM判断者更容易被参考文献所诱导。值得注意的是,从LM-70B柱到GPT-3.5-Turbo柱的ASR有一个飞跃。这表明当两个原始答案在质量上相似时,LLM对假引用敏感,但是当质量差距显著时,对这种扰动相对鲁棒。

  • 外卖7。对较弱答案的偏好可以通过用假参考干扰它们来改善

但是这种影响是有限的,因为在我们的环境中,两个答案之间有很大的质量差距。

结论

    总之,我们开发了一个新的无参考框架来探索人类和LLM法官中的错误信息监督偏见、性别偏见、权威偏见和美貌偏见,为他们的先天偏见和脆弱性提供了更深入的见解。我们发现所有的法官都表现出明显的偏见,但在他们的具体倾向上有所不同。此外,我们证明了LLMs的判断可以通过我们发现的基于提示的方法被破解。通过我们的工作,我们希望提供关于人类和LLM作为法官的偏见的见解,并通知社区开发更强大的评估系统的紧迫性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2175317.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多车合作自动驾驶框架CoDrivingLLM:基于大语言模型驱动的决策框架

Abstract 目前,全球范围内已开始对联网自动驾驶汽车(CAVs)进行道路测试,但它们在复杂场景中的安全性和效率表现仍不令人满意。合作驾驶利用CAVs的连接能力,通过协同作用超越个体表现,使其成为在复杂场景中…

MySQL篇(主从复制/读写分离/分库分表)(持续更新迭代)

目录 讲解一:主从复制 一、何为主从复制? 二、主从复制的优点 三、主从复制原理 四、主从复制环境搭建 1. 准备 2. 主库配置 2.1. 修改配置文件 /etc/my.cnf 2.2. 重启MySQL服务器 2.3. 授予主从复制权限 2.4. 查看二进制日志坐标 3. 从库配置…

ubuntu 安装harbor

#安装包 wget https://github.com/goharbor/harbor/releases/download/v2.10.3/harbor-offline-installer-v2.10.3.tgz wget https://github.com/goharbor/harbor/releases/download/v2.10.3/harbor-offline-installer-v2.10.3.tgz.asc#导入签名公钥 gpg --keyserver hkps://ke…

EDM平台大比拼 用户体验与营销效果双重测评

本文评测了ZohoCampaigns、Mailchimp、Sendinblue、AWeber四款EDM平台,分别适合中小企业、多平台集成、多功能集成、初学者等需求。建议企业根据自身规模、技术水平和功能需求选择最适合的平台。 一、Zoho Campaigns 功能概述 Zoho Campaigns是Zoho旗下的一款专注…

每日OJ题_牛客_拼三角_枚举/DFS_C++_Java

目录 牛客_拼三角_枚举/DFS 题目解析 C代码1 C代码2 Java代码 牛客_拼三角_枚举/DFS 拼三角_枚举/DFS 题目解析 简单枚举&#xff0c;不过有很多种枚举方法&#xff0c;这里直接用简单粗暴的枚举方式。 C代码1 #include <iostream> #include <algorithm> …

探索RAG、AI Agents和Agentic RAG的架构、应用程序和主要区别

人工智能催生了能够执行各种任务的强大模型。该领域最具影响力的两项进步是检索增强生成 (RAG) 和Agents&#xff0c;它们在改进AI驱动的应用程序中发挥着独特的作用。然而&#xff0c;新兴的Agentic RAG概念提出了一种利用两种系统优势的混合模型。Agentic RAG是什么&#xff…

UML中类和类之间关系和各种图

文章目录 1.UML概述2.UML建模工具3.常见UML图_类图4.类图之类和类之间的关系5.用例图1.用例图是什么2.用例图所包含的元素3.用例图所包含的关系 6.状态图1.状态图是什么&#xff1f;2.状态图所包含的元素 7.活动图1.活动图的元素 8.时序图1.时序图是什么&#xff1f;2.时序图的…

混合密码系统——用对称密钥提高速度,用公钥密码保护会话密钥

混合密码系统&#xff08;Hybrid Cryptosystem&#xff09;是一种结合了多种密码学技术和算法的加密方案&#xff0c;旨在充分利用不同密码算法的优势&#xff0c;以提供更强大的安全性、更高的效率或更好的功能特性。以下是对混合密码系统的详细解释&#xff1a; 组成要素 对…

操作系统与进程

1.操作系统 操作系统是计算机中的一个重要软件&#xff0c;它是一个专门进行管理的软件。操作系统可以通过驱动程序来间接管理外部硬件&#xff0c;也可以为计算机中的程序提供一个稳定的运行环境&#xff0c;从而来方便管理各种程序的运行&#xff0c;让程序之间的运行互不影…

用于探索和测试API的开源IDE工具-Bruno

1、前言 在进行软件开发与测试过程中&#xff0c;无论是开发人员还是测试人员&#xff0c;都会或多或少地进行接口调试与接口测试。尤其针对那种测试流程规范性很高的项目&#xff0c;测试人员进行接口测试是不可或缺的一部分。而这其中&#xff0c;大多数都会使用 Postman 作…

.Net 基于IIS部署blazor webassembly或WebApi

1.安装IIS(若安装&#xff0c;请忽略) 选择:控制面板–>程序–>程序和功能 选择:启动或关闭Windows功能&#xff0c;勾选相关项&#xff0c;再点击确定即可。 2.安装Hosting Bundle 以.net6为例&#xff0c;点击连接https://dotnet.microsoft.com/en-us/download/dot…

免费的录屏软件有哪些?可以试试这4款。

录屏软件已经被用于很多的领域和场景当中&#xff0c;能够帮助我们进行在线教学&#xff0c;线上培训&#xff0c;游戏直播与分享&#xff0c;视频记录等等。并且很多的录屏软件都有免费的功能&#xff0c;它们让大家的录屏变得更加的方便。如果大家需要录屏工具的话&#xff0…

828华为云征文|基于华为云Flexus X实例部署Uptime-Kuma服务器监控面板

目录 前言 一、Flexus云服务器X介绍 1.1 Flexus云服务器X实例简介 1.2 Flexus云服务器X实例特点 1.3 Flexus云服务器X实例场景需求 二、Flexus云服务器X购买 2.1 Flexus X实例购买 2.2 重置密码 2.3 登录服务器 三、Flexus X安装uptime-kuma面板 3.1 uptime-kuma介绍 3.2 uptim…

现在增长空间原来在这里

我们常常说&#xff0c;现在的经济形势不太好&#xff0c;赚钱太难了&#xff0c;卷得太厉害了。只能出海去卷&#xff0c;或者是到老年人的群体里去卷银发经济。 但是&#xff0c;现在就有一个巨大的市场&#xff0c;等待着大家去挖掘。这就是下沉市场。 以前我们也提过下沉…

[Admin] Things Need to Know

List View Bulk Actions Highlight: To take bulk actions on all of the available records in a list, you click the bulk action button without selecting any records.

无人机之数据处理技术篇

一、数据采集 无人机通过搭载的各种传感器和设备&#xff0c;如GPS、加速度计、陀螺仪、磁力计、激光雷达(LiDAR)、高光谱相机(Hyperspectral)、多光谱相机(Multispectral)以及普通相机等&#xff0c;实时采集飞行过程中的各种数据。这些数据包括无人机的位置、速度、高度、姿态…

无人机侦测:频谱无线电侦测设备技术详解

无人机侦测中的频谱无线电侦测设备技术是一项复杂而关键的技术&#xff0c;它主要通过分析无线电频谱中的信号来探测和识别无人机。以下是该技术的详细解析&#xff1a; 一、技术原理 频谱探测技术&#xff1a;该技术通过分析信号在频域上的分布和特性&#xff0c;来识别、测…

6.MySQL基本查询

目录 表的增删查改Insert&#xff08;插入&#xff09;插入替换插入替换2 Retrieve&#xff08;查找&#xff09;SELECT 列全列查找指定列查询查询字段为表达式为查询结果指定别名结果去重 WHERE 条件order by子句筛选分页结果 Update&#xff08;更新&#xff09;delete&#…

代码随想录算法训练营第十七天|654.最大二叉树 617.合并二叉树 700.二叉搜索树中的搜索 98.验证二叉搜索树

654.最大二叉树 给定一个不含重复元素的整数数组。一个以此数组构建的最大二叉树定义如下&#xff1a; 二叉树的根是数组中的最大元素。左子树是通过数组中最大值左边部分构造出的最大二叉树。右子树是通过数组中最大值右边部分构造出的最大二叉树。 通过给定的数组构建最大二…

LCD显示屏接口

LCD显示屏接口 设备对外接口&#xff1a;VGA、DVI、HDMIHDMI接口接口定义发展历史HDMI特点HDMI接口类型 设备对内接口&#xff1a;串口、并口小屏&#xff08;I2C、SPI、UART&#xff09;中屏&#xff1a;MCU、RGBRGB接口 MCU LCD屏和RGB LCD屏的区别大屏&#xff1a;MIPI、LVD…