探索大型语言模型自动评估 LLM 输出长句准确性的方法

探索大型语言模型自动评估 LLM 输出长句准确性的方法

news2025/7/9 7:18:14

LLM现在能够自动评估较长文本中的事实真实性

源码地址：https://github.com/google-deepmind/long-form-factuality
论文地址：https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的，提出了新的数据集、评估方法和衡量标准，用于对 LLM 长式事实性（长式事实性）和信息准确性进行基准测试。

研究要点包括：

挑战：没有数据集、评估方法或指标来评估LLM长式产出的真实性
解决方法：数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
第 1 点：上述方法可以量化 “法律硕士长式成果的事实性”。
第 2 点：模型越大，越长的陈述越符合事实。

换句话说，这项研究可用于自动评估 LLM 输出的长式信息的准确性，并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来，法律硕士的成绩有了显著提高，但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是，"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答，因此很难评估长式答案的真实性。此外，还没有确定量化长刑期事实的方法或指标，因此无法对其进行成功评估。

本研究提出的方法。

如前所述，该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

LongFact
SAFE（搜索增强事实评估器）。
F1@K

让我们依次来详细了解一下。

数据集： LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

包括 38 个主题的 2,280 个事实调查问题
主题分为四类：STEM（科学、技术、工程和数学）、社会科学、人文科学和其他。
包括需要长时间回答的问题
使用 GPT-4生成问题。
从生成的问题中删除重复问题，并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”，右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比，LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下，LongFact 在 GitHub 上公开发布，任何人都可以使用。因此，它有望成为未来 LLM 研究的基础。

评估方法：SAFE（Search-Augmented Factuality Evaluator）

SAFE（Search-Augmented Factuality Evaluator）是本文提出的一种用于自动评估长格式事实性（LLM）的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

向 LLM 输入 “提示”，并让它输出 “响应”。
使用 LLM 将回复文本分解为若干 “要素”。
使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
使用生成的查询进行谷歌搜索
确定谷歌搜索结果中的 "个别元素 "是否为正确信息（以及是否有充分依据）。

实质上，如下图所示，输出文本被分解为其元素、查询生成和谷歌搜索，从搜索结果中寻找支持事实的信息。

当然，"正确信息元素数量 "越多，LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时，他们发现 SAFE 的正确率为 76%，而人类的正确率仅为 19%。此外，SAFE 的表现优于人类，而成本却不到人类评分者的二十分之一。

这意味着，SAFE 将被证明成本相对较低，准确性较高。

顺便提一下，SAFE 的实施代码也在GitHub 上以开源方式提供，任何人都可以使用。

评价指标：F1@K

F1@K 是一个同时考虑拟合率（精确度）和重复率（召回率）的指标。其具体定义如下

一致率 Prec(y)：输出 y 中 "正确信息要素 "的百分比
复制率 RK(y)：输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度（正确信息元素数量）的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说，F1@K 的值介于 0 和 1 之间，越接近 1 表示长文本的事实性越强�

K 是一个超参数，代表用户偏好的输出文本长度（正确信息元素的数量）。假设用户认为最多 K 个 "信息正确元素 "越多越好，但对超过 K 个的 "信息正确元素 "则漠不关心。

例如，如果 K=64，用户认为 64 以内的 "正确信息要素 "越多越好，但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实，还可以评估信息是否包含足够的信息量。

事实上，本文使用 F1@K 对 13 个 LLM 进行了基准测试，并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM（Gemini、GPT、Claude 和 PaLM-2 系列）进行了基准测试，以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说，每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果，并使用 SAFE 进行评估。

然后，他们对 F1@K（K=64 和 K=178）的性能进行了量化和比较。

结果

实验结果表明，模型越大，越长的陈述越符合事实。

例如，GPT-4-Turbo 的事实性高于 GPT-4，GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到，Gemini-Ultra 的事实性高于 Gemini-Pro，PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外，无论 K 值如何，三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标，用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状，并为今后的研究提供基础。

本研究的局限性如下：

LongFact 和 SAFE 依赖于 LLM，因此直接受到所用 LLM 功能的影响
SAFE 依靠谷歌搜索，可能无法正确评估某些事实
至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好，尚未进行测试。

因此，他们计划今后开展有关学习、微调和使用外部工具的研究，以提高较长法律硕士课程的事实性。他还表示，SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1886350.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

零基础学习MySQL---MySQL入门

零基础学习MySQL---MySQL入门

顾得泉：个人主页个人专栏：《Linux操作系统》《C从入门到精通》《LeedCode刷题》键盘敲烂，年薪百万！ 一、什么是数据库问：存储数据用文件就可以了，为什么还要弄个数据库呢？ 这就不得不提…

阅读更多...

收集了很久的全网好用的磁力搜索站列表分享

收集了很久的全网好用的磁力搜索站列表分享

之前找资源的时候，收集了一波国内外大部分主流的磁力链接搜索站点。每一个站可能都有对应的优缺点，多试试，就能知道自己要哪个了。全网好用的磁力链接大部分的时候，我们用国内的就可以了，速度块，而且不…

阅读更多...

Free Pascal语言基础学习:定义变量、数据类型、循环语句、case语句、条件判断、with语句、运算符

Free Pascal语言基础学习:定义变量、数据类型、循环语句、case语句、条件判断、with语句、运算符

Pascal是一种结构化编程语言，而Free Pascal作为其现代编译器，不仅支持跨多种操作系统和处理器架构，还提供了高效的内存使用和函数重载等先进功能。Free Pascal继承了Pascal语言的核心特性，同时进行了扩展和优化，使其成…

阅读更多...

操作系统真象还原：编写硬盘驱动程序

操作系统真象还原：编写硬盘驱动程序

第13章-编写硬盘驱动程序这是一个网站有所有小节的代码实现，同时也包含了Bochs等文件 13.1 硬盘及分区表 13.1.1 创建从盘及获取安装的磁盘数要实现文件系统，必须先有个磁盘介质，虽然咱们己经有个虚拟磁盘 hd60M.img，但它只…

阅读更多...

理解MySQL存储引擎：掌握数据存储与管理

理解MySQL存储引擎：掌握数据存储与管理

在工作或学习过程中，作为一名数据库管理员或开发者，我们常常需处理大量数据，同时确保数据的可靠性与高效性。MySQL作为最受欢迎的开源数据库之一，其强大的性能和灵活性广为人知。而在MySQL背后的存储引擎则起到了至关重要的作用。…

阅读更多...

深度学习项目GPU开发环境安装

深度学习项目GPU开发环境安装

注安装环境：ubuntu22.04, cuda 11.7, cudnn8.9 1.安装nvidia驱动看可安装的Nvidia驱动版本：执行 ubuntu-drivers devices 安装合适版本的Nvidia驱动： sudo apt-get install nvidia-driver-515 注意：合适的版本需要尝试&#x…

阅读更多...

【区块链+基础设施】银联云区块链服务 | FISCO BCOS应用案例

【区块链+基础设施】银联云区块链服务 | FISCO BCOS应用案例

为了顺应区块链基础设施化的发展趋势，中国银联推出了银联云区块链服务——UPBaaS，为金融行业采用区块链技术提出了解决方案，微众银行为平台提供 FISCO BCOS 区块链开源技术支持。通过银联云区块链服务，用户可以用可视化的方式创…

阅读更多...

ERROR: No matching distribution found for torch==2.0.1+cu117（比手动下载方便）

ERROR: No matching distribution found for torch==2.0.1+cu117（比手动下载方便）

ERROR: No matching distribution found for torch2.0.1cu117 遇见这种报错可以把pip install -r requirements.txt修改为 pip install -r requirements.tx --extra-index-url https://download.pytorch.org/whl/cu117 -i https://pypi.tuna.tsinghua.edu.cn/simple或者直接…

阅读更多...

ROS2仿真工具-gazebo

ROS2仿真工具-gazebo

gazebo独立于ROS2，就像插件一样，需要安装。 1.安装 sudo apt install gazebo sudo apt install ros-humble-gazebo-* 2.运行测试demo gazebo /opt/ros/humble/share/gazebo_plugins/worlds/gazebo_ros_diff_drive_demo.world 查看所有话题 ros2 top…

阅读更多...

vue3开发过程中遇到的一些问题记录

vue3开发过程中遇到的一些问题记录

问题： vue3在使用 defineProps、defineEmits、defineExpose 时不需要import，但是 eslint会报错error defineProps is not defined no-undef 解决方法： 安装 vue-eslint-parser 插件，在 .eslintrc.js 文件中添加配置 parser: vue-e…

阅读更多...

交叉编译tslib库和上机测试

交叉编译tslib库和上机测试

目录一、tslib 介绍二、tslib 框架分析三、交叉编译、测试 tslib 1.安装工具链 tslib （1）设置交叉编译工具链 （2）进入tslib目录 （3）安装工具链 （4）确定工具链中头文件、库…

阅读更多...

高考志愿填报，AI搜索商业化的第一个金矿？

高考志愿填报，AI搜索商业化的第一个金矿？

文：互联网江湖作者：志刚前几天高考放榜，很多朋友都在忙着给孩子或者亲戚家孩子报志愿，高考志愿咨询也火得一塌糊涂，张雪峰的志愿咨询产品也卖出了天价。今年高考前夕，网红张雪峰旗下的“峰学蔚来”APP…

阅读更多...

用Vue3和Plotly.js打造一个3D图在线展示

用Vue3和Plotly.js打造一个3D图在线展示

本文由ScriptEcho平台提供技术支持项目地址：传送门三维网格图的绘制应用场景三维网格图广泛应用于科学可视化、医学成像、工程设计等领域，用于展示复杂的数据结构和空间分布。基本功能本代码使用 Plotly.js 库创建了一个交互式三维网格图&am…

阅读更多...

IDEA 好用的插件,必备的插件

IDEA 好用的插件,必备的插件

1. GitToolBox 菜单栏显示git分支信息 2.MyBatisx 快速定位找到sql的xml文件 3.RestfulToolkit-fix 快速定位接口的插件默认快捷键: CtrlAltN 4.EasyCamelQSM 字符串转驼峰默认快捷键: Ctrl Alt Q 5.Maven Helper 检查maven冲突，图形化展示maven依赖的插…

阅读更多...

非静压模型SWASH学习（8）——三维孤立波在锥形岛屿上的爬坡过程（Runup of solitary waves on a conical island）

非静压模型SWASH学习（8）——三维孤立波在锥形岛屿上的爬坡过程（Runup of solitary waves on a conical island）

三维孤立波在锥形岛屿上的爬坡过程（Runup of solitary waves on a conical island） 算例简介模型配置网格及参数设置网格与地形初始条件与边界条件数值求解方法输出设置模拟时间波浪（孤立波）入射边界的时间序列.bnd文件模拟结果注…

阅读更多...

调试支付分回调下载平台证书

调试支付分回调下载平台证书

之前的原生代码放到webman里面，死活跑不通没办法，只能用esayWeChat6.7 （自行下载） 它里面配置要用到平台证书平台证书又要用到 composer require wechatpay/wechatpay 但是请求接口之前，你先要用到一个临时的平台…

阅读更多...

[Python学习篇] Python函数

[Python学习篇] Python函数

定义函数语法：使用关键字 def def 函数名(参数): 代码1 代码2 ...... 调用函数语法： 函数名(参数) 注意：不同的需求，参数可有可无。在Python中，函数必须先定义后使用示例： # 定义函数 d…

阅读更多...

边缘计算网关在现代工业企业中的作用-天拓四方

边缘计算网关在现代工业企业中的作用-天拓四方

随着工业4.0时代的到来，数字化转型已经成为工业企业发展的必然趋势。在这一过程中，边缘计算网关以其独特的优势，正逐渐成为工业企业实现智能化、高效化运营的关键技术。边缘计算网关是一种部署在网络边缘的设备，它集成了计算、存…

阅读更多...

每日一题——Python实现PAT乙级1100 校庆（举一反三+思想解读+逐步优化）五千字好文

每日一题——Python实现PAT乙级1100 校庆（举一反三+思想解读+逐步优化）五千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页：用哲学编程-CSDN博客专栏：每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读目录我的写法代码结构和逻辑时间复杂度分析空间复杂度分析总结我要更强方法一…

阅读更多...

RK3568驱动指南｜第十五篇 I2C-第181章使用GPIO模拟I2C驱动

RK3568驱动指南｜第十五篇 I2C-第181章使用GPIO模拟I2C驱动

瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码，支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU，可用于轻量级人工…

阅读更多...

推荐文章

最新文章