【生成式人工智能-八-大型语言模型的能力评估】

news2024/9/22 9:56:53

语言模型的能力评估

  • 评估难度来自哪里
    • 输出没办法确定
    • 给出选择题
    • 本身就没标准答案
  • 评估方法
    • 人力
    • 用语言模型来评估语言模型
      • 语言模型的偏爱
  • 评估语言模型的数据集
  • 评估模型的不同能力
    • 阅读长文的能力
    • 心智测验
    • 道德性测试
    • 安全性测试

通常情况下我们想到的语言模型能力评估,就是让模型输出答案,然后与标准答案进行比对,可是现实是,这很难评估模型能力,下面就介绍下评估的难度

评估难度来自哪里

输出没办法确定

准备一些标准的corpus,也就是所谓的Benchmark Corpus,输入模型后,比对模型输出,但是对于输出的评分很难界定得分,因为同一个输入本来就可以有两种答案,同一种答案也可以有两种不同的说法,所以这就很难界定输出的好坏。

给出选择题

为了解决上面的问题,你可以给出选择题,也确实有这样的benchmark,那问题解决了么?
仔细想想就知道没那么简单,比如答案是A B C D,那模型万一回复的是a,又或者模型不按照人的思路直接给出答案了呢,这样还是很难解决评分问题。
当然你可以告诉模型只要输出选项,但是我们之前讲过,如果加上限制,很可能模型的重点放在了只输出选项上,而不是模型能力本身,因为之前我们讲过,模型本身就是需要step by step才会讲的更好

本身就没标准答案

比如做摘要,这个本身就没有标准答案,跟答案不同不能认为不对或者不好。当然也有BLEU和ROUGE一些算法,它是计算相同的字数的分数的,但这个分数的评估结果,想想就知道依然不是很理想。

那真的没办法评估了么

评估方法

人力

这个毋庸置疑,目前网站上的模型排名也是人力排名的

用语言模型来评估语言模型

可以把标准答案和语言模型的输出一起给GPT,问它答案是否正确,或者直接问GPT 两个模型的输出哪个更好。曾经有人MT-Bench上用GPT4来衡量回复的好坏。看起来是解决了这个问题,但是这个回复客观么?

语言模型的偏爱

语言模型真的是有偏爱的,比如gpt就特别喜欢长一点的答案。

了解到评估难度之后,我们可以了解下我们评估可以使用的资料集

评估语言模型的数据集

下面是几个常用的评估数据集
在这里插入图片描述
到最后一个 Natural Instrucions 任务集已经包含1600多个任务了

有方法和能力之外,出了常见的正确与否,一些其他我们需要评估的能力。

评估模型的不同能力

阅读长文的能力

现在我们越来越希望模型能够记住更长的内容,所以就希望能够测试模型阅读长文的能力,测试模型在看过很长的文章之后还能不能记住它看到的内容。
分别在一篇很长的文章的开头、中间、结尾插入一句话(防止不同模型在对于不同输入中不同位置的关注度带来影响),然后看模型能否回答出来的出来
在这里插入图片描述
有人在GPT-4做了测试,它自己号称可以读128k token的内容,但是实际测试发现,小于64K的时候,无论是放在哪里都可以回答出来,但是如果文档真的是到了128K的时候,如果插入的话放在前面,那GPT-4是回答不出来问题的。下面这个图是在GPT上实验结果(纵轴是插入语句的位置,从上往下依次是文章开头到结尾,横轴是输入token长度)
在这里插入图片描述

心智测验

测验模型是否具心智能力,看模型是否具备人类的心智。
在这里插入图片描述
拿一些心智测验题目,看模型是否具备心智能力,当然这个过程里必须警惕它在之前已经看过类似的资料了。比如上面这个问题,如果仅仅是文字生成,就会输出到去箱子找球,但是真正具备心智的人是会回答篮子。
当然也有这样的测试集,不过目前模型的测试的结果都不是很理想,与人类差距很大

道德性测试

看模型是否会为了自己的目标,违背一些道德,做一些操作,MACHIAVELLI Benchmark就是这样的测试

安全性测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图神经网络实战(18)——消息传播神经网络

图神经网络实战(18)——消息传播神经网络 0. 前言1. 消息传播神经网络2. 实现 MPNN 框架小结系列链接 0. 前言 我们已经学习了多种图神经网络 (Graph Neural Networks, GNN) 变体,包括图卷积网络 (Graph Convolutional Network, GCN)、图注意…

在macOS平台上通过Jenkins远程打包报错,提示errSecInternalComponent

问题:在macOS平台上通过Jenkins远程打包报错,提示errSecInternalComponent 原因 出现这个问题的主要原因:Jenkins以ssh方式到slave机上,默认是没有账户的,但是访问钥匙串要求必须有用户身份 通过Xcode打包的过程中&am…

Ps:通过 RGB 值计算 HSB 值

在 Photoshop 中,HSB(色相、饱和度和明度)仅作为表达颜色的一种方式而存在,并不是一种颜色模式。 色相/饱和度命令就是基于色彩三要素进行调色的常用命令。 还有一个与 HSB 相关的滤镜:HSB/HSL 滤镜,用于实…

无人机培训机构推广运营理论技术

一、市场定位与品牌建设 在无人机培训行业的激烈竞争中,精准的市场定位是成功的第一步。首先,需明确目标学员群体,如航拍爱好者、农业植保服务者、应急救援人员或专业无人机操作员等。基于目标群体的需求,构建差异化的品牌形象。…

一个升级的多租户权限管理系统,组件化,模块化,轻耦合,高扩展企业级的应用框架,功能强大(附源码)

前言 在现代软件开发中,多租户权限管理系统是企业级应用中的一个关键组件。然而,现有的一些框架,如RuoYi,虽然提供了一些基本的功能,但在面对更复杂的企业级需求时,如原生的MyBatis使用、复杂的分页处理&a…

【桥接模式】设计模式系列:分离抽象与实现的艺术(构建可扩展性的桥梁)

文章目录 Java设计模式系列之桥接模式:分离抽象与实现1. 引言2. 设计模式简介桥接模式定义桥接模式与其他模式的区别 3. 桥接模式的基本原理模式的核心概念抽象化与实现化的分离实现细节的封装解耦的机制 4. 桥接模式的角色介绍角色介绍UML和时序图代码示例说明 5. …

.Net Core IIS 程序报错 Access to the path c:\\windows\\TEMP\\poifiles is denied

程序运行报错:Access to the path c:\\windows\\TEMP\\poifiles is denied ,此错误本文介绍两种解决办法,选择适合你的方法即可;一般.Net程序运行方案二可能比较常用。 解决方案一: 从 IIS 访问文件系统 如果您在浏…

【HarmonyOS NEXT星河版开发学习】小型测试案例09-B站卡片

个人主页→VON 收录专栏→鸿蒙开发小型案例总结​​​​​ 基础语法部分会发布于github 和 gitee上面(暂未发布) 前言 鸿蒙开发中层叠布局通过Stack容器组件实现了强大的页面层叠和位置定位能力。这种布局方式不仅增强了界面的美观性和功能性&#xff0c…

《Advanced RAG》-10-Corrective Retrieval Augmented Generation (CRAG)

摘要 CRAG 设计了一个轻量级检索评估器,用于评估针对特定查询检索到的文档的整体质量,并使用网络搜索作为改进检索结果的辅助工具。CRAG 可与基于 RAG 的各种方法无缝集成,并提供了一个插件式的解决方案。 CRAG 的主要思想是引入一个检索评估…

前端面试宝典【vue篇】【5】

在前端开发的世界里,每一次面试都是一次机遇,也是一次挑战。 你是否曾因技术深度不够而错失良机? 或是面对最新的技术趋势感到迷茫? 我们的【前端面试宝典】正是为此而来。 由拥有多年一线实战经验的资深工程师亲自授课,结合最新的行业动态与实战案例,旨在全面提升你的技…

Java与Python的跨界融合:打造高效与灵活的编程体验

目录 一、引言 1.1 为什么结合Java与Python 1.2 结合方式概览 二、实现方法详解 2.1 Web服务接口 2.2 命令行调用 三、高级融合方式 3.1 Jython 3.2 GRPC/Protobuf 四、优势与挑战 4.1 优势 4.2 挑战 五、结论 在当今快速发展的软件开发领域,单一编程语…

零售企业中 SRM 系统与开源 AI 智能名片商城系统的协同作用

摘要:本文深入探讨了 SRM 系统在零售企业与上游供应商关系管理中的关键作用,并引入开源 AI 智能名片商城系统,细致分析了两者如何协同助力零售企业优化供应链、提升竞争力。通过阐述 SRM 系统的功能模块及其对零售企业的多方面积极影响&#…

职业教育物联网实验实训室建设应用案例

在万物互联的时代背景下,物联网技术以其强大的连接能力、数据分析与处理能力,正在深刻改变着社会生产和生活的方方面面。在这一背景下,职业教育也迎来了新的发展机遇和挑战。为了满足社会对物联网技术人才的需求,提高职业教育的质…

七夕警示:探索社工库与网络搜索下的个人隐私泄露与保护策略

随着七夕节的脚步日益临近,空气中弥漫着浪漫与温馨的气息。这个充满爱意的节日,我们沉浸在与心爱之人共享甜蜜时光的同时,不应忽视网络安全和个人隐私保护的重要性。在数字化时代,个人信息泄露的风险无处不在,如何在享…

Nginx隐藏欢迎页Welcome to CentOS

1、背景 刚刚搭建好Nginx,访问了一下根路径,就出现了欢迎页,额,这个得干掉才行。2、解决 网上搜索,说是使用 yum -y install nginx 安装的问题。 额,这个应该是配置的问题吧。原配置 location / {root h…

Linux磁盘管理_文件系统

系列文章目录 提示:仅用于个人学习,进行查漏补缺使用。 1.Linux介绍、目录结构、文件基本属性、Shell 2.Linux常用命令 3.Linux文件管理 4.Linux 命令安装(rpm、install) 5.Linux账号管理 6.Linux文件/目录权限管理 提示:写完文章后&…

Visual Studio 2022: 100 个实用技巧及详细操作方法

目录 1. 界面和环境设置 1.1 调整主题和配色 1.2 自定义工具栏 1.3 使用解决方案资源管理器的筛选功能 1.4 设置多行光标编辑 1.5 利用窗口布局保存和切换 2. 代码编辑 2.1 快速导航到文件、类、方法 2.2 使用代码片段加速编码 2.3 启用代码格式化 2.4 使用 CodeLens…

stm32入门学习12-软件和硬件SPI操作W25Q64

(一)SPI协议 SPI和I2C同样是一种通信协议,SPI相对I2C的优势是更快的传输速度,其和I2C一样为同步传输,即拥有一根时钟线,但是SPI拥有两根数据线,一根用于主机发送,一根用于主机接收&…

Kspider:超级给力的图形化爬虫平台

Kspider:超级给力的图形化爬虫平台 在如今数据驱动的世界,Kspider 作为一款功能强大的图形化爬虫平台,为用户提供了全面的网页数据抓取解决方案。本文将介绍 Kspider 的基本信息、特点以及它相对于其他爬虫工具的优势。 软件简介 Kspider 是…

【黑马】MyBatis

目录 MyBatis简介JDBC缺点:MyBatis针对于JDBC进行简化,简化思路: MyBatis快速入门具体构建步骤解决SQL映射文件的警告提示 Mapper代理开发案例:使用Mapper代理方式完成案例具体步骤详解:Mapper代理方式 Mapper核心配置…