【InternLM实战营---第七节课笔记】

news2025/1/14 20:39:06

一、本期课程内容概述

本节课的主讲老师是【曹茂松、刘卓鑫】。教学内容主要包括以下三个部分:
1.大模型评测的背景
2.大模型评测工具OpenCompass的介绍
3.OpenCompass实战

二、学习收获

  1. 为什么要研究大模型的评测?

    • 首先,研究评测对于我们全面了解大型语言模型的优势和限制至关重要。尽管许多研究表明大型语言模型在多个通用任务上已经达到或超越了人类水平,但仍然存在质疑,即这些模型的能力是否只是对训练数据的记忆而非真正的理解。例如,即使只提供LeetCode题目编号而不提供具体信息,大型语言模型也能够正确输出答案,这暗示着训练数据可能存在污染现象。
    • 其次,研究评测有助于指导和改进人类与大型语言模型之间的协同交互。考虑到大型语言模型的最终服务对象是人类,为了更好地设计人机交互的新范式,我们有必要全面评估模型的各项能力。
    • 最后,研究评测可以帮助我们更好地规划大型语言模型未来的发展,并预防未知和潜在的风险。随着大型语言模型的不断演进,其能力也在不断增强。通过合理科学的评测机制,我们能够从进化的角度评估模型的能力,并提前预测潜在的风险,这是至关重要的研究内容。
  2. 大模型评测中的挑战

    • 全面性:由于大语言模型应用场景的多样化和模型能力的迅速演进,如何设计和构造一个可扩展的能力维度体系是一个挑战。
    • 评测成本:评测数十万道题使用本地模型需要大量的算力资源,调用API费用也不低。基于人工打分的主观评测成本高昂。
    • 数据污染:在使用海量语料进行评测时,不可避免地会带来评测数据的污染。需可靠的检测技术来确保数据质量。
    • 鲁棒性:大语言模型对提示词非常敏感,多次采样情况下模型性能不稳定。如何设计出具有高鲁棒性的评测方法是一个挑战。
  3. OpenCompass介绍
    上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。其主要特点如下:

    • 开源可复现:提供公平、公开、可复现的大模型评测方案
    • 全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力
    • 丰富的模型支持:已支持 20+ HuggingFace 及 API 模型
    • 分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测
    • 多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能
    • 灵活化拓展:想增加新模型或数据集?想要自定义更高级的任务分割策略,甚至接入新的集群管理系统?OpenCompass 的一切均可轻松扩展!
      架构
  4. OpenCompass 三大核心模块

    • CompassRank 系统进行了重大革新与提升,现已成为一个兼容并蓄的排行榜体系,不仅囊括了开源基准测试项目,还包含了私有基准测试。此番升级极大地拓宽了对行业内各类模型进行全面而深入测评的可能性。
      中立榜单

    • CompassHub 创新性地推出了一个基准测试资源导航平台,其设计初衷旨在简化和加快研究人员及行业从业者在多样化的基准测试库中进行搜索与利用的过程。
      hub

    • CompassKit 是一系列专为大型语言模型和大型视觉-语言模型打造的强大评估工具合集,它所提供的全面评测工具集能够有效地对这些复杂模型的功能性能进行精准测量和科学评估。
      工具链

  5. OpenCompass评测方法
    OpenCompass 采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景,通过构造丰富完善的评测集,对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等,采用主客观相结合的评测方式。

    • 客观评测:针对具有标准答案的客观问题,我们可以我们可以通过使用定量指标比较模型的输出与标准答案的差异,并根据结果衡量模型的性能。同时,由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。 为了更好地激发出模型在题目测试领域的能力,并引导模型按照一定的模板输出答案,OpenCompass 采用提示词工程 (prompt engineering)和语境学习(in-context learning)进行客观评测。
    • 主观评测:语言表达生动精彩,变化丰富,大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测,以人的主观感受为主的评测更能体现模型的真实能力,并更符合大模型的实际使用场景。 OpenCompass 采取的主观评测方案是指借助受试者的主观判断对具有对话能力的大语言模型进行能力评测。在具体实践中,我们提前基于模型的能力维度构建主观测试问题集合,并将不同模型对于同一问题的不同回复展现给受试者,收集受试者基于主观感受的评分。由于主观测试成本高昂,本方案同时也采用使用性能优异的大语言模拟人类进行主观打分。在实际评测中,本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。 在具体开展主观评测时,OpenComapss 采用单模型回复满意度统计和多模型满意度比较两种方式开展具体的评测工作。

三、个人体会

  • 没想到评测还能够推动模型发展
  • 也没有想到书生200K上下文竟然只是用在评测里的
  • 榜单还是很有用的,方便我们挑选合适的模型

四、本期作业

https://blog.csdn.net/weixin_45609124/article/details/138141416

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1623394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot框架强大的事件驱动模型(ApplicationEvent)

文章目录 前言应用场景异步处理事务边界外的操作跨微服务通信系统监控与日志聚合UI更新生命周期管理工作流或业务流程缓存同步 小试牛刀定义事件实现事件处理器注册事件处理器发布事件测试事件 写在最后 前言 在Spring Boot应用中,事件处理器是指那些处理特定类型事…

SCP收容物121~130

注 :此文接SCP简介以及116~120的介绍,本文只供开玩笑 ,与steve_gqq_MC合作。 --------------------------------------------------------------------------------------------------------------------------------- 目录 scp-121 scp-122 scp-123 scp-124 …

webpack面试题(持续汇总ing。。。)

webpack的编译过程 初始化 此阶段,webpack会将CLI参数、配置文件、默认配置进行融合,形成一个最终的配置对象。对配置的处理过程是依托一个第三方库 yargs 完成的。此阶段相对比较简单,主要是为接下来的编译阶段做必要的准备目前,…

IDEA左右两侧的Project,Structure,Maven等按钮消失

目录 问题描述解决方法 问题描述 学习的时候 左右两侧没有这些按钮感觉切换很不方便 之前每次加载MAVEN都要在View里手动把他点出来 解决方法 选择File-Settings

文化旅游3D数字孪生可视化管理平台推动文旅产业迈向更加美好的未来

随着数字化、智能化管理成为文旅产业发展的必然趋势,数字孪生公司深圳华锐视点创新性地推出了景区三维可视化数字孪生平台,将线下的实体景区与线上的虚拟世界完美融合,引领智慧文旅新潮流。 我们运用先进的数字孪生、web3D开发和三维可视化等…

树莓派学习笔记--Wiring Pi库的安装

前言 在刚开始学习树莓派的时候,新版本操作系统与旧版本有一定的区别,就导致跟着网上的教程来出现了很多问题,然后网上新操作系统的教程又很少,就导致前些时间学习一直没有进展。最近终于是把这些问题解决了。所以记录下来这些东西…

怎么办xgp会员一年多少钱xgp会员怎么开轻松教你xgp会员开通教程

怎么办?xgp会员一年多少钱?xgp会员怎么开?轻松教你xgp会员开通教程 XGP平台是由微软公司开发的xbox游戏平台的pc版本,为电脑玩家提供了一个游玩微软游戏的平台,XGP平台因其独特的会员服务而广受玩家们好评&#xff0…

windows本地提权--dll劫持不带引号的服务不安全的服务

免责声明:本文仅做技术交流与学习... 目录 一.dll劫持 过程: 火绒剑检测: ChkDllHijack检测: 检测出来有--->msf生成dll后门 二.不带引号服务 路径 1-找不带引号的服务 2-改名上传 3-监听后-->等待服务重启 4-getuid拿下 三.不安全的服务权限配合MSF accessc…

常见的网站

1.小林coding图解计算机网络、操作系统、计算机组成、数据库,让天下没有难懂的八股文!https://xiaolincoding.com/ 2.

三数之和 ---- 双指针

题目链接 题目: 分析: 解法一: 暴力解法, 将所有的三元组都算出来看是否为0, 题目要求去重操作, 所以我们可以使用set去重解法二: 因为我们知道当计算两数之和时, 我们使用的方法是将数组排序,然后利用"双指针"那么同理, 计算三个数之和: 1. 排序2. 固定一个数a, …

语义分割——PartNet大规模三维对象数据集

PartNet:一个大规模、细粒度、实例级和分层注释的三维对象数据集 介绍 随着计算机视觉和三维数据处理技术的飞速发展,对大规模、高质量的三维对象数据集的需求日益增长。在这样的背景下,PartNet应运而生,它是一个具有开创性的三维…

【论文笔记 | 异步联邦】 FedBuff

1. 论文信息 Federated Learning with Buffered Asynchronous Aggregation,International Conference on Artificial Intelligence and Statistics,2022,ccfc 2. introduction 2.1.1. 背景: 同步 FL ,随训练过程中…

深耕“星光电务”党建品牌 引领保障企业高质量发展

在日前闭幕的2024年首届全国企业党务工作者论坛中,中铁十一局集团电务工程有限公司提交的论文《深耕“星光电务”党建品牌 引领保障企业高质量发展》荣获优秀论文奖。该论文由陈柯、刘敏之、徐干、姜亦珂联合撰写,展示了他们在党建工作中的创新实践与显著…

X.509数字证书的签名和指纹

X.509 是一种非常普遍的数字证书标准,由国际电信联盟(ITU)制定。它定义了证书的格式和一种验证证书有效性的方法。X.509 证书的结构遵循特定的语法和编码规则,通常使用 ASN.1 (Abstract Syntax Notation One) 进行描述和编码。 一个典型的X.509证书通常包含:版本、序列号、…

SignalR中的重连机制和心跳监测机制详解

一. 重连机制 声明:   本节仅介绍重连机制和心跳监测机制,基于Core 3.1框架,至于SignalR其它的一些基本使用,包括引入、Hub、配置等常规操作,在本节中不介绍,后续写Core下的SignalR 说明   默认是没有重…

汽车Type-C接口:特点与要求解析

汽车Type-C接口的需求增长 随着汽车科技的不断发展,车载电子设备的功能和数量不断增加,因此,对于汽车Type-C接口的需求也在逐渐增长。作为一种高速、多功能的连接标准,汽车Type-C接口在车载设备连接中扮演着越来越重要的角色。 …

45. 【Android教程】内容提供者 - Content Provider

本节学习最后一个 Android 组件——内容提供者。顾名思义,它可以用来给其他的 App 提供各种内容,比如 Android 自带的短信、联系人、日历等等都是一个普通的 App,当你需要这些内容的时候,就可以向它们的 Content Provider 发起请求…

Siddhi 快速入门-安装Siddhi 编辑器

第一次使用Siddhi 在本节中,我们将使用 Siddhi 工具发行版 — Siddhi 的服务器版本,具有带有 GUI 的复杂的基于 Web 的编辑器(称为“Siddhi 编辑器”),您可以在其中编写 Siddhi 应用程序并模拟事件来测试您的场景。 …

git 冲突与解决冲突

目录 1.使用 git 解决冲突 GIT 常用命令 制造冲突 解决冲突 2.使用 IDEA 解决冲突 产生冲突 解决冲突 1.使用 git 解决冲突 GIT 常用命令 命令作用git clone克隆git init初始化git add 文件名添加到暂存区git commit -m " 日志信息" 文件名提交到本地库git st…

LabVIEW连接PostgreSql

一、安装ODBC 下载对应postgreSQL版本的ODBC 下载网址:http://ftp.postgresql.org/pub/odbc/versions/msi/ 下载好后默认安装就行,这样在ODBC数据源中才能找到。 二、配置系统DSN 实现要新建好要用的数据库,这里的用户名:postg…