【书生·浦语】大模型实战营——第六课笔记

【书生·浦语】大模型实战营——第六课笔记

news2026/2/13 11:50:16

视频链接：https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档：https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库：https://github.com/open-compass/opencompass

关于评测的三个问题

在这里插入图片描述
1、为什么需要评测？

2、需要测什么？
在这里插入图片描述

3、怎么测？
在这里插入图片描述
客观评测

有很多东西是客观评测评测不了的，因此只能使用主观评测的方式。

提示词工程

在这里插入图片描述
如果只是换了一个prompt，模型就回答错了。说明模型对prompt非常敏感，鲁棒性还不够好。

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系

OpenCompass开源评测平台架构

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述
进行了推理优化，对评测任务进行了切分。

目前还在探索多模态能力的评测
在这里插入图片描述

同时也在探索垂直领域的评测
法律领域
在这里插入图片描述
医疗领域

大模型评测领域的挑战

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1406248.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

（学习日记）2024.01.23：结构体、位操作和枚举类型

（学习日记）2024.01.23：结构体、位操作和枚举类型

写在前面： 由于时间的不足与学习的碎片化，写博客变得有些奢侈。但是对于记录学习（忘了以后能快速复习）的渴望一天天变得强烈。既然如此不如以天为单位，以时间为顺序，仅仅将博客当做一个知识学习的目录&a…

阅读更多...

【JavaEE Spring】MyBatis 操作数据库 - 进阶

【JavaEE Spring】MyBatis 操作数据库 - 进阶

MyBatis 操作数据库 - 进阶 1. 动态SQL1.1 \<if>标签1.2 \<trim>标签1.3 \<where>标签1.4 \<set>标签1.5 \<foreach>标签1.6 \<include>标签 1. 动态SQL 动态 SQL 是Mybatis的强⼤特性之⼀，能够完成不同条件下不同的 sql 拼接…

阅读更多...

[完美解决]Vue/React项目运行时出现this[kHandle] = new _Hash(algorithm, xofLen)

[完美解决]Vue/React项目运行时出现this[kHandle] = new _Hash(algorithm, xofLen)

问题出现的原因出现这个问题是node.js 的版本问题，因为 node.js V17开始版本中发布的是OpenSSL3.0, 而OpenSSL3.0对允许算法和密钥大小增加了严格的限制，可能会对生态系统造成一些影响。故此以前的项目在使用 nodejs V17以上版本后会报错。而github项目…

阅读更多...

【6】密评中对服务端采用“挑战-响应”机制进行身份鉴别的验证

【6】密评中对服务端采用“挑战-响应”机制进行身份鉴别的验证

对服务端采用“挑战-响应”机制进行身份鉴别的验证 1、提取出服务端的签名值签名值（hex）： 3045022100e4795b5a947526f8e7cbd0edd571ea8749e0efd24323799346ea2c740c006c5a0220026189e51c19d20d40a82606d0ed72cb9530a189bbb94c09e4559d7d8f…

阅读更多...

[C++]使用yolov8的onnx模型仅用opencv和bytetrack实现目标追踪

[C++]使用yolov8的onnx模型仅用opencv和bytetrack实现目标追踪

【官方框架地址】 yolov8: https://github.com/ultralytics/ultralytics bytetrack: https://github.com/ifzhang/ByteTrack 【算法介绍】随着人工智能技术的不断发展，目标追踪已成为计算机视觉领域的重要研究方向。Yolov8和ByTetrack作为当前先进的算法&…

阅读更多...

【GitHub项目推荐--Git 教程】【转载】

【GitHub项目推荐--Git 教程】【转载】

本开源项目是 Will 保哥在 2013 第 6 界 IT 邦帮忙铁人赛年度大奖的得奖著作。这是一个 Git 教程，这个开源教程用 30 天的时间，带领大家详细了解使用 Git 。重点介绍了 Git 的一些常用操作，以及日常工作中实际应用场景讲解，下图…

阅读更多...

java 开源中文的繁简体转换工具 opencc4j

java 开源中文的繁简体转换工具 opencc4j

Opencc4j Opencc4j 支持中文繁简体转换，考虑到词组级别。 Features 特点严格区分「一简对多繁」和「一简对多异」。完全兼容异体字，可以实现动态替换。严格审校一简对多繁词条，原则为「能分则不合」。词库和函数库完全分离&#xff…

阅读更多...

设计模式: 装饰模式

设计模式: 装饰模式

文章目录一、什么是装饰模式二、装饰模式的结构三、使用场景案例分析一、什么是装饰模式在不改变对象原有行为的基础上，动态的来为该对象绑定新的行为。二、装饰模式的结构装饰模式结构中主要包含如下角色： Component（抽象部件&…

阅读更多...

一带一路暨金砖国家技能发展国际联盟大数据和人工智能专业委员会名单

一带一路暨金砖国家技能发展国际联盟大数据和人工智能专业委员会名单

四川城市职业学院和陈老师在序号：158，300 一带一路暨金砖国家技能发展国际联盟大数据和人工智能专业委员会名单各相关单位： 一带一路暨金砖国家技能发展国际联盟大数据和人工智能专业委员会于2023年11月12日正式成立。经各单位申请、大数据…

阅读更多...

浪花 - 添加队伍业务开发

浪花 - 添加队伍业务开发

一、接口设计 1. 请求参数：封装添加队伍参数 TeamAddRequest package com.example.usercenter.model.request;import com.baomidou.mybatisplus.annotation.IdType; import com.baomidou.mybatisplus.annotation.TableField; import com.baomidou.mybatisplus.ann…

阅读更多...

06章【Eclipse与异常处理】

06章【Eclipse与异常处理】

Eclipse开发环境使用入门 Eclipse开发环境使用入门下载安装配置环境Eclipse入门异常处理异常异常是阻止当前方法或作用域继续执行的问题，在程序中导致程序中断运行的一些指令 try与catch关键字在程序中出现异常，就必须进行处理，处理格…

阅读更多...

2024.1.23 GNSS 零散知识学习笔记

2024.1.23 GNSS 零散知识学习笔记

1.天线种类 2.接收机 2.四大导航系统的介绍 3.卫星高度与轨道卫星种类 4.GNSS有哪些应用 5.在空间保持静⽌或匀速直线运动(⽆加速度)的坐标系称为惯性坐标系。 6.地⼼惯性坐标系实际上并没有满⾜能成为惯性坐标系的条件： ⾸先，地球及其质⼼都在围绕太阳…

阅读更多...

Python基础第八篇（Python异常处理，模块与包）

Python基础第八篇（Python异常处理，模块与包）

文章目录一、了解异常二、捕获异常（1）.异常案例代码（2）.读出结果三、异常的传递（1）.异常传递案例代码（2）.读出结果四、Python模块（1）.模块的导入&#xff…

阅读更多...

face_recognition和图像处理中left、top、right、bottom解释

face_recognition和图像处理中left、top、right、bottom解释

face_recognition.face_locations 介绍加载图像文件后直接调用face_recognition.face_locations(image)，能定位所有图像中识别出的人脸位置信息，返回值是列表形式，列表中每一行是一张人脸的位置信息，包括[top, right, bottom, l…

阅读更多...

【vueCms】vuecms_xg安装与使用视频讲解【视频讲解】

【vueCms】vuecms_xg安装与使用视频讲解【视频讲解】

克隆项目 gitee项目地址:https://gitee.com/derekgo/vue-cms_xg git clone gitgitee.com:derekgo/vue-cms_xg.git开启自动化脚本点击后，运行http://localhost:3002 本地配置开启本地redis 开启redis redis-server.exe redis.windows.conf重启redis 注意:…

阅读更多...

微信小程序实现长按识别图片二维码

微信小程序实现长按识别图片二维码

第一种方案（只需要在image里面加一个属性就可以了） show-menu-by-longpress“{{true}}” <image show-menu-by-longpress"{{true}}" src"{{sysset.dyqewm}}" />第二种方案放大预览图片，长按识别二维码 wxml <…

阅读更多...

Redis——RDB持久化

Redis——RDB持久化

前言 Redis是一个键值对数据库服务器，服务器中通常包含任意个非空数据库，而每个非空数据库中又可以包含任意个键值对，为了方便起见，我们将服务器中的非空数据库以及它们的键值对统称为数据库状态。因为Redis数据库是内存数据库&a…

阅读更多...

Leetcode刷题（二十八）

Leetcode刷题（二十八）

找出字符串中第一个匹配项的下标（Easy） 给你两个字符串 haystack 和 needle ，请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标（下标从 0 开始）。如果 needle 不是 haystack 的一部分，则返…

阅读更多...

Java实现考研专业课程管理系统 JAVA+Vue+SpringBoot+MySQL

Java实现考研专业课程管理系统 JAVA+Vue+SpringBoot+MySQL

目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块2.1 数据中心模块2.2 考研高校模块2.3 高校教师管理模块2.4 考研专业模块2.5 考研政策模块三、系统设计3.1 用例设计3.2 数据库设计3.2.1 考研高校表3.2.2 高校教师表3.2.3 考研专业表3.2.4 考研政策表四、系统展示五、核…

阅读更多...

HiP框架：多AI模型联手，助力机器人驾驭复杂规划大局

HiP框架：多AI模型联手，助力机器人驾驭复杂规划大局

原创 | 文 BFT机器人你的日常待办清单或许只是些稀松平常的小事：清洗堆积如山的碗盘、采购琳琅满目的食品杂货等。在执行这些任务时，你无需逐一写下“捧起那只满是油污的盘子”或“用湿润的海绵仔细擦洗这个盘子”这样的琐碎步骤，因为在你的…

阅读更多...

推荐文章

最新文章