OpenCompass 大模型评测实战——作业

OpenCompass 大模型评测实战——作业

news2025/4/27 13:05:31

OpenCompass 大模型评测实战——作业

一、基础作业
- 1.1、使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能
- - 1.1.1、安装基本环境
  - 1.1.2、解压数据集
  - 1.1.3、查看支持的数据集和模型
  - 1.1.4、启动评测
二、进阶作业
- 2.1、将自定义数据集提交至OpenCompass官网

一、基础作业

1.1、使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

1.1.1、安装基本环境

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

# 如果pip install -e .安装未成功,请运行:
pip install -r requirements.txt

在这里插入图片描述

在这里插入图片描述

建议这边直接用 pip install -r requirements.txt 这个命令，pip install -e . 我使用的时候是运行成功了，但后面依然出现了对应包没有的问题。

1.1.2、解压数据集

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

在这里插入图片描述

1.1.3、查看支持的数据集和模型

在这里插入图片描述

这边就出现了 tabulate 和 mmengine 这两个包没有的情况，那就 pip install 装上。

在这里插入图片描述

1.1.4、启动评测

python run.py
--datasets ceval_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace 模型路径
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace tokenizer 路径（如果与模型路径相同，可以省略）
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 1024 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

实在受不了了，运行了几次，每次都缺包，果断 pip install -r requirements.txt。

在这里插入图片描述

再次运行，没有出现缺包的情况，不过也是出现了和教程上说过的问题。

在这里插入图片描述

先按照教程的做法设置 export MKL_SERVICE_FORCE_INTEL=1。

在这里插入图片描述

但运行发现还是报同样的错误，那就换第二种方法 export MKL_THREADING_LAYER=GNU。

在这里插入图片描述

这次运行以后没有再出现 MKL MKL_THREADING_LAYER=INTEL 的问题了，不过出现了新的问题。

在这里插入图片描述

出现这个问题是因为缺少 prtobuf 这个包，再 pip install protobuf，然后再次运行。

在这里插入图片描述

这次终于成功，安心等待结果。

在这里插入图片描述

想截出来完整的图片，所以就直接将包含结果的 csv 文件下载下来。

二、进阶作业

2.1、将自定义数据集提交至OpenCompass官网

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1621288.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

WPS表格，怎样保留每个人的最近日期的那一行数据？

WPS表格，怎样保留每个人的最近日期的那一行数据？

方法很多，这里演示使用排序删除重复项来完成。具体操作如下： 1. 选中数据区域中任意一个单元格，注意要么全选数据区域，要么只选一个单元格 2. 点击数据选项卡，排序，自定义排序， 在弹出对话框…

阅读更多...

Java | Leetcode Java题解之第42题接雨水

Java | Leetcode Java题解之第42题接雨水

题目： 题解： class Solution {public int trap(int[] height) {int n height.length;if (n 0) {return 0;}int[] leftMax new int[n];leftMax[0] height[0];for (int i 1; i < n; i) {leftMax[i] Math.max(leftMax[i - 1], height[i]);}int[] …

阅读更多...

单例设计模式c++

单例设计模式c++

什么是单例模式？ 单例模式指在整个系统生命周期里，保证一个类只能产生一个实例，确保该类的唯一性。单例模式分类单例模式可以分为懒汉式和饿汉式，两者之间的区别在于创建实例的时间不同： 懒汉式：指系…

阅读更多...

德国激荡50年的荆棘之路

德国激荡50年的荆棘之路

财通证券表示，过去50年见证了德国如何走出财政泥沼、以保守的货币政策稳步前行，见证了“专精特新”带来的全球竞争力，也见证了产业转型缓慢导致的增长动能缺失。过去50年，德国经济经历了一段跌宕起伏的发展史，这辆曾…

阅读更多...

2024五一萌趣嘉年华主题展活动策划案

2024五一萌趣嘉年华主题展活动策划案

2024五一国宝大作战萌趣嘉年华熊猫滚滚来野主题展活动策划案-53P 活动策划信息： 方案页码：53页文件格式：PPT 方案简介： 活动思路： 五一马上就要到了~再加上全民关注的对象--大熊猫！！ 这…

阅读更多...

SpringCloud系列（14）--Eureka服务发现(Discovery)

SpringCloud系列（14）--Eureka服务发现(Discovery)

前言：在上一章节中我们说明了一些关于服务信息的配置，在本章节则介绍一些关于Discovery的知识点及其使用 1、Discovery是什么，有什么用 Discovery（服务发现）是eureka的功能和特性，有时候微服务可能需要对外…

阅读更多...

【MATLAB源码-第31期】基于matlab的光通信中不同调制方式的误码率对比。

操作环境： MATLAB 2022a 1、算法描述 1. 光通信： 光通信是一种利用光波传输信息的技术。它使用光信号作为信息的载体，通过调制光波的特性来传输数据，通常利用光纤作为传输介质。光通信具有高带宽、低延迟和大容量等优点&#…

阅读更多...

PE结构（二）PE头字段说明

PE结构（二）PE头字段说明

PE头字段 DOS头 PE标记标准PE头可选PE头我们今天分析一下PE头字段中所有重要成员的含义 DOS头 DOS头中我们需要去分析的是如下两个成员： 1.WORD e_magic：MZ标记，用于判断是否为可执行文件，即如果显示4D 5A，…

阅读更多...

Centos7 安装zabbix agent2并测试与zabbix server的连通性

Centos7 安装zabbix agent2并测试与zabbix server的连通性

目录 1、实验环境 2、yum在线安装 2.1 查看agent2 rpm包，找到合适的rpm包 2.2 rpm安装 2.3 配置zabbix_agent2.conf 2.4启动agent2服务并将其加入到开机启动项中 3、配置防火墙放行10050端口，允许10050/tcp端口的入站流量。 4、在zabbix-server机…

阅读更多...

云南旅游攻略

云南旅游攻略

丽江景点 Day1 ——丽江古城丽江古城是一个充满文化和历史的地方，拥有丰富的景点和活动。推荐游玩： 参观标志性建筑：大水车是丽江古城的标志性建筑，可以在这里拍照留念。探索中心广场：四方街是古城的中心&#xf…

阅读更多...

从未如此清晰：了解SVG格式的终极解读！

从未如此清晰：了解SVG格式的终极解读！

图像质量对页面非常重要——扭曲和缩放变形的标志、图标或照片会使页面看起来粗糙和不协调，这个问题只会因为响应设计而复杂。访问者通过桌面机和智能手机查看应用程序，因此无论使用什么设备，图像都应该进行优化。如果有一个数字格式可以让图…

阅读更多...

共享单车数据分析与需求预测项目

共享单车数据分析与需求预测项目

注意：本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 （[www.aideeplearning.cn]） 项目背景自动自行车共享系统是传统自行车租赁的新一代，整个会员、租赁和归还过程都变得自动化。通过这些系统，用户可以…

阅读更多...

SpringCloud系列（13）--Eureka服务名称修改和服务IP显示

SpringCloud系列（13）--Eureka服务名称修改和服务IP显示

前言：在上一章节中我们把服务提供者做成了集群，而本章节则是一些关于服务信息的配置，这部分知识对集群整体影响不大，不过最好还是掌握，毕竟万一有用到的地方呢 1、修改服务的名称有时候我们想要修改服务的名称&#…

阅读更多...

Linux网络-DHCP原理与配置

Linux网络-DHCP原理与配置

目录一.DHCP工作原理 1.了解DHCP服务 1.1.使用DHCP的好处 1.2.DHCP的分配方式 2.DHCP的租约过程 2.1.DHCP工作原理 2.2.DHCP交互过程二.DHCP服务器的配置 1.关闭防火墙 2.检查并且安装DHCP有关软件包 3.查看系统的配置文件 3.1.设置参数 4.修改网络 4.1.修改虚…

阅读更多...

MATLAB命令

MATLAB命令

MATLAB是一个用于数值计算和数据可视化的交互式程序。您可以通过在命令窗口的MATLAB提示符 ‘>>’ 处键入命令来输入命令。在本节中，我们将提供常用的通用MATLAB命令列表。用于管理会话的命令 MATLAB提供了用于管理会话的各种命令。下表提供了所有此类命令…

阅读更多...

Golang基础3-函数、nil相关

Golang基础3-函数、nil相关

函数需要声明原型支持不定参数 func sum(numbers ...int)int支持返回多值支持递归支持命名返回参数 // 命名返回参数 func add(a, b int) (sum int) {sum a breturn // 这里不需要显式地写出返回值，因为已经在函数签名中声明了命名返回参数 } 支持匿名函数、闭包…

阅读更多...

redis基于Stream类型实现消息队列，命令操作，术语概念，个人总结等

redis基于Stream类型实现消息队列，命令操作，术语概念，个人总结等

个人大白话总结 1 在Redis Stream中，即使消息被消费者确认（acknowledged, ACK），消息也不会自动从Stream数据结构中删除。这与Kafka或RabbitMQ等传统消息队列系统的做法不同，在那些系统中，一旦消息被消费并…

阅读更多...

Linux 服务器硬件及RAID配置实战

Linux 服务器硬件及RAID配置实战

服务器详解服务器分类可以分为：塔式服务器、机架服务器、刀片服务器、机柜服务器等。其中以机架式居多服务器架构服务器品牌： 戴尔、AMD、英特尔、惠普、华为、华3（H3C）、联想、浪潮、长城服务器规格： 规格…

阅读更多...

贵州大学计算机840初试

贵州大学计算机840初试

本人是24考研的一名考生，现在已经上岸啦。有想考贵州大学计算机的同学需要资料可以找我喔～ #希望大家都可以如愿以偿😎😎

阅读更多...

Java web应用性能分析之客户端慢

Java web应用性能分析之客户端慢

客户端慢的原因包括： 终端设备老化（手机、PAD、电脑年限久远、运行期间产生了很多垃圾未清除）终端网络设备老化（路由器、交换机老化）跟我们使用的手机一样，路由器也需要及时更新换代，否则硬件跟…

阅读更多...

推荐文章

最新文章