主要概览
司南 OpenCompass 大语言模型官方自建榜单(9 月榜)评测拟定于 10 月上旬发布,现诚挚邀请新加入的合作方参与评测。本次评测围绕强化能力维度,全面覆盖语言、推理、知识、代码、数学、指令跟随、智能体等七大关键领域,进一步细化评测颗粒度,确保模型能力的精准衡量,并提供客观、全面的评测结果,为评估当前技术水平、牵引产品研发、支撑行业应用提供抓手。诚挚欢迎新加入的模型厂商、组织机构申请参与评测,共同推动大模型技术的发展与创新。
评测维度
司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度,这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。
评测模型类型
开源模型
开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 公开模型权重仓库链接
已提供商业化服务,可访问的 API 模型
-
API 模型参与评测,提供 API 网址链接,并写明模型版本
-
若为 API 模型,请务必提前向 OpenCompass 提交 PullRequest,加入贵司 API 的实现,可以参考类似实现 https://github.com/open-compass/opencompass/tree/main/configs/api_examples
申请方法
新加入的模型厂商、组织机构可在 9 月 25 日 前写邮件至 opencompass@pjlab.org.cn 申请评测。请在邮件内附上下述信息,以便我们尽快与您对接。邮件内容需包括:
申请单位信息
模型简介
联系人和所属部门
联系方式
模型类型
该模型类型对应需要提供的信息
(详见:评测模型类型)
*已经提供对外服务且参与过司南评测的模型,司南后续更新榜单时默认对最新版本模型进行评测。
注意事项
-
大语言模型官方自建榜评测榜单将于 2024 年 10 月上旬发布 2024 年 9 月榜单
-
新模型厂商若想参与该月榜单评测,可在当月25日前申请加入司南 OpenCompass 月度评测榜单
-
加入司南 OpenCompass 评测的结果默认公开;已经提供对外服务且参与过评测的模型,后续更新榜单时默认进行评测
-
仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测)
联系我们
更多信息可参考:
司南 OpenCompass 榜单建设及发布规则(https://opencompass.org.cn/rule)
申请本次评测参与或有任何疑问,请联系:opencompass@pjlab.org.cn
OpenCompass 司南评测体系主要包括以下三大模块,欢迎大家使用。
1. 评测工具链体系 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。
开源地址:
https://github.com/open-compass
2. 高质量评测基准社区 CompassHub,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。
社区地址:
https://hub.opencompass.org.cn/home
3. 权威评测榜单 CompassRank,作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。
榜单地址:
https://rank.opencompass.org.cn/home