CompHub[1] 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!
以下信息由AI辅助创作,仅供参考
比赛名称
大语言模型评估[2] (见文末阅读原文)
大赛背景
本次竞赛希望参赛者能够从自身对LLM的理解出发,设计独特新颖的评估体系,对大语言模型的底层能力(如记忆、推理、常识理解等)或专项能力(如文本创作、知识问答、代码生成等)进行系统性、可量化的评估,深入考察模型的能力的同时提升业界对于LLM的理解。
奖项设置
-
一等奖 1名 10000元+荣誉证书
-
二等奖 5名 5000元+荣誉证书
-
三等奖 10名 3000元 + 荣誉证书
-
优胜奖 不限 文心一言定制纪念品
大赛赛程
-
2023/05/17 报名启动,开放方案概述提交链接,开放完整评估方案提交入口
-
2023/06中旬 赛题解读线上直播
-
2023/07/21 报名截止,初赛提交截止
-
2023/07/28 初赛结果公布,开放复赛提交结果入口
-
2023/08/18 北京时间23:59 复赛提交截止
-
2023/08/30 竞赛最终结果公布
-
2023/11 在“语言与智能高峰论坛”上交流和颁奖
竞赛任务
构建大语言模型的评估体系和评估用例集
选手需要基于自己对大模型的理解构建评估体系和评估用例集,其中,评估体系可以从通用人工智能的底层能力(如记忆、逻辑推理、常识理解等)、专项能力(如文本创作、知识问答、代码生成等)出发,选择任意维度或任务进行评估,要求评估体系是系统性、可量化的。评估用例集需要包含评估问题、回复以及评估结果等信息。
初赛期间,选手需撰写评估方案、构建部分评估用例,初赛截止前提交评估方案与部分评估用例,主办方将对方案打分,并为进入复赛的选手提供参赛方案的进一步优化意见。复赛期间,选手根据主办方的反馈意见继续优化评估方案、扩展评估用例集,在复赛截止日期之前再次提交评估方案和完整评估用例集,最终根据复赛分数排名得出获奖团队。
参考资料
[1]
CompHub主页: https://comphub.notion.site/CompHub-c353e310c8f84846ace87a13221637e8
[2]
大语言模型评估: https://aistudio.baidu.com/aistudio/competition/detail/974/0/introduction