1. 前言
榜单链接:CompassRank
CompassRank 是一个中立且全面的性能榜单,作为大模型评测体系 OpenCompass2.0 中各类榜单的承载平台。它覆盖多领域、多任务下的模型性能,并定期更新,以提供动态的行业洞察。
CompassRank 保持中立性,不受任何商业利益干扰,并依托于 CompassKit 工具链体系中的各类评测手段,确保了其客观性。这个平台旨在帮助从业者理解技术深意,优化模型选择,并对大模型的技术创新提供坚实的技术支撑
编辑
2. 整体指标
- Method: 这列通常表示模型的名称和训练方法,包括模型架构、训练策略和可能的微调技术。
- Time: 在这个上下文中,时间可能指的是模型训练或推理的时间,但具体信息需要查看详细页面以获取准确数据。
- Params: 模型的参数数量,以百万(M)或十亿(B)为单位,表示模型的复杂度。
- Language Model: 语言大模型,如InternLM2、QwenLM等
- Vision Model: 视觉大模型如CLIP ViT-L/14、EVA-02-5B等
- Avg. Rank: 模型在所有列出的测试集上的平均排名,数值越小表示整体性能越好。
- Avg. Score: 模型在所有测试集上的平均得分,高分表示模型性能更优。
3. MMBench
- MMBench Test: MMBench测试集,一个多模态基准,用