原文:深度求索 DeepSeek
月初,我们发布并开源了 DeepSeek-V2.5,一个融合通用与代码能力的全新模型。
近日,LMSYS 组织的全球大模型竞技场(ChatBotArena)更新结果发布,DeepSeek-V2.5 排名位列国内大模型第一,开源超越国内最强闭源模型(Yi-Large-Preview, Qwen-Plus-0828, GLM-4-0520),并在8个单项能力上均领跑国内模型。
Model绿柱为国内模型,蓝柱为海外模型
八项能力领跑国产模型
在 Arena 的分项排名中,DeepSeek-V2.5 在诸多分项上创了国内模型的历史最好成绩
- 难问题(Hard Prompt)世界第二(国内模型历史最好成绩)
- 代码(Code)世界第二(国内模型历史最好成绩)
- 数学(Math)世界第三(国内模型历史最好成绩)
并且,DeepSeek-V2.5 模型能力均衡,在 ChatBotArena 的各个维度都获得了不错的排名,均为国内第一。
V2.5 相比 V2 能力全面提升
相比合并前的两个模型(DeepSeek-V2-0628 和 DeepSeek-Coder-V2-0724),V2.5 在总排名和所有分项排名上均提升,下表展示了模型合并后在ChatBotArena 榜单各项能力的排名:
最懂中文的中国模型
业内一直有一句名言“国内模型更懂中文”,但从 ChatBotArena 最近一个月的中文分项来看,国外模型牢牢占据了中文榜前三。在9月15日中文分项更新之后,DeepSeek-V2.5 位列世界第二,中国第一,Qwen-plus-0828 紧随其后,重新让中文榜单的前三中有了中国模型的名字。
DeepSeek-V2.5 模型已开源至 Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-V2.5