2024 年 12 月 26 日,杭州深度求索(DeepSeek AI)发布 DeepSeek-V3 并同步开源,据介绍,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
具体而言,DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Anthropic 公司于 2024 年 10 月发布的Claude-3.5-Sonnet-1022;在长文本评测(DROP、FRAMES 和 LongBench v2 )方面,V3 平均表现也超越其他模型。在算法类代码场景(Codeforces),V3 远远领先于市面上已有的全部非o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。而在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。
另外, DeepSeek-V3 通过算法和工程上的创新,将生成吐字速度从 20TPS(Transactions Per Second 每秒完成的事务数量)大幅提高至 60TPS,相比 V2.5 模型实现了 3 倍的提升,可以带来更加流畅的使用体验。同时,模型 API 服务定价也将调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元,因此,V3 模型在性能实现领先的同时,定价大幅低于市面上所有模型,性价比优势明显。