【AI】DeepSeek知识类任务和推理能力均表现优秀

news2026/2/13 8:33:09

在这里插入图片描述
2024 年 12 月 26 日，杭州深度求索（DeepSeek AI）发布 DeepSeek-V3 并同步开源，据介绍，DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

具体而言，DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Anthropic 公司于 2024 年 10 月发布的Claude-3.5-Sonnet-1022；在长文本评测（DROP、FRAMES 和 LongBench v2 ）方面，V3 平均表现也超越其他模型。在算法类代码场景（Codeforces），V3 远远领先于市面上已有的全部非o1 类模型，并在工程类代码场景（SWE-Bench Verified）逼近 Claude-3.5-Sonnet-1022。而在美国数学竞赛（AIME 2024, MATH）和全国高中数学联赛（CNMO 2024）上，DeepSeek-V3 大幅超过了其他所有开源闭源模型。

另外， DeepSeek-V3 通过算法和工程上的创新，将生成吐字速度从 20TPS（Transactions Per Second 每秒完成的事务数量）大幅提高至 60TPS，相比 V2.5 模型实现了 3 倍的提升，可以带来更加流畅的使用体验。同时，模型 API 服务定价也将调整为每百万输入 tokens 0.5 元（缓存命中）/ 2 元（缓存未命中），每百万输出 tokens 8 元，因此，V3 模型在性能实现领先的同时，定价大幅低于市面上所有模型，性价比优势明显。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2295825.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！