豆包模型最新数据评测！性能究竟如何？

news2025/4/15 20:35:52

豆包模型最新数据评测！性能究竟如何？

前言

就在5月27日，字节跳动旗下的豆包大模型在火山引擎原动力大会上正式发布，本次大会中豆包的模型能力也引发行业关注。

介绍豆包

豆包是一个多功能 AI 助手，为你的生活、学习、工作提供帮助。它不仅可以为你搜索信息，答疑解惑，分析总结，提供灵感，辅助创作，还有着渊博的知识，专业可靠，同时也善解人意，需要的时候能够深入浅出。

豆包有着简单清爽的界面设计，无需学习，让你一打开就可以使用。语音输入功能让你可以轻松输入，而且识别准确，还支持不同的方言，让沟通更简单、更高效。

数据展示

火山引擎的豆包模型团队在一份产品资料中披露了他们最近一期的内部测试成果。在包括MMLU、BBH、GSM8K和HumanEval在内的11个业界公认的基准测试集中，Doubao-pro-4k模型的总体得分达到了76.8分。这一成绩不仅比前一代模型云雀Skylark2的64.5分提高了19%，而且在同期测试的所有国产模型中也是表现最佳的。

在火山引擎的最新产品资料中，豆包模型团队展示了他们在不同领域取得的显著进步。在专注于评估代码能力的HumanEval和MBPP两个测试集上，豆包模型相较于上一代模型云雀Skylark2，性能提升了大约50%。此外，在涉及专业知识和指令遵循的测试集上，豆包模型分别实现了33%和24%的性能提升，并且在这些领域中，豆包模型的得分是所有国产模型中最高的。

豆包模型在数学和语言理解能力方面也有出色的表现，在综合评测集CMMLU和CEval的测试中，豆包模型的得分位于前三名。综合考虑11个公开评测集的测试结果，豆包通用模型-pro的总得分为76.8分。与此同时，OpenAI公布的GPT-4模型在这些评测集上的总得分为80.1分，显示出尽管国产模型取得了显著进步，但与国际领先模型相比，仍存在一定的差距。