百度文心一言在国产模型中倒数？我看懵了

news2026/2/11 16:02:30

最近几天，我们公众号的社群在纷纷转发一张名为SuperClue 评测的截图。科大讯飞甚至在官号进行了宣传：

由于讯飞星火大模型刚发布，笔者玩的少，它是不是真的是国产最强这个笔者不敢下结论。

各个大模型的研究测试传送门

阿里通义千问传送门：
https://tongyi.aliyun.com

百度文心一言传送门：
https://yiyan.baidu.com

ChatGPT传送门（免墙，可直接测试）：
https://yeschat.cn

GPT-4传送门（免墙，可直接测试，遇到浏览器警告点高级/继续访问即可）：
https://gpt4test.com

但在该评测截图中，当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符，而且在我们的专业NLP技术社群中，大家也纷纷表示一脸懵逼：

好奇之下，笔者去这个superclue榜单的github，想看看这个测评结论是怎么得出来的：

https://github.com/CLUEbenchmark/SuperCLUE

首先笔者注意到这个repo下面已经有一些issue了：

看起来这个离谱的感觉不仅仅是笔者有，果然群众的眼睛还是雪亮的。。。

笔者进一步看了一下这个榜单的评测方式：

好家伙，原来所谓的生成式大模型的测试，竟然全都是让模型做选择题。。。

很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的，那时候的AI模型普遍不具备生成能力，仅仅有判别能力（比如能判别一段文本属于什么类别，选项中哪个是问题的正确答案，判断两段文本的语义是否一致等）。

而生成式模型的评测与判别式模型的评测有相当于大的差异。

例如，对于机器翻译这种特殊的生成任务而言，一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数，绝大多数的生成类评测都要采用人工评测的方式。

例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务，都需要各个待评测模型去自由生成回复，然后人工去对比这些不同模型生成的回复的质量，或人工判断是否满足了任务需求。

当前这一轮的AI竞争，是模型生成能力的竞争，而不是模型判别能力的竞争。最有评价权的是真实的用户口碑，不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。

回想起来前些年——

2019年，OpenAI发布了GPT-2的时候，我们在堆tricks刷榜；2020年，OpenAI发布了GPT-3的时候，我们在堆tricks刷榜；2021-2022年，FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候，我们还有不少团队在坚持堆tricks刷榜…

希望这一波生成式模型的军备竞赛，我们不要再重蹈覆辙。

那么生成式AI模型到底应该怎么测？

很抱歉，我前面说过，如果想做到无偏测试，非常非常的难，甚至比你自研一个生成式模型出来难得多。难度有哪些？具体抛几个问题：