真·人工智障!“弱智贴吧”竟被用来训练大模型

news2026/2/15 10:59:11

离了个大谱，弱智吧登上正经AI论文，还成了最好的中文训练数据？中国科学院、北京大学、中国科学技术大学、滑铁卢大学以及01.ai等十家知名机构联合推出了一款专注于中文的高质量指令调优数据集——COIG-CQIA。

在大型语言模型的研究领域，英文数据长期以来一直是训练这些模型的主要资源。然而，由于中英文在语法结构、文化背景以及表达习惯上的显著差异，简单地将英文数据集翻译成中文并不能取得理想的效果。为了解决高质量中文数据集匮乏的问题，研究者们开发了COIG-CQIA数据集。

COIG-CQIA数据集广泛搜集了中文互联网上的内容，包括论坛、网站、百度贴吧、以及其他问答社区等，确保了数据的丰富性和多样性。研究人员利用这个数据集对Yi-6B和Yi-34B这两个中文大型语言模型进行了指令调优，随后在BELLE-EVAL这一评估平台上测试了这些模型的性能。

令人惊讶的是，在对比不同来源的数据质量时，原本被认为内容质量较低的“弱智贴吧”在数据质量上竟然显著超越了知乎、豆瓣、是否等知名知识社区。这一发现颠覆了人们对不同平台内容质量的传统认知，也提醒我们，有时候所谓的“低端”或“俗气”的内容也可能蕴含着未被充分挖掘的价值。

弱智吧

一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：

弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI，这下贴吧中中网友炸开了锅，更有之怀疑自我：

数据质量

下面我们具体来看看弱智吧的数据如何能够立足于ai界，看看这300万的“病友”如何交流

内裤翻过来穿，是不是代表世界都在内裤之中
智商很弱叫弱智，那智商很牛是不是叫牛智呢？
明明是我们走向死亡的道路，却被叫做人生
一个半小时，是不是三个半小时？
梦里什么都有，穷人为什么不把现实当做梦来活？
如果猪肾虚，那它的腰子还补吗？

当初网友为了调戏大模型专门搜集的弱智吧问题测试集，没想到有一天也能摇身一变，成了训练集。

COIG-CQIA数据集介绍

在通识百科方面，研究人员从中文互联网上广泛收集了涵盖自然科学、人文社科等多个领域的概念解释和指导性文章。这些数据源包括了知名的中文百科网站，如百度百科和维基百科等。通过解析HTML并设计多种提示模板，研究人员将原始数据转化为高质量的指令-输出对。这样的处理方式使得数据更加贴合真实场景，有助于提高人工智能系统的理解和应用能力。

在社交媒体和论坛数据方面，研究人员从知乎、小红书、豆瓣、是否等热门中文社区精心挑选了高质量的问答和长文本内容。针对这些社区的特点，研究人员分别采取了筛选高赞回答、评分过滤、人工审核等方式，以确保所保留的数据具有高质量且符合真实场景。

此外，研究人员还从其他种类的数据源中收集了STEM（科学、技术、工程和数学）领域的数据，以及人文领域的数据。这些数据源包括问答社区、内容创作平台、考试题库等。通过综合多个领域的数据，研究人员能够为人工智能系统提供更全面的知识背景和应用场景。