高质量数据不够用，合成数据是打开 AGI 大门的金钥匙吗？

编者按： 人工智能技术的发展离不开高质量数据的支持。然而，现有可用的高质量数据资源已日渐接近枯竭边缘。如何解决训练数据短缺的问题，是当前人工智能领域亟待解决的一个较为棘手的问题。

本期文章探讨了一种经实践可行的解决方案 —— 合成数据（Synthetic Data）。如 AlphaZero、Sora 等已初步证实了合成数据具备的巨大潜力。对于语言模型来说，虽然要生成高质量的合成文本存在一定难度，但通过优化现有数据、从多模态数据中学习等策略，或许能够大幅降低对新数据的需求量。

如果合成数据真的能解决训练数据匮乏的难题，其影响必将是极其深远的。文章进一步分析了可能产生的影响：如互联网行业可能会被重塑、反垄断审查可能进一步加强、公共数据资源会获得更多投资等。不过现在做出这些预测或许还为时尚早，我们需要保持冷静，耐心观察合成数据这一技术在未来会取得何种突破性进展。

本文直指人工智能发展面临的一大瓶颈 —— “高质量数据的日益枯竭”，并提出了一种有争议但值得探索的解决方案，极具启发意义。我们后续会持续关注这一技术领域的最新进展，敬请期待！

作者 | Nabeel S. Qureshi

编译 | 岳扬

在这里插入图片描述

大语言模型是在海量数据上完成训练的，数据集规模堪比众多图书馆的藏书总和。然而，如果有一天我们用尽了所有可用的数据，该怎么办呢？图片来源：Twitter[1]

01 数据不够用？

现代大语言模型（LLMs）的一个关键事实可概括总结为：数据为王。人工智能模型的行为很大程度上取决于其训练所用的数据集；其他细节（诸如模型架构等），只是为数据集提供计算能力的一种手段。拥有一份干净的、高品质的数据集，其价值不可估量。[1]

数据的重要地位在人工智能行业的商业实践（AI business practice）中可见一斑。OpenAI 近期宣布与 Axel Springer、Elsevier、美联社及其它内容出版商和媒体巨头达成数据合作；《纽约时报》（NYT）最近起诉 OpenAI，要求停用利用 NYT 数据训练的 GPT 模型。与此同时，苹果公司正以超过五千万美元的价格，寻求与内容出版商（publishers）的数据合作。在当前的边际效益（译者注：边际效益（Marginal Benefit）是一个经济学概念，指的是在增加一单位的某种投入（如生产中的劳动力、原材料或者服务中的员工时间）时，所获得的额外收益或价值的增加。）下，模型从更多数据中获取的利益远超单纯扩大模型规模带来的收益。

训练语料库（training corpora）的扩容速度令人咋舌。世界上首个现代 LLM 是在维基百科这一知识宝库上训练完成的。GPT-3 在 3000 亿个 tokens（包括单词、词根或标点等）上进行训练，而 GPT-4 的训练数据量更是达到了惊人的13万亿个 tokens 。自动驾驶汽车是在数千小时的视频录像资料中学习、掌握驾驶技巧的；在编程辅助方面，OpenAI 的 Copilot，依托的是来自 Github 上数百万行人类编写的代码。

这种情况会一直持续下去吗？2022 年发表在 arXiv[2] 上的一项研究表明：我们正逼近耗尽高质量数据的边缘，这一转折点预计会在2023年至2027年间到来。 （这里所谓的“高质量数据”，涵盖了维基百科（Wikipedia）、新闻（news）、代码（code）、科学文献（scientific papers）、书籍（books）、社交媒体对话内容（social media conversations）、精选网页（filtered web pages）以及用户原创内容（如 Reddit 上的内容）。）

研究估计，这些高质量数据的存量约为 9e12 个单词，并且每年以 4 %到 5 %的速度增长。 9e12 具体有多大？举个例子，莎士比亚全集的字数约为 90 万（即9e5），相比之下，9e12 这个数量足足是莎翁作品字数总和的 1000 万倍之巨。

据粗略估计，要达到真正意义上的人类级人工智能（human-level AI），所需数据量可能是当前数据量的 5 到 6 个数量级之上，换言之，至少需要 10 万至 100 万倍的数据量扩充。

回顾一下，GPT-4 使用了 13 万亿个 tokens 。不过还有很多尚未充分开采的领域里潜藏着丰富的数据等待挖掘，比如音频与视频资料、非英语数据资料、电子邮件、短信、推特动态、未数字化的书籍，以及企业私有数据。通过这些渠道，我们或许能再获得比目前有用数据多 10 倍甚至 100 倍的数据，然而，要再获得多 10 万倍的数据却如同天方夜谭。

一句话，我们手中的数据还远远不够。

除此之外，还有一系列现有的不利因素可能让获取优质数据变得更加棘手：

那些依赖用户来生成内容（User-generated content, UGC）的网站，比如Reddit、Stack Overflow、Twitter/X等，纷纷关上了免费获取数据大门，对数据使用权开出了天价的的许可费。
作家、艺术家，甚至像《纽约时报》这样的媒体巨头，都在维权路上高歌猛进，抗议其作品未经许可就被大语言模型拿去“学习”。
有人担忧，互联网正逐渐被大语言模型生成的低质内容所淹没，这不仅可能引发模型的“drift”（译者注：在模型持续学习或微调的过程中，如果新增数据质量不高，可能引导模型产生不理想的变化。），还会直接拉低模型响应的质量。

02 合成数据：超级智能的新曙光？

基于前文的分析，我们或许会得出一个比较悲观的结论：我们目前拥有的数据不足以训练出超级智能（superintelligence）。然而，现在做出这样的判断未免操之过急。解决这一问题的关键可能就在于合成数据的创造——即机器为了自训练（self-training）而自主生成的数据。

尽管听上去像是天方夜谭，但事实上，一些前沿的现代 AI 系统都是通过合成数据训练出来的：

专攻棋类的 AlphaZero[3] 就是使用合成数据训练出来的。具体而言，AlphaZero 通过与自身对战来生成数据，并从这些对局中汲取教训，不断优化策略。（这种数据之所以被称为合成数据，是因为它完全不需要借鉴真实人类的棋局记录。）
再来看看 OpenAI 的最新成果之一 —— Sora[4]，这款视频生成模型能够依据简单的文字指令，创造出长达 1 分钟的虚拟视频。它的训练很可能是基于电子游戏引擎（大概率是Unreal Engine 5）生成的合成数据。也就是说，Sora 不仅通过 YouTube 视频或现实世界的电影来学习，游戏引擎构建的虚拟环境同样成为了它的学习素材。

所以，这项技术已在棋类博弈与视频生成应用中得到了证实；真正的问题在于它能否同样适用于文本处理。 在某些方面，制作供训练使用的高质量视频数据，比生成文字训练数据容易得多：只需一部 iPhone，就能拍摄视频捕捉现实生活的真实面貌。然而，要想让合成的文本数据成为有效的训练数据，它必须是高质量、有趣的，而且在某种意义上是 “真实的”。

关键的一点是，创造有价值的合成数据，不仅仅就是从无到有的创作文本那么简单。比如，一份最新发表的论文[5]（2024年1月）指出，利用大语言模型改进抓取到的网络数据的表达方式，不仅能优化训练效果，还能提升训练效率。有时，仅通过筛选并移除数据集中质量最差的数据（这一过程称为“数据集剪枝”），就能大幅增强大语言模型的表现。有一项针对图像数据的研究更是惊人地发现，要达到模型的峰值性能（peak model performance），甚至需要舍弃数据集中高达90%的非关键信息！

如今，我们已拥有能像孩童般从视频中观察与学习的大语言模型。当我们弄清楚如何获取更高质量的多模态数据（包括视频、音频、图像及文本）的技巧，我们可能会惊喜地发现，大语言模型填补其世界观缺失部分所需的训练数据量，远比原先设想的要少得多。

03 解决合成数据生成问题将带来的影响

攻克合成数据的生成这一难题将极大加速人工智能领域的进步：考虑到当前研究者们对合成数据开发的投入、解决这一问题的巨大动力以及这一难题在其他领域已取得的成功，我们有理由相信，在未来几个月至数年内合成数据的生成将取得重大进展，进一步推动 AI 技术的飞速发展。而这一方面的技术突破，很可能会被各大企业严密保护为商业机密。
互联网行业或将重塑，减少对广告的依赖程度：传统上严重依赖广告收入的互联网企业，可能转向一种全新的商业模式，聚焦于训练数据的生成、创造。如 Reddit 这家近期申请 IPO（S-1）的互联网巨头，其收入的 10%（即约 6000 万美元）来源于数据销售，且预计这一比例将持续上升。互联网上的用户数据源源不断（包括 reviews、tweets、comments 等），获取这些新鲜数据将非常有价值。如果这一点正确，各大企业将竞相采取措施，收集更多高价值的人工生成数据，助力人工智能模型的训练。
反垄断审查将趋严：独占如 Reddit、Elsevier 这类高价值数据源所引发的反垄断问题，预期将受到更为严格的审查。大型科技公司凭借其雄厚的财力和庞大的数据集，将进一步巩固其市场主导地位，加剧小规模企业参与竞争的难度。
开源项目可能会落后：监管部门需思考如何确保数据集的公平获取途径，可能会将数据集视作公共基础设施，或在特定条件下强制执行数据共享相关要求。构建更多高质量、经过筛选和整理的数据集，对学术界和开源社区维持竞争力尤为重要。各国政府也许会主动建立中央数据资源库，供所有大语言模型（LLM）开发者使用，从而帮助创造公平的竞争环境。不过短期内，开源项目开发者只能继续在 private labs （译者注：由私营企业或非公有实体运营的研究实验室，它们的工作成果、研发的技术和产生的数据往往被视为公司的知识产权，对外保密。）制作的优秀模型基础上对其进行微调，这意味着开源项目在可预见的未来仍可能落后于 private labs 。
数据被共享为公共资源：某些类型的数据具备公共属性，往往因投资不足而未得到充分开发。比如，一个汇集人类伦理道德偏好（human ethical preferences），通过对比分析形成的公共数据集，便是一个适宜公开资助或 AI 慈善项目投资的对象。类似的案例不胜枚举。

在科幻小说《沙丘》中，迷幻剂 melange（小说中俗称“香料”），被誉为银河系中的无价之宝。基于以上种种，埃隆·马斯克（Elon Musk）不久前在推特上的言论[6]——“数据即是香料（data is the spice.）”——便显得极为意味深长。AI 实验室都对此心领神会，正紧锣密鼓地“捣鼓”数据。

【注释】有一篇由 OpenAI 研究员撰写的题目为《the ‘it’ in AI models is the dataset（AI模型的核心在于数据集）》（ https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/ ）的精彩博客文章，作者一针见血地指出：