AI 的偏见来自数据集，而数据集的偏见来自人类

作者 | Annie Xu

采访、责编 | Eric Wang

出品丨GOSIM 开源创新汇

Richard Vencu，现任 Stability AI 机器学习运维负责人、LAION 工程负责人兼创始人，他的人生可谓十分精彩。

已过知天命之年的他是个中国通，极其热爱中国的武术、茶叶、诱人的川菜等，甚至曾在黄山的一个少林寺拜师学武。

年少时的他，独立自主，颇有自己的想法。父母期待他成为一名医生，但他表示对电子学更感兴趣。父母想为他考大学找一位导师，他拒绝了，反而建议用这笔钱买一台当时在罗马尼亚少有的彩色电视机，自学就够了。最终，大学考上了，彩色电视机也有了。

毕业后，与人合伙创建的 Radix 公司从惠普本地经销商发展为罗马尼亚主要的 SAP 供应商之一，后被 Ness Technologies 收购。

随后，他和妻子开了一家名为 Ivory Dentfix 的牙科诊所。从电子工程师到 IT 系统架构师，从软件到口腔，一位搞技术的门外汉阴差阳错跨界到医疗领域，但也成果斐然——Ivory Dentfix 一度成为谷歌搜索排行榜的第一名。

疫情期间，他花一年时间攻读了人工智能工程硕士学位，又和网友共建了开源组织 LAION，于 2022 年创建了当时全球最大规模的、多模态的图像-文本对数据集。

可能是前半生的老板体验卡让他感到乏味，54 岁受雇为 Stable Diffusion 机器学习运维负责人喜提人生第一枚“员工体验卡”。他参与建造了全球第六大超级计算机，最终促使 AWS 在 2023 年 Re:Invent 大会上推出了 HyperPod。

本期 GOSIM 独家对话栏目 Open AGI Forum 特别邀请到 Richard Vencu，共同聆听他奇妙的职业生涯。

Richard Vencu 为我们分享了他对计算机行业发展的感悟与洞察：

LAION-5B 信息冗杂且质量不高，并不是构建图像生成模型最佳的数据集。但它意义重大，它是第一个公开可访问的大型数据集，证明了扩大规模可以在神经网络训练中取得更好的结果。
计算机视觉数据集领域，存储问题仍未解决。机器学习训练中最棘手的部分是如何能拥有快速的数据加载器，能够以比 GPU 或其他加速器所能处理更快的速度提供数据。
AI 的未来在于应用，你需要与模型之间建立工作流，从而创造出你真正需要的东西。同时，要注意保证生成内容的合法性，防范生成非法内容。
人工智能行业需要被监管，否则它会在成功、金钱或其他刺激因素影响下失控。AI 存在被用于不良用途的风险，但结果不应该是叫停发展。
AI 的偏见来自数据集，而数据集的偏见来自人类。必须理解偏见，有必要的话，采取行动。
需求驱动一切，未来将需要许多小型的专用模型和本地运行的中型模型。企业必须在局域网上运行，否则将面临信息泄露的巨大风险、损失知识产权。

以下是本次采访的主要内容：

奇妙的职业经历：从电子工程师到牙科诊所

GOSIM：大家好，欢迎来到 Open AGI Forum。我是来自 CSDN 的 Eric Wang。今天我们非常荣幸地邀请到了 Stable Diffusion 机器学习运维负责人、LAION 工程负责人兼创始人 Richard Vencu，他将与我们分享他的职业生涯故事。请先简单介绍一下自己，让我们的观众更了解您。

Richard Vancu：我是 Richard Vencu，我今年 56 岁了。我在计算机行业工作了相当长时间。我最初是一名从事无线电领域的电子工程师。大学之初，我们只有一台 Z80 计算机。在互联网刚刚起步的时候，我们通过调制解调器——不知道你们这一代是否还知道——连接网络。可以说，我见证了互联网和计算行业的发展。

GOSIM：请回想一下你职业生涯的开始，是什么启发了你对计算机的兴趣？

Richard Vencu：可能全世界的父母都希望自己的孩子成为医生，我父母同样如此。但在 11 年级左右，我发现自己对电子学更感兴趣。小时候，我还喜欢用电路、元件等制作警报器之类的东西。所以我告诉父母，我打算学电子学。他们询问我是否需要找一位导师为大学入学考试作准备。我说，不，可以用这笔钱给我买一台彩色电视机。最终，在没有任何外界帮助的情况下，我自学考上了大学，还拥有了一台彩色电视机——当时国内很少。那真的很酷。

GOSIM：你什么时候赚到了人生的第一桶金？

Richard Vencu：大学的最后一年。我去德国旅游的时候，买了一台 286-287 协处理器个人电脑。我和同学一起创办了一家公司，将大学课程，包括化学方程式等内容输进电脑制作成电子版。我们当时住在罗马尼亚西北部的雅西，但我们穿过边境，到摩尔达维亚的一家印刷厂印刷。就这样，我们赚到了第一笔钱。但一年后，六个人在分配利润时发生了矛盾，于是我离开了。

GOSIM：你在 LinkedIn 上介绍你的第一份工作是在一家软件公司 Radix，你在这家公司工作了 12 年？

Richard Vencu：我大学毕业时正处罗马尼亚革命后，我们可以创办公司。我也随之投身这股浪潮，和其他人合伙创建了 Radix，成为我所在城市惠普的经销商。Radix 开始时销售电脑、打印机等硬件设施，经过 11 年的发展转型成为软件公司。

2005 年左右，Radix 已经成为罗马尼亚主要的 SAP 供应商之一，也负责提供包括电力、天然气、水力等公共事业设施。随着时间的推移，我也拥有了其他几所公司。那确实是一段艰辛的时光。

GOSIM：这段时间恰逢互联网泡沫期，你对此还有什么印象吗？

Richard Vencu：罗马尼亚的互联网泡沫并不严重。可能美国的情况非常糟糕，但距离我们很远，对我们影响不大。

GOSIM：那倒是件好事。那你接下来是加入了 Ness Romania 吗？

Richard Vencu：是的，我们将 Radix 出售给了 Ness Technologies，但根据合同，我们要继续在 Ness Romania 工作三年。三年后，我离开休息了一段时间。随后，我结婚了，我的妻子是一名牙科医生。存有一定积蓄，外加考虑到她的职业，我们决定自己开办一所牙科诊所。

GOSIM：从电子学专业到和妻子共同经营牙科诊所 Ivory Dentfix，真的是非常奇妙的职业跨越。我在网上查阅了相关资料，感觉它更像是数字牙科诊所。你在其中是负责什么的？

Richard Vencu：我们从零开始。我对计算机很在行，负责搭建基础设施和计算机系统等内容，确保诊所技术层面的顺利运转。实际上，我也学习了一些植牙等医学知识。如果我给到了什么建议，我必须首先向患者声明：我不是医生，建议仅供参考。

我们是罗马尼亚最早进行牙科市场营销的诊所。谷歌搜索是罗马尼亚最常用的搜索浏览器，我们的诊所在谷歌搜索中排名第一。因此，我们有几年的时间过得相当不错。但总有其他更有钱的人会超越我们，永远保持第一不太可能。

经营了五六年后，为了孩子能就读德国的学校，我们卖掉了诊所，从罗马尼亚首都布加勒斯特搬到了一个名为锡比乌的山城。锡比乌是罗马尼亚与德国关系最密切的城市。锡比乌的交通情况比布加勒斯特好得多，我们不需要在通勤上花费大量时间，可以步行去学校。

但疫情期间，我们不得不待在家里。无聊之余，我用了几乎一年的时间在线学习 AI 工程学硕士课程，并在 2021 年完成了学业。当时，罗马尼亚在 AI 领域的发展还是一片空白。

我在思考如何运用我的新知识时，发现 GitHub 上有人在尝试复制 Dall-E 的项目。当时 OpenAI 的 Dall-E 模型刚推出，有人尝试开源的方式实现它的功能，希望每个人都能访问这种图像生成器。因此，我加入了 GitHub 社区，随后进入了 Discord 服务器，在那里遇到了我现在来自 LAION 的同事。

LAION 的雄心壮志：做一款开源“Dall-E”

GOSIM：你在罗马尼亚的锡比乌定居，为什么 LAION 的总部在德国呢？

Richard Vencu：因为 LAION 的总负责人来自汉堡，所以大部分成员都来自德国，至少有三个是德国人。我来自罗马尼亚，还有一个来自法国。LAION 是一个没有资金支持的非营利组织，而非公司。我们没有资金、没有收入，每个人都用自己的空闲时间做贡献。我们还注册了e.V（eingetragener Verein），在德国这代表着一个非营利性的公共组织，以便获取数据和进行正式研究。

起初，我们只是一群人试图共同完成某件事。很快，我们就明白成功的关键在于拥有庞大的数据集。于是有人提议：我们无法爬取整个互联网，但我们可以免费访问 Common Crawl 数据库中的数据。我们可以识别出带有描述的图像，尝试构建一个高质量的数据集，从而开发出文本转图像的模型。

为了能在向量超空间中投影相似度较高的配对图像和文本，我们首先做的就是分析数十亿网页的 HTML 代码，并提取图像的 URL 作为文本。因此，我们就得到了图像-文本的配对。

随后，我们查看图像，使用当时免费的 OpenAI CLIP 工具为图像和文本生成向量嵌入。我们计算了两者的相似度，通过视觉检查多个样本，我们决定保留那些相似度超过 0.3 的配对——主要是面向英语。之后，我们进行了多语言处理，尝试寻找可能略低于 0.3 的阈值。这就是 LAION-5B 数据集诞生的过程。

我个人的贡献是设计了一个既高效又迅速的流水线（pipeline）。实际上，我们是从超过 500 亿个图像-文本对中进行筛选和保留。我们并不知道需要过滤多少，也不知道结果会剩下多少。但最终，我们保留的配对数略高于 50 亿。

你也许听说过该数据集包含不安全样本的负面新闻。的确如此，我们在第一轮中就采取措施尝试过滤掉问题的样本，但由于我们无法细化到检查每一个样本，后来暴露出了很多问题样本。

去年 12 月，我们紧急撤回了数据集，很快我们将发布新的版本。目前已经准备好了，但我们现在还忙于论文和其他相关工作。

GOSIM：新版本是完全安全的吗？

Richard Vencu：不一定，我们无法保证 50 亿样本中绝对没有遗留任何问题样本。但现在我们建立了一个工作流程，可以不断地清理和维护。由于涉及到算法，有些问题样本甚至在我们的掌控之外。有些甚至需要政府机构授权后才能审查。因此，我们也与英国的 Internet Watch Foundation 和加拿大的 3C3P 进行合作，由他们提供需要删除的问题样本。

我们正尽最大努力解决这个问题。 现阶段，LAION-5B 并不是构建图像生成模型最佳的数据集。它包含的信息过于冗杂且质量不高。但在 2022 年 3 月份发布时，它很重要——因为它是第一个公开可访问的大型数据集。它证明了扩大规模可以在神经网络训练中取得更好的结果。

我们发布数据集的目的之一其实是为了揭示 OpenAI 等公司幕后进行的事情。但现在，Google、微软等大型公司都在使用封闭数据集，我们的行为似乎与时代主流不符，但科学必须是可重复的。

因此，我们不仅公开了数据集，还公开了构建数据集的方法和所有工作的代码。这是十分必要的，可以让社区了解哪些方法有效，哪些无效。可能正因为如此，数据集被不同人用作基准测试。2022 年 2 月我加入了 Stability 后，就没有过多参与 LAION 的项目。

攻克视觉数据集仍面临存储难关

GOSIM：能介绍一下你在 Stability AI 机器开发部门的工作吗？

Richard Vencu：我加入 Stability 后，基于过去积累的丰富经验，我担任了开发运营工程师，再次负责基础设施工作。我发现了一种在 AWS 云中构建 Stability 超级计算机的解决方案。过去两年半，我的工作主要围绕训练集群。

我的职务名称是机器学习运维负责人，但我更多参与的是研究和训练部分。工作部署实际上由另一个团队负责，我参与得不多。因此，我曾经告诉经理，我的头衔有误导性，也许 HPC（高性能计算）工程师会更合适，但命名规则是由公司决定的。

GOSIM：开发数据集的经验如何影响你对 AI 未来变化的理解？

Richard Vencu：这是我首次接触如此大规模的项目。扩大规模是一个挑战。实际上，我们最初使用的脚本效率很低，我不得不将其改进超过 1000 倍才有所进展。一开始，我们有一个预测系统来预估项目完成的时间。

最初的预测显示，项目将在 30 年后完成，我说，这不可能，不能这样下去。所以我们努力改进、不断优化，最终成功在八个月内完成了项目。如果我们利用今天积累的经验，可以在 3 或 4 个月内就能完成。

GOSIM：你认为 AI 在日常生活中的使用比例是多少？

Richard Vencu：2021 年，或者说现在，我经常用 Visual Studio Code 的 Copilot，它非常有用。当我纠结于某些语法时，我只需获取代码并在上面进行修改就可以了。我工作中 10%可以让 AI 来实现。

GOSIM：这意味着 AI 节省了 10%的工作时间，但你仍需要与运营的同事进行沟通。当前有什么 AI 项目或研究方向令你特别兴奋吗？

Richard Vencu：在计算机视觉数据集领域，仍面临一个尚未解决的大问题——存储成本十分昂贵。大家通常会选择 S3 或 S3 兼容的对象存储，尽可能降低大型数据集的存储成本，但这种存储方式存在延迟。但 AWS S3 兼容存储不同，它可以承载远超 CloudFlare R2 的多重带宽。

CloudFlare R2 出现得晚，速度也慢。在我的基准测试中，可能慢 8 到 10 倍。这只是基于我的基准测试，可能不完全准确。但面对相同的基础设施，我无法从 CloudFlare R2 快速读取数据，大家都倾向于选择 S3。

为了克服高延迟的弊端，必须在一个文件中打包多个样本。在下载整个 tar 文件时，文件的查找时间也将被样本数量分摊——这是数据加载器中的重要环节。机器学习训练中最棘手的部分是拥有快速的数据加载器，必须以比 GPU 或其他加速器所能处理更快的速度提供数据。

计算机视觉训练同样如此，必须从低成本的存储中读取数据，必须使用网络数据集格式。这种格式很好，但当需要创建一个子集来过滤某些样本时，例如，当需要提取所有包含人类的图像建立一个人体姿势模型或类似的操作时，必须要创建子集。而创建子集就涉及到要重新组合另一个网络数据集、另一个 tar 文件。过去两年中，我们在原始数据集之余，消耗了十倍以上的存储空间。存储再次变得极其昂贵。

因此，我想找到一个解决方案，可以单独存储每个样本，而不是以 tar 格式存储。出于成本考虑，仍然使用 S3 存储，同时将元数据保留在数据库中。在此基础上，可以直接查询和过滤数据库的内容，也可以通过标记特定行转换子集。

面对新的数据库，调用子集或者查询和过滤数据库的内容的时间将会大大减少。数据加载器可以基于更快的存储速度和 VME 中间层提取数据，克服 S3 存储高延迟的弊端。

低计算机视觉数据集的存储成本仍然是目前亟需解决的问题。也许有人已经通过使用商业产品解决了这个问题，但没有公开。我有一些不错的想法去解决这个问题，但它们不是开源的，这个方向仍然值得探索。

GOSIM：我认为你说得对。我是一名 AI 新闻工作者，我认为这也是 OpenAI 目前面临的严峻问题之一。从个人角度而言，你对 ChatGPT 3.5 的第一印象是什么？你对此感到兴奋还是认为它存在改进空间？

Richard Vencu：事实上，我对大语言模型关注得不多。它们很重要，但我们专注于图像模型。我很看好它的发展，特别是最近发布的 Llama 3.1。AI 的未来在于应用，你需要与模型之间建立关系，从而真正创造出你需要的东西。假如你想生成一副图像，也必须通过大语言模型生成好的描述和提示词。

同时，要注意保证生成内容的安全性，防止生成非法内容。即使不是基于非法内容进行训练，这些内容也很容易生成。这些模型能够进行概念组合，恶意的概念组合方式会输出非法内容，必须加强防范。

AI 的偏见来自数据集，数据集的偏见来自人类

GOSIM：去年有一条新闻，一家咖啡店用摄像头扫描员工和顾客的脸部，用 AI 计算员工的工作休息时间，判断他们是否偷懒，或者计算顾客在咖啡馆的消费时长。这与 Responsible AI 相关，你如何看待 AI 延伸的伦理问题？

Richard Vencu：AI 可以用于一切，就像火可以用于一切。我们仍处于 AI 发展的早期阶段，这很难界定。有一些 AI 的应用是向好的，也有一些是向坏的，它们之间的界限还是未知的灰色地带。我相信历史会告诉我们答案，也许五年后我们可以更清楚。

AI 可以被任何目的应用，但政府必须实施监管责任。人工智能行业需要被监管，否则受到成功、金钱或其他刺激因素影响下它会失控。我不否认 AI 存在被用于不良用途的风险，但应对措施绝不是暂停 AI 的发展。有人认为，我们应该停止或者剥夺每个人使用 AI 的能力。相反，我认为民众和国家需要获取尽可能多的信息，这样才有机会抵制不良 AI 的不良应用。

GOSIM：AI 会自动将医生设定为男性，护士设定为女性。你认为这种偏见来自哪里？是数据造成的还是人类本身就存在偏见？数据集是如何发挥作用的呢？如果在数据集中放入更多的男性医生图像而不是女性医生图像，这种偏见还会出现吗？

Richard Vencu：偏见显然来自数据集，而数据集的偏见来自人类的偏见。这是我们想要通过 LAION-5B 证明的一点。我们没有策划 LAION-5B，为了能够计算出有多少这样的样本，我们甚至保留了不适合运行的样本。我们努力删掉了非法内容，但我们保留了一些不违法但存在问题的内容。

一切需要科学解答，需要有人训练一个良好的、能够识别和预测不适宜工作环境内容的模型，以便在后续的数据处理或模型训练中使用。我们必须研究偏见，所以 LAION-5B 成为了未经筛选的 Common Crawl 的产物，它只是互联网的一个快照。

而这种偏见实际上来自互联网，来自多年来每个人发布的内容。必须理解偏见，有必要的话，采取行动。医学研究的肺部 X 光片就不存在性别偏见，男女都一样。

所以，你只需专注于此，而不必过分担心偏见问题。在训练一个模型时，研究团队应该意识到这一点，并使用工具以适当的方式区分数据集，使其适用于他们想要训练的模型。

GOSIM：Andrej Karpathy 和他的老师李飞飞认为好的数据集是大型、干净和多样化的。你同意吗？你如何看待数据质量和多样性在 AI 发展中的重要性？

Richard Vencu：当然，他们是正确的。事实证明，自 2022 年以来到今天，我们确实需要大型数据集。规模法则（scaling laws）在风险研究中得到了证实。我虽然没有参与这方面的研究，但相信一定有相关的研究。

大型数据集需要清理，需要在一开始就消除问题样本。如同 LAION 的工作，清洗和维护数据集是首要任务。我们没有资金去维护，因而我们需要其他人帮助我们检查数据集。这也是它开源的原因之一。开放数据集的清理应得到更多贡献者，现在得还不够。

最后是多样性。LAION-5B 就非常不平衡。华盛顿大学发布了一项名为 DataComp 研究，证明了保证数据集的平衡和多样性是有必要的。

GOSIM：你主要负责 LAION-5B 数据集，将来会继续 LAION 的工作吗？

Richard Vencu：我会更多尝试管理。未来我希望 LAION 与 Linux 基金会合作或在其之下运作。在 LAION，我们是研究人员，不懂得如何做生意，我们也没有员工，发展运营真的很困难。法律方面的问题对我们来说很棘手，Linux 基金会在这方面做得非常好。他们有一个很棒的法律团队，我相信与 Linux 基金会合作将会非常棒。