开源狂潮让巨头惨败!谷歌内部文件曝光:我们和OpenAI都没有护城河

news2024/11/19 18:41:06

因为开源,AI军备竞赛,谷歌和OpenAI全是输家?

来源丨新智元

重磅!

谷歌的一份名为《我们没有护城河,OpenAI也没有》的内部文件疑似被泄露,

今天早上,外媒SemiAnalysis公布了这份重磅炸弹泄露文件。

据悉,这份文件是一名匿名人士在Discord服务器上分享出来的,文件来自谷歌内部的一名研究员,真实性已被确认。

SemiAnalysis特别强调,这份文件仅代表谷歌员工的意见,不代表整个公司的意见。

内部文件

我们没有护城河,OpenAI也没有

我们一直在严密监视着OpenAI。谁将跨越下一个里程碑?下一步将是什么?

但现在,令人不安的事实就是:我们无法赢得这场军备竞赛,OpenAI也不能。

就在我们两方对战的时候,第三方正在悄悄地吃掉属于我们的好处。

没错,我说的就是开源。说白了,他们已经超越了我们。我们认为的「重大开放问题」如今已经解决,掌握在所有用户手中。几个简单的例子:

  • 手机上的LLMs:在Pixel 6上,以每秒5个token的速度,就能运行基础模型。

  • 可扩展的个人 AI:只要一个晚上,就能在笔记本电脑上微调出一个个性化AI。

  • 负责任的发布:这一点倒是没有「解决」,说「避免」会更贴切。现在网上到处都是充满了各种艺术模型的网站,没有任何限制,开源的大语言模型也不甘其后。

  • 多模态:当前的多模态 ScienceQA SOTA,只用一个小时就能训练出来。

虽然我们的模型在质量上仍然略有优势,但差距正在以惊人的速度缩小。

这些开源模型更快、更可定制、更私密,性能也更强大。

他们只用100美元和13B的参数,就能做到我们用1000万美元和540B的参数下才能做的事。他们在几周内完成,而不是几个月。

Vicuna-13B的质量达到OpenAI ChatGPT和Google Bard的90%*以上

这对我们有着巨大的冲击:

  • 我们没有独家秘密武器了。最大的希望就是,学习其他人正在做的事,与他们合作。我们应该优先考虑允许第三方集成。

  • 当这些免费的、不受限的开源平替具有完全相当的质量,用户不会再为受限的模型付费了。我们应该考虑下,我们真正的增值在哪里。

  • 巨型模型正在减慢我们的速度。从长远来看,最好的模型是那些可以快速迭代的模型。既然我们知道在参数少于200亿时模型会有怎样的可能,我们就应该更关注小模型。

https://lmsys.org/blog/2023-03-30-vicuna/

发生了什么

3月初,随着Meta的LLaMA被泄露给公众,开源社区得到了第一个真正性能强大的基础模型。它没有指令或对话调整,也没有RLHF。

尽管如此,开源社区立刻明白:他们得到的东西有多么重要。

随后,大量创新的开源平替模型不断地涌现出来。每隔几天,就出现一个大进展。

才短短一个月,就有了指令调整、量化、质量改进、人工评估、多模态、RLHF这么多功能的变体,许多还是建立在彼此的基础上的。

最重要的是,他们已经解决了规模的问题,现在任何一个人,都可以参与其中。

如今,许多全新的想法都来自普通人。训练和实验的门槛已经大大降低,从前需要一个大型研究机构合力工作,现在,只需要一台功能强大的笔记本,一个人在一晚上就能搞定。

我们本可以预见到这一切

这对任何人来说,都不算什么惊喜。图像生成领域的复兴之后,紧接着就是开源LLM的复兴。

许多人说,这就是大语言模型的“Stable Diffusion”时刻。

在这两个领域,让公众能够以低成本参与,都是通过低秩适应(LoRA)来实现的。它让微调机制的成本大大降低,

还实现了模型规模的重大突破。(比如图像合成的Latent Diffusion,LLM的Chinchilla)

在获得足够高质量的模型后,世界各地的个人和机构都开始了一系列对模型的创新和迭代。而这些创新,也迅速超越了大科技公司。

在图像生成领域,这些贡献至关重要,使Stable Diffusion走上了与Dall-E完全不同的道路。

Stable Diffuision的开源,导致了产品集成、市场、用户界面的创新,而在Dall-E身上,这些却没有发生。

这样做的后果是显而易见的,Stable Diffusion迅速占据了主流,与之相比,OpenAI的解决方案已经变得无关紧要了。

同样的事情是否会发生在LLM领域?目前还未知,但这两件事,有太多相似之处。

我们错过了什么?

开源社区最近取得成功的很多创新,直接解决了我们还未解决的很多难题。

更多地关注他们的工作,可以帮我们避免重新造轮子。

LoRA 是一种非常强大的技术,我们可能应该对它更加关注。

论文地址:https://arxiv.org/pdf/2106.09685.pdf

LoRA 通过将模型更新表示为低秩分解来工作,这将更新矩阵的大小减少了数千倍以上。

这就让模型微调的时间和成本都大大降低。

如果在几个小时内,就能在消费级硬件上微调出一个个性化的语言模型,这件事的意义就太重大了。尤其是,它还可以实时整合许多最新的、多样化的知识。

但这项技术在谷歌内部并未得到充分重视,尽管它直接影响了我们最寄予厚望的项目。

从头开始重新训练模型,是一条艰难的道路

LoRA 如此有效的部分原因在于,与其他形式的微调一样,它是可堆叠的。

可以应用指令调整改进模型,这样在其他贡献者添加对话、推理或工具时,就可以直接使用。

虽然单独的微调是低秩的,但它们的总和不需要,因此模型的全秩更新就可以随着时间的推移而累积。

这意味着,只要有新的、更好的数据集和任务出现,模型就可以以低廉的成本保持最新状态,无需支付完整运行的成本。

相比之下,从头开始训练巨型模型不仅会失去预训练的过程,还会失去在顶部进行的任何迭代改进。

在开源世界中,这些改进很快就会占据主导地位,这使得全面重新训练模型的成本极其昂贵。

我们应该考虑,每个新的应用或想法是否真的需要一个全新的模型?

如果我们真的有重大的架构改进,以至于无法直接重新使用模型权重,那么我们应该去投资更积极的蒸馏形式,来尽可能多地保留上一代模型的功能。

如果我们能够在小模型上快速迭代,那么从长远来看,大模型并不是强到无所不能

LoRA(大型语言模型的低秩适应)是微软提出的一种新颖技术,旨在解决微调大型语言模型的问题。

它的更新对于最受欢迎的模型大小来说非常便宜(约100美元),这意味着几乎任何有想法的人都可以生成一个,并分发出去。

以后,一天之内训练一个模型都是平平事。

以这样的速度,用不了多久,这些微调的累积效应很快就会弥补起初的模型大小的劣势。

事实上,这些模型的改进速度远远超过了我们使用最大模型所能做的,而且最好的模型与ChatGPT在很大程度上已经无法区分。

专注于研究一些大模型,反而让我们处于不利地位。

要数据质量,不要数据规模

许多项目通过对小型、精选数据集上进行训练来节省时间。这表明数据扩展规律具有一定的灵活性。

这样数据集的存在源于「Data Doesn't Do What You Think」一文中的思路,它们正迅速成为在谷歌之外进行训练的标准方式。

这些数据集是通过合成方法(比如,从现有模型中筛选出最佳响应)和从其他项目中搜集而构建。谷歌在这两者中都不占主导地位。

幸运的是,这些高质量的数据集是开源的,因此可以免费使用。

与开源直接竞争,是一个失败的命题

AI新进展对谷歌的商业战略有着直接、即时的影响。如果有一个免费的、高质量、且没有使用限制的替代品,谁会为谷歌产品付费?

而且我们不应该指望能够赶上。现代互联网之所以依赖开源,是有原因的。开放源码有一些我们无法复制的显著优势。

比起他们需要我们,我们更需要他们

我们技术的保密一直是一个脆弱的命题。

谷歌的研究人员正定期离开,前往其他公司。所以我们可以假设他们知道我们所知道的一切。而且只要这条渠道是开放的,他们就会继续这样做。

但是,由于 LLM 的前沿研究成本低廉,保持技术领域的竞争优势变得更加困难。

世界各地的研究机构都在相互借鉴,以广度优先的方式探索远远超出我们自身能力的解决方案空间。

我们可以试着紧紧抓住我们的秘密,而外部创新会削弱了其价值,又或者我们可以尝试着互相学习。

与公司相比,个人受到许可的限制程度较小

近来,模型的创新大多在Meta的LLaMA模型权重泄露之后进行的。

虽然这肯定会随着真正的开源模型变得更好而改变,但关键是他们不必等待。

「个人使用」所提供的法律保护以及起诉个人的不切实际意味着,个人在这些技术炽热时就能获得这些技术。

作为自己的客户意味着,你理解用例

浏览人们在图像生成领域中创建的模型,从动画生成器到HDR景观,创造力源源不断地涌现出来。

这些模型由深入特定子类型的人使用和创建,赋予了我们无法企及的知识深度和共鸣。

拥有生态系统:让开源为我们工作

矛盾的是,大厂竞相争先的背后,赢家就是Meta。

因为泄露的模型LLaMA是他们的,所以相当于他们有效地获得了整个星球价值的免费劳动力。

由于大多数开源创新都基于LLaMA,所以没有什么能阻止他们直接将其纳入自己的产品中。

拥有生态系统的价值,未来将不可估量。曾经的谷歌已经成功地在其开源产品(如Chrome和Android)中使用了这一范式。

通过拥有创新发生的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位。

我们对模型的控制越严格,开源替代品就越有吸引力。

谷歌和OpenAI都倾向于严格控制模型使用,开启一种防御性的反应。

但是这种控制只是虚构的,因为任何试图将LLMs用于未经批准的目的的人,都可以选择自由提供的模型。

谷歌应该在开源社区中确立自己的领导地位,通过合作来发挥引领作用。

这可能意味着要采取一些令人不安的步骤,比如发布小型ULM变体的模型权重。这必然意味着放弃对我们模型的一些控制。

但这种妥协是不可避免的。我们不能同时做到既推动创新,又控制创新。

结束语:OpenAI 怎么样?

鉴于OpenAI目前的封闭政策,所有关于开源的讨论可能让人觉得不公平。

如果他们不愿意,我们为什么要分享呢?但事实是,我们正通过源源不断地被挖走的高级研究人员与他们分享了一切。

在我们阻止这股潮流之前,保密是没有意义的。

最后,OpenAI 并不重要。

相对于开放源代码,他们正在犯同样的错误,他们保持优势的能力必然受到质疑。

除非他们改变立场,否则开源替代品可以,而且最终会超越他们。至少在这方面,我们可以先行一步。

开源时间线

23年2月24日,LLAMA发布

Meta发布LLaMA,开源代码,但没有公布权重。此时,LLaMA尚未进行指令或对话调优。

与许多当前模型一样,它是一个相对较小的模型(参数分别为7B、13B、33B和65B),经过相对较长时间的训练,因此与其大小相比具有相当强大的能力。

23年3月3日,不可避免的事情发生了

不到一周,LLAMA就被泄露给了公众。Meta现有的许可禁止将LLAMA 用于商业目的。

突然之间,任何人都可以进行试验。在整个社区,掀起了模型创新的海啸。

23年3月12日,语言模型在烤箱上运行

一个多星期后,Artem Andreenko成功在树莓派上运行模型。当时,模型运行速度非常慢,因为权重必须在内存中分页,实用性不强。

尽管如此,这为一系列缩小模型规模的努力奠定了基础。

23年3月13日,笔记本电脑上的微调

第二天,斯坦福发布了Alpaca,它为LLaMA增加了指令调优功能。

然而,重要的是,Eric Wang的alpaca-lora仓库,它使用LoRA在单个RTX 4090上几小时内完成了这个训练。

从这时起,突然间,任何人都可以对模型进行微调,引发了一场关于低成本微调模型的竞争。

许多铺天盖地的报道称xxx模型总共花费了几百美元。

更重要的是,低秩更新可以轻松地与原始权重分开分发,使他们摆脱了Meta原始许可的约束。任何人都可以分享和应用它们。

23年3月18日,变得更快了

GeorgiGerganov使用4位量化在 MacBookCPU 上运行 LLaMA。

这是第一个「无GPU」解决方案,速度足够快,实用性很强。

23年3月19日,一个13B型实现了与Bard的「平衡」

第二天,一个跨大学的合作发布了Vicuna,并使用 GPT-4驱动的评估对模型输出进行定性比较。虽然评估方法值得怀疑,但该模型实质上比早期的变体更好。

最最重要的是,只用了300美元进行训练。

值得注意的是,他们能够使用来自ChatGPT的数据,同时规避其API的限制

他们只需从像ShareGPT这样的网站上获取令人印象深刻的ChatGPT对话样本。

23年3月25日,选择自己的模型

Nomic创建了GPT4All,它既是一个模型,更重要的是,它也是一个生态系统。

所有人第一次看到模型(包括Vicuna)汇集在一个地方。训练费用: 100美元。

23年3月28日,开源版GPT-3

Cerebras使用Chinchilla暗示的最佳计算计划和μ参数化暗示的最佳缩放(optimal scaling)来训练GPT-3架构。

这比现有的 GPT-3克隆有很大的优势,代表了μ参数化在实际应用中的首次使用。这些模型是从零开始训练的,这意味着社区不再依赖 LLaMA。

23年3月28日,一小时完成多模态训练

LLaMA-Adapter 采用一种新的参数有效微调(PEFT)技术,在一个小时的训练中引入指令调优和多模态。

令人印象深刻的是,它们只使用了120万个可学习参数。该模型在多模态 ScienceQA 上刷新了SOTA。

23年4月3日,人们无法区分13B开源模型和ChatGPT

伯克利发布了Koala,这是一个完全使用免费数据进行训练的对话模型。

他们采取了衡量真实人类在Koala和ChatGPT之间的偏好的关键步骤。

虽然ChatGPT仍然稍占上风,但超过50%的时间,用户要么更喜欢Koala,要么无所谓。训练费用: 100美元。

23年4月15日,ChatGPT级的开源RLHF

Open Assistant发布了一个模型,更重要的是,发布了一个用于通过RLHF进行对齐的数据集。

这一模型在人类偏好方面接近ChatGPT (48.3%:51.7%)。

除了 LLaMA 之外,他们还展示了这个数据集可以应用到Pythia-12B上,为人们使用一个完全打开的堆栈来运行模型提供了选择。

此外,由于数据集是公开可用的,它使得对于小型实验者来说,RLHF从不可实现变得便宜,且容易。

谷歌筑墙,啪啪打脸

虽说开源是胜利,但现在的谷歌却反身架起城墙,拒绝开源。

今年2月,长期担任谷歌人工智能部门负责人Jeff Dean对内宣布了一项令人震惊的政策转变:

推迟与外界分享内部工作。

多年来,Dean一直把部门当作一所大学来管理,鼓励研究人员大量发表学术论文。据Google Research显示,自2019年以来,他们推动了近500项研究。

自ChatGPT诞生以来,一路风生水起,显然让谷歌一时慌了神,并就此必须做出改变。

Dean表示,谷歌在人工智能领域的发现只有转化成产品后,才会共享论文。

Jeff Dean在谷歌研究部门的季度会议上表示,这家位于旧金山的初创公司OpenAI,通过学习团队的论文,才跟上了谷歌的步伐。

我们都知道,ChatGPT中的T便指的是谷歌Transformer架构,是以Transformer架构为核心的大型语言模型。

论文:https://arxiv.org/pdf/1706.03762.pdf

为了追赶ChatGPT,谷歌开启了防御模式。这对谷歌来说,是一个重大转变。

这一政策首先是为了抵御一批强大的AI竞争对手,另外是为了保护其核心搜索业务、以及可能的未来。

然而正如内部文件泄露所称,谷歌不是胜者,OpenAI也不是,真正的赢家才是Meta。

开源的胜利,谷歌曾尝过。现在,是该做些改变了。

参考资料

https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

https://www.washingtonpost.com/technology/2023/05/04/google-ai-stop-sharing-research/?utm_source=reddit.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/502525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

日撸 Java 三百行day45

文章目录 说明day45 冒泡排序1. 基本思路2.代码 说明 闵老师的文章链接: 日撸 Java 三百行(总述)_minfanphd的博客-CSDN博客 自己也把手敲的代码放在了github上维护:https://github.com/fulisha-ok/sampledata day45 冒泡排序 …

IP地址技术原理

IP地址用于唯一地标识一个网络设备(如计算机、路由器等)在互联网或局域网中的位置。IP地址由32位二进制数表示,通常分为4个8位二进制数,每个数用点号隔开,如106.110.92.215。IP地址可用于数据传输、网络管理和安全控制…

Springboot +Flowable,服务任务ServiceTask执行的三种方式(一)

一.简介 ServiceTask 从名字上看就是服务任务,它的图标是像下面这样,截图如下: ServiceTask 一般由系统自动完成,当流程走到这一步的时候,不会自动停下来,而是会去执行我们提前在 ServiceTask 中配置好的…

托福高频真词List06 // 附阅读真题 14:26~15:12 // 15:12~16:12

目录 生词 熟词 阅读真题 生词 inducecausecause the formation of increasestimulate(导致) v 导致 inevitableunavoidable certainnecessary(不可避免地) adj 不可避免的accommodateallowv 顺应 modestreasonablesmall modera…

【Git 教程】—git指令详细解析,上机操作,简单易懂

目录 一. 集中式和分布式的区别 1. 集中式版本控制工具 2. 分布式版本控制工具 3. 基本概念 4. 配置信息 二. 创建本地仓库(git init) 三.基础指令 1. 获取git版本号 2.查看文件的状态 3. 查看提交记录 4. 版本回退 5. git reflog 6. .gitignore文件…

数据机房温湿度监控系统解决应用案例

机房温湿度监控系统之POE以太网温湿度传感器解决方案 物联网工业级高精度传感器 以太网智能RJ45温湿度传感器(POE12VDC供电型) 智 能 传 感 器 介 绍 目 录 一、关键词…………………………………………………………………………3 二、 产品概述…

51单片机 | DS18B20 温度传感器实验

系统设计 设计要求 (1) 主体电路包括晶振、复位、电源指示电路,预留程序下载接口; (2) 要求能够实现温度数值的自动显示,值根据实际温度变化自动变化。 (3) 并按照题目要求完成程序源码编写、调试及关键代码注释。 设计任务 使用给定硬件…

C++两个区间的比较?——STL之equal()算法和mismatch()算法

equal()算法 检验相等性 bool equal(InputIterator1 beg,InputIterator1 end,InputIterator2 cmpBeg)bool equal(InputIterator1 beg,InputIterator1 end,InputIterator2 cmpBeg,BinaryPredicate op) 第一形式判断区间…

mongodb命令使用

查询副本集当前状况(需要将命令行切换到需要查询的副本集中) rs.status() 查询数据库当前情况 sh.status() 查询数据分片情况 db.集合名称.getShardDistribution() 查看集合当前情况 db.集合名称.stats() 查看集合是否开启分片 db.集合名称.stats().sharded 查看mong…

Python网络编程(一)——了解IP和端口的基础知识以及socket的简单实现

系列文章目录 Python网络编程(一)——了解IP和端口的基础知识以及socket的简单实现 了解IP和端口的基础知识以及socket的简单实现 系列文章目录前言获取本机设备名和IP获取远程设备的IP地址将IPv4地址转换成以十六进制形式表示二进制数据获取端口的服务…

数据结构 -- 共用体Union

在数据结构 -- 结构体Struct一文中详细介绍了结构体的定义以及内存对齐。在C语言中,还有另外一种和结构体非常类似的语法,叫做共用体(Union),也称为联合体。它的定义格式为: union 共用体名{成员列表 };1. …

【CVPR红外小目标检测】红外小目标检测中的非对称上下文调制(ACM)

论文题目: Asymmetric Contextual Modulation for Infrared Small Target Detection 红外小目标检测中的非对称上下文调制 红外小目标数据集 目标个数分布:约90%图片中只有一个目标,约10%图片有多个目标(在稀疏/显著的方法中&am…

网文助手。

网文助手 简述 网文助手,免费高质量小说资料网站,支持笔记本和手机端,主要有以下功能。 随机生成小说男女姓名,和尊称随机生成地域和势力名称随机生成功法秘籍、招式战技、法宝兵器、丹药和阵法随机生成妖兽、凶地、天材地宝随…

Prometheus监控报警+Grafana loki日志聚合系统

Prometheus监控报警Grafana loki日志聚合系统 参考文档 https://blog.csdn.net/m0_57480266/article/details/121190725?spm1001.2101.3001.6650.1&utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-121190725-blog-111992382.235%5Ev3…

二十一、线索转换3:线索的备注转化为客户联系人的备注

功能需求 3.线索的备注信息--》客户备注 4.线索的备注---》联系人备注 5.线索市场活动关系---》联系人市场活动关系 流程图 代码实现&#xff1a;线索的备注转化为客户联系人的备注 1.clueRemarkMapper /*** 根据线索id 查询备注2*/List<ClueRemark> selectInitialC…

Windows本地MySQL升级

一、删除原来的MySQL 删除 C:\Programs Files、C:\Programs Files(x86)、C:\ProgramData 中的所有MySQL目录 找到MySQL数据库中的data保存到其他位置&#xff0c;升级后可以恢复数据库数据 【备份数据】 删除注册表中MySQL的信息 计算机\HKEY_LOCAL_MACHINE\SYSTEM\ControlSet…

Py01·环境搭建

Python环境搭建 官网下载python3.7.3&#xff1a;https://www.python.org/downloads/release/python-373/ 配置系统环境变量目录&#xff1a; E:\ldtools\python3.7.3\python.exe E:\ldtools\python3.7.3\Scripts\pip.exe python.exe 运行环境 pip.exe 包管理器 安装mysql环…

TypeScript 最近各版本主要特性总结

&#xff08;在人生的道路上&#xff0c;当你的期望一个个落空的时候&#xff0c;你也要坚定&#xff0c;要沉着。——朗费罗&#xff09; TypeScript 官网 在线运行TypeScript代码 第三方中文博客 特性 typescript是javascript的超集&#xff0c;向javascript继承额外的编辑…

K8s之Namespace名称空间详解

文章目录 一、名称空间概念二、名称空间基本操作1、创建Namespace的两种方式2、Namespace资源限额 一、名称空间概念 K8s中文手册&#xff1a; K8s名称空间中文官方手册&#xff1a; Kubernetes 支持多个虚拟集群&#xff0c;它们底层依赖于同一个物理集群。 这些虚拟集群被…

UUID使用

1.UUID是什么&#xff1f; UUID 是指&#xff08;Universally Unique Identifier&#xff09;通用唯一识别码&#xff0c;128位。RFC 4122描述了具体的规范实现。 2.UUID解决问题&#xff1f; 分库分表后自增Id重复问题。 3.UUID作用&#xff1f; UUID 的目的是让分布式系…