谷歌发布Gemini以5倍速击败GPT-4

news2024/11/27 5:23:11

8a084fe88e53af5f6d5e02c2d0884a5b.jpeg

在Covid疫情爆发之前,谷歌发布了MEENA模型,短时间内成为世界上最好的大型语言模型。谷歌发布的博客和论文非常可爱,因为它特别与OpenAI进行了比较。

相比于现有的最先进生成模型OpenAI GPT-2,MEENA的模型容量增加了1.7倍,并且训练数据增加了8.5倍。

这个模型的训练所需的浮点运算量(FLOPS)超过了GPT-2的14倍,但这在很大程度上是无关紧要的,因为仅仅几个月后,OpenAI推出了GPT-3,它的参数是GPT-2的65倍多,令牌数量是GPT-2的60倍多,FLOPS更是增加了超过4,000倍。这两个模型之间的性能差异巨大。

MEENA模型引发了Noam Shazeer撰写的名为“MEENA吞噬世界”的内部备忘录。在这个备忘录中,他预测了在ChatGPT发布之后世界上其他人在意识到的事情。主要观点是语言模型会在各种方式下越来越多地融入我们的生活,并且它们会主导全球部署的FLOPS。当他写这篇备忘录时,他的观点超前于时代,但大多数关键决策者当时都忽视了或甚至嘲笑了这些观点。

让我们稍微偏离一下,看看Noam真的有多先见之明。他曾是撰写原始的Transformer论文“Attention is All You Need”的团队成员。他还参与了第一篇现代Mixture of Experts论文、Switch Transformer、Image Transformer,以及LaMDA和PaLM的各个方面。他尚未在更广泛的范围内获得广泛认可的一个想法是2018年的,即我们在关于GPT-4的独家披露中详细介绍的“推测解码”。推测解码可以将推理成本降低多倍。

这里的重点是,谷歌拥有所有成功的因素,但他们却错误地处理了。这是大家都明显看到的情况。

可能不太明显的是,沉睡的巨人谷歌已经醒来,他们正在以超越GPT-4的总预训练FLOPS速度5倍的步伐迭代,预计在年底之前。根据他们目前的基础设施建设,到明年年底他们的路径清晰可见,可能达到100倍。至于谷歌是否有胆量在不削弱其创造力或现有商业模式的情况下公开发布这些模型,这是一个不同的讨论。

今天,我们想要讨论谷歌的双子座训练系统,双子座模型的迭代速度,谷歌的Viperfish(TPUv5)推出,谷歌与其他前沿实验室在未来的竞争力,以及一个我们称之为“显卡穷人”的群体。


GPU-Rich显卡富人

计算资源的获取是一个双峰分布。只有少数几家公司拥有20,000个以上的A/H100显卡,个人研究人员可以为小项目获得数百或数千个显卡。其中主要的公司包括OpenAI、谷歌、Anthropic、Inflection、X和Meta,它们的计算资源与研究人员的比例最高。上述一些公司以及多家中国公司,到明年底将拥有10万个以上的显卡,尽管我们不确定中国的研究人员比例,只知道显卡数量。

在湾区,我们看到的最有趣的趋势之一是顶尖机器学习研究人员吹嘘他们有多少显卡,或者即将拥有多少显卡的机会。事实上,在过去的大约4个月里,这种现象变得如此普遍,以至于它已经成为一个直接影响顶尖研究人员决定去哪里的竞争。Meta,将拥有世界上第二多的H100显卡的公司,正在将这一点作为一种招聘策略。


GPU-Poor显卡穷人

然后,还有许多初创公司和开源研究人员,他们面临着更少显卡的困境。他们在试图做一些根本没有帮助或实际上无关紧要的事情上花费了大量的时间和精力。例如,许多研究人员花费了无数个小时在使用没有足够VRAM的显卡上对模型进行微调,这是对他们的技能和时间的极其低效的利用。

这些初创公司和开源研究人员正在使用更大的语言模型对较小的模型进行微调,用于排行榜样式的基准测试,而这些基准测试使用了有缺陷的评估方法,更强调样式而不是准确性或有用性。他们通常并不知道,为了使较小的开放模型在实际工作负载中改进,预训练数据集和IFT数据需要更大/更高质量。

是的,高效使用显卡是非常重要的,但在很多方面,显卡穷人们却忽略了这一点。他们不关心规模效率,他们的时间没有得到有效利用。对于即将在明年底之前拥有超过350万个H100显卡的世界来说,在他们的显卡穷人环境中商业上可以做的事情在很大程度上是无关紧要的。对于学习、尝试,更小、更弱的游戏显卡完全足够。

显卡穷人们仍然主要使用稠密模型,因为这就是Meta优雅地放在他们手上的LLAMA系列模型。如果没有上帝扎克的恩惠,大多数开源项目可能会更糟。如果他们真的关心效率,特别是在客户端方面,他们会运行像MoE这样的稀疏模型架构,在这些更大的数据集上进行训练,并像前沿的LLM实验室(OpenAI、Anthropic、Google Deepmind)那样实现推测解码。

这些处于劣势地位的人应该关注通过提高计算和内存容量要求以改善模型性能或令牌到令牌的延迟来平衡,以换取较低的内存带宽,因为这是边缘需要的。他们应该专注于在共享基础设施上高效地提供多个微调模型,而不用支付小批量大小的可怕成本。然而,他们一直关注内存容量限制或过度量化,而对真实质量下降视而不见。

稍微偏离一下,总体上,模型评估是有问题的。尽管在封闭的世界中有很多努力来改进这一点,但开放基准测试领域几乎没有意义,几乎没有衡量任何有用的东西。由于某种原因,对于LLM的排行榜化存在一种不健康的痴迷,以及对于无用模型的愚蠢名称的模因化。希望开源努力能够重新引导到评估、推测解码、MoE、开放的IFT数据和具有超过1万亿标记的干净预训练数据集,否则,开源将无法与商业巨头竞争。

虽然美国和中国将能够继续领先,但欧洲的初创公司和政府支持的超级计算机(如朱尔斯·凡尔纳)也完全无法竞争。由于缺乏进行大规模投资的能力,并选择保持显卡穷人的状态,欧洲在这场比赛中将落后。甚至多个中东国家也在为推动AI的大规模基础设施投资更多资金。

然而,显卡穷人并不仅限于初创公司。一些最知名的人工智能公司,如HuggingFace、Databricks(MosaicML)和Together,也是显卡穷人的一部分。实际上,从每个GPU的世界级研究人员数量,到GPU数量与雄心/潜在客户需求之间的关系,他们可能是最穷的一群。这些公司拥有世界级的研究人员,但由于他们使用的系统的能力相对较低,他们的发展受到了限制。这些公司在培训实际模型方面受到了企业的巨大需求,成千上万个H100显卡已经陆续到来,但这并不足以占据大部分市场份额。

Nvidia凭借其在DGX Cloud服务和各种内部超级计算机中拥有的多倍显卡数量正在蚕食它们的市场份额。Nvidia的DGX Cloud提供了预训练模型、数据处理框架、矢量数据库和个性化、优化的推理引擎、API以及来自NVIDIA专家的支持,以帮助企业调整模型以适应其自定义用途。该服务还已经为来自SaaS、保险、制造业、制药、生产软件和汽车等行业的多个大型企业提供了支持。虽然并非所有客户都已宣布,但即使是Amgen、Adobe、CCC、ServiceNow、Accenture、AstraZeneca、Getty Images、Shutterstock、Morningstar、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、Oxford Nanopore、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway这样的公开客户列表也相当令人印象深刻。

这是一个比其他玩家更长的列表,Nvidia还有许多其他未公开的合作伙伴关系。需要明确的是,来自Nvidia的DGX云服务这些宣布客户的收入是未知的,但考虑到Nvidia的云计算支出和内部超级计算机建设的规模,似乎更多的服务可以/将从Nvidia的云中购买,而不仅仅是HuggingFace、Together和Databricks所能提供的。

HuggingFace和Together共筹集的几亿资金意味着他们将保持显卡穷人的状态,他们将无法培训N-1个LLM,这些LLM可以作为基础模型供客户微调。这意味着他们最终将无法在今天就可以访问Nvidia的服务的企业中占据很高的份额。

特别是HuggingFace在行业中有着最大的声誉,他们需要利用这一点来投资大量资金,并构建更多的模型、定制和推理能力。他们最近的融资轮次在估值过高,无法获得他们需要的投资来竞争。HuggingFace的排行榜表明他们有多么盲目,因为他们正在误导开源运动,让其创造出一堆在实际使用中毫无用处的模型。

Databricks(MosaicML)可能至少可以通过其数据和企业连接赶上,问题是如果他们想有希望为超过7,000名客户提供服务,他们需要加快支出的速度。对MosaicML的13亿美元收购是对这一垂直领域的重大赌注,但他们还需要在基础设施上投入类似的资金。不幸的是,对于Databricks来说,他们不能用股票支付显卡的费用。他们需要通过即将进行的私募轮/首次公开募股来进行大规模的发行,并使用那些冷硬现金来大幅度增加硬件投入。

经济论点在这里不成立,因为他们必须在客户到来之前建设,因为Nvidia正在向他们的服务投入资金。需要明确的是,许多人购买了大量计算资源,但并没有赚回他们的钱(Cohere、沙特阿拉伯、阿联酋),但这是竞争的先决条件。

训练和推理运营公司(Databricks、HuggingFace和Together)在其主要竞争对手之后,而这些竞争对手同时也是他们的计算资源的主要来源。下一个最大的定制模型运营商只是来自OpenAI的微调API。

关键在于,从Meta到Microsoft再到初创公司,他们只是作为向Nvidia的银行账户输送资金的通道。

有没有人能够拯救我们免于Nvidia的奴役?

是的,有一个潜在的救星。


谷歌 - 全球最富有计算资源的公司


虽然谷歌在内部使用显卡,同时也通过GCP销售了大量显卡,但他们还有一些王牌。其中包括Gemini和已经开始训练的下一代模型。他们最重要的优势是无与伦比的高效基础设施。谷歌将会拥有比OpenAI、Meta、CoreWeave、Oracle和亚马逊的显卡总数加起来还要多的TPUv5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/940656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 中SettingsActivity(PreferenceFragmentCompat)的简单使用

如果你需要一个简单的APP设置,可以使用sharedPreferences进行存储,我们可以借助AndroidStudio快速创建一个用于设置的Activity,其实它是继承PreferenceFragmentCompat,存储方式用的就是sharedPreferences,只是帮我们节…

一文教你如何防御数据库渗透入侵

前言 前段时间博主在做学校内部项目的时候,项目需要暂时上线测试,没想到上线测试几天,MySQL 数据库数据就被恶意删除,但是当时我们没有太当回事,以为只是一次普通黑客攻击,恢复数据之后仍然可以正常使用。…

『 LeetCode题解 』203. 移除链表元素

题目链接 : 『 LeetCode题解 』203. 移除链表元素 https://leetcode.cn/problems/remove-linked-list-elements/ 目录 🌟题目要求🌟解题思路(动图解析)🧐方案一😁方案二 🌟代码示列 &#x1f31…

海康机器人工业相机SDK MVS安装教程

文章目录 一. 海康机器人介绍二. 工业相机客户端安装教程 一. 海康机器人介绍 海康机器人是面向全球的机器视觉和移动机器人产品及解决方案提供商,业务聚焦于工业物联网、智慧物流和智能制造,构建开放合作生态,为工业和物流领域用户提供服务…

低代码平台如何改变软件开发?低代码平台是否能形成新生态?

低代码平台如何改变软件开发?低代码平台是什么?低代码平台又有什么样的独特价值?在如今的市场环境下,低代码平台又能展现出怎样的生机? 01 什么是低代码开发平台? 低代码开发平台是一种更偏向于赋能技术人…

监管机构新出台的会计法规将对阿里巴巴和其他中概股产生重大影响

来源:猛兽财经 作者:猛兽财经 监管机构出台了新的会计法规 猛兽财经获悉,为规范企业数据资源相关会计处理,强化相关会计信息披露,财政部于2023年8月21日制定并发布了《企业数据资源相关会计处理暂行规定》&#xff0c…

使用Python连接MySQL数据库并查找表信息

使用Python连接MySQL数据库并查找表信息 1.导入MySQLdb包 import MySQLdb如果你的PyCharm中没有MySQLdb,就从Setting-》Project Interpreter查找并下载 2.在MySQL中新建一个连接,取名为python ,再新建一个测试表,取名为examples…

FAQ包含哪些内容?

FAQ页面也叫常见问题解答页面,能够帮助回答客户有关你的产品和服务的常见问题,这不仅仅只是一个问题列表,通过解答页面,可以节约销售时间和服务成本,以及可能推动新用户购买。常见问题解答页面可以在整个采购过程中为客…

顺序表链表OJ题(2)->【数据结构】

W...Y的主页 😊 代码仓库分享 💕 前言: 单链表的结构常常不完美,没有双向链表那么”优秀“,所以繁衍出很多OJ练习题。今天我们继续来look look数据结构习题。 下面就是OJ时间!!! …

UEditorPlus v3.4.0 全新公式编辑体验,Logo全新发布

UEditor是由百度开发的所见即所得的开源富文本编辑器,基于MIT开源协议,该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器,主要做了样式的定制,更符…

基于Java+SpringBoot+Vue前后端分离图书管理系统设计和实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

缓存一致性问题

在开发中我们为了提高查询效率,经常使用缓存(典型的缓存技术redis),但是在缓存的使用中我们经常遇到缓存和一致性问题(缓存的数据和数据库的数据不一致) 常见的解决方式 1.双写模式:更新数据库时候同时更新缓存 2.失效模式&#xff…

开源家政小程序源码仿58到家分享 带安装教程完整版

今天继续分享一个家政公司小程序源码系统,完全开源的,可以二次开发,支持多商家,直接在线预约,功能很是强大。 家政小程序源码系统是一款基于微信小程序平台的家政服务管理系统,旨在帮助家政服务公司更好地管…

C语言题目--2

CFLAGS“-Wall” 是将警告更多的显示出来 make ex1 会寻找ex1.c,然后去编辑它 需要编译Makefile,在执行make时,会在目录下寻找Makefile,根据定义去执行make hello是命名规则,下面是具体的命令 注意:用Tab键…

【FreeRTOS】【应用篇】消息队列【上篇】——队列基本概念、创建和删除

文章目录 前言一、什么是消息队列,有什么用1. 概念2. 作用3. 特点 二、消息队列的深入原理1. 消息队列的存储结构2. 出入队列的相关操作① 入队操作:② 发送紧急消息:③ 读取队列操作: 3. 关于队列的阻塞机制① 读操作的阻塞机制&…

checkstyle检查Java编程样式:空格检查

一个空行不能有空格 例如,第22行是空行,有4个空格,checkstyle检查报错: 将4个空格删掉,checkstyle检查通过: 行末尾不能有空格 将行末尾的空格删掉即可消除这个违反项: 用WhitespaceAfte…

驱动作业,按键中断阻塞LED灯

驱动程序 #include "head.h" #include <linux/init.h> #include <linux/module.h> #include <linux/fs.h> #include <linux/uaccess.h> #include <linux/io.h> #include <linux/device.h> #include <linux/export.h> #in…

抖音转化率是什么意思,怎么计算,如何提升效果?

抖音转化率是指在抖音平台上进行某种特定行为的用户数量与总用户数量之间的比率。作为短视频搜索领域的最大平台&#xff0c;抖音转化率一直是企业用户的攻克难题。 茹莱神兽认为&#xff0c;想要提升抖音的转化率&#xff0c;就需要研究它的转化路径。常见的转化行为包括点击…

Java Predicate用法

Java Predicate用法 无需写sql.只要拼接条件就行 Java Predicate用法

未来智造:珠三角引领人工智能产业集群

原创 | 文 BFT机器人 产业集群是指产业或产业群体在地理位置上集聚的现象&#xff0c;产业集群的研究对拉动区域经济发展&#xff0c;提高区域产业竞争力具有重要意义。 从我国人工智能产业集群形成及区域布局来看&#xff0c;我国人工智能产业发展主要集聚在京津冀、长三角、…