谷歌创始人布林重返职场,投入研发AI杀手锏!预计下半年推出下一代通用模型『Gemini』,和OpenAI的终局之战!

news2024/12/27 11:17:12

 

图片

夕小瑶科技说 原创
作者 | 王思若

大家好,我是王思若。在大模型混战的当下,去繁就简,最核心的目标或者使命始终是通用人工智能AGI,但目前而言,也只有OpenAI和Google可能会在这个需要海量算力支撑和资金支持的方向上构建出完整的技术路线。

然而,遗憾的是OpenAI选择了闭源并构筑了坚实的护城河,所有人都试图从其内部员工的发言中了解关于GPT-4的任何模型细节,甚至分析GPT-4不同时间节点的性能表现来推理其模型改进,但无疑都只是隔靴搔痒,一个核心的问题永远摆着社区的面前:如何走向通用人工智能?或者说,如何让模型学习并理解人类物理世界?

在通向AGI的道路上,Google提出了下一代通用模型『Gemini』并预备在今年晚些时候发布,Gemini即通用多模态智能网络(Generalized Multimodal Intelligence Network),这是Google面对GPT-4威胁的背水一战,辞职四年的Google联合创始人谢尔盖·布林(Sergey Brin)重返工作并协助创建Gemini系统,Gemini无疑是下半年大模型赛道的焦点。

Gemini系统目前透漏的消息非常契合笔者对未来AGI模型的构想,无疑Gemini也将会是闭源系统,但好消息是我们将距离AGI越来越近了,开源社区或许有机会可以学习和借鉴Google探索出的大模型范式。

一、Gemini系统

  • 2023年4月20日,Google的CEO 皮柴(Pichai)宣布合并DeepMind和Google Brain,成立Google DeepMind,将Google在AI领域的世界级人才、计算能力、基础设施等资源结合起来,目标很简单,开发对标GPT-4的多模态模型,项目代号“Gemini”(双子星)。

  • 2023年5月10日,Google I/O 2023发布会开始预告Gemini模型,强调Gemini在使用工具和集成 API 方面表现出色,并致力于实现在记忆和规划方面的创新。Gemini仍在训练中但是已经展现出之前所有模型中未曾见过的多模态能力。 经过微调和严格的安全测试后,Gemini 将提供各种尺寸和功能,以确保它可以部署在不同的产品、应用程序和设备上。

  • 2023年6月14日,有爆料称Google使用Youtube视频进行模型训练,Google的研究人员一直在使用YouTube 开发其下一个大型语言模型 Gemini。

  • 2023年6月14日,Google DeepMind的CEO Hassabis表示Gemini系统将比ChatGPT背后的系统更加强大,DeepMind 的 Gemini 仍在开发中,是一种处理文本的大型语言模型,本质上与为ChatGPT 提供支持的 GPT-4类似。但Gemini融入了AlphaGo系统的能力(强化学习+树搜索?)并进行了一些有趣的创新,预计在几个月的时间投入数千万或数亿美元开发完成。

  • 2023年7月11日,Hassabis接受纽约时报的采访时候表示,我们正在开发Gemini系统来迎接下一个时代,这将是一个极其强大的通用系统,基本上通过语言进行交互,具有数学、编码等通用功能,并能够进行推理和规划能力。在这种场景下,那些类似于AlphaGo和AlphaFold的专业人工智能系统将被统称为工具。

  • 2023年7月11日,Hassabis在The Verge采访中表示,Gemini是Google的下一代多模态大模型,结合了世界一流AI研究团队(DeepMind和Google AI)所有的最佳想法,与未来几年发生的事情相比,今天的聊天机器人看起来微不足道!

  • 2023年7月20日,华尔街日报:“Gemini 是 Google 尝试构建的通用人工智能程序,可以与 OpenAI 的 GPT-4 模型相媲美。负责该项目的谷歌高管 Demis Hassabis 在最近的一次全公司会议上告诉员工,该计划将于今年晚些时候推出。”

Gemini 是一个多模式智能网络,能够同时处理多种类型的数据和任务。这包括文本、图像、音频、视频、3D 模型,甚至图表。Gemini 不仅仅是一个单一的模型。它是一个模型网络,每个模型都对系统的整体功能做出贡献。这种网络架构使 Gemini 能够处理各种各样的任务,而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习,使 Gemini 成为一个极其多功能且强大的人工智能工具。

Gemini 使用融合了多模态编码器和解码器的新架构。编码器的工作是将不同类型的数据转换为解码器可以理解的通用语言。然后解码器接管,根据编码输入和手头的任务生成不同模式的输出。用户提供各种格式的输入---文本、图像、音频、视频、3D模型、图形等。编码器获取这些输入并将它们转换为解码器可以理解的通用语言。编码后的输入随后被输入到模型中。该模型与任务无关,这意味着它不需要知道它正在执行的任务的细节,只是根据手头的任务处理输入。解码器从模型中获取经过处理的输入并生成输出。根据用户偏好,输出可以采用不同的方式。

二、Gemini系统为何与众不同?

我们其实可以从DeepMind和Google Brain合并,一窥Google对Gemini孤掷一注的决心,一直以来DeepMind都是Google内部‘不服管教’的存在,自从被Google收购以来,一直由创始人Demis Hassabis(戴密斯·哈萨比斯)管理,而Google Brain一直由老将Jeff Dean负责,这次合并成Google DeepMind之后,Hassabis担任CEO,Jeff Dean担任首席科学家,二人分别同时向皮柴汇报,这次Gemini (双子星)系统的命名确实有些意味深长~

Gemini 似乎将不仅仅是一个新的人工智能模型;这是对人工智能未来的一瞥,凭借其多模式功能和创造力,Gemini 将重新定义人工智能的功能以及我们与其交互的方式。

GPT-4 VS Gemini系统

图片

GPT-4 主要是基于文本的模型,它旨在处理涉及文本数据的任务,例如撰写论文、回答问题或翻译语言。谷歌开发的Gemini是一个多模态智能网络,这意味着它旨在同时处理多种类型的数据和任务。Gemini 可以处理文本、图像、音频、视频、3D 模型,甚至图形。这使得 Gemini 比 GPT-4 更加通用,因为它可以处理更广泛的任务和数据类型。

Gemini 不仅仅是一个单一的模型,而是一个模型网络。这种网络架构使 Gemini 能够处理各种各样的任务,而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习,使 Gemini 成为一个极其多功能且强大的人工智能工具。它的适应性更强。它可以处理任何类型的数据和任务,无需专门的模型或任何类型的微调。另外,它可以从任何领域和数据集中学习,而无需被预定义的类别或标签限制。

三、一些想法

借用一个简单的例子来说明笔者的观点,你准备学习国际象棋,闭门苦修每日背诵棋谱,观看大师的比赛,认真观察并思考如何下棋。但你依然没成为一个优秀的棋手。

你开始和棋道大师对垒,大师默默地做出动作并每次都能把你逼至角落,一次次的失败开始让你不断进行学习,然而,你在失败时的进步十分缓慢,在你看来,你需要更多的比赛才能达到不错的水平。但结果依然还是胜少败多,你开始鼓起勇气向大师请教,大师向你解释开局、策略和战术,让你反复从相同的起始位置开始学习如何破解它们,并在每个阶段都和相同水平的学徒竞争,你终于感觉自己在稳定进步并掌控了下棋的窍门。

这同时引出了学习的三种范式:

  • 模仿学习。被动的学习并观察,从数以千万的棋局中学习获胜的方法,棋道大师可能精心铺设多步来实现其目标,并且有着丰富的上下文环境,可能的动作序列会呈指数级爆炸。

  • 自主学习。和专家互动,每次行动的最终结果都会得到反馈,开始慢慢修正自己的表现,这依然需要不断的尝试才能得到大概的方案。

  • 指导学习。专家通过简短的动作序列和即时的反馈让你学习问题的解决方案,通过学习的大量的组合方案,你将学会问题的有效解决算法。

现有的范式大都通过预训练(模仿学习)构建基座模型+基于基座模型进行指令微调和人类反馈强化学习RLHF等进行对齐(自主学习)。但这距离AGI的实现还相去甚远,目前RLHF的对齐方案面临着诸多限制(基座模型能力限制了模型的泛化性、对齐税(alignment tax))并且还有目前所有基座模型挥之不去的Hallucination现象。

LeCun 得出的结论是:“auto-regressive LLMs are doomed”(自回归模型终将失败),并提出了世界模型。虽然LeCun的想法招致了巨大的争议,但模仿学习(auto-regressive learning)+自主学习(对齐)终究类似于‘邯郸学步’,这里说一点笔者的想法,我们或许可以不断学习世界的大量文本从而一定程度上理解世界,但是我们绝不可能通过看特级大师下棋从而成为特级大师,专家的思维可能根本无法从其行为中推断出来,目前的对齐只能在Chat场景玩一玩,实际在垂直领域的应用中,大模型对齐方案解决不了根本问题。那么自然而然,将指导学习融入模仿学习中更符合笔者心目中下一代模型的畅想,即把强化学习融入到模型训练阶段,能够从环境中不断学习,实现智能的进化,进而实现通用人工智能AGI。

在去进一步推导,有了这样的想法,我们该去怎么做?

Demis Hassabis明确表示了在 Gemini 上使用了 AlphaGo的强化学习技术(有些指导学习的意味了),Gemini 是一个模型网络。这种网络架构使 Gemini 能够处理各种各样的任务,而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习,使 Gemini 成为一个极其多功能且强大的人工智能工具。

味道对了!笔者认为,Gemini将会让Google迎来属于他自己的ChatGPT时刻,而这种想法部分来自于DeepMind曾经的成功,如其开发的AlphaFold2真切的改变了一个领域的范式,而Google举其全部的AI力量做出来的Gemini我们不可能不去期待,并且另一部分来自于Gemini非常符合笔者对未来通用模型架构的观念。

或许,真如Hassabis所说,在Gemini面前,如今的聊天机器人看起来微不足道。

Gemini大概率会在10月份发布,但也可能会稍晚一些,这一次,Google赌上了全部身家在Gemini上,我们拭目以待!

 大模型AI全栈手册

**行业首份AI全栈手册开放下载啦!!**

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/832849.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Spring】AOP切点表达式

文章目录 1、语法2、通配符3、execution4、within5、annotation6、args7、args8、bean9、this10、target11、target12、within13、表达式组合14、补充 1、语法 动作关键词(访问修饰符 返回值 包名.类/接口名 .方法名(参数)异常名) 举例: execution(public User c…

frida学习及使用

文章目录 安装frida安装python3.7设置环境变量安装pycharm和nodejs 使用frida将frida-server push到手机设备中端口转发安装apk使用jadx查看java代码运行frida-server frida源码阅读frida hook方法Frida Java层hoookJavaHook.javaJavaHook.js Frida native层hook 一NativeHook.…

【Leetcode】(自食用)找到消失的数字

step by step. 题目: 给你一个含 n 个整数的数组 nums ,其中 nums[i] 在区间 [1, n] 内。请你找出所有在 [1, n] 范围内但没有出现在 nums 中的数字,并以数组的形式返回结果。 示例 1: 输入:nums [4,3,2,7,8,2,3,1] 输…

模板方法模式——定义算法的框架

1、简介 1.1、概述 模板方法模式是结构最简单的行为型设计模式,在其结构中只存在父类与子类之间的继承关系。通过使用模板方法模式,可以将一些复杂流程的实现步骤封装在一系列基本方法中。在抽象父类中提供一个称之为模板方法的方法来定义这些基本方法…

js沙箱逃逸

目录 一、什么是沙箱(sandbox) 二、沙箱技术的实现 & node.js 2.1简单沙箱程序示例 2.2this.tostring S1: S2: 三、arguments.callee.caller 一、什么是沙箱(sandbox) 在计算机安全性方面,沙箱(沙盒、sanbox&#xff…

【【萌新的STM32学习-4】】

萌新的STM32学习-4 STM32系统框架 1.1 Cortex M 内核& 芯片 F1有四个驱动单元 四个被动单元 AHB 高级高性能总线 APB 高级外围总线 部分系统结构 最上面的ICode 总线直接连接到了内部Flash 不需要通过总线矩阵 . D Code 总线(D - Bus) 这是Cort…

Kubernetes高可用集群二进制部署(五)kubelet、kube-proxy、Calico、CoreDNS

Kubernetes概述 使用kubeadm快速部署一个k8s集群 Kubernetes高可用集群二进制部署(一)主机准备和负载均衡器安装 Kubernetes高可用集群二进制部署(二)ETCD集群部署 Kubernetes高可用集群二进制部署(三)部署…

Delphi Enterprise Crack

Delphi Enterprise Crack Delphi帮助您使用Object Pascal为Windows、Mac、Mobile、IoT和Linux构建和更新数据丰富、超连接、可视化的应用程序。Delphi Enterprise适合开发团队构建客户端/服务器或多层应用程序、REST服务等。 Delphi功能 单一代码库-用更少的编码工作为所有主要…

MySQL 详细学习教程【万字长文, 建议收藏】

目录 1. Mysql入门1.1 Mysql5.7 安装配置1.2 命令行连接到Mysql1.3 图形化软件1.3.1 Navicat1.3.2 SQLyog 1.4 数据库三层结构 2. Java操作数据库、表2.1 创建数据库2.2 查询数据库2.3 备份恢复数据库2.4 创建表2.5 修改表 3 CRUD3.1 insert插入3.2 update修改3.3 delete修改3.…

一篇文章搞定《LeakCanary源码详解(全)》

一篇文章搞定《LeakCanary源码解析》 前言LeakCanary和LeakCanary2区别LeakCanary的快速使用第一步:添加依赖第二步:初始化LeakCanary第三步:运行应用程序并监测内存泄漏 LeakCanary基础铺垫四大引用WeakReference和ReferenceQueueRefercence…

【Spring】(二)从零开始的 Spring 项目搭建与使用

文章目录 前言一、Spring 项目的创建1.1 创建 Maven 项目1.2 添加 Spring 框架支持1.3 添加启动类 二、储存 Bean 对象2.1 创建 Bean2.1 将 Bean 注册到 Spring 容器 三、获取并使用 Bean 对象3.1 获取Spring 上下文3.2 ApplicationContext 和 BeanFactory 的区别3.3 获取指定的…

2023-02-03——2023-08-03,半年以来与客服交流的记录【CSND 文章撰写 网站使用求解】客服咨询交流记录(长期更新ing)

这世界上久处不厌,都是因为用心。 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌿[2] 2023年城市之星领跑者TOP1(哈尔滨)🌿 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🏅[4] 阿里云社区特邀专家博主🏅 🏆

Cesium 实战教程 - 调整 3dtiles 倾斜摄影大小

Cesium 实战教程 - 调整 3dtiles 倾斜摄影大小 核心代码完整代码在线示例 之前由于误解遇到一个特殊的需求:想要把三维球上叠加倾斜摄影进行自由放大缩小,跟随地图的缩放进行缩放。 后来经过搜索、尝试,终于实现了需求。 但是,后…

什么是强化学习?

📝什么是强化学习? 1. 📝监督,非监督,强化2. 📝非 i.i.d3. 📝强化学习基本形式4. 📝马尔可夫过程 🌟 强化学习(Reinforcement Learning,RL&#x…

windows安装kafka配置SASL-PLAIN安全认证

目录 1.Windows安装zookeeper: 1.1下载zookeeper 1.2 解压之后如图二 1.3创建日志文件 1.4复制 “zoo_sample.cfg” 文件 1.5更改 “zoo.cfg” 配置 1.6新建zk_server_jaas.conf 1.7修改zkEnv.cmd 1.8导入相关jar 1.9以上配置就配好啦,接下来启…

小红书博主排名丨狂揽近百万粉丝,女性议题成“爆款制造机”?

从上野千鹤子和北大女生的对谈,到电影《消失的她》,再到引爆“粉色狂潮”的电影《芭比》,近年来,女性话题、两性情感话题成为社会热门议题。“踩过恋爱所有坑,想给姑娘撑把伞”,近期,小红书博主…

2023年华数杯数学建模B题思路代码分析 - 不透明制品最优配色方案设计

# 1 赛题 B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明 制品的配色对其外观美观度和市场竞争力起着重要作用。然而,传统的人工配色 存在一定的局限性,如主观性强、效率低下等。因此…

docker容器学习笔记1

docker容器是干什么用的 docker就是一个轻量级的虚拟机,是一个容器,隔离性好,能够确保环境的统一,有效利用系统资源,轻松迁移和拓展。简单的可以理解为容器就是一个小型功能齐全的虚拟机。 实际上是如何使用的呢&…

RocketMQ发送消息超时异常

说明:在使用RocketMQ发送消息时,出现下面这个异常(org.springframework.messging.MessgingException:sendDefaultImpl call timeout……); 解决:修改RocketMQ中broke.conf配置,添加下…

2023华数杯数学建模竞赛C题思路解析

如下为:2023华数杯数学建模竞赛C题 母亲身心健康对婴儿成长的影响 的思路解析 C题 母亲身心健康对婴儿成长的影响 母亲是婴儿生命中最重要的人之一,她不仅为婴儿提供营养物质和身体保护,还为婴儿提供情感支持和安全感。母亲心理健康状态的不…