每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
当我询问Demis Hassabis是否能拯救Google时,他通过屏幕紧紧地盯着我。在他的家乡英国,已是傍晚时分,而这位DeepMind的创始人正在加班。自从去年夏天吞并了Google Brain后,他所在的这家Google旗下AI研究机构如今领导着公司的全部AI研究工作,面前的任务无比庞大。
Google的核心业务正蓬勃发展,但那似乎与本质无关。Hassabis和我是通过Google Meet交谈,在Gmail安排的采访中,通过Google Calendar安排时间,并通过Google搜索进行研究。主要得益于这些核心产品,Google去年公布了3070亿美元的收入,第四季度增长了13%,股价接近历史最高点。但是,关于其是否能赢得AI竞赛,或者甚至能否胜任竞赛的问题,已经给它最近的成功蒙上了阴影。
“我并不是那样看待的,”Hassabis挑战我的问题的前提。他说,人工智能将“颠覆很多很多事情。当然,你想要站在影响那些颠覆的前沿,而不是处在被动接受的一端。”
Hassabis是那个应该保持Google处于这一前沿的人。这位屡获殊荣的研究员和神经科学家——就在周四被授予爵士称号——领导了一个充满活力的AI团队,该团队负责Google多项突破。自2014年被收购以来,DeepMind已经通过革命性的AI模型攻克了看似不可能的棋类游戏AlphaGo,解码了蛋白质AlphaFold,并为合成数千种新材料奠定了基础。
但现在,Hassabis和合并后的Google DeepMind团队必须将这些类型的突破转化为一个价值1.8万亿美元的公司在日益增长的AI世界中寻求的实质性产品改进。而且他必须在不破坏提供丰厚蓝链接收益的搜索广告业务的情况下完成这一切,AI正威胁着这一业务。
对于聊天机器人的推出延迟,充斥着命名混乱,以及刚刚过去的尴尬图像生成事件,前进的道路不会简单。但Hassabis有机会修正这一切。对于那些认识他、与他共事并且仍然与他共事的人——所有这些人我都为这个故事采访过——Hassabis可能正是这份工作的完美人选。
“我们非常擅长发明新的突破,”Hassabis告诉我。“我认为我们将在未来再次处于做到这一点的前沿。”
从大脑到计算机
Hassabis于1976年7月出生于一个有着华裔新加坡母亲和希腊塞浦路斯父亲的家庭,在北伦敦的童年里,他开始思考AI。作为一个有职业抱负的年轻棋手,Hassabis在11岁时注意到他一直在对抗训练的电子棋盘内部有某种形式的智能,并对这项技术产生了兴趣。“我对这块塑料是如何被编程来下棋的很感兴趣,”他说。“我开始读一些关于它的书并编程我自己的小AI游戏。”
在17岁时共同创造了热门游戏《主题公园》后,Hassabis继续在剑桥大学学习计算机科学,然后在20多岁时回到游戏开发领域。到那时,游戏中的基础AI系统已经变得无处不在,Hassabis决定如果他想在该领域有所作为,就需要理解人类大脑是如何工作的。于是他报名参加了伦敦大学学院的神经科学研究生课程,然后在麻省理工学院和哈佛大学进行博士后研究。
“他非常聪明,而且与我认识的一些其他聪明人不同,”麻省理工学院教授、计算神经科学先驱、Hassabis的博士后导师Tomaso Poggio说。“并不是说他在任何一个领域技术上是魔术师——好吧,也许是棋类游戏——但他对你能谈论的所有事情都非常聪明。而且非常有说服力,毫不费力。”
有一天晚上,Poggio邀请Hassabis共进晚餐,他的学生正酝酿一个新公司的想法,这家公司将利用神经科学的教训来推进AI的发展。他相信,人工大脑可以像人类一样工作。而游戏可以模拟现实世界环境,是理想的训练场。
晚餐后,Poggio问他的妻子是否应该投资Hassabis的新公司,尽管她刚刚见过他,但她告诉他要参与进来。Poggio成为DeepMind最早的投资者之一,尽管他希望自己能给Hassabis更多的资金。“这是件好事。不幸的是,钱不够多,”他说。
在DeepMind的早期,Hassabis通过在游戏模拟中运行AI代理来实现这一愿景。通过这种方式,他帮助推进了强化学习,一种AI训练类型,你让一个机器人在没有任何指令的情况下运行,给予它无数次失败的机会,最终它学会了需要做什么才能赢。
“他们有一个代理在玩所有的Atari游戏,”在DeepMind工作过现在是AI创业公司Common Sense Machines首席执行官的Tejas Kulkarni说。“这是深度强化学习首次证明了自己。就像,哇,这是要去的地方。包括我在内的每个人都涌向那里。”
如果说Atari是前菜,AlphaGo就是主菜。围棋是一个比宇宙中的原子还要多的可玩组合的棋类游戏,正如Hassabis所说,它是AI的“珠穆朗玛峰”。2016年3月,DeepMind的AlphaGo——一个结合了强化学习和深度学习(另一种AI方法)的程序——在七天内以四比一击败了围棋大师李世石。这是AI的一个分水岭时刻,展示了有足够的计算能力和正确的算法,AI可以学习,感知其环境,计划,推理,甚至创造。对于那些参与其中的人来说,这次胜利让人工通用智能——与人类智能相当的AI——首次感觉到触手可及。
“那是纯粹的魔法,”Kulkarni说。“那是人们开始认为,好吧,AGI现在要来了。”
“自DeepMind开始,我们就一直有这个20年计划,”当被问及AGI时,Hassabis说。“我认为我们正处于正确的轨道上,但我觉得那是一个我们知道需要跨越的巨大里程碑。”
进入OpenAI
当DeepMind欢庆之际,一个严峻的挑战在其鼻子底下酝酿。埃隆·马斯克和萨姆·奥特曼在2015年创立了OpenAI,尽管内部充满戏剧,但该组织开始致力于文本生成。
讽刺的是,Google内部的一个突破——称为变换器模型——导致了真正的飞跃。OpenAI使用变换器来构建其GPT模型,最终驱动了ChatGPT。其生成的“大型语言”模型采用了一种称为“自监督学习”的训练形式,专注于预测模式,而不是像AlphaGo那样理解它们的环境。OpenAI的生成模型对它们所处的物理世界一无所知,使它们成为通向人类级智能的可疑路径,但仍然变得非常强大。
根据内部人士的说法,DeepMind并没有足够重视生成模型,也许是因为它们与Hassabis的AGI优先级不一致,与强化学习相距甚远。无论出于何种理由,DeepMind在一个关键领域落后了。
“我们一直在自监督和深度学习上做惊人的前沿工作,”Hassabis告诉我。“但也许是工程和扩展组件——我们本可以更早、更努力地做。显然我们现在完全在做这个。”
前DeepMind工程师Kulkarni认为,当时整个AI领域都不尊重生成模型,简单地没有显示出足够的潜力来证明投资。他说:“有人采取反向押注必须追随那条道路。那就是OpenAI所做的。”
当OpenAI致力于反向押注时,DeepMind及其在Google内部的AI研究对手Google Brain,在沟通上遇到了困难。多位前DeepMind员工告诉我,他们的部门有一种优越感。它还努力将自己与Google母船隔离开来,也许是因为Google的产品焦点可能会分散对更广泛AGI目标的注意力。或许仅仅是因为简单的部落主义。无论如何,在发明了变换器模型之后,Google的两个AI团队并没有立即利用它。
“我因为与Brain合作论文而惹上麻烦,因为想法就像,嗯,你为什么要与Brain合作呢?”一位前DeepMind工程师说。“你为什么不只在DeepMind内部工作呢?”
DeepMind继续推动其核心研究向前发展。2022年7月,其AlphaFold模型预测
了科学已知的几乎所有蛋白质的3D结构。这又是一个重大进步,可能会推动几十年的药物发现。Hassabis告诉我,这是他的标志性项目。
“我们有成千上万的生物学家和科学家从世界各地访问那个数据库,”DeepMind首席商务官Colin Murdoch在Big Technology Podcast采访中说。科学家们正在从事一切从抗生素抗性到疟疾疫苗开发的工作。这是一个巨大的突破。
然后,几个月后,OpenAI发布了ChatGPT。
AI战争与Google的未来
起初,ChatGPT只是一个好奇心。这个OpenAI的聊天机器人在2022年底出现在舞台上,出版物试图理解它的重要性。“ChatGPT是OpenAI对GPT-3的最新修正,”MIT Tech回顾标题消化它的首次亮相。“它很流畅但仍然胡说八道。”
在Google内部,这款产品让人想起了LaMDA,一款公司内部运行的生成式AI聊天机器人——甚至让一名员工相信它是有知觉的——但从未发布。当ChatGPT成为历史上增长最快的消费产品,并且似乎对搜索查询有用时,Google意识到它手上有一个问题。几乎立即,人们开始将它与创新者的困境联系起来。从精神上讲,如果不是从名称上讲,公司内部开始实行“紧急状态”。
Google的和平时期结束了。在新的AI战争中,它的第一大举措是将竞争对手Google Brain和DeepMind团队合并为Google DeepMind,并由Hassabis领导。大型语言模型需要大量的计算来运行和训练,将计算分配给两个AI研究部门将阻碍它们的进展。因此,从这个角度来看,合并是有实际意义的。
按照Hassabis的说法,AI研究和产品也开始碰撞到一个程度,合并它们是合乎逻辑的。是否解决蛋白质折叠可以带来更好的搜索仍然有点不确定,但Hassabis提供了一个值得考虑的论点。他说,构建一个可靠的科学助手,需要解决AI的幻觉问题才能工作。“如果我们在那个领域解决了这个问题,”他说,“我们可以将其引入核心Gemini,然后为聊天机器人和助手解决它。”
“他们就像这样一辆大型半挂车,试图以法拉利的速度移动”
Gemini,Hassabis提到的产品,是Google对OpenAI GPT模型的回应。根据大多数专家的说法,它与OpenAI的技术不相上下。在二月,Hassabis和Google CEO Sundar Pichai宣布了Gemini 1.5,一个大型语言模型,上下文窗口高达100万个标记。这足以处理1小时的视频、11小时的音频或十本书的信息。一个有效的反击。
几乎没有人质疑Google DeepMind生产出色AI模型的能力,但那些接近公司的人士想知道它是否能够穿越Google的官僚机构,将那些研究转化为出色的产品。要成功,Hassabis将不得不说服一个保守的Google产品组织将他的进步推向生产。对于一个极其不愿意推出可能破坏其成功平衡的变化的公司来说,这将不是一件简单的事情。
“他们就像这样一辆大型半挂车,试图以法拉利的速度移动,”在LaMDA上工作过的前Google产品经理Guarav Nemade说。
本月早些时候,当其Gemini图像生成器失控,创造出历史不准确的图像时,包括一些将纳粹描绘成有色人种的图像,Google深切感受到了痛苦。这是一个尴尬的插曲,很大程度上是组织功能失调的产物。
当我询问我的消息来源Hassabis需要做什么才能成功时,几乎所有人都想知道Google是否会给他权限推动公司产品内部的戏剧性甚至痛苦的变化,以推动AI向前发展。Hassabis告诉我,他仍然处于研究方面,没有参加产品会议,但他的工作现在与Google的产品组织密切相关。“我们与产品单位的联系越来越紧密,”他说。“过去几年对于那些技术如何帮助产品功能的头脑风暴需求巨大。”
AI的下一步
随着聊天机器人扩展到超越会话伙伴——成为代表我们采取行动的代理——Hassabis的基础研究有望发挥主导作用。OpenAI已经在开发自主采取行动的代理软件,Hassabis说DeepMind也在这方面做了大量工作。
“我们从一开始就深入代理,对吧?那就是我们所有游戏工作的内容,”他说。“我们相信,代理系统实际上是你需要的智能。”
就像AlphaGo使用Hassabis所钟爱的强化学习来映射其环境一样,AI代理可以使用类似技术来映射我们的世界并自行采取行动。这是比今天的会话模型更大的一步,后者要求用户启动交互,然后才提供信息。当Hassabis谈到这个全方位时刻的可能性时,他眼前一亮。
“我们相信,代理系统实际上是你需要的智能。”
“下一步是让这些系统为你做事情,为你解决问题,预订假期,餐厅,等等。你可以给它们目标,等等,”他说。“我们是做到这一点的专家。”
如果Hassabis完成了任务,他可能会面临新的问题,包括他是否应该管理Google本身,而不仅仅是其AI研究。在这里成功将意味着让Google重新成为AI领导者,考虑到今天的立场,这将是一项壮举。许多认识Hassabis的人希望他成为下一任CEO,并在与我交谈时这样说。但他们可能不得不屏住呼吸。
“我自己还没有听说过,”Hassabis在我提出CEO谈话后说。他立刻指出自己在研究方面有多忙,前面还有多少发明,以及他多么想成为其中的一部分。也许,鉴于局势,这正是Google需要他的地方。“我可以做管理,”他说,“但那不是我的热情。可以这么说。我总是尽量优化研究和科学。”