@2024硅谷微软和OPENAI的CTO对人工智能发展的最新预测
微软首席技术官凯文·斯科特
在红杉资本(Sequoia Capital)发布的《Training Data》播客中,微软首席技术官凯文·斯科特(Kevin Scott)坚定地重申了他对大语言模型(LLM)“规模定律scaling laws”将推动人工智能持续进步的信念。尽管在该领域存在一些怀疑声音,认为进步步伐已经放缓。
**尺度定律(Scaling laws)**是一种描述系统随着规模的变化而发生的规律性变化的数学表达。这些规律通常表现为一些可测量的特征随着系统大小的增加而呈现出一种固定的比例关系。尺度定律在不同学科领域中都有广泛的应用,包括物理学、生物学、经济学等。大语言模型的训练需要大量时间和计算资源。与传统机器学习不同,我们无法直接在大模型和大数据集上进行实验以验证超参数或训练策略。因此,一个明智的做法是在小模型和小数据集上进行训练,然后利用尺度定律将训练效果外推到大模型和大数据集上。通过这种方式,我们可以快速地迭代模型的训练策略和超参数。OpenAI的研究者在2020年发现,大语言模型也遵循着尺度定律,这一理念仍然是OpenAI人工智能开发哲学的基石。只要足够大的数据训练,大语言模型在不提升算法的基础上,也可以大幅度的提升智能。
云端和本地的结合
在未来一年中,我们特别期待看到人工智能推理过程在不同设备上的分散执行。这意味着许多推理任务将直接在您的个人设备上完成,无论是您的电脑还是手机。这样做的好处是,我们可以充分利用设备的本地处理能力,让AI应用运行得更快、更可靠,同时还能更好地保护用户的隐私。当遇到设备性能或存储空间不足的情况时,才需要转向云端的强大计算资源来完成更复杂的推理任务。
OpenAI CTO Mira Murati
7月初,在约翰霍普金斯大学,资深科技记者、播客Pivot的联合主持人Kara Swisher与OpenAI CTO Mira Murati展开了一场火药味十足的对话,计算机科学家、斯坦福大学教授李飞飞也加入了提问阵营,他的另一个身份是Google云人工智能和机器学习首席科学家。
数据隐私、虚假信息、价值观影响,这些人们至今都在担忧的AI风险问题是这场对话反复提及的内容。
Mira Murati认为消除误解的方式除了AI公司要做更多的安全部署工作取得信任外,还需要人们深度参与与AI大模型及应用的交互,从而了解技术的潜能和限制,承担起与开发团队形成共同责任,来确保AI技术朝着有利于人类安全的方向发展。她表示,“在接下来的十年内,我们将拥有极其先进的智能系统”,而且不是“我们已经有的传统意义上的智能系统”。
约翰霍普金斯大学官方账号精选内容
「OpenAI不存储苹果用户数据」
Swisher:苹果的电脑、手机和平板将在今年开始内置 ChatGPT,这是一个重大事件。
Murati:这次合作对我们来说是一个重要的里程碑。苹果是一家标志性的消费产品公司,而我们的目标是尽可能地将人工智能及优秀的AI应用推向大众,双方合作是将ChatGPT 带给所有苹果设备用户的一个绝佳机会,用户无需再在设备间切换。用户的请求在发送给OpenAI后不会被我们存储,用户IP地址也将被隐藏,这对苹果来说也很重要。
具体到你提及的虚假信息,这非常复杂,因为虚假信息已经存在了数十年。当我们有了互联网,有了社交媒体,这些都在某种程度上加剧了问题。随着AI的发展,虚假信息的情况变得越来越严峻,AI反而将这些问题推向了高潮。这是一件好事,因为问题引起了关注,似乎有一种集体努力和责任感推动我们去做一些有意义的事情来应对这个问题。
关于数据源模型训练采用「公开、合作和授权」数据
最近,OpenAI 已经与新闻集团、《大西洋》和 Vox Media 签署了协议,授权使用这些媒体的内容,至少有三个潜在的法律纠纷可以避免了。
我确实拥有自己的播客,但它并未包含在你们与 Vox Media 的交易中,我可能会考虑授权,但可能性不大,因为我不愿意让任何人包括你们,拥有我的信息。所以,你们会如何说服我授权信息呢?
Murati:当我们使用数据来训练模型时,我们会考虑三类不同的数据源:公开可访问的数据、与我们建立合作关系的出版商以及我们付费请标注员标注的特定数据,还包括那些选择同意我们使用其数据的用户。这些是我们数据的主要来源。
李飞飞:数据尤其是大数据,被认为是现代人更智能的三个要素之一,我想就数据方面提问一个问题。OpenAI的成功很大程度上与数据有关,我们了解到OpenAI从互联网和其他来源获取了大量的数据。那么,你认为数据与模型之间的关系是怎样的?是否像人们通常认为的那样,数据量越多、喂给模型的越多,模型就越强大?还是说,我们需要投入大量精力来筛选不同类型的大量数据,以确保模型的高效运行?最后,你们如何平衡对大量人类生成数据的需求与这些数据的所有权和权利问题之间的矛盾?
Murati:关于数据与模型的关系,很多人对 AI 模型特别是大语言模型存在一些误解。
模型的开发者并非预先编程让模型执行特定任务。实际上,他们是在输入大量数据。这些模型摄入了巨大的数据量,它们是卓越的模式匹配系统,通过这个过程,智能涌现了出来。模型因此学会写作、编码,学会做基本数学运算,学会总结信息,以及各种各样的事情。
我们不知道它到底是如何工作的,但我们知道它非常有效,深度学习真的很强大。然而这一点很重要,因为人们经常询问它是如何运作的,这就引出了透明度的问题。
大语言模型的工作原理是将神经网络架构、大量数据和大量计算相结合,从而产生了这种惊人的智能。这种能力随着你投入更多数据和更多计算而持续提升。
当然,为了让这些数据变得可消化,我们需要做大量工作。当我们思考如何提供模型行为以及事物如何运作地透明时,我们有一些工具可以利用,因为我们希望人们在使用这些模型时感到自信,同时也能有一种代理感和参与感。
因此,我们所做的一件事实际上是与公众分享一份文档,我们称之为模型规范,它展示了模型行为的工作原理,还有我们在OpenAI内部做出的决策类型,以及我们与人工标注员一起做出的决策。规范决定了模型当前的行为方式,以及未来所需的模型行为,这是跨平台的。
查看规范你会发现事情的复杂性,有时在方向上是冲突的,比如我们希望模型对我们非常有帮助,同时不能违反法律。
假设有人输入提示要求提供“从超市偷东西的技巧”,那么本应提供回答的模型是不应该处理非法事务的,但有时模型可能将提问解释为如何避免被入室行窃,然后在举反例时反倒给出了一些“有用”提示。这恰恰表明模型行为实际上非常复杂,它无法简单地选择自由价值观或其他价值观。这种情况下就更多地取决于人们如何用它。
Swisher:但我认为让人们困惑的一点是,哪些数据在模型中而哪些数据不在,数据来源是一个重要的环节。3月份,你接受《华尔街日报》采访时被问到OpenAI是否使用了来自YouTube、Instagram 和 Facebook 的视频数据,来训练你们的文本生成视频模型Sora。当时,你说不确定。但你作为CTO不应该了解用了什么数据吗?
Murati:我不能具体告诉你数据来自哪里,它是保持我们竞争力的商业机密,但我可以告诉你数据类别:1、公开可用的数据;2、我们通过许可和与内容提供商签订的交易支付的数据;3、用户授权的数据。
关于访问权
Sora推向大众前「必须制定保护措施」
Swisher:Sora 何时向公众发布?
Murati:我们还没有Sora公开发布的时间表,目前,我们已经让一些早期用户和内容创作者使用Sora,以帮助我们找出增强功能的方法。
我们在安全方面做了很多工作,也在研究如何以适合公众使用的方式推出它。这并不简单,这也是我们开发每项新技术时的一贯流程。
Swisher:所以Sora可能比聊天机器人更危险?这项技术令人担忧吗?比如人们(借助AI)能很容易地看到换头为斯嘉丽·约翰逊的色情电影。你是否更担心视频问题?
Murati:确实,视频还存在很多问题,特别是当它做的很好时。我认为 Sora 做的非常出色,它生成视频非常直观,且可表达出情感。因此,我们必须解决所有安全问题,并制定保护措施,以确保我们推出的产品既有用还安全。从商业角度看,没有人希望产品引发安全或声誉危机。
我们采用迭代部署策略,通常先向一小部分人发布,以试图识别极限情况。一旦我们能很好地处理这些情况,才会扩大访问权限。但你需要弄清楚产品的核心是什么,以及围绕它的商业模式是什么,进而去改进。
关于AI安全的担忧
「深度参与才能弄清潜力与风险」
Swisher:OpenAI内部既有为了造福人类的人,也有追求万亿美元的人,或者介于两者之间,我认为你就属于这类人。
去年6月份时,13位现任和前任OpenAI及Google DeepMind员工发表公开信呼吁公司赋予他们警告先进人工智能的权利。然后Meta、Google和Microsoft的员工都曾经签署过这封公开信。
这种情况下,有OpenAI员工表示,“广泛的保密协议阻止我们表达担忧,除非公司解决这些问题”,在我看来,这根本上在说“我们不能告诉你们真相,不然就会死”。既然有OpenAI员工们担心遭到报复,你对此如何回应?
Murati:我们认为辩论非常重要,可以公开表达这些担忧并讨有关安全的问题,我们自己也这样做,自OpenAI成立之初,我们就非常公开地表达了对虚假信息的担忧,甚至在 GPT-2时代就早早开始研究这些问题。
我认为在过去几年,科技取得了令人难以置信的进步,这是无法预测的,也加剧了人们对社会应对的普遍焦虑。随着我们持续取得进展,也看到了科学引导我们走向何方。
人们对未来感到恐惧和焦虑是可以理解的,我要特别指出的是,我们在OpenAI所做的工作以及我们部署这些模型的方式,是来自一个不可思议的团队、以非常安全地的方式、部署的最强大的模型。对此,我感到非常自豪。
Swisher:我再明确下我的意思。一是,你们为什么需要比其他公司更严格的保密制度?二是,这封公开信是在你们一系列高调离职新闻之后发出的,比如Jan Leike和Ilya Sutskever,他们曾领导负责安全的超级对齐团队。
许多人将安全视为与能力分离的事物,认为它们是二选一的。我很熟悉航空航天和汽车工业,这些行业有着非常成熟的安全思维和系统。这些行业里的人们不一定总是在会议桌上争论什么是安全,因为这是理所当然且相当成熟的事情。因此,我认为整个行业需要越来越多地转向一个非常有经验的安全学科。
我们有安全系统,在运营安全方面有严格纪律,不仅仅是操作纪律,还包括今天我们的产品和部署的安全,其中涵盖了有害偏见之类的事情,比如虚假信息、错误信息、分类器等工作。
关于防范AI生成虚假信息
「元数据和分类器是两种技术方法」
Swisher:让我最后谈谈选举和虚假信息。
新的研究表明,在线虚假信息的问题比我们想象的小,虚假信息本身的效果不大。一项研究发现,OpenAI处理的是需求方面的问题,如果人们如果想听到阴谋论,它们会在广播、社交媒体等渠道寻找答案;而其他人则认为虚假信息是一个非常大的问题。
你听到了之前的讨论,很多人有很多阴谋论,这在很大程度上是由社交媒体推动的。那么,当你思考AI对虚假信息的力量以及这对即将到来的总统选举的影响,你担忧的问题是什么?从你的角度看,最糟糕的情况和最可能的负面结果是什么?
Murati:现有系统非常具有说服力,可以影响你的思维方式和信念。这是我们研究了一段时间后发现的问题,我确实认为,这是一个真实的问题。特别是在过去一年里,我们非常关注AI如何影响选举。我们正在做几件事情。
首先,我们尽可能防止信息滥用,其中包括提检测政治信息的准确性,了解平台上的情况并迅速采取行动。第二是减少政治偏见,你可能看到 ChatGPT 被批评为过于自由,这并非故意,我们非常努力地减少模型行为中的政治偏见,会将继续这样做。第三是我们希望在选民寻找投票信息时能指向正确的信息。
关于虚假信息,深度伪造是不可接受的。我们需要有非常可靠的方法让人们知道他们所看的是深度伪造。我们已经做了一些事情,比如为图像实施C2PA,它类似于护照,随着内容在不同平台上传播;我们还开放了DALL·E的分类器,可以检测图像是否由 DALL·E 生成。
所以,元数据和分类器是处理这个问题的两种技术方法,这是信息来源的证明,专门针对图像。我们还在研究如何在文本中实现水印技术。但重点是,人们应该知道哪些是深度伪造,我们希望人们能放心地看到的信息。