(LLM) 很笨

news2025/1/12 12:01:45

大型语言模型 (LLM) 并非你所想的那样。你被骗了。LLM 很笨,非常笨。事实上,它们更接近数据库,而不是人类。

这就是为什么人工智能仍然处于征服智能的第一步……如果有的话。

终极煤气灯效应

建立前沿人工智能的成本很高。前沿人工智能需要大量风险资本。前沿人工智能实验室筹集了数十亿美元。前沿人工智能没有达到预期。前沿人工智能实验室撒谎来证明数十亿美元的投资是合理的。

这就是目前的人工智能行业。

(LLM) 不具备推理能力。

要想聪明,你必须具备推理能力。然而,法学硕士不会推理。或者说,几乎不会推理。

那么,LLM 们会怎么做呢?大多数时候,他们会呕吐。

业界最大的错误是接受我们可以使用基准来衡量模型智能,而良好的记忆就足以伪造智能。

常见的基准,如MMLU,是衡量“法学硕士的智力水平”的最流行方式,大部分可以通过简单的记忆来达到。

但就像一个 10 岁的孩子凭记忆做 16 岁孩子的数学题并不意味着他理解了数学;LLM非常擅长伪造他们的智力

那么,我们如何衡量LLM到底有多聪明呢?只需在死记硬背无法挽救他们的情况下对他们进行测试即可。当你这样做时,现实就会显现出来:

(LLM) 不具备推理能力。

从 ARC-AGI 到爱丽丝梦游仙境

测试 (LLM) 寻找从未遇到过的问题的解决方案的能力的一种好方法是 ARC-AGI 基准,该基准与智商测试非常相似,其中模型有机会看到给定模式的一小部分示例,然后在下一次尝试时完成该模式。

在这种情况下,该图案的解决方法是将四个绿色方块包围的每个方块涂成黄色。

对于 LLM 来说,这是一个非常困难的问题,原因有二:

  1. 它基于他们以前从未见过的练习,因此它可以从记忆中获取解决方案。
  2. 这是一个低概率练习;该模型只有少量的例子来概括答案。

当然,LLM 在这些测试中惨败,而普通人可以毫不费力地解决这些问题。但为什么呢?

再次强调,有两个原因:

  1. 如果他们不能使用记忆,他们就会失败,就是这样
  2. 与人类不同,它们的样本效率极低,需要大量的例子才能学习新的模式。

一些人通过使用测试时微调大大提高了 LLM 在此基准测试中的结果。他们通过代码生成多个可能的解决方案(有时需要数百万个),直到最终有一个是正确的。然后,他们在该解决方案上微调模型。

然而,这又回到了这两个问题。虽然无休止地生成可能的解决方案可能会让你走运,并且已被证明可以提高覆盖率,但它仍然需要进行微调(大规模进行微调的成本非常高),而且对于开放式问题(不像智商测试)来说,这不是一个可行的过程。

因此,如果采用让·皮亚杰对智能的定义:“智能就是当你不知道该做什么的时候所使用的东西”,那么当前的人工智能是不存在智能的。

但是,在缺乏经验或知识的情况下,他们无法解决新问题(解决“未知的未知数”),这并不是他们唯一的问题:他们也不擅长对已知知识进行推理(解决“已知的已知数”)。

爱丽丝梦游仙境测试

例如,一个简单的归纳推理测试,其中模型必须根据先前陈述的事实推断出一个事实,这足以让这些模型感到羞愧。

你不必相信我;你可以自己尝试一下。

当使用著名的爱丽丝梦游仙境测试的一个示例(一组简单的推理示例)进行测试时:该模型(在本例中为 GPT-4o)被证明令人尴尬地无法正确理解,无法推断出爱丽丝应该被纳入“姐妹组”的一部分。

由作者生成

这是一个至关重要的认识。尽管拥有推断正确答案所需的所有信息,但除非你深入研究毫无意义的提示工程兔子洞,否则它仍然找不到答案。

但即便如此,它仍然会失败。

又一次。

长话短说,大多数这些模型甚至无法对其数据应用最简单的推理链,这再次表明它们只是在重复过去的模式。

这就是它们被称为“数据库”的原因。只有当单词模式(单词如何相互衔接以产生问题的可能解决方案)之前曾出现过时,它们才能正确执行。

即使掌握了所有信息,它仍然无法从已知事实推断出事实……就像数据库一样。

但这是否意味着这些模型不会比数据库更智能呢?并不完全如此。

走向“AI”中的“I”

在迈向真正的智能的道路上,人工智能最终必须征服两个前沿。

压缩

我经常说 LLM 是“数据压缩器”,这种模型擅长获取庞大的数据集(比它们大得多)并将知识压缩到它们的权重中。

虽然这是不可否认的,但我们可以质疑压缩的质量,特别是如果我们将压缩分为两个步骤:

  1. 记忆:模型记住单词如何相互衔接,但不一定理解它们为什么相互衔接。
  2. 正则化:模型学习更简单的问题解决方案。模型不仅可以自信地预测单词如何相互衔接,而且还可以用更少的假设(奥卡姆剃刀)做到这一点。

模型倾向于先记忆,然后规范化。换句话说,它们首先学习“如果 x 那么 y”,随着时间的推移,它们学习“y 遵循 x,因为……”,从而捕捉到决定“y”为何遵循“x”的根本因果结构

例如,如果模型记住了猫的长相,它可能会学到过于具体的结论。例如,它可能会得出“有毛”是必要条件的结论,因为它见过的大多数猫都有毛。

但通过正则化,模型会意识到其他属性(如胡须、狭缝状眼睛和尾巴)在区分猫方面更为重要。简化猫的定义可以使其推广到更广泛的定义,这样无毛猫(如斯芬克斯猫)也包括在内。

值得注意的是,由于机械可解释性技术,我们知道模型内部的推理电路也变得更简单,这意味着正则化在机械上是可见的。

简而言之,基于《爱丽丝梦游仙境》的例子,很明显 LLM 仍然处于压缩的第一步;他们刚刚征服了记忆(而且考虑到他们虚构的频率,这还只是刚刚开始)。

但即使他们最终征服了真正的正则化,他们在接近人类智能的道路上还需要再迈出一步。

长推理模型

这个想法很简单:如果压缩让模型有时间学习,那么长期推理技术就让模型有时间思考。

简而言之,这些模型并不是简单地回答首先想到的事情,而是会迭代数百、数千甚至数百万种可能的解决方案,直到收敛到最佳解决方案。

然而,我不清楚搜索如何成为您唯一需要的东西,因为没有迹象表明 LLM 最终会融合成实际的解决方案。

那么,学术界提出如何解决每个范式?

从数据增强到搜索

如果你问一个 LLM 爱好者,他们会告诉你“搜索就是你所需要的一切”,并且只需让模型具有搜索解决方案空间的能力就足以达到 AGI(通用人工智能,或上帝 AGI)。

一些研究人员,例如 Leopold Aschenbrenner,更进一步声称“计算就是你所需要的一切”,并且只需将我们当前的模型扩大到更大的尺寸就足够了。

但事实真是如此吗?

就我个人而言,我觉得这太离谱了,因为正如我们之前看到的,当前的模型即使掌握了所有事实,推理能力仍然很差。

更糟糕的是,我们已经达到了百万 exaFLOP 计算级别(这是 1,000,000,000,000,000,000,000,000,000,000 次浮点运算数量级的计算量,相当大的数字)。

我们还需要多少个零才能让(LLM) 能够解决像爱丽丝梦游仙境这样的简单推理问题?

幸运的是,大多数研究人员并不天真,并提出了几种方法:

  1. 数据增强。为了让模型更好地推理,它们需要看到更好的推理数据。因此,人工智能实验室投入了大量资金来构建合成数据集,帮助模型将问题分解为改进推理的步骤,例如OpenAI 的 PRM800k数据集。这种方法的另一个近期成功案例是Cosine 的 Genie 代理,几天前发布了非常令人印象深刻的演示。
  2. 过度扩展训练:当模型规范其推理电路,将推理过程内化而不是记忆时,真正的压缩就会发生。一种越来越流行的方法是 grokking,我们通过过度扩展训练,让模型有时间找到更简单的问题解决方案。
  3. 测试时计算:正如在长推理模型部分中提到的,我们允许模型在回答之前搜索解决方案。重要的一点是,我们需要一种方法来在两个可能的解决方案之间做出决定。尽管像谷歌这样的公司已经测试了可计算的比较(测量两个响应的熵并保留最低的一个,即更简单的解决方案),但这里最流行的方法是使用验证器,即批评生成器解决方案的附加模型,以帮助它搜索解决方案空间(这是一个非常复杂的问题)。

总而言之,大多数新模型都会属于这些类别中的一个或多个,并且我们很快就会看到推理能力的提升。

然而,最后一点仍然成立:

这三种方法是否足以让模型克服其训练数据?这些方法是否足以让模型创新,或产生以前从未见过的新解决方案?

不。就这一点而言,我觉得还缺少两点:

  1. 深度。 正如 Andrej Karpathy 在最近的一条推文中所言,我们仍然没有找到一种深度训练 LLM 的方法,这使得 LLM 无法在任何任务上表现出超人水平。主要问题是,与 Alphazero 等在围棋国际象棋比赛中达到超人水平的模型不同,由于缺乏一种直接的方法来衡量其行动的质量并从反馈中学习,因此在开放式问题上实现超人能力要困难得多。如今的 LLM 在很多方面都很擅长,但没有一个方面是卓越的。
  2. 主动推理。我们目前最好的模型只在训练过程中学习,这使得它们完全无法应对不断变化的现实世界。因此,我们需要找到一种机制,让它们能够在预测世界的同时进行学习。

让我们少说废话

不管怎样,有一点是清楚的:人工智能仍有很大的发展空间,而且当前人工智能的能力被大大夸大了。

然而,这些模型的采用率较低(尤其是在企业层面),主要是因为公司和客户对如何使用这些模型的认识不足

但这不是社会的错,因为大型科技公司及其附属的人工智能实验室正在兜售一种想法和许多承诺,但到了关键时刻,这些承诺就无法实现。

我们仍处于人工智能的起步阶段,接受这一点是在当今人工智能的正确使用场景中最好的方式,即使这意味着它们的市场价值远远高于顶峰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2064746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Stable Diffusion 使用详解(8)--- layer diffsuion

背景 layer diffusion 重点在 layer,顾名思义,就是分图层的概念,用过ps 的朋友再熟悉不过了。没使用过的,也没关系,其实很简单,本质就是各图层自身的编辑不会影响其他图层,这好比OS中运行了很多…

10月天津人工智能主题——第三届人工智能与智能信息处理国际学术会议(AIIIP 2024)

【ACM出版 | IEEE&ACM院士、CCF杰出会员担任组委| 往届会后3个半月检索 】 第三届人工智能与智能信息处理国际学术会议(AIIIP 2024) 2024 3rd International Conference on Artificial Intelligence and Intelligent Information Processing 中国…

无人机飞手培训:考证、组装、维修技术详解

随着无人机技术的飞速发展,无人机已广泛应用于航拍、农业、环境监测、救援等多个领域,成为现代社会不可或缺的工具之一。作为无人机操作的核心——无人机飞手,其专业技能的掌握至关重要。本文档将详细解析无人机飞手培训的关键环节&#xff0…

关于Python的20个奇技淫巧

Python有非常多有趣使用的技巧,下面列举20个短小精炼的用法,其中既包含常规语法,又有第三方库的妙用,体现了python简单即美的编程哲学。 快速实现字频统计 from collections import Counterwords 我明白你的意思,你…

python将字典数据保存为json文件

目录 一、json库介绍 二、字典生成json文件 1、导入 json 模块 2、将字典数据保存为 json 文件 (1) 创建一个python字典 (2) 指定要保存的 json 文件路径 (3) 将字典数据存为 json 文件 3、读取 json文件,并打印 一、json库介绍 方法作用json.dumps()将py…

[java][mybatis]generatorConfig.xml配置信息详细

generatorConfig.xml配置信息详细 mybatis-generator有三种用法:命令行、eclipse插件、maven插件。个人觉得maven插件最方便,可以在eclipse/intellij idea等ide上可以通用。 下面是从官网上的截图: 在MBG中,最主要也最重要的就是…

拒绝拖延!Kimi助你一天内速成论文初稿!

撰写学术论文是一项需要周密计划和精确执行的任务。它要求作者对文章的每个部分进行深入思考,以确保论文结构的合理性和论述的清晰度。利用Kimi的功能,我们可以更系统地进行写作,从构思到最终成稿,逐步构建出一篇高质量的学术论文…

短视频SDK解决方案,高效集成,助力商业变现

美摄科技,作为业界领先的多媒体技术服务商,其全面升级的短视频SDK解决方案,旨在为开发者与内容创作者提供一站式、高效能的创作工具,让每一个灵感都能瞬间转化为触动人心的视频作品。 【一站式解决方案,重塑短视频创作…

外包出来,面试5次全挂,心态蹦了......

大概介绍一下个人情况,男,毕业于普通二本院校非计算机专业,18年跨专业入行测试,第一份工作在湖南某软件公司,做了接近4年的外包测试工程师,今年年初,感觉自己不能够再这样下去了,长时…

Web漏洞介绍和Sql注入漏洞

常规渗透测试流程 漏洞探测包括:web漏洞测试,系统漏洞测试 工具探测、手工验证 优先找的漏洞:中间(件)漏洞、框架漏洞...webserver 知道创宇 Seebug 漏洞平台 - 洞悉漏洞,让你掌握前沿漏洞情报&#xff…

API容易被攻击,如何做好API安全

随着互联网技术的飞速发展和普及,网络安全问题日益严峻,API(应用程序接口)已成为网络攻击的常见载体之一。API作为不同系统之间数据传输的桥梁,其安全性直接影响到整个系统的稳定性和数据的安全性。 根据Imperva发布的…

docker-harbor私有仓库部署和管理

harbor:开源的企业级的docker仓库软件 仓库:私有仓库 公有仓库 (公司内部一般都是私有仓库) habor 是有图形化的,页面UI展示的一个工具,操作起来很直观。 harbor每个组件都是由容器构建的,所…

CocosCreator3.8 IOS 构建插屏无法去除的解决方案

CocosCreator3.8 IOS 构建插屏无法去除的解决方案 在实际项目开发过程中,我们通常无需CocosCreator 自带的插屏,一般采用自定义加载页面。 然后在构建IOS 项目时,启用(禁用)插屏无法操作,如下图所示&#…

PDF转图片神器!一键转换,告别繁琐操作

自从出了社会以来,不论是在职场应对工作还是日常的信息传输等等场景都是经常需要用到各类格式之间转换的情况,其中尤其是pdf和图片这类编辑条件要求偏高的工具对信息的保密程度更高,所以往往也是出现频率比较高的格式,今天针对pdf…

heic图片转换成jpg怎么快速转换?5个软件手把手教你转换图片片格式

heic图片转换成jpg怎么快速转换?5个软件教你轻松转换图片格式 将HEIC格式的图片转换为更常见的JPG格式可能是许多人在使用苹果设备后常遇到的需求。以下是五款能够帮助你快速完成HEIC转JPG的实用软件,无论是在线工具还是桌面应用,都可以让你…

普元EOS-服务端获取当前登录用户信息

1 前言 EOS服务端需要获取当前登录人员的信息,获取方法如下: import com.eos.data.datacontext.DataContextManager; import com.eos.data.datacontext.IUserObject; import com.eos.data.datacontext.UserObject;UserObject userObj (UserObject) Da…

redis实战——go-redis的使用与redis基础数据类型的使用场景(一)

一.go-redis的安装与快速开始 这里操作redis数据库,我们选用go-redis这一第三方库来操作,首先是三方库的下载,我们可以执行下面这个命令: go get github.com/redis/go-redis/v9最后我们尝试一下连接本机的redis数据库&#xff0…

扫码点餐系统小程序功能分析

扫码点餐系统小程序通常具备以下核心功能: 用户界面:提供直观易用的界面,方便用户浏览菜单、选择菜品、查看订单状态等 。菜单展示:展示餐厅的菜单,包括菜品图片、价格、描述等信息 。扫码点餐:用户通过…

warning: implicit declaration of function ‘m‘ is invalid in C99

编译报错: implicit declaration of function ‘m’ is invalid in C99 即 函数 “m” 的隐式声明在C99中无效 原因: C语言是过程化的编程语言,程序执行顺序是从上到下。函数调用需要先声明后调用。 C99 默认不允许隐式声明(1999年推出的c语言标准)。 …

悟空,中国神话再一次惊艳世界

大家好,我是小悟 这两天《黑神话:悟空》刚上线,是非常的火。刚进入游戏,犹如揭开一幅绚丽多彩的画卷,展现了国产游戏在技术创新与艺术追求上的新高度。这款游戏不仅仅是一款动作角色扮演游戏,更是技术与艺术…