写在前面:
🌟 欢迎光临 清流君 的博客小天地,这里是我分享技术与心得的温馨角落。📝
个人主页:清流君_CSDN博客,期待与您一同探索 移动机器人 领域的无限可能。
🔍 本文系 清流君 原创之作,荣幸在CSDN首发🐒
若您觉得内容有价值,还请评论告知一声,以便更多人受益。
转载请注明出处,尊重原创,从我做起。
👍 点赞、评论、收藏,三连走一波,让我们一起养成好习惯😜
在这里,您将收获的不只是技术干货,还有思维的火花!
📚 系列专栏:【人工智能】系列,带您深入浅出,探索人工智能领域的奥秘。🖊
愿我的分享能为您带来启迪,如有不足,敬请指正,让我们共同学习,交流进步!
🎭 人生如戏,我们并非能选择舞台和剧本,但我们可以选择如何演绎 🌟
感谢您的支持与关注,让我们一起在知识的海洋中砥砺前行~~~
文章目录
- 引言
- 一、AI技术的发展趋势:从「垂直」到「通用」
- 1.1 人工智能的垂直领域发展
- 1.2 通用人工智能模型(AGI)
- 二、为什么通用模型在2022年底出现
- 2.1 互联网20多年的发展
- 2.2 算法上的提升
- 2.3 浮点数算力的进步
- 三、AGI的三层挑战
- 3.1 规模化定律
- 3.2 统一表述与数据墙
- 3.3 长语境、遵循指令、推理能力、智能体等
- 四、范式的变化
- 4.1 下一个token的预测
- 4.2 强化学习
- 五、文本模型决定智能上限,多模态扩展技能范围
- 5.1 文本模型能力决定AI技术的上限
- 5.2 多模态模型的重要性和应用前景
- 5.3 文本模型在多模态任务中的核心作用
- 5.4 横向多模态能力与纵向文本模型能力的协同发展
- 六、训练效率边界正在被快速地推进
- 6.1 训练阶段:单位 FLOPs 得到的智能越来越多
- 6.2 推理阶段:产生相同智能的成本越来越低
- 七、下一代模型
- 7.1 解决长时间跨度的复杂任务
- 7.2 实现不同模态之间的转换
- 7.3 具备专家级推理能力
- 八、模型与产品一体化:AI助理的兴起与普及趋势
- 8.1 「智能」是跨越经济周期的通用需求
- 8.2 服务于用户的AI助理
- 九、AI产品的未来展望
- 9.1 聚焦核心能力
- 9.2 聚焦生产力场景
- 9.3 与用户共创智能
- 十、持续探索智能的极限
- 总结
引言
本篇博客探讨关于人工智能领域的最新思考,以及人工智能领域目前正在进行的相关工作,与大家分享交流。
一、AI技术的发展趋势:从「垂直」到「通用」
1.1 人工智能的垂直领域发展
实际上,人工智能领域自计算机问世以来,已经发展了七十多年。在这段时间里,人工智能经历了多个发展阶段。回顾2020年之前的二十年,可以发现人工智能主要集中在多个垂直领域的发展。例如,出现了许多人脸识别技术,以及自动驾驶等相关公司。
这些公司的核心工作,是针对特定的任务进行研究和开发。例如,如果目标是实现人脸识别,那么就会专门收集大量的人脸识别数据,训练专门的人脸识别模型,并进行相应的评测和架构优化。每一步都是针对特定任务而设计的。这种任务可以是人脸识别,也可以是其他任务,比如垃圾邮件的分类。如果是垃圾邮件分类,那么就会收集垃圾邮件数据,标注数据,训练分类模型,并进行优化。
在早期,还需要专家编写大量规则,构建庞大的知识库,例如在翻译系统中,需要手工整理语言之间的映射规则,然后使用专为翻译设计的简单统计模型来完成翻译任务。那时候,构建一个翻译系统可能需要几百甚至上千人,而且这样的系统非常定制化,除了翻译之外,无法执行其他任务。这种范式,即针对特定需求开发特定系统的做法,就像是想吃西瓜就去种西瓜,种出来的只能是西瓜,而不会是豆子。
1.2 通用人工智能模型(AGI)
然而,近几年这种范式发生了重大变化。现在的趋势是,不再只训练针对特定任务的AI模型,而是尝试训练通用的智能模型。所谓通用智能模型,是指一个模型能够执行多种任务,比如既能进行翻译,又能回答问题,还能撰写文章,甚至具备多模态处理能力。这样的模型就是一个通用的智能模型。
下游任务很多,而上游的训练方法,即模型的训练过程,并不需要掌握大量的下游领域知识。在训练模型时,无需关心其最终的具体应用。训练目标与下游任务是分离的,即寻找一种通用的方法来规模化地训练模型,从而产生通用智能。通用智能的优势在于,可以使用同一模型应用于不同的行业和任务,不同的人可以以不同的方式使用它,无需为每个特定任务定制化模型A、B、C等。这样的泛化能力极大地扩展了其潜在的应用空间。
通用智能的好处在于,它可能使得同一模型在多个领域达到人类水平的表现,从而对社会GDP产生杠杆效应。因为每个人的生产力都有可能得到提升,原本只能产生一份生产力的个体,在通用AI的帮助下,可能将其生产力提升几倍,甚至达到10倍。这一切取决于通用智能的发展阶段。若非通用智能,很难实现对每个任务都进行定制模型开发,而通用智能则提供了这样的可能性和巨大优势。
二、为什么通用模型在2022年底出现
近年来能够产生通用模型的原因,既是必然趋势,也是偶然机遇的结合。
必然性体现在人类科技发展的进程中,总有一天会达到一个关键节点,使得通用模型的出现成为可能。
然而,偶然性则在于,恰好是最近几年,几个关键因素同时成熟,而这些条件在十年前、二十年前并不具备。如果没有这三个条件的共同作用,通用模型的产生是难以实现的。
这三个条件分别是:
- 互联网 20 多年的发展
- 算法上的提升
- 浮点数算力的进步
2.1 互联网20多年的发展
尽管乍看之下,互联网与人工智能似乎没有直接联系,但实际上,互联网的长期发展为人工智能提供了大量的训练数据。没有这二十多年来积累的数据,很难训练出人工智能模型,因为训练人工智能需要海量的数据。
互联网实际上是一个将世界或人类思想数字化的过程。没有互联网,大部分信息都不会被数字化,我们可能只能学习到少量数据,例如一些作家的作品。
互联网使得每个人都能产生数据,将人们的思想转化为数据并传输到网上,这为人工智能的训练提供了基础。
这个巧合在于,当人们在2000年左右开始开发互联网产品,如搜索引擎和门户网站时,他们可能从未想到这些数据有一天会对人类文明的下一代科技发展做出贡献。因此,可以说在科技发展的进程中,互联网是人工智能发展的一个前置节点。
2.2 算法上的提升
第二个因素涉及算法上的创新,特别是Transformer结构。Transformer最初于2017年提出,最初被设计为一个翻译模型,具有一定的专用性。后来它被扩展为一个更加通用的概念。人们发现,Transformer是一个高度通用的架构,适用于各种数据类型和学习任务。只要能够以数字形式表示数据,就可以使用Transformer进行全时通用的学习。这种通用性体现在其良好的可扩展性上,即随着模型规模的增加,其性能也会持续提高,几乎看不到上限。
相比之下,传统的结构,如循环神经网络(RNN)或卷积神经网络(CNN),在达到一定参数规模后,增加参数或计算量可能不会带来性能提升。Transformer的结构使得通用学习成为可能,只需不断地将数据输入模型,并定义学习的目标函数。
2.3 浮点数算力的进步
当然,计算机科学中的众多技术也是人工智能发展的前置节点。以我们提到的最后一个因素为例,要实现10的25次方FLOPs的计算能力,这是指浮点数运算的次数,它是获得一个足够智能模型的关键。
然而,要完成如此庞大的浮点数运算,并且在一个单独的计算集群中,在可控的时间范围内完成这些计算,这在十年前是难以想象的。这一成就的取得,依赖于芯片技术的发展和网络技术的进步。不仅芯片的运算速度需要快,还需要将这些芯片有效地连接起来,同时要求有足够大的带宽和存储空间。所有这些技术的叠加,使得我们能够在短短两三个月内完成10的25次方次的计算。
如果这样的计算需要两三年的时间,那么我们就无法训练出现在的模型。因为这样的迭代周期过长,每次训练失败后,可能需要等待数年才能再次尝试,这样可能只能训练出数量级较低的模型。而数量级较低的浮点数运算能力,是无法产生现有水平的智能的。这是由所谓的规模化定律所决定的。因此,计算机技术的许多发展,为人工智能的进步提供了必要的前提。这就是第三个因素。
这三者的结合产生了当前看到的通用模型,而且这三者缺一不可。
从技术发展的角度来看,人类的技术进步往往是站在前人肩膀上的。如果没有前一代的技术,就不可能实现后一代的技术。技术的发展是一个组合演进的过程,每一代技术都是对前一代技术的组合。然而,某些组合的威力远大于其他组合,例如Transformer的组合产生了强大的通用模型。在OpenAI之前,可能没有人能够预见到这三个要素的组合会产生如此巨大的威力。
Transformer的模型结构本身也是一个组合的结果,它融合了多种技术,如注意力机制、层归一化、残差连接等。这些技术大多在2010年至2015年间被陆续发明。在训练过程中,如果缺少其中任何一项技术,Transformer可能无法达到现在的效果,甚至可能完全无法工作。因此,Transformer的成功是偶然与必然相结合的结果,使得我们能够拥有今天这样的技术。
三、AGI的三层挑战
在刚才提到的三个要素的基础上,对于整个人工智能领域,特别是通用智能(AGI)而言,可能存在三个层面的创新机会。
3.1 规模化定律
最底层的层面也是一个重大的突破,是在上面三个要素齐备之后,仍然可以不断地扩大规模。
例如,刚刚讨论的达到 10 10 10 的 25 25 25 次方 FLOPs 可能是一个基础的门槛,但如果能够达到 10 10 10 的 26 26 26 次方、 27 27 27 次方甚至 28 28 28 次方,智能水平仍然会持续增长。这个层面被称之为 规模化定律(Scaling Law)。因此,这是第一个层次的创新机会。
当然,这个第一个层次的创新机会可能已经被某些组织如 OpenAI 发现并努力实现其极致。
3.2 统一表述与数据墙
第二个层次的创新机会涉及在这样的框架下解决一些未解决的问题。例如,如何将所有模态的数据统一表示,并将其放入同一个模型中。这是第二个层次的挑战。
同时,尽管互联网已经发展了20多年,但数据量仍然有限。如果互联网发展了2000多年,我们可能会多两个数量级的数据。但由于互联网只发展了20多年,整体积累的数据量仍然不足。因此,目前面临的问题是 数据墙(Data Wall) 问题,即没有足够的数据用于训练。
举例来说,如果要训练一个数学能力很强的AI,需要考虑哪些数据可以帮助学习数学能力。在数字化世界下,数学题的数量很少,可能只有几百万个真正的正确数学题。但几百万数学题的数量级非常小。此外,互联网上的大部分数据可能与数学无关,例如贴吧和论坛上的数据质量并不高,无法从中获得更多数据。
因此,目前优质的数据几乎已经被大家用完,很难有一个人或一个公司能找到比互联网大十倍的数据用于训练。这就是数据墙问题,即缺乏足够多的天然数据进行训练。如果能解决第二个层次的问题,我们就能获得第二个层次的机会或收益。
3.3 长语境、遵循指令、推理能力、智能体等
在第二个层次基础上还能解决第三层次的问题。比如能做更长的上下文 (Long Context),能有更强的推理能力(reasoning),或者指令遵循能力(instruction following),这些其实就是第三个层次的问题。
因此,整个人工智能框架的核心就是建立在最底层的基础之上,即规模化定律的发现。这个发现使得一切成为可能,但仍有机会去解决第二个层次的问题。
历史上,每当新技术出现,它都会经历不同的层次。底层层次涉及第一性原理,即某个技术从不可行变为可行的根本转变。当第一性原理被确立后,可能仍存在第二个层次的核心技术问题需要解决。
目前有许多人在解决第二个层次的核心技术问题。如果能够解决这些问题,技术可能会从仅具有可行性变为非常实用,并能够大规模应用。以蒸汽机的发展为例,它经历了从第一性原理确立到实际应用中的效果和成本问题的解决。
人工智能的发展也是如此。通过解决第二、第三个层次的问题,可以降低成本、提高效果,使技术变得易于所有人使用。在这个发展周期中,可以选择最强的人解决第一性原理,一旦第一性原理被发明出来,仍有机会解决二、三个层次的问题,这将孕育出许多优秀的研究、技术、公司、产品和商业模式。
四、范式的变化
前面讨论的数据墙是一个非常重要的问题。由于互联网的发展时间只有20年,这是一个非常关键的前提条件。假设我们无法获得更多的高质量数据,并且在接下来的几年内也不太可能显著增加数据量,那么我们就遇到了一个矛盾。第一性原理告诉我们,为了提高智能水平,我们需要不断地扩大规模、训练更大的模型并增加更多的数据。
然而,自然产生的数据已经接近极限,在这种情况下,我们如何继续增加数据并维持模型的规模增长?
4.1 下一个token的预测
这就需要一种范式的转变。原先的做法是相对简单的,即预测下一个token。将互联网上的数据收集起来,让模型执行单一任务,例如给定一篇小红书文章的前999个词,预测第1000个词。这种方法虽然有效,但可能无法满足持续规模化的需求。
这个问题的关键在于利用模型自身的多任务学习能力和对上下文的理解。当模型预测下一个词时,它实际上在进行复杂的推理和知识提取。例如,如果模型遇到一个句子,比如距离北京最近的直辖市是天津,语言模型就会把前面这个东西作为输入,然后预测最后那个词是天津还是重庆,当预测多了,模型就会知道最后一个词是天津。通过这种方式,模型可以把知识吸收进去,自我学习。
这种范式的转变要求我们重新思考模型的训练和优化方法,以及如何利用模型的内在能力来扩展其训练数据集。
还有比如另一种任务,假设在阅读了一本侦探小说后,可能已经阅读了前面的9章,到了最后一章,我们需要预测谁是凶手。如果我们能够正确预测出凶手,那么这是因为模型仍在执行预测下一个词的任务。假设我们遇到了这样的句子:“最后推理了半天发现凶手是某一个人”,模型通过这样的预测学会了推理。如果有很多这样的数据,模型实际上学会了推理,同时也学习了知识,以及其他可能的其他任务。
这就是之前的范式之所以成功的原因。我们收集了所有可能的数据,让模型持续预测下一个词,结果模型的智商越来越高,推理能力越来越强,知识越来越丰富。在这个过程中,可能会分为三种不同类型的知识:
-
事实性知识
当模型的熵很低时,它可能学习到一些事实性的知识,这些知识本身没有熵,它们的熵水平非常低,可以直接被模型记住。 -
推理过程
例如,在侦探小说中,推理过程可能具有中等熵值,可能有多条推理路径,但最终得到相同的结果。 -
创作类任务
例如,在创作小说时,这可能不是一个确定性的事情,其熵值非常高。尽管如此,这些不同类型的知识都可以在相同的框架下,通过预测下一个词的单一目标被学习。
通过这种单一目标的学习,模型能够学会这些不同类型的知识。
因此,这也是通用的智能基础的一部分,即将这些知识全部放入同一个框架中学习。无论是在学习小红书、维基百科还是其他任何内容,都是相同的。这种通用性是通用智能的基础。
4.2 强化学习
数据生成的新范式是通过强化学习来完成任务。
为什么要使用强化学习?
这是因为天然数据不足。例如,世界上数学题的数量是有限的,如果我们想要提升数学能力,我们可以生成更多的题目,进行大量的练习,并从做题中学习。在这个过程中,我们学习哪些题目做对了,哪些题目做错了,从而不断改进。这个过程本质上就是强化学习的过程,类似于下围棋。我们不断与自己下棋,了解哪些棋步下得好,哪些棋步下得不好,然后调整模型的策略,增加下得好棋步的概率,减少下得不好棋步的概率,通过这种方式持续学习并提升。
这个范式与之前提到的不太一样。之前的方法是使用天然数据,预测下一个词是什么。而现在,我们可能在获得一个较好的基础模型之后,不断与自己互动,生成新的数据,学习好的部分并抛弃不好的部分。这种方式可以创造大量数据。观察 O-one,我们会看到模型在生成许多所谓的“思考”过程。当模型遇到一个难题时,它会先思考一段时间,就像人类一样。假设一个数学家遇到一个难题,他可能需要思考几个小时才能找到答案。AI也是如此,它可能需要一段时间的思考才能给出答案。这些思考过程的作用是生成数据。因为这些数据在世界上天然不存在。例如,一个杰出的数学家证明了一个新的定理或解了一个难题,他们只会写下答案,而不是思考过程。因此,这些思考过程是天然不存在的。
但是现在,我们的目标是让AI能够生成人脑内部的思考过程,并通过学习这些思考过程来获得更好的泛化能力。例如,当我们遇到一道难题时,直接学习答案实际上并不了解解题者的思考过程。我们可能需要有人解释每一步是如何进行的,为什么选择这个思路。这就是为什么学习思考过程比单纯学习答案更有价值。如果能够学习到思考过程,当遇到类似但略有不同的题目时,我们也能应对。然而,如果只是学习了解答,我们每次只能解决相同类型的题目。
通过学习思考过程,我们实际上是在生成更多的数据,这些数据原本在自然界中并不存在。这种思考过程的生成是一个很好的补充,它隐藏在数据背后,使模型的扩展能力得以持续。此外,目前模型的扩展方式也发生了一些变化。以前,大部分的扩展发生在训练阶段,即收集大量数据进行训练。但现在,越来越多的计算可能转移到推理阶段。
这是因为模型现在需要思考,而思考过程本身也需要算力。因此,我们可以逐渐增加推理阶段的计算资源。这也有道理,因为如果要完成更复杂的任务,一个人可能需要更多的时间。例如,证明黎曼猜想可能需要数年时间。因此,接下来一个重要的点是如何定义这些更复杂的任务,以及在这些任务中,模型与人类交互的方式可能会有所变化。它可能从完全同步的形式转变为在一定程度上异步的,允许模型花时间查找资料、思考和分析,然后给出一个报告,而不是立即给出答案。
这样,我们就可以让模型完成更复杂的任务,从而将推理阶段(test time)与强化学习结合起来。
五、文本模型决定智能上限,多模态扩展技能范围
5.1 文本模型能力决定AI技术的上限
决定这一代AI技术上限的是文本模型的能力上限。如果你的文本模型能够持续提升其智商,那么它就能处理越来越复杂、规模越来越大的任务。一开始,模型可能只能解决一些简单的、类似小学水平的题目。随着时间的推移,它可能会逐渐提升到中学、大学甚至博士的水平,具备更高层次的知识和推理能力。随着文本模型的持续提升,这一代AI技术的上限也会相应提高。
因此,文本模型决定了这一代AI技术的价值上限,持续提升模型和能力是至关重要的。只要能够持续扩大规模,文本模型的大概率会持续提升。
5.2 多模态模型的重要性和应用前景
此外,可能还会加入更多的模态。目前,多模态模型受到了广泛关注。例如,模型可能会接受视觉输入和输出,音频输入和输出,以及这些模态之间的任意转换。这种多模态的能力将进一步增强AI技术的能力和应用范围。
例如,你今天可能想要创作一个产品,通过一张图画出产品需求。这个产品需求可以直接转化为代码,而代码中还可以自动结合一个由AI生成的视频作为产品的首页。这是一个涉及多种模态的任务,目前的AI可能还无法完全实现,但可能不需要太长时间,在未来一两年的时间,我们就可以将这些模态结合起来。
5.3 文本模型在多模态任务中的核心作用
这些模态结合得如何,最终还是取决于你的文本模型。如果你的文本模型足够强大,你才有可能将这些模态结合得非常好,去完成复杂的任务。因为在这个过程中,你可能需要进行复杂的规划。你需要规划接下来要做什么,第一步做什么,第二步做什么,第三步做什么。在执行第二步时,你可能会发现结果与预期不太一样,这时你可能需要随时调整计划,比如第三步可能需要采用不同的方法。
5.4 横向多模态能力与纵向文本模型能力的协同发展
因此,这需要很强的思考和规划能力,以及在一个强大的框架下保持一致性、遵循指令和推理的能力。这些能力都是由你的文本模型决定的。
这两个方面共同决定了AI的发展:
- 横向的多模态能力
- 纵向的文本模型能力
多模态能力让你能够越来越多地完成各种任务,而文本模型能力决定了你的AI有多聪明,只有足够聪明,你才能完成很多事情。但即使AI非常聪明,如果缺乏某种模态(例如视觉),那么它能够做的事情也会受到限制。
六、训练效率边界正在被快速地推进
训练效率的提升涉及两个不同的维度:训练阶段 和 推理阶段。这两个维度在未来两三年的时间里,有很大的可能性会同步增长。这意味着,我们可以将这两个方面综合起来,形成一个更为全面的提升。
每当新技术出现时,都会面临两个主要问题:效果不佳和成本高昂。对于人工智能而言,也是如此。但值得庆幸的是,AI效率的提升速度是令人瞩目的。
6.1 训练阶段:单位 FLOPs 得到的智能越来越多
首先,这种提升将体现在训练阶段。例如,现在想要训练一个与 GPT-4 同等级别的模型,所需的训练成本可能只是两年前的几分之一。如果操作得当,甚至可能只需原来的 1 / 10 1/10 1/10 成本就能训练出同等智能水平的模型。因此,训练效率正在持续提升。
6.2 推理阶段:产生相同智能的成本越来越低
同时,推理效率也在不断提高,推理成本持续下降。比如,与去年相比,今年推理相同智能的成本可能已经降低了一个数量级,并且未来可能还会继续降低。例如,预计明年推理成本还将会降低一个数量级。
这一趋势非常重要,因为它将使AI的商业模式更加成立。随着获取智能的成本越来越低,同时智能水平越来越高,用户的 投资回报率(ROI) 将不断提升,使用AI的人数也将越来越多。这是一个重要的趋势。
当这两个趋势叠加在一起时,一方面我们将在训练阶段获得越来越多的智能,另一方面,智能的使用成本将变得更加低廉,从而实现更大规模的部署。
七、下一代模型
7.1 解决长时间跨度的复杂任务
当然,模型的发展还将持续进行。未来如果出现 O-one 这样的模型,其重要的提升之一将在于它可能能够完成一些人类需要长时间思考才能完成的任务。这不仅仅是在简单回答问题,而是模型能够进行类似 20 20 20 秒的深入思考。当然,这 20 20 20 秒是基于计算机本身的高速处理能力。如果换作人类去思考相同的内容,可能需要一到两个小时。
例如,假设需要阅读一份非常长的文档,如一份长达二三十万字的财务报告。人类可能需要花费大量的时间来消化这些信息,而计算机则能够压缩这一过程,完成这些需要较长时间的任务。因此,这是一个重要的趋势,我们可能会看到AI在未来能够处理分钟级甚至小时级的任务。
7.2 实现不同模态之间的转换
正如刚才提到的,AI可能会在不同的模态之间进行切换。
7.3 具备专家级推理能力
并且其推理能力(任务规划、编码、数据分析等)也将越来越强。
这些可能是AI未来发展的几个关键趋势。我们希望在这些领域内开发出一些产品,并且当然也希望将这些产品的技术融合在一起。这是因为当前产品的逻辑与互联网产品的逻辑有了很大的变化。现在,产品的性能在很大程度上取决于模型的能力。如果模型能力不足,那么产品体验就无法得到体现。
八、模型与产品一体化:AI助理的兴起与普及趋势
8.1 「智能」是跨越经济周期的通用需求
因此,现在有一种越来越普及的概念,即模型与产品的一体化。在我们进行产品项目时,也非常希望将产品的设计与模型更加紧密地结合在一起进行思考。例如,如果你想在产品上实现某个功能,实际上你需要背后有相应的模型能力作为支撑。我认为这里面可能存在一个相对确定性的需求,那就是一个AI助理。
8.2 服务于用户的AI助理
在AI时代,很可能AGI的应用就是一个助理,因为对智能的需求是一个非常普遍的需求。尽管目前AI的能力可能还在初级阶段,但随着市场逐渐适应和拥抱新技术,其效果不断改善,成本持续降低,这将导致越来越多的人开始使用AI。
九、AI产品的未来展望
9.1 聚焦核心能力
因此,在接下来的5到10年时间里,极有可能出现这样的产品:其功能将逐渐完善并变得越来越强大,最终可能抓住巨大的市场规模的机会。这是因为这些产品实际上是在满足一种普遍的智能需求。换句话说,你现在使用的所有软件和应用程序,可能是由成百上千名工程师开发的,它们背后的智能水平是固定的。这是因为人们通过编写代码,即一种规则,将智力编码下来,而这些代码的智能水平是固定不变的。
然而,对于AI产品来说,情况则有所不同。AI产品背后是一个模型,你可以将其视为拥有几百万个非常强大的个体。这个模型可以帮助你完成各种不同的任务,因此它的潜力是非常巨大的。基本上,如果有越来越多的事情可以通过AI或者人与AI合作来完成,那么这些产品的应用范围将非常广泛。
但是,这里存在一个挑战,即如果想要处理越来越复杂的任务,就必须能够支持更长的上下文。例如,如果你今天想要思考一个非常复杂的问题,可能仅思考过程就需要几十千甚至几万个token。或者,如果你需要分析一个非常复杂的问题,可能需要参考许多不同的文献,这就需要非常强大的上下文处理能力。因此,我们在前期可能会专注于提升这方面的能力,通过增强处理长文本的能力来解决推理问题,并开发出能够显著提升生产力的产品。
9.2 聚焦生产力场景
这一代AI最大的变数实际上可能在于生产领域的低端。也就是说,我们社会中的每一个生产单位都可能有机会实现 10 10 10 倍的生产力提升。因此,我们希望专注于这些生产力场景,并持续优化效果,使其变得更好。当然,效果提升的背后,很大程度上依赖于模型能力的增强。
AI的发展过程与过去有所不同。现在AI最大的变数在于,我们需要将数据本身视为一个变量。在优化一个系统时,数据不应被视为一个常量,它不应该是固定不变的。这与过去进行AI研究的方法有所区别。比如,如果回溯到 7 7 7 年或 5 5 5 年前,甚至现在,许多研究AI技术的方法是将数据集固定,然后在这个固定的数据集上研究各种不同的方法,尝试不同的神经网络结构和优化器,以提升在静态数据上的效果。但现在,数据可能越来越成为一个变量,如何使用数据或获取用户反馈,这可能会越来越成为其中的一个重要因素。
例如,有一项重要的技术叫做 基于人类反馈的 强化学习 (Reinforcement Learning from Human Feedback, RLHF),其核心在于如何从人类的反馈中学习。即使AI拥有很强的智能,如果它没有与任何价值观对齐,或者它产生的结果并不是人类所期望的,那么这样的AI可能也不会有很好的应用价值。
9.3 与用户共创智能
因此,我们希望能够在通往 通用人工智能(AGI) 的过程中,更多地采取一种共创的方式。这不仅仅是一个纯粹的技术问题,而应该是技术与产品更紧密融合的过程。你可以将产品视为一个环境,而模型就在这个环境中与用户进行交互,并从与用户的交互过程中不断学习,从而使模型持续得到改进。因此,已经讨论了许多相关内容。
自2018年以来,随着Transformer模型的问世,研发人员基于Transformer进行了一系列的研究和实验。一开始,可能没有预料到模型最终能够达到今天这样的效果。未来模型的效果还将会持续提升,因为只要规模化定律一直存在并且是有效的,那么模型的智能水平将会不断上升。
十、持续探索智能的极限
整个过程实际上是一个探索好奇心的旅程,这个过程中充满了不确定性,但很多时候,人们对实际情况可能会过于乐观,因为你并不了解那些未知的事物。例如,我们从一开始从事这项工作时,也曾设想过可能遇到的许多困难。最终你会发现,无论你预测了多少困难,实际情况往往比想象的更为复杂。虽然第一性原理可能很清晰,但由于存在太多未知因素,情况就会变得复杂。
人们愿意尝试未知的事物,实际上是因为他们对这些未知领域的不了解,这种不了解给了他们勇气去尝试。当真正开始实施时,你会发现许多新的问题。或许,这就是创新的意义所在——大部分尝试可能会失败,但偶尔会发现某些东西竟然行之有效。这种情况经常发生在办公室里,突然看到有人在一个角落里欢呼,你可能以为他们出了什么问题,但实际上他们可能只是突然发现了一个有效的方法。
因此,很多时候判断哪些东西有效,哪些东西无效,这就是一个简单而纯粹的探索过程。当然,这并不仅限于技术领域,对于产品或商业模式的探索也是如此。找到答案,或者探索答案本身就是一个非常有价值的过程。因此,我们可能会持续地探索哪些东西是好的,哪些是不好的,哪些是正确的。因为每个事物你都可以看到它的结果。
总结
本篇博客探讨了人工智能领域的最新趋势和发展。
首先,人工智能技术正从专门针对特定任务的垂直领域发展,转向训练能够执行多种任务的通用智能模型。通用模型的出现得益于互联网的发展、算法的创新和浮点数算力的进步。通用模型的优势在于能够跨多个领域和任务应用,极大提高了生产力。
然而,通用智能的发展面临三个层面的挑战:规模化定律、数据墙和多模态处理能力。未来,通用智能将重点解决长时间跨度的复杂任务,实现不同模态之间的转换,并具备专家级的推理能力。训练效率的提升,文本模型能力的增强和多模态模型的应用,将进一步推动AI技术的发展。
同时,模型与产品的一体化,AI助理的兴起,以及持续探索智能的极限,都将成为未来AI技术发展的关键趋势。
后记:
🌟 感谢您耐心阅读这篇关于 AI创业的前沿思考 的技术博客。 📚
🎯 如果您觉得这篇博客对您有所帮助,请不要吝啬您的点赞和评论 📢
🌟您的支持是我继续创作的动力。同时,别忘了收藏本篇博客,以便日后随时查阅。🚀
🚗 让我们一起期待更多的技术分享,共同探索移动机器人的无限可能!💡
🎭感谢您的支持与关注,让我们一起在知识的海洋中砥砺前行 🚀