蹭下热度谈谈OpenAI o1的价值意义及RL 的Scaling law。
一.OpenAI o1是大模型的巨大进步
1.1 我觉得OpenAI o1是自GPT 4发布以来,基座大模型最大的进展,逻辑推理能力提升的效果和方法比我想的要好,GPT 4o和o1是发展大模型不同的方向,但是o1这个方向更根本,重要性也比GPT 4o这种方向要重要得多,原因下面会分析。、
1.2为什么说o1比4o方向重要?这是两种不同的大模型发展思路,说实话在看到GPT 4o发布的时候我是有些失望的,我当时以为OpenAI会优先做o1这种方向,但是没想到先出了GPT 4o。GPT 4o本质上是要探索不同模态相互融合的大一统模型应该怎么做的问题,对于提升大模型的智力水平估计帮助不大;而o1本质上是在探索大模型在AGI路上能走多远、天花板在哪里的问题,很明显第二个问题更重要。
GPT 4o的问题在于本身大模型的智力水平还不够高,所以做不了复杂任务,导致很多应用场景无法实用化,而指望靠图片、视频这类新模态数据大幅提升大模型智力水平是不太可能的,尽管确实能拓展更丰富的多模态应用场景,但这类数据弥补的更多是大模型对外在多模态世界的感知能力,而不是认知能力。提升大模型认知能力主要还要靠LLM文本模型,而提升LLM模型认知能力的核心又在复杂逻辑推理能力。LLM的逻辑推理能力越强,则能解锁更多复杂应用,大模型应用的天花板就越高,所以不遗余力地提升大模型尤其是文本模型的逻辑能力应该是最重要的事情,没有之一。
如果o1模型能力越做越强,则可以反哺GPT 4o这种多模态大一统模型,可以通过直接用o1基座模型替换GPT 4o的基座、或者利用o1模型生成逻辑推理方面的合成数据增强GPT 4o、再或者用o1蒸馏GPT 4o模型…… 等等,能玩的花样应该有很多,都可以直接提升GPT 4o的复杂任务解决能力,从而解锁更复杂的多模态应用场景。OpenAI未来计划两条线,一条是o1,一条是GPT 4o,它的内在逻辑大概应该是这样的,就是说通过o1增强最重要的基座模型逻辑推理能力,而再把这种能力迁移到GPT 4o这种多模态通用模型上。
1.3 OpenAI o1的做法本质上是COT的自动化。我们知道,通过COT把一个复杂问题拆解成若干简单步骤,这有利于大模型解决复杂逻辑问题,但之前主要靠人工写COT来达成。从用户提出的问题形成树的根结点出发,最终走到给出正确答案,可以想像成类似AlphaGo下棋,形成了巨大的由COT具体步骤构成的树形搜索空间,这里COT的具体步骤的组合空间是巨大的,人写的COT未必最优。如果我们有大量逻辑数据,是由<问题,明确的正确答案>构成,则通过类似AlphaGo的Monte Carlo Tree Search(MCTS)搜索+强化学习,确实是可以训练大模型快速找到通向正确答案的COT路径的。而问题越复杂,则这个树的搜索空间越大,搜索复杂度越高,找到正确答案涉及到的COT步骤越多,则模型生成的COT就越复杂,体现在o1的速度越慢,生成的COT Token数越多。很明显,问题越复杂,o1自己生成的隐藏的COT越长,大模型推理成本越高,但效果最重要,成本其实不是问题,最近一年大模型推理成本降低速度奇快,这个总有办法快速降下去。
1.4 从上面o1的做法可以知道Prompt工程会逐渐消亡。之前解决复杂问题,需要人写非常复杂的Prompt,而o1本质上是COT等复杂Prompt的自动化,所以之后是不太需要用户自己构造复杂Prompt的。本来让用户写复杂Prompt就是不人性化的,所有复杂人工环节的自动化,这肯定是大势所趋。
1.5 Agent属于概念火但无法实用化的方向,主要原因就在于基座模型的复杂推理能力不够强。如果通过基座模型Plan把一个复杂任务分解为10个步骤,哪怕单个步骤的正确率高达95%,要想最后把任务做对,10个环节的准确率连乘下来,最终的正确率只有59%,惨不忍睹。那有了o1是不是这个方向就前途坦荡?也是也不是,o1的Model Card专门测试了Agent任务,对于简单和中等难度的Agent任务有明显提升,但是复杂的、环节多的任务准确率还是不太高。就是说,不是说有了o1 Agent就现状光明,但是很明显o1这种通过Self Play增强逻辑推理能力的方向应该还有很大的发展潜力,从这个角度讲说Agent未来前途光明问题应该不大。
1.6 OpenAI很多时候起到一个行业指路明灯的作用,往往是第一个证明某个方向是行得通的(比如ChatGPT、GPT 4、Sora、GPT 4o包括这次的o1),然后其他人开始疯狂往这个方向卷,到后来甚至卷的速度太快把OpenAI都甩到后面吃尾气。典型例子就是Sora,如果OpenAI不是出于阻击竞争对手秀一下肌肉,大家都没有意识到原来这个方向是可以走这么远的,但当意识到这一点后,只要你专一地卷一个方向,方向明确且资源聚焦,是可能赶超OpenAI的,目前国内外各种视频生成模型有些甚至可能已经比Sora好了,Sora至今仍然是期货状态,主要OpenAI想做的方向太多,资源分散导致分到具体一个方向的资源不够用,所以越往后发展期货状态的方向越多,也让人觉得尽显疲态。
OpenAI o1等于给大家又指出了一个前景光明的方向,估计后面大家又开始都往这个方向卷。我觉得卷这个方向比去卷GPT 4o和视频生成要好,虽然具体怎么做的都不知道,但是大方向清楚且效果基本得到证明,过半年肯定头部几家都能摸清具体技术追上来,希望能再次让OpenAI吃尾气。而且这个方向看上去资源耗费应该不会特别大,偏向算法和数据一些,数据量规模估计不会特别巨大,卷起来貌似成本低一些。这是个卷的好方向。
二.预训练Scaling Law的来源及O1提到的RL Scaling law
2.1粗分的话,大语言模型最基础的能力有三种:语言理解和表达能力、世界知识存储和查询能力以及逻辑推理能力(包括数学、Coding、推理等理科能力,这里Coding有一定的特殊性,是语言能力和逻辑掺杂在一起的混合能力,Coding从语言角度可以看成一种受限的自然语言,但是混杂着复杂的内在逻辑问题。从语言角度看,Coding貌似是容易解决的,从逻辑角度看又相对难解决。总之,Coding目前看是除了语言理解外,大模型做得最好的方向)。
语言理解和表达是LLM最强的能力,初版ChatGPT就可以完全胜任各种纯语言交流的任务,基本达到人类水准,目前即使是小模型,在这方面比大模型能力也不弱;世界知识能力虽说随着模型规模越大效果越好,但幻觉问题目前无法根治,这是制约各种应用的硬伤之一;逻辑推理能力一直都是LLM的弱项,也是最难提升的方面,从GPT 4开始往后,如何有效并大幅提升LLM的逻辑推理能力是体现不同大模型差异和优势的最核心问题。所以,大模型最重要的一个是世界知识方面如何有效消除幻觉,一个是如何大幅提升复杂逻辑推理能力。语言能力已不是问题。
2.2从大模型的基础能力,我们再说回已经被谈滥了的大模型Scaling law。现在普遍认为通过增加数据和模型规模来提升大模型效果的Scaling law模式,其增长速度在放缓。其实我们对照下大模型的三个基础能力的能力来源,基本就能看出来这是为啥(以下是我猜的,不保真):
本质上大模型的能力来源都来自训练数据,包含能体现这方面能力的训练数据越多,则这种能力越强。语言能力不用说了,任意一份预训练数据,其中都包含相当比例的语言的词法句法等成分,所以训练数据中体现语言能力的数据是最多的,这也是为何大模型的语言能力最强的原因。
而数据中包含的世界知识含量,基本是和训练数据量成正比的,明显数据量越多,包含的世界知识越多,Scaling law是数据中包含的世界知识含量关系的一个体现,但是这里有个问题,大模型见过越多数据,则新数据里面包含的新知识比例越小,因为很多知识在之前的数据里都见过了,所以随着数据规模增大,遇到的新知识比例就越低,在世界知识方面就体现出Scaling law的减缓现象。
而为啥逻辑推理能力最难提升?因为能体现这方面的自然数据(代码、数学题、物理题、科学论文等)在训练数据中比例太低,自然大模型就学不好,尽管通过不断增加数据,能增加逻辑推理方面数据的绝对数量,但因为占比太少,这方面提升的效果和增加的总体数据规模就不成比例,效果也不会太明显,就体现在逻辑推理能力Scaling law看上去的放缓。这是很自然的。这也是为何现在为了提高模型逻辑能力,往往在预训练阶段和Post-training阶段,大幅增加逻辑推理数据占比的原因,且是有成效的。
2.3 所以目前大模型的核心能力提升,聚焦到不断通过合成数据等方式构造更多比例的逻辑推理数据上来。但是大部分逻辑推理数据的形式是<问题,正确答案>,缺了中间的详细推理步骤,而o1本质上是让大模型学会自动寻找从问题到正确答案的中间步骤,以此来增强复杂问题的解决能力。
OpenAI o1提到了关于RL在训练和推理时候的Scaling law,并指出这与预训练时候的Scaling law具有不同特性。很明显,如果o1走的是MCTS搜索技术路线,那么把COT拆分的越细(增加搜索树的深度),或提出更多的可能选择(节点的分支增多,就是说树的宽度越宽),则搜索空间越大,找到好COT路径可能性越大,效果越好,而训练和推理的时候需要算力肯定越大。看上去有着效果随着算力增长而增长的态势,也就是所谓的RL的Scaling law。这其实是树搜索本来应有之义,我倒觉得把这个称为RL的Scaling law有点名不副实 。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓