夕小瑶科技说 原创
作者 | 海野
现在看到“草莓”两个字,我已经条件反射了,已经不再是之前单纯的香香甜甜的草莓了。
一早醒来,又发生了两件“大事”:
一个是OpenAI的草莓(strawberry)被曝要提前了,会在两周内发布。
另一个还是OpenAI,他们新推出了一个定价200美元/月的ChatGPT Pro订阅套餐。
昂,具体是这样传的。
昨晚,外媒The Information透露,在未来两周左右,OpenAI就会上线他们的草莓模型(strawberry)。
曾经OpenAI说“秋季发布草莓模型”,如果是真的,这可能是OpenAI提前兑现期货的一次。
先对这次的曝光总结一下子:
- 速度慢
- 猜测使用了新范式Self-play RL
- 数学代码能力强(之前就曝过的)
草莓模型,它的卖点就是——“自主思考”能力,以及强大的数学/代码能力。
在响应之前,会有一段10~20秒的“思考”时间,然后回答带有自己想法的答案。
网友猜测,根据现在有关草莓模型的各种信息来看,草莓模型的自主推理、强大代码能力,很有可能是通过一个新范式Self-play RL(自博弈强化学习)训练而得。
在AI发展和进化的路上,追求AI进化为类人智能,一直是可想而不可实现的目标。其中最大的难点就是:让AI通过“模仿人类思维”进行思考和推理。
虽然,在非常庞大的数据集支撑下,现存的生成式大模型可以在对话中出口成章,为我们提供现有的各种信息。
但,这只是模型根据人类已有的数据与信息进行重复利用,却无法根据这些数据产生自己的想法和共鸣。
也就是说,大模型可以是一个很强的“文科生”,但在理科方面,只会做曾经做过的题。
而通过自博弈方法,大模型会与自己进行无数次对话,在这个过程中实现自我迭代学习。Claude和Deepseek的AI Coding能力也有一定可能源自这个范式。如果真的采用这种方法,草莓模型也会在数学和代码方面有非常强的建树。
但介于自博弈方法的计算效率有限,目前AI只能利用这个范式,实现在单个特定领域的突破。比如2017年的AlphaGo Zero,在没有人类输入的情况下,自博弈学习围棋,以100:0打赢了AlphaGo Master,而后者曾战胜过柯洁。
此外,自博弈需要进行超大量级的试验,对存储资源需求较高,推理成本也比较高,所以基本上没多少自博弈模型能真正落地。
当然,以上是对草莓模型的推测,具体原理是否如此,还需要等模型上线揭晓。 以及,受美国国家安全局掣肘,草莓模型也有可能蒸馏后再上线。
虽然草莓模型集成到ChatGPT中,但它是作为一个独立的产品存在,ChatGPT集成只是用法的一种。而初始版本的草莓模型只能接收和生成文本,并不会像其他GPT模型一样支持多模态。后续还要慢慢等更新。
根据介绍,草莓模型使用起来可能会更简单一些——对于现有的大语言模型,我们还要输入完整的“思维链”,才能换来想要的答案。而草莓模型只需要提供问题,就可以独立思考解决问题的逻辑链,从而给出结果。
不过我们都希望,这种思考只是用在比较复杂的问题上,可惜的是,尽管是一些简单到不行的问题,草莓模型可能也会思考很久,让人等个十几秒。如果换成普通的模型来回答也用不了这么久。
而且,十几秒的等待时间确实很长,不符合最开始对AI思考时间的预期。
然后是定价。
根据热心网友爆料,OpenAI还推出了一个新的订阅价位——
ChatGPT Pro,定价200美元/月。
网传有人发了付款页面,但目前尚不确定是否确有此事。
如果情况属实,这个新的订阅档位很大可能就是为草莓模型准备的。出于草莓模型的推理成本,这个定价也许是OpenAI能接受的最低价,这个模型的使用场合也可能更适合团队或集体使用。
对于个人来说……除非它能达到的效果真的有10倍以上,不然还是建议各位量力而行啊~
原文链接:https://mp.weixin.qq.com/s/xT1ZrfipYs1JOR4p1eWdWA
参考资料
[1]https://www.theinformation.com/articles/new-details-on-openais-strawberry-apples-siri-makeover-larry-ellison-doubles-down-on-data-centers?rc=ayfylg
[2] https://mp.weixin.qq.com/s/iN3BkbjDsEO4k88KOcIfkg
参考模型:363Ai工具箱