上交大全华班复现o1旅程式学习下的深思考

news2024/11/25 16:34:07

因篇幅限制不重复原研究内容,建议访问原技术报告链接精读,这里主要向大伙表示我对上交大本此研究所涉三方面的价值认同及更进一步的延展思考。

ad69e285bf6245698df074604bbd9559.jpg

 

价值认同:

① 深刻洞察:系统性研究并阐释旅程式学习;

② 行业促进:倡导了一种全新的AI研究范式;

③ 核桃计划:建立更长远AGI探索研究机制;

d40b08bf9c1545798546ef960770697c.jpg

 

延展思考:

Ⅰ. 关于o1的旅程学习与以往system1捷径学习的最根本不同在于优化目标的差异,旅程学习优化的是整个推理过程状态而非仅结果,即多步骤的隐式到显式空间状态映射下的细粒度联合概率分布建模,或可理解为大分辨率下的流形展开 - 熟悉我之前观点的伙伴了解这里的隐式与显式分别对应于模型内NN参数化表征与真实世界表征,流形即泛化归一轨迹,感兴趣的小伙伴也可参考我之前的几篇相关主题笔记或文章。

 

Ⅱ. 探索与奖励下的旅程式学习即是一种形式化泛化的组合,在这一形式化框架下蕴含着诸如数学定理证明、代码编程、物理规律探索、生化机制探索甚至关联着在数理化生等多基础科学跨学科思想间、宏观与微观视角下多表型间等可泛化迁移的领域内及跨领域泛化组合。

 

Ⅲ. 捷径学习与旅程学习在结合模型内部隐式神经网络信号激活的多跳与外部显式模型间的长链推理多跳两者的统一视角下,一种直观且自然的类比感觉更像统计物理学与社会经济或社会经济学两种不同的自然动态系统演化现象,而这两种现象又非全完割裂,其中又或隐含和维持着某种平衡与联系

 

Ⅵ. 而在这两种不同的认知范式下,关于其中的“泛化”、“探索”、“奖励”等关键要素在其中蕴含的意义和体现,我的观点是:对于复杂的长链推理模式的联合分布建模也许可泛化“势能”(用于泛化建模或压缩的可观测采集数据受限)存在一定局限性,这可能源于自然界分布本身亦或人类认知的局限,或许这也为旅程式学习即探索本身留出空间以大展拳脚,即当下o1衍生出的training+influence new scaling law。

而其中的“前向式探索”与“反向式奖励”可能是建立当前可泛化空间中泛化间联系并实现泛化空间延展的一种灵活且高效的动态方法,毕竟在我们这个世界中,一些泛化是很难掌握和学习的,需要一些“灵感”或“巧合”。

然不同于AlphaGo那样捷径式强化学习策略,不管模型内的隐式涌现还是模型外的显式信息交互,对于某复杂探索性任务有时错误的探索与反馈也是形成高阶泛化能力的一种必要过程和增益,亦为可解释性带来可能,当然,考虑到复杂性,对于探索的剪枝策略平衡需适当考虑进去,其中的平衡亦是关键。

f949babdcbab413ca33836d5cd7d19de.png

5224d1a06d11436a9c716a7968c08fb5.png 

 43414bc2f0664dc895f403458acba955.png

bc8cc63c8e8146e68a1d951738b7095b.png 

7665935ad88541abb7a4da2955b2a693.png 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL Injection | MySQL 数据库概述

关注这个漏洞的其他相关笔记:SQL 注入漏洞 - 学习手册-CSDN博客 0x01:MySQL 数据库简介 MySQL 是一个流行的关系型数据库管理系统(RDBMS),它基于 SQL (Structured Query Language)进行操作。My…

Django项目的创建及说明(详细图解版)

Django项目的创建及说明 1、安装Django2、创建项目2.1、利用终端创建项目2.2、利用Pycharm企业版创建项目 3、默认文件介绍 1、安装Django 在终端输入下述命令行。 pip install django安装成功后执行如下命令查看Django是否安装好,若正确显示出Django版本号则安装…

[实时计算flink]应用场景

本文将以部门场景和技术领域场景为例,为您介绍实时计算Flink版的大数据是实时化场景。 背景信息 作为流式计算引擎,Flink可以广泛应用于实时数据处理领域,例如ECS在线服务日志,IoT场景下传感器数据等。同时Flink还能订阅云上数据…

进程的那些事--进程间的通信(重点说明管道和共享内存)

目录 前言 一、初始进程间通信 二、管道 1.匿名管道 2.命名管道 三、共享内存 四、消息队列(了解) 五、信号量(了解) 前言 提示:这里可以添加本文要记录的大概内容: 进程是一个能够独立运行&#…

什么情况下数据库和缓存不一致?

首先,在非并发的场景中,出现不一致的问题大家都能比较容易的理解,因为缓存的操作和数据库的操作是存在一定的时间差的。而生两个操作是没办法保证原子些的,也就是说,是有可能一个操作功,一个操作失败的。所…

C语言-数据结构 折半查找

在折半查找中,刚开始学可能会在下标处产生困惑,例如奇数个长度的数组怎么处理,偶数个长度的数组怎么处理,不需要修改代码吗?并且下标我从1开始算和0开始算影响代码吗?其实都可以用一样的代码,产…

【含文档】基于Springboot+Vue的失物招领系统(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

如何替换OCP节点(一):使用oat | OceanBase应用实践

前言: OceanBase Cloud Platform(简称OCP),是 OceanBase数据库的专属企业级数据库管理平台。 在实际生产环境中,OCP的安装通常是第一步,先搭建OCP平台,进而依赖OCP来创建、管理和监控我们的生…

docker升级mysql

一、首选备份原数据库所有数据 二、在Docker中查看正在运行的MySQL容器名称,可以使用以下命令: docker ps --filter "namemysql" 三、查看当前docker中正在运行mysql的版本 docker exec -it qgz-mysql mysql -V 可以看到当前运行的版本是8.…

数据传输——差错控制

一、检错纠错 1、通信链路不是完全理想的,在传输的过程中可能会产生比特差错。 2、误码率:传输错误的比特占所传输比特总数的比率。 3、检错:能自动发现差错。 4、纠错:不仅能发现差错而且能自动纠正差错。 5、码字(codeword…

Selenium打开外部应用程序的弹窗处理

问题 selenium自动化操作页面跳转到外部应用程序进行下载等操作,各种窗口处理方式无法解决 原因 该窗口属于浏览器窗口,与访问页面无关(已经脱离页面操作层面) 解决 selenium启动浏览器时,对浏览器进行相关窗口设…

Elasticsearch的安装与配置

注意:elasticsearch 禁止安装在/root路径下! 1、创建用户组 groupadd elastic 2、创建用户 useradd es -d /home/es -g elastic echo es | passwd es --stdin 3、给新创建的用户进行授权 chown -R es:elastic /home/es chmod -R 775 /home/es 4…

sklearn机器学习实战——支持向量机四种核函数分类任务全过程(附完整代码和结果图)

sklearn机器学习实战——支持向量机四种核函数分类任务全过程(附完整代码和结果图) 关于作者 作者:小白熊 作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目…

Nginx反向代理配置与负载均衡配置

简介:整理自黑马程序员苍穹外卖的第11节 nginx是什么? nginx的好处 nginx反向代理配置方式 nginx负载均衡的配置方式 nginx负责均衡策略

等保2.0测评 — WebSphere 中间件

查看版本信息: 登录websphere管理平台首页就能看到版本信息 可以进入\usr\IBM\WebSphere\AppServer\bin 下执行./versionInfo.sh查看版本 一、身份鉴别 a)应对登录的用户进行身份标识和鉴别,身份标识具有唯一性,身份鉴别信息具有…

如何使用printf实现整齐美观的输出?

在编程中,尤其是在涉及控制台输出的应用场景中,我们需要让输出的信息更加整齐美观。printf 是 C 语言中用于格式化输出的强大工具之一。通过合理的格式化控制符,我们可以轻松地控制输出的宽度、对齐方式、填充字符等,从而达到整齐…

RiproV9.0主题wordpress主题免扩展可二开PJ版/WordPress博客主题Ripro全解密无后门版本

🔥🎉 全新RiPro9.0开源版发布 —— 探索无限可能🚀🌐 今天,我很高兴能与大家分享一个重磅资源——RiPro9.0开源版!这不是一个普通的版本,而是一个经过精心打磨、全面解密的力作。🔍…

使用KEIL5,不复位MCU,调试到程序运行到卡住之处

文章目录 前言步骤1步骤2步骤3步骤4步骤5 前言 经常有朋友在开发中遇到这样的窘境,当单片机程序运行异常以后,由于调试信息做得并不是很全面,导致相应的问题场景非常难分析。当时的你肯定会叹息道:“要是我一直插着仿真器就好了,…

【Concept Sliders】通过拖到滑块来精确控制特定图像特征

Concept Sliders 是一种用于扩散模型(如 Stable Diffusion)的LoRA 适配器,允许用户在图像生成过程中对特定概念进行精细控制。与依赖提示词生成图像的传统方法不同,Concept Sliders 通过引入可调整的“滑块”,用户可以…

前端读取本地表格数据

vue3tsvite 无后端提供数据的情况下,前端读取本地表格数据,并将数据放入页面结构中 展示在网页中 记得先安装npm install xlsx 目录 read_xlsx.ts import * as XLSX from xlsx; //将行,列转换 function transformSheets(sheets: { [key: string]: any })…