深度学习工作:从追求 SoTA 到揭示新现象

news2024/12/27 6:25:09

TLDR:主要讨论了从追求模型 SoTA 到揭示新现象的转变。通过几个例子,包括ACNet到RepVGG的发展,RIFE插帧、Film插帧,以及OpenAI的近期工作,阐述了这种转变的重要性。

知乎:黄哲威 hzwer
链接:https://zhuanlan.zhihu.com/p/14170281797

最近大家对于前沿工作的讨论,常常出现两极分化

比如 DiT,看到很多人说是灌水,研究生实验报告,Sora 以后有人又说“打脸”

比如说 OpenAI-o3,有答主说 “这是真正的智能爆炸,断崖式提升”,然后评论区说 “下次换个话术”

身边的故事,近期审了不少论文,发现大家对于宣称 SoTA 的工作越来越严苛了。往年那种先 SoTA 再故事的论文,眼看着被连环拒。作者喊着性能无敌,审稿人 borderline reject

想了一些东西,也对 论文写作指南 做了点补充

ACNet 到 RepVGG 的现象上升

聊个大佬朋友的例子, @丁霄汉 说 RepVGG 其实可以叫 ACNetv2

简单来说 ACNet 就是训练的时候三个卷积核,推理的时候合成一个

图片

ACNet 在 ICCV19 投稿得分还是有正有负被捞起来,目前 800+ 引用说明后续影响力很不错

我个人觉得并不是当年的审稿人水平太差没有看出它的创新性,而是 ACNet 的创新性在丁博的后续工作中有广泛提升

因为 RepVGG 抽象了一个新概念“结构重参数化”,把 ACNet 中不好说清楚动机的设计方式变成 “构造一系列结构(一般用于训练),并将其参数等价转换为另一组参数(一般用于推理),从而将这一系列结构等价转换为另一系列结构”

然后同时又报告了一个现象,即 VGG 式的网络,只要有并行的恒等和 1x1 卷积分支,就能训出 ResNet 相当的性能,推理时还跟原来的 VGG 结构一样

重参数化自此成为手工设计 CNN 的一类重要操作

论文刷点是一部分,更高的性能同时揭露新的现象,才是学术的本质

王婆卖瓜 - RIFE 插帧 卖个自己论文的例子 - RIFE 实时视频插帧模型

我近一两年才逐渐意识到自己阴差阳错做了一篇还不错的论文,目前还不知道怎么达到更高水平,希望以此为例传达一些经验教训

研究初衷是当时业界流行的插帧算法 DAIN 速度比较慢,就想设计个规整的 CNN 网络来做一个实时插帧模型

一开始投稿也是主要突出 SoTA 性能,但是审稿人买账的不多,特别是轻量化模型并不是一个讨喜的研究话题,被拒好几次

虽然我们认为某个指标提高就是模型核心竞争力的体现,但是全世界大概只有几个小同行共识,而且提高一点性能,本身不为领域带来什么新的知识

于是我们重写了文章,更多的加入了新的发现,于是审稿人和读者可以各自寻找心中的哈姆雷特

  1. 把先前一些模型的误差解释为光流逆转时忽略了物体空间移动,所以我们有更强的动机在轻量化网络中端到端估计中间帧光流

  2. 对于为什么要做光流蒸馏,先指出输入中间帧信息为“特权”的模型会有高得多的性能

  3. 多倍插帧,我们发现把目标时间 T 输入进网络是可以实现控制任意时刻插帧的,而且训练之后还可以放入梯度式的时间编码实现场景融合或果冻效应模拟

  4. 将光流和融合权重先一起预测,可以用来做其它模态的插帧

  5. 性能上我们也改成强调整体设计带来的多倍插帧场景的效果提升等等

这样自己都不用强调,审稿人每个人都会说这篇论文提出的方法性能很好

我们希望读者觉得论文更有读的价值,现在看引用也真的来自很多不同的方向,比如有 20+ 篇做果冻效应的引用

为什么说 “阴差阳错” 呢,因为很多 idea 其实是多次 rebuttal 以后想的。比如说有两次审稿人批评不能做任意时刻插帧,我就回复说这个简单,把目标时间 T 输入就行了嘛。审稿人说,没做实验你说个锤子,一做才发现效果比预期还好

水平所限,当年其实还是没有把这篇论文写的很好,写这篇总结是希望下次能做的更优美

不用刷 SoTA 的 Film 插帧

带着这样的视角,看看为什么有的论文在很卷的赛道也能中得顺利,发在 ECCV22 的插帧论文 Film: Frame interpolation for large motion,Fitsum Reda 大佬作品

图片

看宣称的论文贡献:

我们将帧插值的范围扩展到一个新颖的近重复照片插值应用,为社区开辟了一个新的探索空间。
– 我们调整了一个共享权重的多尺度特征提取器,并提出了一个尺度无关的双向运动估计器,使用常规训练帧来很好地处理小范围和大范围的运动
– 我们采用基于Gram矩阵的损失函数来修复由大场景运动引起的大范围遮挡,从而生成清晰且令人满意的帧
– 我们提出了一个统一、单阶段的架构,以简化训练过程,并消除对额外光流或深度网络的依赖

很明显地有一些新东西,首先是开辟新的研究范围,找到一些以往算法都会挂掉的例子

然后围绕这个问题构建整个论文,提出了一系列设计,包括结构和损失函数

和别人的对比是次要的,在以往 benchmark 上和 SoTA 差不多可比就可以了,突出一些关注场景的性能

近期热门的 OpenAI 工作

OpenAI 发的一系列东西,如果我们从做新现象的角度去审视,就能知道为什么它们是好东西

比如说 Sora 现在不如可灵,那它是不是价值显著下降?

我觉得可灵以及很多国产视频生成大模型的广泛成功,其实说明了 Sora 的含金量,即它展示的现象是别人可以复现的,通过 DiT 来高质量长时长的可控视频生成,甚至于它的失败例子其实都是很有意思的实验现象

GPT4 / o1 / o3,每一个都展示了前代模型没有的新现象,这是它们足以吸引诸多研究者的原因

如果我第一次看到 ChatGPT,我会很疑惑怎么会有这样交互水平的对话模型,它是不是在时不时联网 + 人工干预 + 复杂的 pipeline 设计来产出内容

然后当我们在小模型复现了一些流程以后,会惊讶于一个 7B 左右大小的模型真的能日常对话

GPT4 一开始最吸引我的,就是它解决我出的算法题的水平。虽然它在这方面不如很多经过训练的初中生,但是比起其它胡说八道的模型真的强了很多

o1 / o3 是思维链了更扩展版本,探索了用更多的推理开销换取智能的可能性

具体就不赘述了,总之我希望社区看这些工作的时候,不要过多讨论 xxx 是不是通往 AGI(通用人工智能)的路子,以及 xxx 的本质是不是就是 xxx,而是分享我们能从新方法看到什么新现象

新的现象才孕育着新的可能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2266217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

USB Hub 检测设备

系列文章目录 xHCI 简单分析 USB Root Hub 分析 USB Hub 检测设备 文章目录 系列文章目录一、引言二、hub_eventshub_port_connect_changeusb_alloc_devusb_set_device_statehub_port_initusb_new_device 一、引言 USB Hub 检测设备 一文中讲到,当有 USB 插入时&…

upload-labs关卡记录13

这里和关卡12非常类似,唯一不同就是12关用到get方法,这里用到post方法。因此对应的截断方式也不一样,依旧是使用我们的bp进行抓包, 然后依旧是在upload后加上shell.php,这里用是为了hex时好区别我们要在哪里更改&#…

鸿蒙UI开发——使用WidthTheme实现局部深浅色

1、场景描述 在实际的应用开发中,我们可能需要在界面中局部应用深色或者浅色的界面样式,与全局的深色、亮色同时生效。场景例如:深/亮色预览。此时,我们可以使用WithTheme能力来达到我们的效果。 2、WithTheme WithTheme组件可…

骑砍2霸主MOD开发(26)-Mono脚本系统

一.游戏启动流程 <1.启动器Launcher 运行TaleWorlds.MountAndBlade.Launcher.exe启动C#程序Program,完成MOD列表页面的加载. public class Program {public static void Main(string[] args){#加载启动器GUI界面ResourceDepot resourceDepot new ResourceDepot();resource…

Gmsh有限元网格剖分(Python)---点、直线、平面的移动

Gmsh有限元网格剖分(Python)—点、直线、平面的移动和旋转 最近在学习有限元的网格剖分算法&#xff0c;主要还是要参考老外的开源Gmsh库进行&#xff0c;写一些博客记录下学习过程&#xff0c;方便以后回忆嘞。 Gmsh的官方英文文档可以参考&#xff1a;gmsh.pdf 但咋就说&a…

代码随想录Day39 198.打家劫舍,213.打家劫舍II,337.打家劫舍 III。

1.打家劫舍 力扣题目链接(opens new window) 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被小偷闯入&#xff0c;系统…

01-linux基础命令

一、linux命令概述 命令 选项 参数命令 &#xff1a;就是命令名&#xff1b;选项&#xff1a;一般以 - 开头 比如&#xff1a;-a -p -r 等扩展命令的功能&#xff1b;参数&#xff1a;描述命令的目标&#xff0c;如我们要打开一个文件的话&#xff0c;参数就是要打开的文件名…

MATLAB符号计算-初步认识符号对象

1.1自顶向下的程序设计方法 【例1-1】列主元Guass消去法解方程组 a[2 -3 5 -1;1 4 2 -3;-2 4 -3 -7;8 0 -2 1]; b[3 7 -1 8]; sLZYguass(a,b) 代码还有问题&#xff0c;x11.1913,x21.1157,x30.8114,x40.0923 学长帮忙修改过&#xff1a; 反思&#xff1a; length()、size(…

支持向量机入门指南:从原理到实践

目录 1 支持向量机的基本概念 1.2 数学表达 2 间隔与支持向量 2.1 几何间隔 2.2 支持向量的概念 2.3 规范化超平面 2.4 支持向量的深入分析 2.4.1 支持向量的特征 2.4.2 支持向量的作用 2.4.3 支持向量的代数表示 2.5 KKT条件 3 最优化问题 3.1 问题的形成 3.2 规…

快速汇总Word表格

示例需求&#xff1a;Word文档中的有多个表格&#xff0c;其中最后一个表格为汇总表格&#xff0c;其他的为数据表格&#xff0c;如下图中左侧所示。 现在需要根据Category1和Category2&#xff0c;在数据表格中查找&#xff0c;如果找到匹配行&#xff0c;那么 为数据表中改…

OSCP课后练习-tcpdump

本篇文章旨在为网络安全渗透测试行业OSCP考证教学。通过阅读本文&#xff0c;读者将能够对tcpdump日志分析关键信息过滤有一定了解 1、下载练习分析文件 wget https://www.offensive-security.com/pwk-online/password_cracking_filtered.pcap2、查看分析文件所有内容 sudo t…

Linux快速入门-Linux的常用命令

Linux的常用命令 1. Linux的终端与工作区1.1 终端概述1.2 切换终端 2. Shell语言解释器2.1 Shell概述 3. 用户登录与身份切换3.1 su 命令3.2 sudo 命令 4. 文件、目录操作命令4.1 pwd 命令4.2 cd 命令4.3 ls 命令4.3.1 ls 指令叠加使用 4.4 mkdir 命令4.5 rmdir 命令4.6 cp 命令…

ASP.NET Web应用程序出现Maximum request length exceeded报错

一、问题描述 在ASP.NET的web应用中&#xff0c;导出数据时出现500 - Internal server error.Maximum request length exceeded。 二、原因分析 这个错误通常出现在Web应用程序中&#xff0c;表示客户端发送的HTTP请求的长度超过了服务器配置的最大请求长度限制。这可能是因为…

【JDBC】使用原生JDBC,数据量很大且内存空间较小的情况下,JavaHeap溢出

文章目录 使用原生JDBC&#xff0c;数据量很大且内存空间较小的情况下&#xff0c;JavaHeap非常容易溢出问题背景java.lang.OutOfMemoryError: Java heap space错误分析解决方案1. **优化数据库查询**2. **调整 JVM 堆内存**3. **批量处理数据**4. **线程池优化** 总结**Result…

uniapp 微信小程序 数据空白展示组件

效果图 html <template><view class"nodata"><view class""><image class"nodataimg":src"$publicfun.locaAndHttp()?localUrl:$publicfun.httpUrlImg(httUrl)"mode"aspectFit"></image>&l…

12.26 学习卷积神经网路(CNN)

完全是基于下面这个博客来进行学习的&#xff0c;感谢&#xff01; ​​【深度学习基础】详解Pytorch搭建CNN卷积神经网络LeNet-5实现手写数字识别_pytorch cnn-CSDN博客 基于深度神经网络DNN实现的手写数字识别&#xff0c;将灰度图像转换后的二维数组展平到一维&#xff0c;…

【团标】《信息工程造价政务信息化项目造价评估方法》(TCQAE11021-2023)-费用标准解读系列33

《信息工程造价政务信息化项目造价评估方法》&#xff08;TCQAE11021-2023&#xff09;是中国电子质量管理协会2023年发布&#xff0c;2023年12月16日开始实施的标准&#xff08;了解更多可直接关注我们咨询&#xff09;。该标准适用于政务信息化项目的造价评估&#xff0c;政务…

mybatisplu设置自动填充

/*** mybatisplus的自动化填充*/public class JboltMetaObjectHandler implements MetaObjectHandler {Overridepublic void insertFill(MetaObject metaObject) {LocalDateTime now LocalDateTime.now(ZoneId.of("Asia/Shanghai"));this.strictInsertFill(metaObje…

音视频入门基础:MPEG2-TS专题(23)——通过FFprobe显示TS流每个packet的信息

一、引言 通过FFprobe命令&#xff1a; ffprobe -of json -show_packets XXX.ts 可以显示TS流/TS文件每个packet&#xff08;也称为数据包或多媒体包&#xff09;的信息&#xff1a; 对于TS流&#xff0c;上述的“packet”&#xff08;数据包或多媒体包&#xff09;是指&…

Linux电源管理——CPU Hotplug 流程

目录 一、相关概念 二、基本原理 三、代码分析 1、CPU_ON 2、CPU_OFF References Linux Version&#xff1a;linux-5.4.239 一、相关概念 在单核操作系统中&#xff0c;操作系统只需管理一个CPU&#xff0c;当系统有任务需要执行时&#xff0c;所有的任务会在该CPU的就绪…