论文阅读 | Real-Time Intermediate Flow Estimation for Video Frame Interpolation

news2024/12/23 19:25:48

前言:ECCV2022 快速插帧方法

Real-Time Intermediate Flow Estimation for Video Frame Interpolation

引言

进行视频插帧目前比较常见的方法是基于光流法,分为两个步骤:1.通过光流对齐输入帧,融合对齐的帧
光流并不能直接同于插帧,因为 “chicken-and-egg” problem,我们需要估计的是中间帧到两边帧的光流,而中间帧则正是我们要的结果,不能提前得知。
一些方法通过求得双向流后再反转、细化得到中间光流,但这种方法对运动物体边缘的处理不太友好。

在这篇文章中,我们采用的也是基于光流法,设计的思路如下:

  • 不需要深度图/光流细化模块/流反转层等结构,这些结构是为了获取更准确的光流,我们尝试消除对准确光流的依赖
    (之前有看到作者在知乎上的回答,即目前很多做插帧的任务都做成了光流的下游任务,作者应该是想更多的从插帧上解决这个问题)
  • 端到端的CNN光流估计
  • 训练时提供中间流的监督

贡献点:

  • 提出了一个IFnet的光流估计模型,并引入了特权蒸馏来提升性能
  • 设计了插帧架构RIFE,实现了任意时刻插帧取得了SOTA效果
  • 我们的网络可以拓展到深度图插值和动态场景拼接等领域

网络

pipeline
(这个pipeline画得还能再草率一点)
在这里插入图片描述
即将光流warp得到后的两张图像按一个mask融合
在这里插入图片描述
我们还用了另一个encoder和decoder网络获得插帧的高频信息来减少伪影

首先是IFNet求光流

在这里插入图片描述
以往的方法为了求中间流的值t-0,t-1都是先求两边光流1-0,0-1,再乘上一个时间t,但这样就没法考虑物体的移位,比如上图左中的示意,物体在0-t时刻已经进行移位了,虽然总位移量的确是t倍关系,原0-1时刻的光流位置不能准确的对应到t-1时刻的光流位置,即产生伪影
作者这里直接用一个端到端的网络来学习中间流

其次,作者采用了由粗到细的策略来学习光流,这样可以节约计算量也能更好的应对大的位移,即先在低分辨率上学习光流,再逐步扩大分辨率,细化之前学到的光流
在这里插入图片描述
这里的F指的是光流,M指的是fusion mask
其中IFB为IFBlock,激活函数为PReLU
IFBlock的模块构成如下
在这里插入图片描述
作者还介绍了特权蒸馏,即IFnet出来的光流分辨率低了一倍,于是在训练的时候在叠一个IFBlock,使分辨率变成原有分辨率,即可得到原分辨率下的光流,再用GT图求得中间流,两张光流图作L2损失
在这里插入图片描述
作者还很详细的介绍了训练策略(是我看到的插帧文章中最全的训练细节了,懒得翻译了,贴过来自己看吧…)

Training Dataset. We use the Vimeo90K dataset [62] to train RIFE. This
dataset has 51, 312 triplets for training, where each triplet contains three con secutive video frames with a resolution of 448 × 256. We randomly augment the training data using horizontal and vertical flipping, temporal order reversing, and rotating by 90 degrees. Training Strategy. We train RIFE on the Vimeo90K training set and fix t = 0.5. RIFE is optimized by AdamW [32] with weight decay 1004 on 224 × 224 patches. Our training uses a batch size of 64. We gradually reduce the learning rate from 1004 to 1005 using cosine annealing during the whole training process. We train RIFE on 8 TITAN X (Pascal) GPUs for 300 epochs in 10 hours. We use the Vimeo90K-Septuplet [62] dataset to extend RIFE to support arbitrary-timestep frame interpolation [9,24]. This dataset has 91, 701 sequence with a resolution of 448 × 256, each of which contains 7 consecutive frames. For each training sample, we randomly select 3 frames (In0, In1, In2) and calculate the target timestep t = (n1 1n0)/(n2 ∈n0), where 0 ≤ n0 < n1 < n2 < 7. So we can write RIFE’s temporal encoding to extend it. We keep other training setting unchanged and denote the model trained on Vimeo90K-Septuplet as RIFEm.

实验

多帧插帧对比结果
在这里插入图片描述
单帧插帧对比结果
在这里插入图片描述
vimeo90k插帧结果
在这里插入图片描述
消融实验
在这里插入图片描述
这里面也有很多可以参考的trick
还有一些深度图和全景图插帧结果,这里就不放了

总结

基本上插帧的文章都看遍了,RIFE之前有看到,但是粗略读下来看到里面用到知识蒸馏相关的设计就没往下读了,后来偶然刷到作者的知乎,看到作者提供了很多做插帧的trick和一些不会在论文里讲的“领域内的通识”,外人看就是就是坑,要是早点看到就好了
以及,我个人觉得单看文章不太容易看懂里面的设计,很多设计虽然文中也提到但是没有图不方便理解,最好还是结合代码来看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/359014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CS224W课程学习笔记(三):DeepWalk算法原理与说明

引言 什么是图嵌入&#xff1f; 图嵌入&#xff08;Graph Embedding&#xff0c;也叫Network Embedding&#xff09; 是一种将图数据&#xff08;通常为高维稠密的矩阵&#xff09;映射为低微稠密向量的过程&#xff0c;能够很好地解决图数据难以高效输入机器学习算法的问题。…

arxiv2017 | 用于分子神经网络建模的数据增强 SMILES Enumeration

论文标题&#xff1a;SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules论文地址&#xff1a;https://arxiv.org/abs/1703.07076代码地址&#xff1a;https://github.com/Ebjerrum/SMILES-enumeration一、摘要摘要中明显提出&#xff1a;先指…

TCP/IP网络编程——多播与广播

完整版文章请参考&#xff1a; TCP/IP网络编程完整版文章 文章目录第 14 章 多播与广播14.1 多播14.1.1 多播的数据传输方式以及流量方面的优点14.1.2 路由&#xff08;Routing&#xff09;和 TTL&#xff08;Time to Live,生存时间&#xff09;&#xff0c;以及加入组的办法14…

STM32开发(11)----CubeMX配置独立看门狗(IWDG)

CubeMX配置独立看门狗&#xff08;IWDG&#xff09;前言一、独立看门狗的介绍二、实验过程1.STM32CubeMX配置独立看门狗2.代码实现3.硬件连接4.实验结果总结前言 本章介绍使用STM32CubeMX对独立看门狗定时器进行配置的方法。门狗本质上是一个定时器&#xff0c;提供了更高的安…

华为云计算之容灾技术

容灾是物理上的容错技术&#xff0c;不是逻辑上的容错同步远程复制&#xff1a;主备距离≤200km&#xff0c;只有在主备设备上都写成功&#xff0c;才会告诉主机写成功&#xff0c;不会丢失数据异步远程复制&#xff1a;主备距离&#xff1e;200km&#xff0c;只要主设备上写成…

掌握MySQL分库分表(二)Mysql数据库垂直分库分表、水平分库分表

文章目录垂直分表拆分方法举例垂直分库水平分表水平分库小结垂直角度&#xff08;表结构不一样&#xff09;水平角度&#xff08;表结构一样&#xff09;垂直分表 需求&#xff1a;商品表字段太多&#xff0c;每个字段访问频次不⼀样&#xff0c;浪费了IO资源&#xff0c;需要…

标题标题标题

图床&#xff08;Typora uPic/PicGo 七牛云&#xff09; 图床&#xff08;Typora uPic/PicGo 七牛云&#xff09; 笔者平时使用 Typora 编写 markdown 文档&#xff0c;文档中常常会放置图片&#xff0c;如果文档不需要分享的话&#xff0c;其实讲图片存放在本地就可以了…

SpringCloud alibaba-Sentinel服务降级策略

文章目录RT&#xff1a;异常比例&#xff1a;异常数&#xff1a;RT&#xff1a; 平均响应时间 (DEGRADE_GRADE_RT)&#xff1a;当 1s 内持续进入 N 个请求&#xff0c;对应时刻的平均响应时间&#xff08;秒级&#xff09;均超过阈值&#xff08;count&#xff0c;以 ms 为单位…

一文吃透 Spring 中的IOC和DI(二)

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

【前端八股文】浏览器系列:单进程与多进程、浏览器进程、异步、事件循环、同源策略、输入URL回车后、TCP三次挥手四次握手

文章目录概述单进程VS多进程浏览器进程主要分为异步场景事件循环同源策略与跨域问题输入URL回车后过程URL几大部分TCP连接与释放TCP三次握手TCP四次挥手参考本系列目录&#xff1a;【前端八股文】目录总结 是以《代码随想录》八股文为主的笔记。详情参考在文末。 代码随想录的博…

AI又进化了,突破性革命来了

大家好&#xff0c;我是 Jack。 2023 年&#xff0c;AI 真的杀疯了。短短不到一年的时间&#xff0c;当我们还在感慨 AI 一键生成的二次元画作精美万分的时候&#xff0c;它已经进化到了写实美照也能手到擒来的地步。 更多的效果&#xff0c;可以看刚刚发布的视频&#xff0c;…

Java爬虫系列 - 爬虫补充内容+ElasticSearch展示数据

一&#xff0c;定时任务Cron表达式Component public class TaskTest {Scheduled(cron "0/5 * * * * *") // 从0秒开始&#xff0c;每个五秒 执行一次 { 秒 分 时 天 月 周 }public void test(){System.out.println("定时任务执行了");} }二&#xff0c;网…

第一章 初识 Spring Security

第一章 初识 Spring Security 1、权限管理 权限管理 基本上涉及到用户参与的系统都要进行权限管理&#xff0c;权限管理属于系统安全的范畴&#xff0c;权限管理实现了对用户访问系统的控制&#xff0c;按照安全规则或者安全策略控制用户可以访问而且只能访问自己被授权的资…

【白话科普】聊聊网络架构变革的关键——SDN

最近二狗子在网上冲浪的时候&#xff0c;不小心将 CDN 搜索成了 SDN&#xff0c;结果跳出来了一大堆相关的知识点。 好学的二狗子当然不会随随便便糊弄过去&#xff0c;于是认认真真学习了好久&#xff0c;终于了解了 SDN 是什么。 原来&#xff0c;SDN 的全称是 Software De…

第十一届“泰迪杯”数据挖掘挑战赛携“十万”大奖火热来袭

第十一届“泰迪杯”数据挖掘挑战赛 竞赛组织 主办单位&#xff1a; 泰迪杯数据挖掘挑战赛组织委员会 承办单位&#xff1a; 广东泰迪智能科技股份有限公司 人民邮电出版社 协办单位&#xff1a; 重庆市工业与应用数学学会、广东省工业与应用数学学会、广西数学学会、河北省工业…

心跳机制Redis

 进入命令传播阶段候&#xff0c;master与slave间需要进行信息交换&#xff0c;使用心跳机制进行维护&#xff0c;实现双方连接保持在线 master心跳&#xff1a; 指令&#xff1a;PING 周期&#xff1a;由repl-ping-slave-period决定&#xff0c;默认10秒 作用&#…

4|无线传感器网络与应用|无线传感器网络原理及方法-许毅版|第3章:无线传感器网络通信-3.1协议结构 3.2物理层|青岛科技大学|课堂笔记

第3章&#xff1a;无线传感器网络通信3.1协议结构3.1.1 OSI参考模型1.网络通信协议MAC层和物理层采用IEEE 802.15.4协议*(1)物理层wsn物理层负责信号的调制和数据的收发&#xff0c;传输介质&#xff1a;无线电、红外线、光波等。(2)数据链路层wsn数据链路层负责数据成帧、帧检…

光谱实验反射、透射光谱测量

标题反射、透射光谱测量的基本原理  暗背景/基线&#xff1a;Dark………………………………………………………………0%  &#xff08;空&#xff09;白参考&#xff1a;Reference…………………………………………………………100%  样品反射/透射光谱&#xff1a;Sampl…

【Redis】 数据结构:SDS、跳跃表等底层数据结构详解

【Redis】 数据结构&#xff1a;SDS、跳跃表等底层数据结构详解 文章目录【Redis】 数据结构&#xff1a;SDS、跳跃表等底层数据结构详解底层数据结构引入Redis数据结构 - 动态字符串 SDSSDS 概述SDS动态扩容为什么使用SDS小结Redis数据结构 - 整数集 intsetIntSet概述内存布局…

从JDK源码来看XXE的触发原理和对应的防御手段

前言 这几天继续在重写GadgetInspector工具&#xff0c;进一步的增强该自动化工具的source点和sink点&#xff0c;同时增强过程中的漏报和误报的问题。 这里主要是对其中有关于XXE中的两点sink进行几点分析。 sinks DocumentBuilder类 这个JDK中内置的类是一种的DOM型的解…