论文阅读:通过时空生成卷积网络合成动态模式(重点论文)

news2024/12/23 14:58:35

原文链接
github code
介绍视频
视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvNet定义,该网络由多层时空滤波器组成,用于捕获不同尺度的时空模式。 该模型可以通过迭代以下两个步骤的“综合分析”学习算法从训练视频序列中学习。 步骤 1 从当前学习的模型合成视频序列。 步骤 2 然后根据合成视频序列和观察到的训练序列之间的差异更新模型参数。 我们证明了学习算法可以合成真实的动态模式。

1. Introduction

视频序列中有各种各样的动态模式,包括在时间维度上表现出统计平稳性或随机重复性的动态纹理 [2] 或纹理运动 [24],以及在空间或时间域中非平稳的动作模式 。 综合和分析这种动态模式一直是一个有趣的问题。 在本文中,我们重点关注使用生成版本的卷积神经网络(ConvNet 或 CNN)合成动态模式的任务。

ConvNet [14, 12] 已被证明是一种非常成功的判别学习机器。 ConvNet 中的卷积运算特别适合图像、视频和声音等在空间域或时间域或两者中表现出平移不变性的信号。 最近,研究人员对ConvNet的生成方面越来越感兴趣,目的是可视化ConvNet学到的知识,或者合成现实信号,或者开发可用于无监督学习的生成模型。

在合成方面,人们提出了各种基于ConvNet的方法来合成逼真的静态图像[3,7,1,13,16]。 然而,文献中关于基于ConvNet合成动态模式的工作并不多,这也是本文的重点。

具体来说,我们建议通过推广[29]最近提出的生成式ConvNet模型来合成动态模式。 生成式ConvNet 可以从判别式ConvNet 推导出来。 它是一个随机场模型或基于能量的模型[15, 20],采用参考分布的指数倾斜形式,例如高斯白噪声分布或均匀分布。 指数倾斜由 ConvNet 参数化,该网络涉及多层线性滤波器和修正线性单元 (ReLU) [12],旨在捕获不同尺度的特征或模式。

生成式ConvNet可以通过Langevin动力学进行采样。 该模型可以通过随机梯度算法来学习[31]。 这是一种“综合分析”方案,旨在将朗之万动力学生成的合成信号与观察到的训练信号相匹配。 具体来说,学习算法在初始化参数和合成信号后迭代以下两个步骤。 步骤 1 通过从当前学习模型中采样的 Langevin 动力学更新合成信号。 然后,步骤 2 根据合成数据和观测数据之间的差异更新参数,以便将模型的密度从合成数据转向观测数据。 [29]表明学习算法可以合成真实的空间图像模式,例如纹理和物体。

在本文中,我们通过添加时间维度来概括空间生成式 ConvNet,以便生成的 ConvNet 由多层时空滤波器组成,这些滤波器旨在捕获各种尺度的时空模式。 我们证明了用于训练时空生成卷积网络的学习算法可以合成真实的动态模式。 我们还表明,可以从具有遮挡像素或丢失帧的不完整视频序列中学习模型,从而可以同时完成模型学习和模式完成.

2.相关工作

我们的工作是通过添加时间维度对[29]的生成ConvNet模型进行推广。 [29]没有研究动态模式,例如视频序列中的动态模式。 [11] 使用时空判别式 ConvNet 来分析视频数据。 [29] 研究了判别式 ConvNet 和生成式 ConvNet 之间的联系。

[2,24,25,9]已经研究了动态纹理或纹理运动。 例如,[2]提出了一种向量自回归模型,并通过单值分解进行逐帧降维。 它是具有高斯创新的线性模型。 [24]提出了一种基于帧稀疏线性表示的动态模型。 有关动态纹理的最新评论,请参阅[30]。 时空生成ConvNet是一种非线性和非高斯模型,预计可以通过多层非线性时空滤波器更灵活地捕获动态纹理中的复杂时空模式。

最近[23]推广了生成对抗网络[6]来模拟动态模式。 我们的模型是一个基于能量的模型,它也有对抗性的解释。 详细信息请参见第 3.4 节。

对于时态数据,流行的模型是循环神经网络 [27, 10]。 它是一个因果模型,需要一个起始框架。 相比之下,我们的模型是非因果的,并且不需要起始框架。 与循环网络相比,我们的模型在捕获多个时间尺度的时间模式方面更加方便和直接。

3. Spatial-temporal generative ConvNet

3.3. Sampling and learning algorith

该期望可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。 有关学习和采样算法的说明,请参阅算法 1。 该算法不断从当前模型合成图像序列,并更新模型参数,以便将合成的图像序列与观察到的图像序列进行匹配。 学习算法不断将模型的概率密度或低能量区域从合成数据转向观察数据
在这里插入图片描述

在学习算法中,朗之万采样步骤涉及∂f(I;w)/∂I的计算,参数更新步骤涉及∂f(I;w)/∂w的计算。 由于f(I; w)的ConvNet结构,两个梯度都可以通过反向传播来有效计算,并且两个梯度在反向传播中共享大部分链式规则计算。 就 MCMC 采样而言,朗之万动力学从不断变化的分布中采样,因为 w (t) 不断变化。 因此,学习和采样算法运行非平稳链。

4.实验

可看 http://www.stat.ucla.edu/~jxie/STGConvNet/STGConvNet.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1352615.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

paddle v4 hubserving 部署

环境准备:https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7/deploy/hubserving#24-%E5%90%AF%E5%8A%A8%E6%9C%8D%E5%8A%A1 服务器启动命令 hub serving start -c deploy/hubserving/ocr_system/config.json客户端请求 python tools/test_hubserving.…

境内深度合成服务算法备案清单(2023年12月)

截止2024年1月3日,第三批深度合成服务算法备案信息的公告尚未发布,预计将会在2024-1-10左右发布,我公司已知晓部分公示名单,如中国电信数字人生成算法,详情联系WX号:SuanfabeiandayuAI生成合成类算法应办理…

非线性最小二乘问题的数值方法 —— 从牛顿迭代法到高斯-牛顿法 (实例篇 V)

Title: 非线性最小二乘问题的数值方法 —— 从牛顿迭代法到高斯-牛顿法 (实例篇 V) 姊妹博文 非线性最小二乘问题的数值方法 —— 从牛顿迭代法到高斯-牛顿法 (I) 非线性最小二乘问题的数值方法 —— 从牛顿迭代法到高斯-牛顿法 (II) 非线性最小二乘问题的数值方法 —— 从牛顿…

RPA如何入门?

许多人可能认为RPA等人工智能软件的入门非常困难,不知道该如何开始。作为一名刚接触RPA软件一年多的新手,回答这个问题也是对自己学习RPA历程的回顾。同时,这也是分享给那些打算学习RPA初学者的经验,希望可以帮助大家更好地、更迅…

SANSAN新鲜事|物联网平台就只能做数据监控吗?

​物联网(Internet of Things,简称IoT)是指通过网络将各种物理设备、智能终端、传感器等连接起来,实现信息的交换和通信的技术。物联网平台(IoT Platform)是指为物联网应用提供基础设施、服务和工具的软件平…

【springboot配置文件加载源码分析】

在Spring Boot的源码中,配置文件的加载是在应用程序启动的早期阶段进行的。具体来说,配置文件加载的主要步骤发生在SpringApplication类的run()方法中的prepareEnvironment方法中,真正读取我们的配置文件还是PropertySourceLoader。 本篇博客…

RFID智能生产制造全周期管理系统

一、MES系统简述 RFID/条码技术基于的MES制造执行系统可以加强ERP/MRP计划的执行功能。该系统包括MES与ERP的对接、MES报表与看板、MES物料管理、MES设备与工具管理、MES品质管理和MES生产过程管理WIP等功能,通过将MES系统与ERP计划和车间作业现场控制系统联系起来…

【面试】面向对象编程的三大概念(实例辅助记忆)

【面试】面向对象编程的三大概念(实例辅助记忆) 虑面向对象编程的三大特性,它们是: 封装(Encapsulation): 将对象的状态和行为封装在一起,对外部隐藏对象的内部实现细节。这样可以防…

第二部分组件化编程:vue学习(53-60)

文章目录 53.对组件的理解54 非单文件组件55 组件的几个注意事项56 组件的嵌套57 vuecomponent构造函数58 vue实例与组件实例59 一个重要的内置关系60 单文件组件 53.对组件的理解 左侧2个页面,如果要复用js和css的话,引用的路线十分混乱。使用js模块化&…

熔断、隔离、重试、降级、超时、限流,高可用架构流量治理核心策略全掌握

可用性的定义 在探讨高可用架构之前,让我们以 O2 系统为例,解释一下何谓可用性。O2 是腾讯内部的一个广告投放系统,专注于提升投放效率、分析广告效果,拥有自动化广告投放、AIGC 自动化素材生产等多种功能。 其整体架构概览如下&…

abaqus复合材料 19个实例

实例操作: 1.复合材料层结构的三种常用建模方法、静力分析中强度准则和损伤判据的引入、数据输入与输出 2.层合结构的热-力耦合分析 3.基于虚裂纹闭合技术(VCCT)的分层扩展模拟 4.基于cohesive单元的分层/界面损伤扩展模拟 5.基于XFEM方法的裂纹扩展模拟 6.复合材料加筋板…

在Go语言中实现HTTP请求的缓存

大家好,我是你们可爱的编程小助手,今天我们要一起探讨如何使用Go语言实现HTTP请求的缓存。听起来是不是很酷?让我们开始吧! 首先,我们要明白什么是缓存。简单来说,缓存就是将数据存储在内存中,…

中国供应链,出海大时代

尽量优化、打通跨境电商每一个参与方的物流、商流、信息流、资金流是电商供应链出海的解题之法。这个过程中数智化便是打通这些节点的钥匙。 作者|斗斗 编辑|皮爷 出品|产业家 “速卖通加持,阿里国际零售商业收入同比上涨73%”“拼多多发布Q3财报同比增长94%…

STM32MP157/linux驱动学习记录

1. uboot烧录 2.linux安装nfs服务 sudo apt-get install nfs-kernel-server rpcbind安装nfs服务 在用户根目录下创建一个名为“linux”的文件夹,以后所有的东西都放到这个“linux”文件夹里面,在“linux”文件夹里面新建一个名为“nfs”的文件夹&#…

文件属性信息

文件的属性信息 Linux是一个基于文件的操作系统,因此作为文件本身也就有很多属性,如果想要查看某一个文件的属性有两种方式:命令和函数。虽然有两种方式但是它们对应的名字是相同的,叫做stat。另外使用file命令也可以查看文件的一…

从fuzz视角看CTF堆题--qwb2023_chatting

前言 这个题目是一个c的堆题,而我自己对于c的一些内存分配不太了解,同时也不太会c的逆向,硬看是没有办法了,所以就想能不能通过fuzz的角度去进行利用 fuzz 大概思路 函数选择 可以看到有add delete switch read listuser mes…

大创项目推荐 深度学习动物识别 - 卷积神经网络 机器视觉 图像识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

小红书如何高效引流?

近年来,公域流量价格不断上涨,私域流量的优势逐渐凸显。企业正花费大量资源和成本来获取新流量,但与其如此,不如将精力放在留存和复购上,从而实现业绩的新增长。其中关键在于如何有效地将公域流量转化为私域流量。 然而…

html5实现好看的个人博客模板源码

文章目录 1.设计来源1.1 主界面1.2 认识我界面1.3 我的文章界面1.4 我的模板界面1.5 文章内容界面 2.结构和源码2.1 目录结构2.2 源代码 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/135368653 html5实现好看…

ExecutorCompletionService详解

本文已收录至Github,推荐阅读 👉 Java随想录 微信公众号:Java随想录 文章目录 摘要ExecutorCompletionService适用场景ExecutorCompletionService使用ExecutorCompletionService原理解析注意事项总结 摘要 ExecutorCompletionService 是Jav…