每日学术速递2.10

news2025/1/17 13:58:53

Subjects: cs.Cv

1.Spatiotemporal Deformation Perception for Fisheye Video Rectification

标题:鱼眼视频矫正的时空形变感知

作者:Shangrong Yang, Chunyu Lin, Kang Liao, Yao Zhao

文章链接:https://arxiv.org/abs/2302.03934v1

项目代码:https://github.com/uof1745-cmd/sdp

摘要:

        虽然鱼眼图像的失真校正已被广泛研究,但鱼眼视频的校正仍是一个难以捉摸的挑战。对于鱼眼视频的不同帧,现有的图像校正方法忽略了序列的相关性,导致校正后的视频出现时间上的抖动。为了解决这个问题,我们提出了一个时间加权方案,以获得一个合理的全局光流,通过逐步减少帧的权重来缓解抖动效应。随后,我们观察到,视频的帧间光流有利于感知鱼眼视频的局部空间变形。因此,我们通过鱼眼视频和无变形视频的流来推导空间变形,从而提高预测结果的局部准确性。然而,每一帧的独立校正会破坏时间上的关联性。由于鱼眼视频的特性,一个扭曲的运动物体可能会在另一个时刻找到其无扭曲的模式。为此,我们设计了一个时间变形聚合器来重建帧之间的变形相关性,并提供一个可靠的全局特征。我们的方法实现了端到端的校正,与SOTA校正方法相比,在校正质量和稳定性方面表现出优越性。

Although the distortion correction of fisheye images has been extensively studied, the correction of fisheye videos is still an elusive challenge. For different frames of the fisheye video, the existing image correction methods ignore the correlation of sequences, resulting in temporal jitter in the corrected video. To solve this problem, we propose a temporal weighting scheme to get a plausible global optical flow, which mitigates the jitter effect by progressively reducing the weight of frames. Subsequently, we observe that the inter-frame optical flow of the video is facilitated to perceive the local spatial deformation of the fisheye video. Therefore, we derive the spatial deformation through the flows of fisheye and distorted-free videos, thereby enhancing the local accuracy of the predicted result. However, the independent correction for each frame disrupts the temporal correlation. Due to the property of fisheye video, a distorted moving object may be able to find its distorted-free pattern at another moment. To this end, a temporal deformation aggregator is designed to reconstruct the deformation correlation between frames and provide a reliable global feature. Our method achieves an end-to-end correction and demonstrates superiority in correction quality and stability compared with the SOTA correction methods.

2.Convolutional Neural Networks Trained to Identify Words Provide a Good Account of Visual Form Priming Effects

标题:训练有素的卷积神经网络为识别单词提供了一个很好的视觉形式诱导效应的说明

作者:Dong Yin, Valerio Biscione, Jeffrey Bowers

文章链接:https://arxiv.org/abs/2302.03992v1

项目代码:https://github.com/don-yin/orthographic-dnn

摘要:

        为了解释提供字母串之间正字学相似性测量的掩蔽引语数据,人们开发了各种各样的正字学编码方案和视觉单词识别模型。这些模型倾向于包括手工编码的正字表征,并对特定形式的知识进行单一单元编码(例如,对特定位置的字母或字母序列进行编码的单元)。在这里,我们评估了这些编码方案和模型的范围是如何解释形式引力项目中的形式引力效果的,并将这些发现与计算机科学中开发的11个标准深度神经网络模型(DNNs)中观察到的结果进行了比较。我们发现,深度卷积网络的表现与编码方案和单词识别模型一样好,甚至更好,而转化器网络则表现较差。卷积网络的成功是显著的,因为它们的架构不是为支持单词识别而开发的(它们被设计为在物体识别上表现良好),而且它们对单词的像素图像进行分类(而对字母串进行人工编码)。这些发现补充了最近的工作(Hannagan等人,2021年),表明卷积网络可能捕获视觉单词识别的关键方面。

A wide variety of orthographic coding schemes and models of visual word identification have been developed to account for masked priming data that provide a measure of orthographic similarity between letter strings. These models tend to include hand-coded orthographic representations with single unit coding for specific forms of knowledge (e.g., units coding for a letter in a given position or a letter sequence). Here we assess how well a range of these coding schemes and models account for the pattern of form priming effects taken from the Form Priming Project and compare these findings to results observed in with 11 standard deep neural network models (DNNs) developed in computer science. We find that deep convolutional networks perform as well or better than the coding schemes and word recognition models, whereas transformer networks did less well. The success of convolutional networks is remarkable as their architectures were not developed to support word recognition (they were designed to perform well on object recognition) and they classify pixel images of words (rather artificial encodings of letter strings). The findings add to the recent work of (Hannagan et al., 2021) suggesting that convolutional networks may capture key aspects of visual word identification.

3.Cross-Layer Retrospective Retrieving via Layer Attention(ICLR 2023)

标题:通过层注意进行跨层回顾性检索

作者:Yanwen Fang, Yuxi Cai, Jintai Chen, Jingyu Zhao, Guangjian Tian, Guodong Li

文章链接:https://arxiv.org/abs/2302.03985v2

项目代码:https://github.com/joyfang1106/mrla

摘要:

        越来越多的证据表明,加强层间互动可以增强深度神经网络的表征能力,而自我注意擅长通过检索查询激活的信息来学习相互依赖。受此启发,我们设计了一种跨层注意机制,称为多头循环层注意(MRLA),它将当前层的查询表征发送到所有以前的层,以便从不同层次的感受野检索查询相关信息。还提出了一个轻量级的MRLA版本,以减少二次计算的成本。所提出的层关注机制可以丰富许多最先进的视觉网络的表示能力,包括CNN和视觉变换器。它的有效性已经在图像分类、物体检测和实例分割任务中得到了广泛的评估,可以持续观察到改进。例如,我们的MRLA可以在ResNet-50上提高1.6%的Top-1准确性,而只引入了0.16M的参数和0.07B的FLOPs。令人惊讶的是,在密集预测任务中,它能以很大的幅度提高3-4%的盒式AP和掩码AP的性能。

More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/335329.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【手写 Vuex 源码】第四篇 - Vuex 中 Getters 的实现

一,前言 上篇,主要介绍了 Vuex 中 State 状态的实现,主要涉及以下几个点: 创建 Store 类中的 State 状态;借助 Vue 实现 State 状态的响应式; 本篇,继续介绍 Vuex 中 getters 的实现&#xf…

VHDL语言基础-时序逻辑电路-寄存器

目录 寄存器的设计: 多位寄存器: 多位寄存器的VHDL描述: 移位寄存器: 串进并出的移位寄存器的VHDL描述: 寄存器的设计: 多位寄存器: 一个D触发器就是一位寄存器,如果需要多位寄存器&…

飞凌嵌入式RK3568J核心板助力工业机器人产业迈向高质量发展新阶段

工业机器人是能够代替人工完成高强度重复工作的多自由度机器装置,不仅可以确保产品质量,还可以大幅提高生产效率。据工信部数据显示,“十三五”期间我国工业机器人产量从7.2万套增长到了21.2万套,年均增长31%,预计2023…

切换分支报错:Untracked Files Prevent Checkout

切换分支报错:Untracked Files Prevent Checkoutgit分支切换 Untracked Files Prevent Checkout本人解决办法:git分支切换 Untracked Files Prevent Checkout 新起的项目在切换master分支到工作分支时,出现下图的问题: Untracked…

【机器学习】过拟合与正则化

上一章——逻辑回归 文章目录三种拟合状态解决过拟合的三种方法什么是正则化正则化的数学原理线性回归恭喜三种拟合状态 在之前的课程中,我们说过机器学习的中极为重要的一步,就是给训练集找到一条合适的拟合曲线。 还是以房价问题这个回归问题为例&…

【微服务】微服务架构超强讲解,通俗易懂

微服务架构目录一、微服务架构介绍二、出现和发展三、传统开发模式和微服务的区别四、微服务的具体特征五、面向服务的架构SOA(service oriented architecture)和微服务的区别1、SOA喜欢重用,微服务喜欢重写2、SOA喜欢水平服务,微…

Linux教程:MQTT入门基础概念与学习介绍及服务部署搭建并使用桌面工具进行测试开发

前言: ----在2023年的今天,智能家居与智能家电的兴起犹如滚滚长江迅速袭来,智能终端设备也不断出现在人们的视野当中,实现远程控制,其中必然不能缺少终端与终端,终端与服务之间的交互,如何来解…

ag-Grid Enterprise

ag-Grid Enterprise Ag-Grid被描述为一种商业产品,已在EULA下分发,它非常先进,性能就像Row分组一样,还有范围选择、master和case、行的服务器端模型等等。 ag Grid Enterprise的巨大特点: 它具有以下功能和属性&#x…

Docker调用Intel集显实现FFmpeg硬解码

文章目录Docker调用Intel集显实现FFmpeg硬解码参考FFmpeg 集成qsv方式一 容器完成所有步骤方式二 容器完成部分步骤方式三 dockerfile部署Docker调用Intel集显实现FFmpeg硬解码 参考 ffmpeg_qsv_docker拉取该镜像可以实现FFmpeg集成vaapi的硬加速,通过dockerfile文…

什么是特权访问管理(PAM)

特权访问管理 (PAM) 是指一组 IT 安全管理原则,可帮助企业隔离和管理特权访问、管理特权帐户和凭据、控制谁可以获得对哪些端点的管理访问权限级别,并监视用户对该访问权限执行的操作。 什么是特权访问 特权访问是一种 IT 系统访…

2023.2.10学习记录Docker容器

Docker 必须跑在Linux内核上 镜像是一个轻量级可执行的独立软件包 新建一个docker容器只需要几秒钟 Docker常用命令 启动类命令 镜像命令 容器命令 docker images docker search --limit 5 redis docker pull redis:6.0.8 docker system df 查看镜像/容器/…

使用QT中的绘画工具与定时器工具实现简易时钟

需求&#xff1a;使用QT中的绘画工具与定时器工具实现简易时钟代码实现过程&#xff1a;widget.h#ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QPainter> //引入画家类 #include<QPaintEvent> //引入绘制事件类 #include&l…

vue-router 源码解析(三)-实现路由守卫

文章目录基本使用导语初始化路由守卫useCallbacks 发布订阅模式管理路由守卫push 开始导航resolve返回路由记录匹配结果navigate 开始守卫抽取路由记录guardToPromiseFn 用Promise包装守卫方法extractComponentsGuards 从组件中抽取守卫beforeRouteLeave 守卫收集composition 守…

error: failed to push some refs to ... 就这篇,一定帮你解决

目录 一、问题产生原因 二、解决办法 三、如果还是出问题&#xff0c;怎么办&#xff1f;&#xff08;必杀&#xff09; 一、问题产生原因 当你直接在github上在线修改了代码&#xff0c;或者是直接向某个库中添加文件&#xff0c;但是没有对本地库同步&#xff0c;接着你想…

【数据结构初阶】第三节.顺序表详讲

文章目录 前言 一、顺序表的概念 二、顺序表功能接口概览 三、顺序表基本功能的实现 四、四大功能 1、增加数据 1.1 头插法&#xff1a; 1.2 尾插法 1.3 指定下标插入 2、删除数据 2.1 头删 2.2 尾删 2.3 指定下标删除 2.4 删除首次出现的指定元素 3、查找数据…

JAVA-线程池技术

目录 概念 什么是线程&#xff1f; 什么是线程池&#xff1f; 线程池出现背景 线程池原理图 JAVA提供线程池 线程池参数 如果本篇博客对您有一定的帮助&#xff0c;大家记得留言点赞收藏哦。 概念 什么是线程&#xff1f; 是操作系统能够进行运算调度的最小单位。&am…

ChatGPT的解释

概念 ChatGPT&#xff0c;美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然 语言处理工具&#xff0c;它能够通过学习和理解人类的语言来进行对话&#xff0c;还能根据聊天的上下文进行互动&#xff0c;真正像人 类一样来聊天交流&am…

干货 | PCB拼板,那几条很讲究的规则!

拼板指的是将一张张小的PCB板让厂家直接给拼做成一整块。一、为什么要拼板呢&#xff0c;也就是说拼板的好处是什么&#xff1f;1.为了满足生产的需求。有些PCB板太小&#xff0c;不满足做夹具的要求&#xff0c;所以需要拼在一起进行生产。2.提高SMT贴片的焊接效率。只需要过一…

如何使用python画一个爱心

1 问题 如何使用python画一个爱心。 2 方法 桌面新建一个文本文档&#xff0c;文件后缀改为.py&#xff0c;输入相关代码ctrls保存&#xff0c;关闭&#xff0c;最后双击运行。 代码清单 1 from turtle import * def curvemove(): for i in range(200): right(1) …

Vue2笔记03 脚手架(项目结构),常用属性配置,ToDoList(本地存储,组件通信)

Vue脚手架 vue-cli 向下兼容可以选择较高版本 初始化 全局安装脚手架 npm install -g vue/cli 创建项目&#xff1a;切换到项目所在目录 vue create xxx 按照指引选择vue版本 创建成功 根据指引依次输入上面指令即可运行项目 也可使用vue ui在界面上完成创建&…