CV每日论文--2024.7.22

news2024/11/13 16:19:47

1、GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

中文标题:GroupMamba:参数高效且准确的群体视觉状态空间模型

简介:我们的论文探讨了基于状态空间模型(SSM)在计算机视觉任务中的稳定性和效率挑战。最近,SSM模型展示了在建模长期依赖关系方面的有效性,但复杂度仍然较高。

为解决这一问题,我们引入了调制组Mamba层。该层将输入通道分为四组,并对每组独立应用我们提出的基于SSM的高效视觉单选择扫描(VSSS)块,每个VSSS块沿四个空间方向之一进行扫描。调制组Mamba层还将四个VSSS块包装成一个通道调制运算符,以改善跨通道通信。

此外,我们引入了一种基于蒸馏的训练目标,以稳定大型模型的训练,从而导致一致的性能提升。

我们的综合实验证明,所提出的方法在ImageNet-1K图像分类、MS-COCO目标检测和实例分割,以及ADE20K语义分割等任务上均优于现有方法。我们的23M参数微小变体在ImageNet-1K上达到了83.3%的分类top-1准确率,在参数效率方面比同等大小的最佳现有Mamba设计高26%。

我们的代码和模型可在https://github.com/Amshaker/GroupMamba 获得。

2、Training-Free Model Merging for Multi-target Domain Adaptation

中文标题:用于多目标域适应的免训练模型合并

简介:本文研究了场景理解模型在多个目标域之间的自适应。之前的方法通过使用域内一致性损失取得了不错的结果,但它们通常假设可以同时访问所有目标域的图像数据,忽略了诸如数据传输带宽限制和数据隐私等现实世界的限制。针对这些挑战,我们提出了一个问题:如何在不直接访问训练数据的情况下合并独立适应于不同域的模型?我们提出的解决方案包括两个关键组件:模型参数合并和模型缓冲区(如归一化层统计量)合并。对于参数合并,我们的实证分析发现,当使用相同的预训练骨干网络时,简单的线性合并就足够了。对于缓冲区合并,我们使用高斯先验来模拟现实世界的数据分布,并从独立训练的模型中估计新的统计量。我们的方法简单高效,在无需访问训练数据的情况下,仍能达到与基于联合训练数据的方法相当的性能。项目页面:https://air-discover.github.io/ModelMerging

3、Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

中文标题:街景:使用自回归视频扩散生成大规模一致街景视图

简介:我们提出了一种基于即时合成的方法来生成长序列的街景视图。我们的生成过程由语言输入(如城市名称、天气条件等)和包含所需轨迹的底层地图/布局信息所驱动和控制。与最近的视频生成或3D视图合成模型相比,我们的方法可以扩展到跨越数个城市街区的更长距离相机轨迹,同时保持视觉质量和一致性。为实现这一目标,我们借鉴了最近关于视频扩散的研究,采用自回归框架,可以轻松扩展到更长的序列。特别地,我们引入了一种新的时间插值方法,防止自回归模型从真实城市图像分布中偏离。我们在Google Street View的大规模数据集上训练了Streetscapes系统,并利用上下文地图数据,使用户能够生成基于任何所需城市布局的城市视图,并控制相机姿态。更多结果请访问我们的项目页面: https://boyangdeng.com/streetscapes

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1940319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

英语语法第六课之介词

文章目录 1、作用2、分类3、意思4、易混地点on、in、at时间on、in、at方位on、in、to时间after、in时间 since、forin the front of、in front ofby、in、withthrough、across、overunder、below、beneathin、into 5、搭配 1、作用 句子中用法 定语The method of success.&…

创建和管理大量的数据对象:ScriptableObject

一、创建一个继承自ScriptableObject,名为ItemData的类 1、ItemData.cs using UnityEngine;[CreateAssetMenu(menuName "Items/Item")] public class ItemData : ScriptableObject {public string description;public Sprite thumbnail;public GameObj…

十五、公开课

1.不借助第三个变量,交换两个变量的值。 (1)a ab; (2)a a^b; b a-b; b a^b; a a-b; …

Unity UGUI 之 Image和Rawimage

本文仅作学习笔记与交流,不作任何商业用途 本文包括但不限于unity官方手册,唐老狮,麦扣教程知识,引用会标记,如有不足还请斧正 1.Image是什么 Unity - 手册:图像 精灵格式是什么? 1.2重要参数 …

操作系统安全:Windows隐藏账户的安全问题与实战操作。

「作者简介」:冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础著作 《网络安全自学教程》,适合基础薄弱的同学系统化的学习网络安全,用最短的时间掌握最核心的技术。 Windows系统的…

个人简约低调主页,三种主题风格源码

一、源码描述 这是一款简约低调的个人主页源码,提供了数百个精美的动画效果,拥有完美的视觉体验和交互体验,可操作性也达到了巅峰,源码支持三种主题风格,白色、黑色和蓝色渐变,所有这些效果都是通过原生Ja…

文件IO(Ubuntu)

文件IO 目的 将数据写入文件中 与标准IO的区别 (为什么要学习文件IO) 标准IO只能操作普通文件和特殊的管道文件 文件IO能操作几乎所有的的文件 缓存区的目的 标准IO有缓存区 文件IO没有缓存区 根据右图描述 标准IO 文件IO buffer缓存区 有缓存区…

c++基础(类和对象中)(类的默认成员函数)

目录 一.构造函数(类似初始化) 1.概念 2.构造函数的特点 二.析构函数(类似 销毁对象/空间) 三.拷贝构造函数(类似复制粘贴的一种 初始化 ) 1.概念: 2.拷贝构造的特点: 四.赋值运算符重载&#xff08…

【学习笔记】无人机系统(UAS)的连接、识别和跟踪(四)-无人机认证与授权

引言 3GPP TS 23.256 技术规范,主要定义了3GPP系统对无人机(UAV)的连接性、身份识别、跟踪及A2X(Aircraft-to-Everything)服务的支持。 3GPP TS 23.256 技术规范: 【免费】3GPPTS23.256技术报告-无人机系…

Linux系统之快速部署小游戏合集网站(二)

Linux系统之快速部署小游戏合集网站(二) 一、项目介绍1.1 项目简介1.2 项目预览二、本次实践介绍2.1 本地环境规划2.2 本次实践介绍三、检查本地环境3.1 检查系统版本3.2 检查系统内核版本3.3 检查软件源四、安装Apache24.1 安装Apache2软件4.2 启动apache2服务4.3 查看apach…

Leetcode3211. 生成不含相邻零的二进制字符串

Every day a Leetcode 题目来源&#xff1a;3211. 生成不含相邻零的二进制字符串 解法1&#xff1a;回溯 可以使用回溯得到所有长度为 n 的有效字符串。 字符串的每个位置都需要填入 0 或 1。对于 0≤i<n&#xff0c;如果 i0 或字符串的下标 i−1 处填入 1&#xff0c;则…

python一维表转二维表

一维表转二维表 import pandas as pd # 读取数据 product_df pd.read_csv(rD:\excelFile\practice\物品属性值一维表.csv,encodingutf-8) # print(product_df)# 将一维表转变二维 s pd.Series(list(product_df[属性值]),index[product_df[物品编号],product_df[属性名]]) …

Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成

Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成 1.异步和流 因为任何大模型在推理的时候,都会有一定的时间延迟,这是由大模型的底层架构决定的,所以在很多应用,尤其是对话应用中,使用异步以及流式输出,是大幅提升用户体验的较好方法。 在langG…

产品经理-​统计数据是如何产生的(20)

在互联网当中,监测一个项目的实际情况,在产品当中,往往需要进行数据的监测,看用户的习惯,进而进行对产品进行优化,比如统计产品用户的一些行为,鼠标点击,鼠标hover,停留时长,进入,进出等 产品经理看到的数据统计一般是经历了下面几个阶段 数据埋点&#xff1a;这个阶段产品经理…

Leetcode215. 数组中的第K个最大元素

我们也可以使用堆排序来解决这个问题——建立一个小根堆&#xff0c; 遍历数组将元素入堆&#xff1b;如果当前堆内元素超过 k 了&#xff0c;我们就把堆顶元素去除&#xff0c;即去除当前的最小值。因此我们在元素入堆的过程中&#xff0c;不断淘汰最小值&#xff0c;最终留在…

《从C/C++到Java入门指南》- 7.浮点数运算

浮点数运算 引言 浮点数在计算机中难以进行精确表示&#xff0c;例如&#xff1a;0.1 换算成二进制是一个无限循环的小数&#xff0c;无论是double 还是float&#xff0c;都只能存储一个近似的值。但是0.5却可以进行精确的表示。 误差 浮点数的运算时常伴有误差&#xff1a…

RHCE(免密登录+web服务器)之小试牛刀

1、配置linux客户端免密登录服务端linux主机的root用户 2、配置web服务器&#xff0c;当访问网站www.haha.com时显示&#xff1a;haha 3、配置web服务器&#xff0c;当访问网站www.xixi.com/secret/显示&#xff1a;this is secret 本实验使用RHEL9.3和Rocky linux8操作系统 RH…

AI赋能下的人体摔倒识别技术:深度解析与应用前景

引言 随着人工智能技术的快速发展&#xff0c;AI赋能的解决方案在各行各业中展现出巨大的潜力。特别是在安全监控和健康护理领域&#xff0c;AI技术的应用不仅提高了效率&#xff0c;还极大地提升了安全性。本文将深入探讨思通数科&#xff08;南京&#xff09;信息技术有限公…

ipv6 基础学习(一)

IPv6 为什么要有IPV6&#xff1f; IPv4地址空间有限&#xff1a;IPv4使用32位地址&#xff0c;最多可提供约43亿个地址。随着互联网设备数量的爆炸式增长&#xff0c;这些地址已经几乎耗尽。 IPv6地址空间庞大&#xff1a;IPv6使用128位地址&#xff0c;可以提供大约3.410^3…

人工智能与机器学习原理精解【2】

文章目录 机器学习基础一般化流程回归线性回归一元线性回归基础斜率的公式克莱姆法则&#xff08;Cramers Rule&#xff09;一、克莱姆法则的基本内容二、克莱姆法则的适用条件三、克莱姆法则的优缺点四、总结 导数与极值的问题 julia实现 最小二乘法原理最小二乘法的原理线性回…