CV论文--2024.2.28

news2025/2/27 17:28:09

source:CV论文--2024.2.28

1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

中文标题:StreamDiffusion: 一个用于实时交互生成的管道级解决方案

简介:我们介绍了StreamDiffusion,这是专为实时交互式图像生成而设计的实时扩散管道。传统的扩散模型擅长从文本或图像提示中生成图像,但在实时交互方面表现不佳。特别是在需要连续输入的场景下,如Metaverse、实时视频流和广播,高吞吐量至关重要。为了解决这一问题,我们提出了一种新方法,将原始的顺序去噪转变为批处理去噪过程。通过引入Stream Batch,我们消除了传统的等待和交互方法,实现了流畅高吞吐量的处理。为了处理数据输入和模型吞吐量之间的频率差异,我们设计了一种新的输入输出队列,用于并行化流媒体过程。此外,我们提出了一种新的残差无分类器引导(RCFG)算法,减少了负条件去噪步骤的数量,从而减少了冗余计算。我们还引入了随机相似性过滤器(SSF)来优化功耗。我们的Stream Batch 在不同去噪级别下比顺序去噪方法实现了约1.5倍的加速,而RCFG 比传统的CFG 快2.05倍。结合现有的成熟加速工具,我们可以在一个RTX4090上实现高达91.07fps 的图像生成,将Diffusers开发的AutoPipline 的吞吐量提高了59.56倍。此外,StreamDiffusion 还显著降低了能耗,在一个RTX3060上降低了2.39倍,在一个RTX4090上降低了1.99倍。

原文地址:https://arxiv.org/abs/2312.12491v1

2、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

中文标题:Vision Mamba: 用双向状态空间模型实现高效的视觉表示学习

简介:最近,一种名为Mamba的状态空间模型(SSMs)结合了高效的硬件感知设计,展示出在长序列建模方面的巨大潜力。构建高效且通用的视觉主干仅基于SSMs是一个令人感兴趣的方向。然而,由于视觉数据对位置的敏感性以及对全局上下文的需求,对于SSMs来说,表示视觉数据具有挑战性。本文提出了一个新的通用视觉主干,名为双向Mamba块(Vim),它使用位置嵌入标记图像序列,并利用双向状态空间模型来压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,Vim相较于成熟的视觉转换器如DeiT,展现出更高的性能,并且在计算和内存效率上也有显著改进。例如,在执行分辨率为1248×1248的图像的批量推理以提取特征时,Vim比DeiT快2.8倍,并且节省了86.8%的GPU内存。这些结果表明,Vim能够克服计算和内存上的限制,实现对高分辨率图像的Transformer-style理解,并具有成为下一代视觉主干模型的潜力。您可以在https://github.com/hustvl/Vim 获取代码。

原文地址:https://arxiv.org/abs/2401.09417v1

3、MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

中文标题:MagicVideo-V2: 多阶段高审美视频生成

简介:高保真视频生成的需求正在不断增长,这推动了该领域的研究取得重要进展。我们介绍了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块融合到端到端视频生成流程中。得益于这些架构设计的优势,MagicVideo-V2能够生成外观优美、高分辨率、高保真度和平滑度的视频。经过大规模用户评估,它展现出比Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion等其他文本到视频系统更出色的性能。

原文地址:https://arxiv.org/abs/2401.04468v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1477211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows IIS 申请和配置https(SSL)的工具 win-acme

win-acme 是一个为Windows平台设计的工具,用于从Lets Encrypt自动获取和续期SSL/TLS证书,特别适合用于IIS(Internet Information Services)服务器。它的使用相对简单,提供了一个用户友好的命令行界面,以及一…

微服务API网关---APISIX

最近在做微服务调研,看到了apisix这个网关,于是进行了初步了解一下。 微服务是指,将大型应用分解成多个独立的组件,其中每个组件都各自的负责对应项目。 系统的架构大致经历了:单体应用架构–> SOA架构 -->微服务…

5G提速工业物联网发展

对于普通消费者来说,5G的概念可能就是更快的网速,5G带来的上网体验提升是最直观的,因为拿手机可以实时观看高清晰度的视频,且无需太久的等待时间。 而更低的时延与更高的可靠性对C端用户带来的体验改善,相对来说就小很…

文献阅读:Large Language Models are Null-Shot Learners

文献阅读:Large Language Models are Null-Shot Learners 1. 文章简介2. 方法介绍3. 实验考察 & 结论 1. 基础实验 1. 实验设计2. 实验结果 2. 消融实验 1. 小模型上的有效性2. ∅CoT Prompting3. 位置影响4. 组成内容 4. 总结 & 思考 文献链接&#xff1…

langchain加载模型时出现ConnectionError: (ProtocolError(‘Connection aborted.‘的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

瑞_23种设计模式_组合模式

文章目录 1 组合模式(Composite Pattern)1.1 介绍1.2 概述1.3 组合模式的结构1.4 组合模式的分类1.5 组合模式的优点1.6 组合模式的使用场景 2 案例一2.1 需求2.2 代码实现 3 案例二3.1 需求3.2 代码实现 🙊 前言:本文章为瑞_系列…

基于java+springboot景区行李寄存管理系统设计和实现

基于javaspringboot景区行李寄存管理系统设计和实现 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末获取…

低代码平台与MES:智能制造的新篇章

随着工业4.0和智能制造的兴起,企业对于生产过程的数字化、智能化需求日益迫切。传统的MES系统实施周期长、成本高,成为许多企业数字化转型的瓶颈。而低代码开发平台的出现为这一问题提供了新的解决思路。 一、万界星空科技低代码平台的优势: …

Socket网络编程(一)——网络通信入门基本概念

目录 网络通信基本概念什么是网络?网络通信的基本架构什么是网络编程?7层网络模型-OSI模型什么是Socket?Socket的作用和组成Socket传输原理Socket与TCP、UDP的关系CS模型(Client-Server Application)报文段牛刀小试(TCP消息发送与接收&#…

c#/ .net8 香橙派orange pi +SSD1306 oled显示屏 显示中文+英文 实例

本文使用香橙派orangepi pi 3ltsSSD1306 oled显示屏作为例子,其它型号的也是一样使用的 在nuget包中安装 Sang.IoT.SSD1306; 以下两个二选一 SkiaSharp;//在window下运行装这个 SkiaSharp.NativeAssets.Linux.NoDependencies;//在linux下运行一定要装这个 在c# .ne…

android高级面试题2020,这套Github上40K+star面试笔记

前言 这里整理的是一些与技术没有直接关系的面试题,但是能够考察你的综合水平,所以不要以为不是技术问题,就不看,往往有时候就是这样一些细节的题目被忽视,而错过了一次次面试机会。 想要成为一名优秀的Android开发&…

iOS App冷启动优化:二进制重排

原理 二进制文件中方法的加载顺序, 取决于方法在代码文件中的书写顺序,而不是调用顺序。 应用程序启动时会调用到的方法是有限的,但可能分散在很多个。 由于内存是分页管理的,要加载就要 整页加载。 这就导致很多完全还用不到的方…

单点故障解决方案之Smart Link与Monitor Link

-SmartLink技术,创建Smart Link 组。在该组中,加入两个端口。其中1个端口是主端口,也称之为Master端口。另外1个端口是备份端口:也称之为 Slave 端口。 -Monitor Link 组也称之为“监控链路组,由上行端口和下行端口共同组成。下行…

XUbuntu22.04之如何定制:已经绑定的快捷键?(二百一十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

汽车后视镜反射率检测仪厂家

随着汽车工业的快速发展,汽车后视镜作为驾驶员观察车辆周围环境的重要工具,其性能和质量对于交通安全至关重要。汽车后视镜的反射率检测仪是一种用于检测汽车后视镜反射性能的专业设备,其重要性不言而喻。本文将重点介绍汽车后视镜反射率检测…

【北京迅为】《iTOP-3588开发板网络环境配置手册》第1章 网络基础知识学习

RK3588是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

违背祖训,微软骚操作强制用户更新至 Win 11 23H2

话说,大伙儿有让 Windows 操作系统一直保持最新版习惯吗? 根据以往惯例,Windows 系统更新是个比较玄学的存在,谁也不能保证随手更新后会不会出现什么奇葩 Bug。 因此对于不少同学来说,Windows 更新到一个稳定版本后&a…

AI大模型 拍照搜题

最近,发现一款小程序【问智通】,实现了拍照搜题结合AI大模型,省去了打字和敲数学公式向AI提问,完美的补充了其它拍照搜题平台拍不到,没解析等不足!!! 小程序码: APP下载…

前后端项目-part03

文章目录 5.4.4 机构名称5.4.4.1 创建实体类Company5.4.4.2 创建实体类CompanyMapper5.4.4.3 创建实体类CompanyService5.4.4.4 创建实体类CompanyController5.4.4.5 后端测试5.4.4.6 修改basic.js5.4.4.7 修改course.vue5.4.4.8 测试5.4.5 课程标签5.4.5.1 效果5.4.5.2 修改co…

Spring Web 过滤器使用常见错误(上)

我们都知道,过滤器是 Servlet 的重要标准之一,其在请求和响应的统一处理、访问日志记录、请求权限审核等方面都有着不可替代的作用。在 Spring 编程中,我们主要就是配合使用ServletComponentScan 和 WebFilter 这两个注解来构建过滤器。 说起…