每日学术速递4.18

news2025/1/1 23:28:04

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Inpaint Anything: Segment Anything Meets Image Inpainting

标题:Inpaint Anything:分割任何东西满足图像修复

作者:Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun Zeng, Zhibo Chen

文章链接:https://arxiv.org/abs/2304.06790

项目代码:https://github.com/geekyutao/Inpaint-Anything

摘要:

        现代图像修复系统尽管取得了重大进展,但常常在掩码选择和孔洞填充方面遇到困难。基于Segment-Anything Model (SAM),我们对无掩码图像修复进行了首次尝试,并提出了一种新的“点击和填充”范式,命名为Inpaint Anything (IA)。IA 背后的核心思想是结合不同模型的优势,以构建一个非常强大且用户友好的管道来解决与修复相关的问题。IA 支持三个主要功能:(i) Remove Anything:用户可以单击一个对象,IA 将删除它并用上下文平滑“孔”;(ii) Fill Anything:在移除某些对象后,用户可以向 IA 提供基于文本的提示,然后它会通过驱动 Stable Diffusion 等 AIGC 模型用相应的生成内容填充空洞;(iii) Replace Anything:使用 IA,用户可以选择保留单击选择的对象并将剩余的背景替换为新生成的场景。我们也非常愿意帮助大家分享和推广基于我们 Inpaint Anything (IA) 的新项目。我们的代码可在此 https URL 上获得。

2.Soundini: Sound-Guided Diffusion for Natural Video Editing

标题:Soundini:用于自然视频编辑的声音引导扩散

作者:Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho, Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim

文章链接:https://arxiv.org/abs/2304.06818

项目代码:https://kuai-lab.github.io/soundini-gallery/

摘要:

        我们提出了一种方法,可以将声音引导的视觉效果添加到具有零镜头设置的视频的特定区域。动画化视觉效果的外观具有挑战性,因为编辑视频的每一帧都应具有视觉变化,同时保持时间一致性。此外,现有的视频编辑解决方案侧重于跨帧的时间一致性,而忽略了随时间变化的视觉风格变化,例如雷雨、波浪、火焰噼啪声。为了克服这个限制,我们将时间声音特征用于动态风格。具体来说,我们在视听潜在空间中使用音频潜在表示来指导去噪扩散概率模型。据我们所知,我们的工作是第一个从具有声音专业属性(例如强度、音色和音量)的各种声源探索声音引导的自然视频编辑。此外,我们设计了基于光流的引导来生成时间一致的视频帧,捕获相邻帧之间的像素关系。实验结果表明,我们的方法优于现有的视频编辑技术,产生更逼真的视觉效果,反映声音的特性。请访问我们的页面:这个 https URL 。

3.Delta Denoising Score

标题:Delta 降噪得分

作者:Amir Hertz, Kfir Aberman, Daniel Cohen-Or

文章链接:https://arxiv.org/abs/2304.07090

项目代码:https://delta-denoising-score.github.io/

摘要:

        我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。为了解决这个问题,DDS 使用与输入图像匹配的提示来识别和删除不需要的 SDS 错误方向。我们的关键前提是,在对匹配的提示和图像对进行计算时,SDS 应该为零,这意味着如果分数不为零,则其梯度可以归因于 SDS 的错误成分。我们的分析证明了 DDS 在基于文本的图像到图像翻译方面的能力。我们进一步表明,DDS 可用于训练有效的零镜头图像翻译模型。实验结果表明,DDS 在稳定性和质量方面优于现有方法,突出了其在基于文本的图像编辑中实际应用的潜力。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/445752.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业用户如何选择合适的服务器配置方法教程

随着互联网信息的飞速发展,任何企业都脱离不了互联网,越来越多的企业都通过互联网实施无纸化的办公,互联网推广一体化整体型推广、互联网电子商务。中小型企业网站如何选购云服务器配置呢?但是,实现这些的最最基础的条…

ai改写句子软件-ai改写

AI免费伪原创:助力网站内容升级 您是否曾经为网站优化而烦恼,无论是内容更新还是SEO优化,都需要大量的时间和精力。但是,您是否知道,现在有一款能够使用AI技术来帮助您完成这些任务,而且还是免费的呢&…

【Git 学习】

Git 学习 一、Git的使用1. Git下载安装2. Git 命令3. Git推送代码步骤4. Git基本工作流程5. Git历史版本切换6. Git分支管理6.1 创建新分支6.2 切换分支6.3 合并分支6.4 删除分支 7. 远程仓库的工作流程7.1 具体流程 8.推送到远程仓库9. 代码冲突问题10. IDEA 集成Git10.1 版本…

说说webpack的构建流程?

① 初始化流程 从配置文件和 Shell 语句中读取与合并参数,并初始化需要使用的插件和配置插件等执行环境所需要的参数。 配置文件默认下为 webpack.config.js,也可以通过命令的形式指定配置文件; 主要作用是用于激活webpack的加载项和插件&am…

手写axios源码系列一:axios核心知识点

文章目录 axios的核心功能1、axios 函数对象2、dispatchRequest 发送请求3、interceptors 拦截器4、cancelToken 取消请求 最近从头搭建了一个vue小项目,想使用 axios 作为请求接口的第三方库。结果使用了 axios 这么长时间,想封装一下 axios &#xff0…

Nacos2.2.2开启鉴权配置

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、更改application.properties中的配置二、修改配置 前言 最近公司开启了一个新的电商项目,项目中用到了Naocs作为注册中心和配置中心&#xff0…

WindowsUbuntu下python程序打包

Python程序的运行必须要有Python的环境,但是程序编出来是用的,如果是给别人用,而他/她的电脑上又没有Python程序运行的环境怎么办呢?总不能让他/她去安装一个吧?这时我们就要将Python程序打包为exe可执行文件&#xff…

【文章学习系列之模型】PatchTST

本章内容 文章概况模型结构实验结果长期预测表征学习 消融实验分块和通道独立性不同的回顾窗口 总结 文章概况 《A Time Series is Worth 64 Words: Long-term Forecasting with Transformers》是2023年发表于ICLR的一篇文章。该文章借鉴了计算机视觉领域的Vision Transformer…

树形DP分析

树形dp 简单来说树形 d p 就是在树上做 d p 罢了 简单来说树形dp就是在树上做dp罢了 简单来说树形dp就是在树上做dp罢了 树嘛,就要符合除了根节点外每个节点只有一个父节点 树嘛,就要符合除了根节点外每个节点只有一个父节点 树嘛,就要符合除…

# 从车灯模组的角度聊聊信息安全需求

文章目录 1. 前言2.信息安全需求2.1 硬件安全2.1.1 接口安全2.1.2 主板安全2.1.3 芯片安全 2.3 系统安全2.3.1 代码安全2.3.2 软件读保护2.3.3 安全启动2.3.4 安全升级2.3.5 安全诊断 2.4 通信安全2.5 数据安全 3. 安全启动流程3.1 基于签名技术的安全启动方案3.2 基于对称签名…

netty源码阅读--处理客户端请求

背景 netty是一个非常成熟的NIO框架,众多apache的顶级项目底层通信框架都是用的是netty,本系列博客主要是记录自己复习netty源码的过程,重在理解netty的关键如:如何启动,如何接受网络数据、netty的内存管理机制以及编解码器等&am…

Python学习笔记--面向对象

未完待续。。。。。 (一)面向对象的基本概念 我们之前学习的编程方式就是面向过程的 面相过程和面相对象,是两种不同的编程方式 对比面向过程的特点,可以更好地了解什么是面向对象 1.1过程和函数 过程是早期的一个编程概念 过程…

4.3 分段低次插值

学习目标: 如果我要学习分段低次插值,我可能会采取以下几个步骤: 学习插值的基本概念和方法 在学习分段低次插值之前,我需要先掌握插值的基本概念和方法,例如拉格朗日插值、牛顿插值和内维尔方法等。这些基础知识可…

C#调用C++封装的SDK库(dll动态库)——上

C#调用C封装的SDK库(dll动态库)——上 一、C封装库 通过前几篇文章,我们封装了C的动态DLL库,有Qt版的,有C版的,当然还有介绍了Pimpl模式在SDK封装中的使用: Qt创建SDK VS创建SDK Pimple在SDK封装中的应用 但是&a…

关于逻辑回归的几个函数

写作业时重新理了下,如果有问题欢迎指正! 说是回归,其实就是个分类,用【0,1】标记结果y是录取还是录取,而影响结果y的就是X(x0,x1,…xn-1)。怎么判断结果y是0还是1用到的是逻辑回归函数(也叫假…

java企业级信息系统开发学习笔记05 初探Spring AOP

文章目录 一、学习目标二、Spring AOP(一)AOP基本含义(二)AOP基本作用(三)AOP和OOP对比(四)AOP使用方式(五)AOP基本概念 三、采用配置方法使用AOP&#xff08…

windows下Tomcat安装

目录 1.安装java环境 2.配置Tomcat环境变量 3.安装服务 4.启动前修改配置文件 (1)设置tomcat端口 (2)设置临时日志等文件夹的位置 5.放入应用 6.启动Tomcat服务 1.安装java环境 安装tomcat版本对应的JDK 比如:…

Mysql的简介和选择

文章目录 前言一、为什么要使用数据库 数据库的概念为什么要使用数据库二、程序员为什么要学习数据库三、数据库的选择 主流数据库简介使用MySQL的优势版本选择四、Windows 平台下安装与配置MySQL 启动MySQL 服务控制台登录MySQL命令五、Linux 平台下安装与配置MySQL总结 前言…

Redis 分布式锁解决方案

1 背景 我们日常在电商网站购物时经常会遇到一些高并发的场景,例如电商 App 上经常出现的秒杀活动、限量优惠券抢购,还有我们去哪儿网的火车票抢票系统等,这些场景有一个共同特点就是访问量激增,虽然在系统设计时会通过限流、异步…

设计模式:行为型模式 - 责任链模式

文章目录 1.概述2.结构3.案例实现4.优缺点5.源码解析 1.概述 在现实生活中,常常会出现这样的事例:一个请求有多个对象可以处理,但每个对象的处理条件或权限不同。例如,公司员工请假,可批假的领导有部门负责人、副总经…