每日学术速递4.22

news2024/11/14 19:38:16

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Reference-based Image Composition with Sketch via Structure-aware Diffusion Model

标题:通过结构感知扩散模型与草图进行基于参考的图像合成

作者:Kangyeol Kim, Sunghyun Park, Junsoo Lee, Jaegul Choo

文章链接:https://arxiv.org/abs/2304.09748

项目代码:https://github.com/kangyeolk/Paint-by-Sketch

摘要:

        最近大规模文本到图像生成模型的显着改进在生成高保真图像方面显示出有希望的结果。为了进一步增强可编辑性并实现细粒度生成,我们引入了一种多输入条件图像合成模型,该模型将草图作为一种新颖的模态与参考图像结合在一起。由于使用草图的边缘级可控性,我们的方法使用户能够编辑或完成具有所需结构(即草图)和内容(即参考图像)的图像子部分。我们的框架微调预训练扩散模型以使用参考图像完成缺失区域,同时保持草图引导。尽管简单,但这会带来广泛的机会来满足用户获取所需图像的需求。通过广泛的实验,我们证明我们提出的方法为图像处理提供了独特的用例,支持用户驱动的任意场景修改。

2.Anything-3D: Towards Single-view Anything Reconstruction in the Wild

标题:Anything-3D:迈向野外的单视图任何重建

作者:Qiuhong Shen, Xingyi Yang, Xinchao Wang

文章链接:https://arxiv.org/abs/2304.06018

项目代码:https://github.com/Anything-of-anything/Anything-3D

摘要:

        由于物体和环境固有的多样性和复杂性,在不受约束的现实世界场景中从单 RGB 图像进行 3D 重建提出了许多挑战。在本文中,我们介绍了 Anything-3D,这是一个巧妙地结合了一系列视觉语言模型和 Segment-Anything 对象分割模型以将对象提升为 3D 的系统框架,从而为单视图条件 3D 重建提供了可靠且通用的系统任务。我们的方法采用 BLIP 模型生成纹理描述,利用 Segment-Anything 模型有效提取感兴趣的对象,并利用文本到图像扩散模型将对象提升到神经辐射场。\emph{Anything-3D\footnotemark[2]} 展示了其为各种对象生成准确和详细的 3D 重建的能力,显示了解决现有方法局限性的希望。通过对各种数据集的综合实验和评估,我们展示了我们方法的优点,强调了它在 3D 重建领域做出有意义贡献的潜力。

3.ReLight My NeRF: A Dataset for Novel View Synthesis and Relighting of Real World Objects

标题:ReLight My NeRF:用于现实世界对象的新颖视图合成和重新照明的数据集

作者:Marco Toschi, Riccardo De Matteo, Riccardo Spezialetti, Daniele De Gregorio, Luigi Di Stefano, Samuele Salti

文章链接:https://arxiv.org/abs/2304.10448

项目代码:https://eyecan-ai.github.io/rene/

摘要:

        在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。我们的采集管道利用两个机械臂,分别拿着一个相机和一个全向点光源。我们总共发布了 20 个场景,描绘了具有复杂几何形状和具有挑战性材料的各种物体。每个场景包括 2000 张图像,这些图像是在 40 种不同的 OLAT 条件下从 50 个不同的视角获取的。通过利用数据集,我们对普通 NeRF 架构变体的重新照明能力进行了消融研究,并确定了一种轻量级架构,该架构可以在新颖的光照条件下呈现物体的新颖视图,我们使用它来建立一个重要的基线数据集。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/447268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PDF转PPT:省时省力的高效方式

PDF和PPT是日常工作和学习中常见的文件格式,但是它们的使用场景不同,很多时候需要将PDF文件转换为PPT文件才能更好地展示内容。本文将介绍如何使用PDF转PPT工具来实现快速转换,省时省力。 一、为什么需要将PDF文件转换为PPT文件 1.PPT文件更…

English Learning - L2-15 英音地道语音语调 语调四步法 2023.04.17 周一

English Learning - L2-15 英音地道语音语调 语调 2023.04.17 周一 语调概念和汉语拼音对比 语音语调四步法语调练习意群划分重音重中之重语调的选择 语调的含义 语调概念 广义:语音技巧,连读,失去爆破,音同化,还有平…

如何利用AI技术实现高品质的文字转语音效果

人们越来越依赖语音技术进行交流和获取信息。语音技术可以提高工作效率和舒适度,减轻眼睛疲劳和阅读负担。在数字化时代,AI技术已经能够帮助我们实现高品质的文字转语音效果。下面我们将介绍一些方法,以帮助您更好地利用AI技术实现高品质的文…

Vue.js过滤器filters

目录 一、局部过滤器 二、全局过滤器 三、过滤器串联 四、过滤器接收多个参数 Vue.js允许自定义过滤器,过滤器的作用可被用于一些常见的文本格式化(也就是修饰文本,但是文本内容不会改变) 过滤器可以用在两个地方&#xff1a…

微信小程序开发详细步骤是什么?

微信小程序开发只需要三步,分别是注册小程序,编辑设计小程序内容和一键发布小程序zlzwgz0127。 这篇回答不介绍写代码开发小程序,因为更多人是不懂代码的,所以推荐用第三方平台开发小程序zlzwgz0127。 在开始制作小程序之前&#…

Linux基础—深入理解Linux文件系统

Linux基础—深入理解Linux文件系统与日志分析 一、inode 与 block详解1.inode 和 block 概述2.inode的内容3.inode的大小4.inode的特殊作用5.inode 的号码6.查看文件的inode 号码7.inode 耗尽故障处理 二、恢复误删除的文件1.案例:恢复EXT类型的文件2.案例&#xff…

qt中信号和槽机制

文章目录 信号与槽机制实现 点击按钮 关闭窗口的案例 自定义信号槽自定义信号自定义槽函数触发自定义的信号案例:请老师吃饭 断开信号当槽函数遇到重载的时候拓展 信号与槽机制 connect(信号的发送者, 发送的具体信号,信号的接受者&#xff0…

SpringAop详解汇总

文章目录 近期想法什么是AOPSpringAOP与AspectjSpringAOP体系概述概念详解连接点- Jointpoint切入点- Pointcut通知- Advice切面- Aspect织入- Weaving 实现原理—动态代理JDK动态代理描述原理代码示例注意执行结果 优点缺点 CGLib动态代理描述原理代码示例注意执行结果 优点缺…

【UITableViewCell单元格重用补充 Objective-C语言】

一、咱们再把刚才说的UITableViewCell单元格重用的思路再给大家捋一下 1.咱们刚才说的这个单元格重用就是,当我们滚动的时候,这里给大家简单画一下, 2.就是滚动的时候,当把这个最上面的单元格滚完毕以后,把这个单元格放到缓存池里面, 3.给这个单元格要起一个ID,给它做一…

阿里云部署Stable Diffusion

系列文章目录 本地部署Stable Diffusion教程,亲测可以安装成功 Stable Diffusion界面参数及模型使用 谷歌Colab云端部署Stable Diffusion 进行绘图 文章目录 系列文章目录前言一、AIGC是什么?二、操作步骤1.资源准备-零元开通试用套餐2.创建应用3.输入…

使用matlab基于神经网络进行光束选择

一、前言 此示例说明如何使用神经网络来减少光束选择任务中的开销。在此示例中,您仅使用接收方的位置,而不是通信信道的知识。您可以通过在选定的波束对中进行搜索来减少波束扫掠开销,而不是对所有波束对进行详尽的波束搜索K光束对。考虑到一…

R语言ggplot2 | 修改ggplot主题

📋文章目录 图形设置(settings)面板设置和背景(Panel&Background)坐标轴设置(Axis)标题和标签(Title&label)图例(Legend)副标题和图注&am…

静态和动态NAT,NAPT配置简介

一.类型介绍 二.功能 1.将大量的私有地址转换为公有地址(节约IP地址) 2.将一个IP地址转换为另一个IP地址(增加内部网络设备的安全性) 三.缺陷: 1.很消耗网络设备资源 2.破坏数据端到端传输,安全策略实施受限 四.配置命令 1.静态模式(…

押注零知识证明赛道,Conflux与ACCSEAL达成战略合作

Conflux与新兴零知识证明加速芯片制造公司ACCSEAL宣布达成战略合作,携手共同布局零知识证明(Zero-Knowledge Proof,简称ZKP)赛道,探索可应用于Conflux生态系统的最先进零知识证明技术和解决方案。早在2022年3月&#x…

白话文讲计算机视觉-第九讲-霍夫变换之直线检测

霍夫变换是1962年由霍夫发明的一种检测图像中直线、圆等形状的方法。后来1972年经过Richard O. Duda和Peter E. Hart改进,形成了今天的霍夫变换算法。 今天我就带大家了解了解霍夫变换之直线检测是怎么特么的一回事。 1.霍夫变换 说到霍夫变换,首先就得…

C++——类和对象

作者:几冬雪来 时间:2023年4月21日 内容:C类和对象 目录 前言: 1.inline函数: 2.auto(补充): 3.类: 4.类的访问限定符及封装: 5.封装:…

从零开始下载torch+cu(无痛版)

从零开始下载torchcu(无痛版) 文章目录 从零开始下载torchcu(无痛版)一,前言二,配置torch的GPU版具体步骤1,查看电脑安装的Cuda版本2,在pytoch官网检索待下载whl包名以及版本3,下载指…

playwright实战篇(tx、ali225)

人人都笑金角,人人都是金角推荐文章: 1、https://playwright.dev/python/docs/api/class-playwright //官方文档 2、https://cuiqingcai.com/36045.html //崔庆才教程 3、https://github.com/qqq732004709/ //实战参考 4、https://www.cnblogs.com/ca…

asp.net mvc网上书店购物系统(带项目文档)

c#_asp.net mvc网上书店购物系统(带项目文档) mvc网上书店购物系统 主要技术: 基于asp.net mvc架构和sql server数据库,并采用EF实体模型开发。 功能模块: 系统包括前台和后台两个部分,用户可在前台浏览…

KL散度和交叉熵的对比介绍

KL散度(Kullback-Leibler Divergence)和交叉熵(Cross Entropy)是在机器学习中广泛使用的概念。这两者都用于比较两个概率分布之间的相似性,但在一些方面,它们也有所不同。本文将对KL散度和交叉熵的详细解释…