每日学术速递4.11

news2024/11/26 22:41:56

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning

标题:InstantBooth:无需测试时间微调的个性化文本到图像生成

作者:Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung

文章链接:https://arxiv.org/abs/2304.03411

项目代码:https://jshi31.github.io/InstantBooth/

摘要:

        个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时间微调,这既耗时又难以扩展。我们提出了 InstantBooth,这是一种基于预训练的文本到图像模型的新颖方法,无需任何测试时间微调即可实现即时文本引导图像个性化。我们通过几个主要组件来实现这一点。首先,我们通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。其次,为了保持身份的精细细节,我们通过向预训练模型引入一些适配器层来学习丰富的视觉特征表示。我们只在文本图像对上训练我们的组件,而不使用相同概念的成对图像。与 DreamBooth 和 Textual-Inversion 等基于测试时间微调的方法相比,我们的模型可以在语言-图像对齐、图像保真度和身份保存等不可见概念上产生具有竞争力的结果,同时速度提高 100 倍。

2.Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative Radiance Field

标题:Lift3D:通过将 2D GAN 提升到 3D 生成辐射场来合成 3D 训练数据

作者:Leheng Li, Qing Lian, Luozhou Wang, Ningning Ma, Ying-Cong Chen

文章链接:https://arxiv.org/abs/2304.03526

项目代码:https://len-li.github.io/lift3d-web

摘要:

        这项工作探索了使用 3D 生成模型来合成 3D 视觉任务的训练数据。生成模型的关键要求是生成的数据应逼真以匹配真实场景,并且相应的 3D 属性应与给定的采样标签对齐。然而,我们发现最近基于 NeRF 的 3D GAN 由于其设计的生成管道和缺乏明确的 3D 监督而很难满足上述要求。在这项工作中,我们提出了 Lift3D,这是一种倒置的 2D 到 3D 生成框架,以实现数据生成目标。与之前的方法相比,Lift3D 有几个优点:(1) 与之前的 3D GAN 不同,训练后输出分辨率是固定的,Lift3D 可以泛化到任何具有更高分辨率和逼真输出的相机固有特性。 (2) 通过将分离良好的 2D GAN 提升到 3D 对象 NeRF,Lift3D 提供生成对象的显式 3D 信息,从而为下游任务提供准确的 3D 注释。我们通过扩充自动驾驶数据集来评估我们框架的有效性。实验结果表明,我们的数据生成框架可以有效提高 3D 对象检测器的性能。

3.FineRecon: Depth-aware Feed-forward Network for Detailed 3D Reconstruction

标题:FineRecon:用于详细 3D 重建的深度感知前馈网络

作者:Noah Stier, Anurag Ranjan, Alex Colburn, Yajie Yan, Liang Yang, Fangchang Ma, Baptiste Angles

文章链接:https://arxiv.org/abs/2304.01480

摘要:

        最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。然而,通常表示为 3D 截断符号距离函数 (TSDF) 的重建几何结构通常很粗糙,没有精细的几何细节。为了解决这个问题,我们提出了三种有效的解决方案来提高基于推理的 3D 重建的保真度。我们首先提出了一种与分辨率无关的 TSDF 监督策略,以便在训练期间为网络提供更准确的学习信号,避免之前工作中出现的 TSDF 插值的缺陷。然后,我们引入了一种使用多视图深度估计的深度引导策略,以增强场景表示并恢复更准确的表面。最后,我们为网络的最后一层开发了一种新颖的架构,除了粗糙的体素特征之外,还对高分辨率图像特征的输出 TSDF 预测进行了调节,从而能够更清晰地重建精细细节。我们的方法产生平滑且高度准确的重建,显示出跨多个深度和 3D 重建指标的显着改进。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

九耶丨钛伦特-用深度学习实现垃圾图像分类(一)

在这个项目中我们将结合我们的日常生活,让计算机帮助我们进行垃圾分类。比如让计算机能够正确将如下三张包含不同垃圾的图像进行分类。 我们希望计算机能够识别出三张图像依次是玻璃(玻璃瓶),纸张(信封)和塑…

Kafka学习记录

阅读前请看一下:我是一个热衷于记录的人,每次写博客会反复研读,尽量不断提升博客质量。文章设置为仅粉丝可见,是因为写博客确实花了不少精力。希望互相进步谢谢!! 文章目录阅读前请看一下:我是一…

“商量”翻车了?网友质疑搬运C站

在ChatGPT大热的当下,各大互联网和AI大厂陆续开始推出国内版本的大模型产品了,最近发布的有:商汤版ChatGPT发布千亿参数大模型:商量!第一个真正实现智能涌现的国产大语言模型,内测即将开启阿里版 ChatGPT 突…

ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究

近两年,视觉语言模型 (VLM) 逐渐兴起,并在小样本学习 (Few-shot Learning) 和零样本推理 (Zero-shot Inference) 上取得了令人注目的成果。那么这些在自然图像上取得成功的大规模预训练视觉语言模型,是否能成功应用到医疗领域呢?抱…

springboot项目中的mysql用国产数据库达梦替换的相关说明

一、 用“DM管理工具”的“管理用户”创建你需要用户,也是达梦的模式。 用户的权限问题可以直接角色授权,方便一些。 二、借用达梦的“DM数据迁移工具”做数据库的表内容转移。 1. 新建工程、新建迁移 编辑mysql的数据库源 编辑达梦的目的端数据库 选择之…

力扣119杨辉三角 II:代码实现 + 方法总结(数学规律法 记忆法/备忘录)

文章目录第一部分:题目第二部分:解法①-数学规律法2.1 规律分析2.2 代码实现2.3 需要思考第三部分:解法②-记忆法(备忘录)第四部分:对比总结第一部分:题目 🏠 链接:119.…

工业路由器IO远程控制使用说明(智联物联)

工业路由器IO控制是指路由系统已开发支持对用户DI(数字输入)/DO(数字输出)/Relay(继电器)类型的设备控制操作,目前各支持1路设备类型。 IO控制目前支持2种方式进行控制操作,即通过工…

C/C++每日一练(20230417)

目录 1. 字母异位词分组 🌟🌟 2. 计算右侧小于当前元素的个数 🌟🌟🌟 3. 加一 🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 J…

【JavaScript】3.JavaScript预解析

JavaScript 预解析 1. 变量预解析 和 函数预解析 js引擎运行js 分为两步: 预解析 代码执行 预解析 js引擎会把js 里面所有的 var 还有 function 提升到当前作用域的最前面代码执行 按照代码书写的顺序从上往下执行 预解析分为 变量预解析(变量提升&…

0101壳-手写springboot-springboot系列

文章目录1 前言1 创建我们自己的pringboot模块1.1 引入相关依赖1.1 启动类注解1.2 启动类2 测试模块3 启动测试结语1 前言 springboot有以下作用: 简化配置:Spring Boot提供了一组预定义的自动配置选项,可以快速地配置应用程序,…

2023年虚拟数字人行业研究报告

第一章 行业概况 虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多种人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟人可分为服务型…

[Python工匠]输出① 变量与注释

变量(variable)是用来从内存找到某个东西的标记 #去掉s两边的空格,再处理 value process(s.strip()) s " hello World " value1 len(s) value2 len(s.strip())print(value1) print(value2) #用户输入可能会有空格&#x…

【云原生】k8s集群命令行工具kubectl之应用部署命令详解

kubectl应用部署命令详解一、准备工作1.1、Replication Controller1.2、Deployment1.3、DaemonSet1.4、查看创建的svc和pod1.5、kubectl 命令自动补全设置二、应用部署命令2.1、diff2.2、apply2.3、replace2.4、rollout2.4.1、history2.4.2、pause2.4.3、resume2.4.4、restart2…

Ubuntu20.04安装matlab2022b

Ubuntu20.04安装matlab2022b 1.系统要求 Ubuntu 22.04 LTSUbuntu 20.04 LTSUbuntu 18.04 LTSDebian 11Debian 10Red Hat Enterprise Linux 9Red Hat Enterprise Linux 8 (minimum 8.4)Red Hat Enterprise Linux 7 (minimum 7.9)SUSE Linux Enterprise Desktop 15SUSE Linux E…

【攻城狮计划】Renesas RA2E1 详细介绍

🚩WRITE IN FRONT🚩 🔎介绍:"謓泽"正在路上朝着"攻城狮"方向"前进四"🔎🏅荣誉:2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2022博客之星TOP10…

A40i使用笔记:QT使用alsa采集音频pcm信息

一、前言 目的是实现一种效果,就是在音频识别时,能够实时显示当前人员说话的声音幅度,通过波形曲线的形式显示出来。如下效果(非我实现) 还可以实现在实时采集的同时,将需要的数据保存成指定格式文件&…

状态设计模式(State Pattern)[论点:概念、相关角色、图示、示例代码、框架中的运用、适用场景]

文章目录概念组成角色相关图示代码示例框架中的应用适用场景概念 状态模式(State Pattern)是一种行为型设计模式,用于解决对象在不同状态下的行为问题。它允许一个对象在其内部状态改变时改变它的行为。状态模式主要包含三个部分:…

Day924.自动化测试 -系统重构实战

自动化测试 Hi,我是阿昌,今天学习记录的是关于自动化测试的内容。 自动化测试是一个很容易产生“争议”的话题,也经常会有一些很有意思的问题。 自动化测试不是应该由测试同学来编写吗,开发是不是没有必要学吧?之前…

圆角升级啦,来手把手一起实现自定义ViewGroup的各种圆角与背景

作者:newki 定制圆角与背景的自定义ViewGroup实现 前言 目前线上的一些第三方圆角容器大部分都只支持四周固定圆角,我们一些使用场景只需要顶部圆角,或者底部圆角,或者一个角圆角。 (话说为什么我们的UI这么喜欢各种…

webpack plugin源码解析(四) HashedModuleIdsPlugin

文章目录作用涉及 webpack API获取chunkGraph获取当前编译过程中被使用过的 module id:compilation.usedModuleIds获取当前编译过程中所有的模块对象:compilation.modules判断 module 是否需要生成 id:module.needId获取指定module 的 module…