每日学术速递5.31

news2025/1/15 6:28:37

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

标题:无提示扩散:从文本到图像扩散模型中提取“文本”

作者:Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao Huang, Irfan Essa, Humphrey Shi

文章链接:https://arxiv.org/abs/2305.16223

项目代码:https://github.com/SHI-Labs/Prompt-Free-Diffusion

摘要:

        由于大规模的预训练扩散模型和许多新兴的个性化和编辑方法,文本到图像 (T2I) 的研究在过去一年中呈爆炸式增长。然而,一个痛点仍然存在:文本提示工程和搜索高质量文本提示以获得定制结果与其说是科学,不如说是一门艺术。此外,正如人们普遍认为的那样:“一张图像胜过千言万语”——试图用文本描述所需图像的尝试往往以含糊不清告终,无法全面涵盖精致的视觉细节,因此需要从视觉领域进行更多的额外控制。在本文中,我们向前迈出了大胆的一步:将“文本”从预训练的 T2I 扩散模型中取出,以减少用户繁重的提示工程工作。我们提出的框架 Prompt-Free Diffusion 仅依靠视觉输入来生成新图像:它将参考图像作为“上下文”、可选的图像结构条件和初始噪声,完全没有文本提示。场景背后的核心架构是语义上下文编码器 (SeeCoder),它取代了常用的基于 CLIP 或基于 LLM 的文本编码器。SeeCoder 的可重用性也使其成为一个方便的插入式组件:人们还可以在一个 T2I 模型中预训练 SeeCoder 并将其重用于另一个模型。通过广泛的实验,Prompt-Free Diffusion 在实验上被发现 (i) 优于先前基于样本的图像合成方法;(ii) 按照最佳实践使用提示与最先进的 T2I 模型执行相同的操作;(iii) 可以自然地扩展到其他下游应用程序,例如动漫人物生成和虚拟试穿,质量有希望。我们的代码和模型在这个 https URL 上是开源的。

2.Materialistic: Selecting Similar Materials in Images

标题:唯物主义:在图像中选择相似的材料

作者:Prafull Sharma, Julien Philip, Michaël Gharbi, William T. Freeman, Fredo Durand, Valentin Deschaintre

文章链接:https://arxiv.org/abs/2305.13291

摘要:

        将图像分成有意义的底层组件是编辑和理解图像的关键的第一步。我们提出了一种能够选择照片区域的方法,该区域展示与艺术家选择的区域相同的材料。我们提出的方法对阴影、镜面高光和投射阴影具有鲁棒性,可以在真实图像中进行选择。由于我们不依赖于语义分割(不应该一起选择不同的木材或金属),我们将问题表述为基于用户提供的图像位置的基于相似性的分组问题。特别是,我们建议利用无监督的 DINO 特征以及建议的交叉相似性模块和 MLP 头来提取图像中的材料相似性。我们在发布的新合成图像数据集上训练我们的模型。我们表明我们的方法可以很好地推广到真实世界的图像。我们仔细分析了我们的模型在不同材料属性和光照下的行为。此外,我们根据 50 张真实照片的手动注释基准对其进行评估。我们进一步在一组应用程序上展示了我们的模型,包括材料编辑、视频内选择和检索具有相似材料的对象照片。

Subjects: cs.CL

3.Voyager: An Open-Ended Embodied Agent with Large Language Models

标题:Voyager:具有大型语言模型的开放式具体代理

作者:Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar

文章链接:https://arxiv.org/abs/2305.16291

项目代码:https://voyager.minedojo.org/

摘要:

        视我们介绍 Voyager,它是 Minecraft 中第一个由 LLM 驱动的具身终身学习代理,它可以在没有人为干预的情况下不断探索世界,获得多样化的技能,并做出新的发现。Voyager 由三个关键组件组成:1) 一个最大化探索的自动课程,2) 一个不断增长的可执行代码技能库,用于存储和检索复杂的行为,以及 3) 一个新的迭代提示机制,它结合了环境反馈、执行错误,和程序改进的自我验证。Voyager 通过黑盒查询与 GPT-4 交互,绕过了模型参数微调的需要。Voyager 开发的技能在时间上是可扩展的、可解释的和组合的,这可以迅速复合智能体的能力并减轻灾难性遗忘。从经验上看,Voyager 显示出强大的情境终身学习能力,并且在玩 Minecraft 时表现出非凡的熟练程度。它获得的独特物品增加了 3.3 倍,行进距离增加了 2.3 倍,解锁关键技术树里程碑的速度比之前的 SOTA 快了 15.3 倍。Voyager 能够在新的 Minecraft 世界中利用学到的技能库从头开始解决新任务,而其他技术则难以推广。我们在这个 https URL 上开源我们的完整代码库和提示。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607701.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单片机GD32F303RCT6 (Macos环境)开发 (三十五)—— 数字加速度计 (ADXL345 ) 使能中断获取运动与静止状态

数字加速度计 (ADXL345)- 使能中断获取运动与静止状态 1、几个与运动、静止检测相关的寄存器 a、寄存器 0x24—THRESH_ACT(读/写) THRESH_ACT寄存器为8位寄存器,保存检测活动的阈 值。数据格式无符号,因此,活动事件…

从零开始 Spring Boot 35:Lombok

从零开始 Spring Boot 35:Lombok 图源:简书 (jianshu.com) Lombok是一个java项目,旨在帮助开发者减少一些“模板代码”。其具体方式是在Java代码生成字节码(class文件)时,根据你添加的相关Lombok注解或类来…

冈萨雷斯DIP第9章知识点

文章目录 9.1 预备知识9.2 腐蚀和膨胀9.3 开运算与闭运算9.5 一些基本的形态学算法9.8 灰度级形态学 9.1 预备知识 形态学运算是用 集合 来定义的 。 在图像处理中 使用两类像素集合的形态学:目标元素 和 结构元 SE 。 通常目标定义为前景像素集合,结构…

计算机基础--->操作系统(2)【线程和进程、死锁】

文章目录 线程和进程线程和进程的区别?有了进程为什么还需要线程?为什么使用多线程?线程间的同步方式进程控制块(PCB)进程有哪几种状态?进程间的通讯方式有哪些?进程常见的调度算法有哪些&#…

冈萨雷斯DIP第2章知识点

文章目录 2.1 视觉感知要素2.2 光和电磁波谱2.3 图像感知与获取2.4 图像取样和量化2.4.1 取样和量化的基本概念2.4.2 数字图像表示2.4.4 空间分辨率和灰度分辨率2.4.5 图像内插 (image interpolation)2.5 像素间的一些基本关系 2.6 数字图像处理所用的基本数学工具介绍2.6.3 算…

基础查询 — 投影、选择

准备 数据查询操作均采用的是MySQL。示例数据库采用的是northwind 示例数据库。数据库导入手册 关于northwind 示例数据库 查询数据库中的表 show tables;查询表的表属性 desc xxx(表名);投影操作 1.语法 投影运算:选择表中的全部或者部分列。 语法 select 字段…

Jeston Orin Nano 离线烧写系统到NVME存储

大家好,我是虎哥,Jeston Orin nano 8G模块,我自己也玩了一段时间,在Orin 系列,官方提供了一种新的烧写方式,也就是离线烧写,就是你在主机,挂载存储后,直接烧写系统到这个…

Maven高级——继承与聚合——聚合实现

为什么要聚合 分模块开发之后一个项目会被拆分成多个模块。多个模块之间还会有依赖关系。 在一些大型项目中模块比较多,模块之间的依赖关系也会变得错综复杂。 并且在打包的时候还会有一个新的问题,在打包的时候我们要打包的是Springboot项目&#xf…

黑马Redis视频教程高级篇(一)

目录 分布式缓存 一、Redis持久化 1.1、RDB持久化 1.1.1、执行时机 1.1.2、RDB原理 1.1.3、小结 1.2、OF持久化 1.2.1、AOF原理 1.2.2、OF配置 1.2.3、AOF文件重写 1.3、RDB与AOF对比 二、Redis主从 2.1、搭建主从架构 2.1.1、集群结构 2.1.2、准备实例和配置 …

CBCGPRibbonBar 设置整个界面字体大小

在CMainFrame.h中添加成员变量:CFont m_fontCustom; 在onCreat()方法结束之前的任一个位置写下下测方法即可 方法1: { // Create custom font: LOGFONT lf; globalData.fontRegular.GetLogFont(&lf); lf.lfItalic TRUE; …

详解Spring Cloud版本问题

目录 1.让人头疼的多版本号体系 2.目录关系 3.为什么会有多个版本号体系 1.让人头疼的多版本号体系 由于历史原因,spring cloud分为了Alibaba和Netflix两个体系。 想要了解原因以及整个spring cloud体系的来龙去脉的同学可以去看我的另一篇文章: S…

MySQL脏读、不可重复读、幻读的区别与注意事项

目录 一、引入二、事务并发执行会遇到的问题1. 区别2. 注意 三、隔离级别四、参考资料 一、引入 MySQL的架构是 C/S 架构(即 客户端/服务器 架构),一个服务器可能有多个客户端与之相连接,每个连接称之为会话(Session&…

chatgpt赋能python:Python去掉分隔符:优化SEO效果的一种方法

Python去掉分隔符:优化SEO效果的一种方法 在现代的数字化时代,SEO已经成为了许多企业、个人和网站运营者最为关心的问题之一。SEO指的是搜索引擎优化,通过各种技术手段和优化方式,提高网站在搜索引擎结果页面上显示的排名。Pytho…

PageHelper使用

PageHelper &#xff1a; mybatis中的分页插件 文档 &#xff1a; https://github.com/pagehelper/Mybatis-PageHelper/blob/master/wikis/zh/HowToUse.md springboot使用PageHelper <dependency><groupId>com.github.pagehelper</groupId><artifactId…

利用DocsGPT快速搭建一个问答式的文档检索服务

docsGPT 示例 基于企业内部独有的知识库&#xff0c;进行智能的客服问答&#xff0c;毫无疑问是 ChatGPT 出圈以后&#xff0c;所有公司想要融入 ChatGPT 技术时的第一反应。可惜 ChatGPT 实际上是一个基于大语言模型实现的&#xff0c;包括很多其他功能的&#xff0c;完整的聊…

电力电子技术的论文

电力电子技术的论文范文一&#xff1a;Matlab电力电子技术应用 【文章摘要】信息技术的快速发展推动许多学科进一步完善&#xff0c;以电力电子技术为例&#xff0c;其本身具有较强的理论性、实践性等特征&#xff0c;涉及的波形图、电路图也较多&#xff0c;相关设计人员需掌握…

Hitcon 2016 SleepyHolder-fastbin_dup_consolidate.c

参考/题目下载&#xff1a; https://github.com/mehQQ/public_writeup/tree/master/hitcon2016/SleepyHolder https://blog.csdn.net/seaaseesa/article/details/105856878 1&#xff0c;三联 保护:基本都开了 功能&#xff1a; 0、唤醒功能&#xff1b; 1、创建-secret&#…

华为OD机试真题 Java 实现【猴子爬山】【2023 B卷 100分】,附详细解题思路

一、题目描述 一天一只顽猴想去从山脚爬到山顶&#xff0c;途中经过一个有个N个台阶的阶梯&#xff0c;但是这猴子有一个习惯&#xff1a; 每一次只能跳1步或跳3步&#xff0c;试问猴子通过这个阶梯有多少种不同的跳跃方式&#xff1f; 二、输入描述 输入只有一个整数N&…

Custom Frames插件:内置Web应用 | Obsidian实践

今天跟大家分享一个Obsidian插件&#xff1a;Custom Frames。 这个插件的美妙之处在于&#xff0c;可以将一个Obsidian外部的Web应用&#xff0c;内置到Obsidian内部来操作和使用。 这么说可能是有点儿抽象&#xff0c;就比方说吧&#xff0c;微信读书有个网页版&#xff08;后…

嵌入式开发——文件系统部署rz、sz命令

1、rz、sz命令源码下载 下载网址&#xff1a;https://ohse.de/uwe/software/lrzsz.html 2、源码编译 tar -zxvf lrzsz-0.12.20.tar.gz cd lrzsz-0.12.20 ./configure make CCaarch64-mix410-linux-gcc #指定芯片平台的交叉编译链3、源码编译遇到的问题 3.1、报错打印 (1)报错…