每日学术速递2.20

news2024/9/21 1:50:24

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models

标题:用于扩散模型语义控制的边界引导混合轨迹

作者:Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

文章链接:https://arxiv.org/abs/2302.08357v1

项目代码:https://github.com/l-yezhu/cdcd

摘要:

        将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。作为第一个基于优化的扩散编辑工作,我们首先通过理论和实证分析马尔可夫链中的概率和几何行为来寻求对中间高维潜在空间的更全面的理解。然后,我们建议进一步探索表征预训练 DDM 收敛的去噪轨迹中的关键步骤。最后但同样重要的是,我们进一步提出了我们的方法,通过在关键收敛步骤将去噪轨迹引导到目标边界来搜索可控操作的语义子空间边界。我们对具有不同分辨率 (64、256) 的各种 DPM 架构(DDPM、iDDPM)和数据集(CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog)进行了广泛的实验,作为经验演示。

2.Retrieval-augmented Image Captioning

标题:检索增强图像说明

作者:Rita Ramos, Desmond Elliott, Bruno Martins

文章链接:https://arxiv.org/abs/2302.08268v1

项目代码:https://github.com/ritaramo/extra

摘要:

        受检索增强语言生成和预训练视觉和语言 (V&L) 编码器的启发,我们提出了一种新的图像字幕方法,它根据输入图像和从数据存储中检索到的一组字幕生成句子,而不是单独使用图像。我们模型中的编码器使用预训练的 V&L BERT 联合处理图像和检索到的说明,而解码器则处理多模式编码器表示,从检索到的说明中获取额外的文本证据。COCO 数据集上的实验结果表明,可以从这个新角度有效地制定图像字幕。我们的模型名为 EXTRA,受益于使用从训练数据集中检索到的字幕,它还可以受益于使用外部数据集而无需重新训练。消融研究表明,检索足够数量的字幕(例如,k=5)可以提高字幕质量。我们的工作有助于将预训练的 V&L 编码器用于生成任务,而不是标准分类任务。

3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space

标题:隐函数空间中基于上下文交互的连续遥感影像超分辨率

作者:Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, XiaoLong Jiang, Zhengxia Zou, Zhenwei Shi

文章链接:https://arxiv.org/abs/2302.08046v1

项目代码:https://github.com/KyanChen/FunSR

摘要:

        尽管图像超分辨率在遥感方面取得了丰硕的应用,但由于它使用不同的模型处理不同的分辨率放大倍数,因此训练和部署起来很麻烦。因此,我们提出了一个高度适用的超分辨率框架,称为 FunSR,它通过利用隐函数空间内的上下文交互,用统一的模型解决不同的放大倍数。FunSR 由功能表示器、功能交互器和功能解析器组成。具体来说,表示器将低分辨率图像从欧几里得空间转换为多尺度像素级函数图;交互器启用具有全局依赖性的像素级函数表达式;由交互器输出参数化的解析器将具有附加属性的离散坐标转换为 RGB 值。广泛的实验结果表明,FunSR 在固定放大和连续放大设置上报告了最先进的性能,同时,由于其统一的性质,它提供了许多友好的应用程序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/358044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 开发布局笔记01 控件

Relative Layout 前端界面代码 <?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-auto"xmlns:tools&qu…

数据结构与算法(Java版) | 线性结构和非线性结构

之前&#xff0c;我们说过&#xff0c;数据结构是算法的基础&#xff0c;因此接下来在这一讲我就要来给大家重点介绍一下数据结构了。 首先&#xff0c;大家需要知道的是&#xff0c;数据结构包括两部分&#xff0c;即线性结构和非线性结构。知道这点之后&#xff0c;接下来我…

flex一把梭

flex 使用display:flex&#xff0c;可以让一个元素变成弹性容器&#xff08;flex容器&#xff09;&#xff0c;该元素中的直接子元素成为弹性项&#xff08;flex项&#xff09; flex-direction 使用flex-direction可以控制flex容器的主轴的方向&#xff1a;垂直&#xff08;…

躬身入局,干货分享,2023年春招后端技术岗(Python)面试实战教程,Offer今始为君发

早春二月&#xff0c;研发倍忙&#xff0c;杂花生树&#xff0c;群鸥竟飞。为什么&#xff1f;因为春季招聘&#xff0c;无论是应届生&#xff0c;还是职场老鸟&#xff0c;都在摩拳擦掌&#xff0c;秣马厉兵&#xff0c;准备在面试场上一较身手&#xff0c;既分高下&#xff0…

Allegro如何让测量时显示双单位操作指导

Allegro如何让测量时显示双单位操作指导 在用Allegro做PCB设计的时候,时常会需要使用到测量命令,通常显示的一个单位,比如mil,如下图 当希望除了看到mil单位的值,又同时能够看到mm单位的值,省去换算的时间 具体设置如下 点击Setup点击User Preference

Linux服务:Nginx服务部署及基础配置

目录 一、Nginx介绍 1、Nginx简介 2、I/O模型相关概念 3、Nginx事件驱动模型 二、部署Nginx 1、yum部署Nginx 2、编译安装Nginx 三、Nginx使用 1、基础使用 2、nginx信号 四、web服务选择及优化 1、Nginx与Apache对比 2、Nginx服务调优 一、Nginx介绍 1、Nginx简…

SAP ABAP

方法一&#xff1a; REPORT ZDCH_09_TEST2. ************************************************************************ * DATEN DEFINITION * *********************************************************************…

【数据结构】二叉树-堆实现及其堆的应用(堆排序topK问题)

文章目录一、堆的概念及结构二、堆的实现1.结构的定义2.堆的初始化3.堆的插入4.堆的向上调整5.堆的删除6.堆的向下调整7.取出堆顶元素8.返回堆的元素个数9.判断堆是否为空10.打印堆中的数据11.堆的销毁三、完整代码1.Heap.h2.Heap.c3.test.c四、堆排序1.堆排序2.建堆3.选数4.完…

Shopee、ebay、亚马逊等跨境卖家了解测评的一篇干货

随着时代的发展&#xff0c;大家越来越喜欢网购&#xff0c;国外也有亚马逊、沃尔码、阿里国际、速卖通、ebay、shopee、Lazada、ozon、temu等等&#xff0c;而国外这些平台也有很大的市场&#xff0c;跨境电商也随时诞生&#xff0c;而当今社会环境实体生意越来越难做&#xf…

DAMA认证|数据治理产业上规模需要做到“三化”

数据治理是开启数据安全体系化建设的第一步&#xff0c;需要从产业层面做大做强&#xff0c;支撑数据安全整体框架&#xff0c;为数据流通提供安全保障&#xff0c;推动促进数字化产业进一步发展。 规模化发展是数据治理产业的瓶颈&#xff0c;行业数字化业务的复杂性和过多的定…

k8s安装tekton,编写task

文章目录一、官方安装二、国内资源安装安装tekton安装dashboard安装CLI三、demo编写task.yaml编写taskRun.yaml使用tkn命令查看参考文章一、官方安装 地址&#xff1a;https://tekton.dev/docs/installation/pipelines/#installing-tekton-pipelines-on-kubernetes 注意&#…

Spring MVC 源码之MultipartResolver 组件

MultipartResolver 组件&#xff0c;内容类型( Content-Type )为 multipart/* 的请求的解析器&#xff0c;主要解析文件上传的请求。例如&#xff0c;MultipartResolver 会将 HttpServletRequest 封装成 MultipartHttpServletRequest 对象&#xff0c;便于获取参数信息以及上传…

【NVMEM子系统】二、NVMEM驱动框架

个人主页&#xff1a;董哥聊技术我是董哥&#xff0c;嵌入式领域新星创作者创作理念&#xff1a;专注分享高质量嵌入式文章&#xff0c;让大家读有所得&#xff01;文章目录1、前言2、驱动框架3、源码目录结构4、用户空间下的目录结构1、前言 NVMEM SUBSYSTEM&#xff0c;该子系…

视频片段怎么做成gif图?快试试这2种方法

动态gif图片作为当下非常常用的表情包&#xff0c;其丰富的内容生动的画面深受大众喜爱。那么&#xff0c;当我们想要将电影或是电视剧中的某一片段做成gif动态图片的时候&#xff0c;要如何操作呢&#xff1f;接下来&#xff0c;给大家分享两招视频转化gif的小窍门–使用【GIF…

【力扣-Python-1】两数之和(easy)

https://leetcode.cn/problems/two-sum/题目描述给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出和为目标值 target 的那两个整数&#xff0c;并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素在答…

uboot下实现U盘自动升级程序的思路分析(基于USB系统、eMMC系统、FAT32文件系统)

1、常见的升级方式 1.1、应用程序升级 优点&#xff1a;在图形化界面操作&#xff0c;只需要选中升级文件并点击升级即可&#xff0c;操作简单&#xff1b; 缺点&#xff1a;应用程序必须能正常启动&#xff0c;当程序出现bug就不能升级&#xff0c;可靠性差&#xff1b; 总结…

旺店通与金蝶云星空对接集成采购入库单接口

旺店通旗舰奇门与金蝶云星空对接集成采购入库单查询连通销售退货新增V1(12-采购入库单集成方案-P)数据源系统:旺店通旗舰奇门旺店通是北京掌上先机网络科技有限公司旗下品牌&#xff0c;国内的零售云服务提供商&#xff0c;基于云计算SaaS服务模式&#xff0c;以体系化解决方案…

Prometheus集群分布式架构浅析

集群行为是一种常见于自然界中鱼群、鸟群、蜂群等低等群居生物的集体行为&#xff0c;受此启发形成了无人机集群的概念。无人机集群不是多无人机间的简单编队&#xff0c;而是通过必要的控制策略使之产生集群协同效应&#xff0c;从而具备执行复杂多变、危险任务的能力。目前无…

【C++】AVLTree——高度平衡二叉搜索树

文章目录一、AVL树的概念二、AVL树节点的定义三、AVL树的插入四、AVL树的旋转1.左单旋2.右单旋3.左右双旋4.右左双旋五、进行验证六、AVLTree的性能个人简介&#x1f4dd; &#x1f3c6;2022年度博客之星Top18;&#x1f3c6;2022社区之星Top2;的&#x1f947;C/C领域优质创作者…

JVM类加载子系统

1、类加载子系统在内存结构中所处的位置通过内存结构图&#xff0c;我们先知道类加载子系统所处的位置&#xff0c;做到心中有图。2、类加载器作用类加载器子系统负责从文件系统或者网络中加载Class文件&#xff0c;class文件在文件开头有特定的文件标识。ClassLoader只负责cla…