每日学术速递5.11

news2025/1/23 4:04:38

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion

标题:扩散解释器:文本到图像稳定扩散的视觉解释

作者:Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng

文章链接:https://arxiv.org/abs/2305.03509

项目代码:https://huggingface.co/papers/2305.03509

摘要:

        基于扩散的生成模型创建令人信服的图像的令人印象深刻的能力已经引起了全球的关注。然而,它们复杂的内部结构和操作往往使非专家难以理解。我们介绍了 Diffusion Explainer,这是第一个解释 Stable Diffusion 如何将文本提示转换为图像的交互式可视化工具。Diffusion Explainer 将 Stable Diffusion 复杂组件的视觉概览与其底层操作的详细解释紧密集成,使用户能够通过动画和交互元素在多个抽象级别之间流畅地转换。通过比较两个相关文本提示引导的图像表示在细化时间步上的演变,用户可以发现提示对图像生成的影响。Diffusion Explainer 在用户的 Web 浏览器中本地运行,无需安装或专用硬件,从而扩大了公众对现代 AI 技术的教育机会。

2.Composite Motion Learning with Task Control(SIGGRAPH 2023)

标题:具有任务控制的复合运动学习

作者:Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas

文章链接:https://arxiv.org/abs/2305.03286

项目代码:https://github.com/xupei0610/CompositeMotion

摘要:

        我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与现有的使用强化学习模仿全身运动的数据驱动方法相比,我们通过在类似 GAN 的设置中利用多个鉴别器,同时并直接从多个参考运动中学习特定身体部位的解耦运动。在此过程中,不需要任何手动工作来生成用于学习的复合参考动作。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑了多个特定于任务的奖励,并训练了一个单一的、多目标的控制策略。为此,我们提出了一种新的多目标学习框架,该框架自适应地平衡来自多个源和多个目标导向控制目标的不同运动的学习。此外,由于复合动作通常是简单行为的增强,我们引入了一种样本有效的方法来以增量方式训练复合控制策略,我们将预训练的策略重用为元策略并训练一个合作策略以适应meta one 用于新的复合任务。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务中的适用性。

3.A Suite of Generative Tasks for Multi-Level Multimodal Webpage Understanding

标题:一套用于多级多模式网页理解的生成任务

作者:Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

文章链接:https://arxiv.org/abs/2305.03668

项目代码:https://github.com/google-research-datasets/wit/blob/main/wikiweb2m.md

摘要:

        网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。网页任务因此很少受到关注,结构化图像文本数据也未得到充分利用。为了研究多模式网页理解,我们引入了 2M 页面的维基百科网页套件 (WikiWeb2M)。我们验证了它在三个生成任务上的效用:页面描述生成、部分摘要和上下文图像字幕。我们设计了一种新颖的注意力机制 Prefix Global,它选择最相关的图像和文本内容作为全局标记,以关注网页的其余部分以获取上下文。通过使用页面结构来分离这些标记,它的性能比全注意力更好,计算复杂度更低。实验表明,与之前工作的数据相比,来自 WikiWeb2M 的新注释提高了任务性能。我们还包括对序列长度、输入特征和模型大小的消融。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/521961.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构】【算法】二叉树、二叉排序树、树的相关操作

树结构是以分支关系定义的一种层次结构,应用树结构组织起来的数据,逻辑上都具有明显的层次关系。 操作系统中的文件管理系统、网络系统中的域名管理、数据库系统中的索引管理等都使用了树结构来组织和管理数据。 树的基本概念 树Tree是由n个节点组成的有…

数据结构-查找-散列结构(散列表)

目录 *一、散列表 二、散列函数 *除留余数法 *直接定址法 数字分析法 平方取中法 三、冲突处理方法--开发定地法 *3.1线性探测法 *查找效率: *3.2平方探测法 3.3伪随机序列法 3.4再散列法 *一、散列表 又称哈希表,数据元素的关键字与其存储…

bgp团体属性配置案例一

RouterA的配置 sysname RouterA interface GigabitEthernet1/0/0 ip address 192.168.0.1 255.255.255.0 interface LoopBack0 ip address 1.1.1.1 255.255.255.255 bgp 10 router-id 1.1.1.1 //Router ID,建议配置为LoopBack0的IP地址 peer 192.168.0.2 as-number …

【Linux】信号的处理

信号篇终章 文章目录 前言一、信号的处理 1.可重入函数 2.volatile关键字 3.SIGCHLD信号总结 前言 在前两篇linux文章中我们详细的讲解了信号的产生和信号的保存,今天来到最后一个重点信号的处理,对于信号的处理我们会重新引入进程…

如何实现一个高效的H264信源编码器?了解核心算法和实现流程

H264 H264是一种常用的视频编码标准,它以网络传输和存储为设计目的,能够将视频信号进行高效压缩,并保持较高的视频质量。 H264视频编码标准采用的是基于帧的编码方式。每一帧视频都被分为不同的块,每个块中都包含了可压缩的信息…

11.PC端网页特效

PC端网页特效 1. 元素偏移量 offset 系列 1.1 offset 概述 offset 翻译过来就是偏移量, 使用 offset 系列相关属性可以动态的得到该元素的位置(偏移)、大小等 获得元素距离带有定位父元素的位置获得元素自身的大小(宽度高度&a…

03:MYSQL----DQL,聚合函数

目录 1:介绍 2:语法 3:聚合函数 4:DOL 语句练习 5:SQL执行顺序 1:介绍 数据查询语言,用来查询数据库中表的记录 2:语法 select 字段列表 from 表名列表 where 条件列表 group by 分组字段列表 having 分组后字段列表 order by 排序字段列表 limit 分页参…

Vben Admin 自学记录 —— 使用 mock 模拟数据以及模拟api联调接口(持续更新中...)

Vben Admin —— 使用 mock 模拟数据以及模拟api联调接口 数据 mock&联调相关概念及使用 练习 —— 在之前table基础上,使用mock模拟数据,替换原来的死数据,添加新增、查看、修改和删除api并添加逻辑,实现一个简单的、完整的…

《编程思维与实践》1067.小型组合数

《编程思维与实践》1067.小型组合数 题目 思路 法一: 注意到题目数据最大为 C 40 20 137846528820 C_{40}^{20}137846528820 C4020​137846528820在long long的范围内,所以其实可以不用大整数的处理方法去计算: 由于 C m n m ! n ! ( m − n ) ! m ( m − 1 ) . . . ( m −…

mysql数据库的库操作 --2

目录 库操作 2.1:数据库的查看与创建与使用 2.2:字符集和效验规则 2.3:修改和删除数据库 2.4:数据库的备份和恢复 2.5:查看连接情况 库操作 2.1:数据库的查看与创建与使用 2.1.1:数据库…

AcWing算法提高课-1.3.9庆功会

宣传一下算法提高课整理 <— CSDN个人主页&#xff1a;更好的阅读体验 <— 本题链接&#xff08;AcWing&#xff09; 点这里 题目描述 为了庆贺班级在校运动会上取得全校第一名成绩&#xff0c;班主任决定开一场庆功会&#xff0c;为此拨款购买奖品犒劳运动员。 期望…

[golang gin框架] 32.Gin 商城项目- 支付宝支付操作相关功能讲解

一.支付宝支付之前的准备工作 创建应用、配置签名、提交审核 支付宝支付之前的准备工作 支付宝开放平台支持使用 普通公钥、公钥证书 两种签名方式 公钥证书模式下完成支付需要获取的内容&#xff1a; appId 应用私钥 应用公钥证书 支付宝根证书 支付宝公钥证书 普通公钥模式下…

热乎的面经——不屈不挠

⭐️前言⭐️ &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f4dd;私信必回哟&#x1f601; &#x1f349;博主将持续更新学习记录收获&#xff0c;友友们有任何问题可以在评论区留言 &#x1f349;博客中涉及源码及博主日常练习代码均已上传GitHub &#x1f4…

【Linux常见指令以及权限理解】基本指令(3)

写在前面 上一篇文章&#xff0c;我们学习了Linux的一些常用指令&#xff0c; 学习了如何理解Linux系统&#xff0c;介绍了对Linux系统的理解&#xff1a;Linux下一切皆文件 介绍了重定向还有管道相关的知识。这里是上一篇博客的链接&#xff1a;http://t.csdn.cn/2d6fc 接…

Kali HTTrack演示-渗透测试察打一体(1)

HTTrack是一个免费并易于使用的线下浏览器工具,全称是HTTrack Website Copier for Windows,它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览),也可以用来收集信息(甚至有网站使用隐藏的密码文件),一些仿真度极高的伪网站(为了骗取用户密码),也是使用类似工具做…

[一篇读懂]C语言十二讲:栈与队列和真题实战

[一篇读懂]C语言十二讲&#xff1a;栈与队列和真题实战 1. 与408关联解析及本节内容介绍1 与408关联解析2 本节内容介绍 2. 栈(stack)的原理解析2.1 **栈&#xff1a;只允许在一端进行插入或删除操作的线性表**2.2 栈的基本操作2.3 栈的顺序存储2.4 栈的链表存储 3. 初始化栈 -…

PE文件+UPX壳 ida分析

die查壳发现是UPX壳&#xff0c;直接用ida分析&#xff0c;会发现能分析出来的信息特别少&#xff0c;需要脱壳 工具链接发布 UPX/UPX (github.com) 下载压缩包后解压&#xff0c;直接在该文件路径下cmd&#xff0c;输入upx.exe -h安装完成&#xff0c;使用命令“upx -d 文件路…

计算机网络-网络层与链路层协议分析实验

一.实验目的 通过本实验&#xff0c;进一步熟悉PacketTracer的使用&#xff0c;学习路由器与交换机的基本配置&#xff0c;加深对网络层与链路层协议的理解。 二.实验内容 1.完成路由器交换机的基本配置 2.了解 ICMP 数据包的格式 3.检查ARP交换 三.实验过程 1.完成路由…

链表——循环链表

其他形式的链表——循环链表 循环链表 定义&#xff1a;循环链表是表中最后一个结点的指针指向头结点&#xff0c;使链表构成环状 特点&#xff1a;从表中任一结点发出均可找到表中其他结点&#xff0c;提高查找效率 双向循环链表 data&#xff1a;数据元素 prior&#xff1…

进程间通信--管道

文章目录 一.通信二.管道匿名管道&#xff08;只能用于有血缘关系的进程之间通信&#xff09;1.匿名管道的创建2.匿名管道的读取情况3.管道的特征4.基于匿名管道的简单进程池 有名管道&#xff08;用于没有血缘关系的进程间的通信&#xff09;1.有名管道的建立和删除2.通过一段…