每日学术速递6.3

news2025/1/13 3:16:15

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

标题:重建心灵之眼:fMRI-to-Image with Contrastive learning and Diffusion Priors

作者:Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster,

文章链接:https://arxiv.org/abs/2305.18274

项目代码:https://medarc-ai.github.io/mindeye-website/

摘要:

        我们介绍了 MindEye,这是一种新颖的 fMRI 到图像的方法,可以从大脑活动中检索和重建观察到的图像。我们的模型包含两个并行子模块,专门用于检索(使用对比学习)和重建(使用扩散先验)。MindEye 可以将 fMRI 大脑活动映射到任何高维多模态潜在空间,如 CLIP 图像空间,从而使用接受来自该潜在空间的嵌入的生成模型实现图像重建。我们将我们的方法与其他现有方法进行全面比较,同时使用定性并排比较和定量评估,并表明 MindEye 在重建和检索任务中实现了最先进的性能。特别是,即使在高度相似的候选人中,MindEye 也可以检索到准确的原始图像,这表明其大脑嵌入保留了细粒度的图像特定信息。这使我们能够准确地从 LAION-5B 等大型数据库中检索图像。我们通过消融证明,MindEye 相对于以前方法的性能改进源于用于检索和重建的专门子模块、改进的训练技术以及具有更多数量级参数的训练模型。此外,我们表明 MindEye 可以通过使用 img2img 以及来自单独自动编码器的输出更好地保留重建中的低级图像特征。所有代码都可以在 GitHub 上找到。

2.RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

标题:RAPHAEL:通过大量混合扩散路径生成文本到图像

作者:Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo

文章链接:https://arxiv.org/abs/2305.18295

项目代码:https://raphael-painter.github.io

摘要:

        文本到图像的生成最近取得了显著成就。我们引入了一种名为 RAPHAEL 的文本条件图像扩散模型,以生成高度艺术化的图像,这些图像准确地描绘了文本提示,包含多个名词、形容词和动词。这是通过堆叠数十个混合专家 (MoE) 层(即空间-MoE 和时间-MoE 层)实现的,从而实现从网络输入到输出的数十亿条扩散路径(路线)。每条路径直观地充当“画家”,用于在扩散时间步将特定的文本概念描绘到指定的图像区域上。综合实验表明,RAPHAEL 在图像质量和美学吸引力方面优于最近的前沿模型,如 Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd 和 DALL-E 2。首先,RAPHAEL在日漫、现实主义、赛博朋克、水墨插画等多种风格的图像切换方面表现出卓越的表现。其次,一个拥有 30 亿参数的单一模型,在 1,000 个 A100 GPU 上训练了两个月,在 COCO 数据集上获得了 6.61 的最先进的零样本 FID 分数。此外,RAPHAEL 在 ViLG-300 基准测试中的人工评估显着超过了其同行。我们相信 RAPHAEL 有潜力推动学术界和工业界图像生成研究的前沿,为这个快速发展领域的未来突破铺平道路。可以在项目网页上找到更多详细信息:此 https URL。

3.Generating Images with Multimodal Language Models 

标题:使用多模态语言模型生成图像

作者:Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov

文章链接:https://arxiv.org/abs/2305.17216

项目代码:http://jykoh.com/gill

摘要:

        我们提出了一种方法,通过嵌入空间之间的映射,将冻结的纯文本大型语言模型 (LLM) 与预训练的图像编码器和解码器模型融合在一起。我们的模型展示了一套广泛的多模式功能:图像检索、新图像生成和多模式对话。我们的方法是第一种能够对任意交错的图像和文本输入进行调节以生成连贯图像(和文本)输出的方法。为了在图像生成方面实现强大的性能,我们提出了一个高效的映射网络,将 LLM 建立在现成的文本到图像生成模型上。该映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用 LLM 的强文本表示进行视觉输出。我们的方法在使用更长、更复杂的语言的任务上优于基线生成模型。除了新颖的图像生成,我们的模型还能够从预先指定的数据集中检索图像,并在推理时决定是检索还是生成。这是通过学习决策模块完成的,该模块以 LLM 的隐藏表示为条件。与之前的多模态语言模型相比,我们的模型展示了更广泛的功能。它可以处理图像和文本输入,并生成检索到的图像、生成的图像和生成的文本——在多个测量上下文依赖性的文本到图像任务中,它的性能优于基于非 LLM 的生成模型。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

反向ajax实现

在过去的几年中,web开发已经发生了很大的变化。现如今,我们期望的是能够通过web快速、动态地访问应用。在这一新的文章系列中,我们学习如何使用反 向Ajax(Reverse Ajax)技术来开发事件驱动的web应用,以此来…

【Android开发基础】更新\修改Adapter适配器数据(例:聊天功能等)

文章目录 一、引言二、解决方案1、需求一2、需求二(1)普通方法(2)观察者模式(推荐) 一、引言 描述:如何在主线程(Activity/Fragment)UI中修改子线程(Adapter…

小白可以看懂的「GraphQL」,GraphQL到底是啥样

GraphQL是一种用于API的查询语言,可以在服务端定义GraphQL Schema,客户端可以向服务端发送GraphQL请求,服务端执行GraphQL查询,并将结果作为JSON返回给客户端。 下面是一个使用golang实现GraphQL的示例,首先需要安装g…

Ajax请求与浏览器缓存

在现代Web应用程序中,前端代码充斥着大量的Ajax请求,如果对于Ajax请求可以使用浏览器缓存,那么可以显著地减少网络请求,提高程序响应速度。 1. Ajax Request 使用jQuery框架可以很方便的进行Ajax请求,示例代码如下&a…

RISC-V 学习篇之特权架构下的中断异常处理

RISC-V 学习篇之特权架构下的中断异常处理 控制流和Trap特权架构简单的嵌入式系统的机器模式机器模式下的异常处理mtvec(Machine Trap-Vector Base-Address)mepc(Machine Exception Program Counter)mcause(Machine Cause&#xf…

Erlang/OTP 26 正式发布

导读Erlang 是一种通用的并发函数式程序设计语言。Erlang 也可以指 Erlang/OTP 的通称,开源电信平台 (OTP) 是 Erlang 的常用执行环境及一系列标准组件。 Erlang/OTP 26.0 已正式发布。这是一个重要版本更新,包含许多新特性、改进和不兼容的变化。 主要…

C++11右值

C11右值 类型与值类别左值纯右值将亡值内置类型类类型 左值引用和右值引用内置类型右值引用:具有右值引用自身为左值。右值引用与函数重载函数返回值 自定义类型右值引用构造函数的隐式转换右值引用与函数重载类类型作为函数的返回值 右值引用与函数模板泛化版本&am…

Java005——idea编写和运行第一个Java程序HelloWorld

1、首相需要了解什么是IDE(集成开发环境)? 2、了解Java有哪些主流的开发工具? 一、创建一个文件夹用来存放Java项目 二、创建一个空项目 点击idea首页新建项目按钮 创建一个空项目 这样空项目就创建好了 三、在空项目中新建一…

leetcode 数据库题 584,585,586,595,596,601,602,607,608,610

leetcode 数据库题 第三弹 584. 寻找用户推荐人585. 2016年的投资586. 订单最多的客户595. 大的国家596. 超过5名学生的课601. 体育馆的人流量602. 好友申请 II :谁有最多的好友607. 销售员608. 树节点610. 判断三角形小结 584. 寻找用户推荐人 https://leetcode.cn…

<数据结构>NO7.二叉树(附Oj练习题)

👇二叉树的完整代码在👇 syseptember的gitee仓库:二叉树https://gitee.com/syseptember/data-structure/tree/1513789167062c75dc172366199ce7a6b0577cc7/BinaryTree2/BinaryTree2 目录 树的概念及结构 0x01.树的概念 0x02.树的相关概念 …

快速定位接口问题,JMeter方法论,跨线程组接口关联测试!

目录 【前言】 【步骤】 1. 准备工作 2. 创建线程组 3. 创建HTTP请求 4. 添加正则表达式提取器 5. 添加HTTP请求关联控制器 6. 设置断言和验证器 7. 运行测试 【代码】 【结论】 【前言】 在进行接口测试时,接口之间的关联经常是我们需要重点测试的点之…

如何手写网络协议栈

哈喽,我是子牙,一个很卷的硬核男人。喜欢研究底层,聚焦做那些大家想学没地方学的课程:手写操作系统、手写虚拟机、手写编程语言…目前做了两门课:手写OS、手写JVM 今天想跟大家聊一个黑科技:手写网络协议栈…

Python的编码规范

目录 1、每个 import 语句只导入一个模块,尽量避免一次导入多个模块, 2、不要在行尾添加分号,也不要用分号将两条命令放在同一行, 3、建议每行不超过 80 个字符, 4、使用必要的空行可以增加代码的可读性 5、通常情…

让百万大学生崩溃的在线OJ,如何破局?

目录 一、在线OJ的的原理 二、在线OJ的使用规则 三、注意事项 1.关于作弊 2.如何防止作弊 3.输入输出格式 4.换行问题 四、经典在线OJ坑人题目以及博主被坑经历 五、提交不成功及解决方法 六、如何得心应手的拿下OJ系统 七、在线OJ的骗分技巧 在线OJ(Onl…

OpenGL简介

1.简介 一般它被认为是一个API,包含了一系列可以操作图形、图像的函数。然而,OpenGL本身并不是一个API,它仅仅是一个由Khronos组织制定并维护的规范(Specification)。OpenGL规范严格规定了每个函数该如何执行,以及它们的输出值。…

为何要用分布式锁Redis实现分布式锁

为何要用分布式锁 一、为什么要使用分布式锁 为了保证一个方法在高并发情况下的同一时间只能被同一个线程执行,在传统单体应用单机部署的情况下,可以使用Java并发处理相关的API(如ReentrantLcok或synchronized)进行互斥控制。但是,随着业务…

《论文阅读》连续前缀提示Prompt:table-to-text和摘要生成 ACL2021

《论文阅读》连续前缀提示Prompt:table-to-text和摘要生成 ACL2021 前言相关知识Table-to-Text Generation自编码语言模型自回归语言模型简介任务定义部分参数更新代码实验结果前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后…

高级算法工程师的工作职责(合集)

高级算法工程师的工作职责1 职责: 1、调研跟踪智能穿戴产品相关算法,为公司产品决策提供参考; 2、设计开发智能穿戴产品的计步、睡眠、心率、血氧饱和度、血压、心率变异性等相关参数的提取算法; 3、撰写算法开发文档,包括算法流程、测试方案…

小黑西安归来,政审完毕,眼睛手术做完一直在家躺着第5天的leetcode之旅:852. 山脉数组的峰顶索引

小黑代码 class Solution:def peakIndexInMountainArray(self, arr: List[int]) -> int:# 数组长度n len(arr)# 寻求山峰for i in range(n-1):if arr[i1] < arr[i]:return ireturn -1小黑二分模版 class Solution:def peakIndexInMountainArray(self, arr: List[int])…

Linux——内存和DMA

目录 本章目标&#xff1a; 一、内存组织 二、按页分配内存 三、slab分配器 四、不连续内存页分配 五、per-CPU变量 本章目标&#xff1a; 在前面的所有例子中&#xff0c;我们使用的都是全局变量或在栈上分配的内存。本章我们将先讨论如何动态分配内存和per-CPU变量。类…