每日学术速递6.1

news2024/11/27 22:23:30

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.LayoutGPT: Compositional Visual Planning and Generation with Large Language Models

标题:LayoutGPT:具有大型语言模型的组合视觉规划和生成

作者:Weixi Feng, Wanrong Zhu, Tsu-jui Fu, Varun Jampani, Arjun Akula, Xuehai He, Sugato Basu, Xin Eric Wang, William Yang Wang

文章链接:https://arxiv.org/abs/2305.15393

项目代码:https://github.com/weixi-feng/LayoutGPT

摘要:

        在视觉生成中获得高度的用户可控性通常需要复杂、细粒度的输入,如布局。然而,与简单的文本输入相比,这样的输入给用户带来了很大的负担。为了解决这个问题,我们研究了大型语言模型 (LLM) 如何通过从文本条件生成布局来充当视觉规划器,从而与视觉生成模型协作。我们提出 LayoutGPT,一种以样式表语言编写上下文视觉演示的方法,以提高 LLM 的视觉规划技能。LayoutGPT 可以在多个领域生成合理的布局,从 2D 图像到 3D 室内场景。LayoutGPT 在将具有挑战性的语言概念(如数字和空间关系)转换为布局安排以实现忠实的文本到图像生成方面也表现出卓越的性能。当与下游图像生成模型相结合时,LayoutGPT 的性能优于文本到图像模型/系统 20-40%,并且在设计视觉布局的数字和空间正确性方面实现了与人类用户相当的性能。最后,LayoutGPT 在 3D 室内场景合成中实现了与监督方法相当的性能,展示了其在多个视觉领域的有效性和潜力。

2.Brain encoding models based on multimodal transformers can transfer across language and vision

标题:基于多模态转换器的大脑编码模型可以跨语言和视觉迁移

作者:Jerry Tang, Meng Du, Vy A. Vo, Vasudev Lal, Alexander G. Huth

文章链接:https://arxiv.org/abs/2305.12248

摘要:

        编码模型已被用于评估人脑如何在语言和视觉中表示概念。虽然语言和视觉依赖于相似的概念表示,但当前的编码模型通常是根据大脑对每种模式的独立反应进行训练和测试的。多模态预训练的最新进展产生了可以提取语言和视觉概念对齐表示的转换器。在这项工作中,我们使用来自多模态转换器的表示来训练编码模型,这些模型可以跨 fMRI 响应传输到故事和电影。我们发现,根据大脑对一种模式的反应训练的编码模型可以成功预测大脑对另一种模式的反应,特别是在代表概念意义的皮层区域。对这些编码模型的进一步分析揭示了共同的语义维度,这些维度是语言和视觉中概念表示的基础。比较使用来自多模态和单模态变换器的表示训练的编码模型,我们发现多模态变换器在语言和视觉中学习更多一致的概念表示。我们的结果展示了多模态转换器如何提供对大脑多模态处理能力的洞察。

3.Enhancing Chat Language Models by Scaling High-quality Instructional Conversations

标题:通过扩展高质量的教学对话来增强聊天语言模型

作者:Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou

文章链接:https://arxiv.org/abs/2305.14233

项目代码:https://github.com/thunlp/UltraChat

摘要:

        对指令数据进行微调已被广泛验证为实施聊天语言模型(如 ChatGPT)的有效实践。扩展此类数据的多样性和质量虽然简单明了,但很有可能会提高性能。本文旨在进一步提高开源模型的上限。我们首先提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集 UltraChat,它不涉及人工查询。我们的目标是捕捉人类可能与 AI 助手进行交互的广度,并采用综合框架迭代生成多轮对话。UltraChat 包含 150 万个高质量的多轮对话,涵盖广泛的主题和说明。我们对 UltraChat 的统计分析揭示了其在各种关键指标上的优势,包括规模、平均长度、多样性、连贯性等,巩固了其作为领先开源数据集的地位。在 UltraChat 的基础上,我们微调了一个 LLaMA 模型以创建一个强大的对话模型 UltraLLaMA。我们的评估表明,UltraLLaMA 始终优于其他开源模型,包括 Vicuna,这是以前公认的最先进的开源模型。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux开发工具:gcc和g++

目录 一. 什么是gcc和g 二. gcc的基本使用方法 三. 库和链接 3.1 动态库和静态库 3.2 动态链接和静态链接 四. Debug和Release 五. makefile和make 六. 总结 一. 什么是gcc和g gcc:Linux下编译C语言程序的编译器g:Linux下编译C代码的编译器 由…

Apache网页的优化与安全

文章目录 Apache 网页的压缩Apache的页面缓存Apache页面隐藏版本信息Apache页面设置防盗链 Apache 网页的压缩 检查压缩模块 apachectl -t -D DUMP_MODULES | grep "deflate"安装mod_deflate 模块 如果没有安装mod_deflate 模块,重新编译安装 Apache 添…

嵌入式STM32中时钟系统详细分析

1. STM32的时钟源主要有: 内部时钟 外部时钟 锁相环倍频输出时钟 1.1 详细介绍 HSI(内部高速时钟) 它是RC振荡器,频率可以达到8MHZ,可作为系统时钟和PLL锁相环的输入。 HSE(外部高速时钟) 接入晶振范围是4-16MHZ…

深入理解设计原则之组件构建原则【软件架构设计】

系列文章目录 C高性能优化编程系列 深入理解软件架构设计系列 深入理解设计模式系列 高级C并发线程编程 组件构建原则 系列文章目录1、组件构建原则的定义和解读1、组件2、组件聚合2.1、复用/发布等同原则(REP)2.2 、共同闭包原则(CCP&…

C++(6):函数

函数基础 典型的函数包括:返回类型、函数名字、由 0 个或多个形参组成的列表以及函数体。 通过调用运算符(call operator)来执行函数。 调用运算符的形式是一对圆括号,它作用于一个表达式,该表达式是函数或者指向函数…

1731_makefile编写小结1_编译同目录下的文件

全部学习汇总: GreyZhang/g_makefile: Learn makefile from all kinds of tutorials on the web. Happy hacking and lets find an common way so we may dont need to touch makefile code any more! (github.com) 欢迎路过的YUAN类朋友相互交流,以下是…

每日学术速递6.2

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CL 1.BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks 标题:BiomedGPT:用于…

chatgpt赋能python:Python反向99乘法表:简单易学的终极练习

Python反向99乘法表:简单易学的终极练习 Python是一门强大而又容易上手的编程语言,而反向99乘法表则是一个极佳的练手项目。不仅能锻炼Python的基本语法和逻辑思维,同时也能体现出代码的风格和美感。本文将以Python反向99乘法表为例&#xf…

基于matlab仿真L形金属块基于时间温度分布图

一、前言 此示例说明了如何使用 Simulink 3D 动画™和 MATLAB 接口来操作复杂对象。 在此示例中,矩阵类型的数据在 MATLAB 和虚拟现实世界之间传输。使用此功能,您可以实现大量的颜色变化或变形。这对于可视化各种物理过程很有用。 我们在L形金属块中使用…

Chain of Thought Prompting和Zero Shot Chain of Thought初步认识

1. 思维链提示(Chain-of-Thought Prompting) 思维链(Chain-of-Thought:CoT)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt(左)与链式思维提示过程(右&…

ChatGPT提示词攻略之基本原则

下面是调用openai的completion接口的函数。但在本文中并不是重点。了解一下就好。 import openai import osfrom dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv())openai.api_key os.getenv(OPENAI_API_KEY)def get_completion(prompt, model"gp…

[LeetCode周赛复盘] 第 348场周赛20230604

[LeetCode周赛复盘] 第 348场周赛20230604 一、本周周赛总结6462. 最小化字符串长度1. 题目描述2. 思路分析3. 代码实现 6424. 半有序排列1. 题目描述2. 思路分析3. 代码实现 6472. 查询后矩阵的和1. 题目描述2. 思路分析3. 代码实现 6396. 统计整数数目1. 题目描述2. 思路分析…

10.全局配置 app.json 与页面配置

常用的配置项有 pages 小程序的所有页面window 小程序窗口的外观tabBar 小程序底部的tabBar效果,就是底部的切换那部分style 组件样式版本 目录 1 window 2 tabBar 3 页面配置 1 window 小程序由下面三个部分组成,window可以配置 导航栏区域 与…

JavaSE_day43(多线程单线程区别,图解main方法若是单多线程该如何执行,如何使用多线程2种方式)

1 A.java * 学习多线程之前,我们先要了解几个关于多线程有关的概念。 A:进程:进程指正在运行的程序。确切的来说,当一个程序进入内存运行,即变成一个进程,进程是处于运行过程中的程序,并且具有一定…

【生成数据】绘制简单的折线图

使用scatter绘制散点图并设置其样式 plt.scatter(2, 4, s200)#设置图表标题并给坐标轴加上标签 plt.title("Square Number", fontsize24) plt.xlabel("Value", fontsize14) plt.ylabel("Square of Value", fontsize14)#设置刻度标记的大小 plt.…

2022年,Rust与Go哪一个更好?

这是每一个程序员和开发人员都问过的问题,还有很多人仍然在问,即使他们已经做出了自己的决定。Rust vs. Go。2022年,我应该选择哪一个?或选择哪种语言--Golang或Rust。 Golang和Rust是目前使用的最年轻的编程语言。Go于2009年在谷…

最新ChatGPT4.0Plus开通教程-支付宝购买苹果礼品卡-亲测可用

2023.06.04亲测可用ChatGPT开通Plus教程 前言:一、准备工作二、购买苹果礼品卡一、官网购买礼品卡二、支付宝方式购买 三、AppStore充值礼品卡四、ChatGPT Plus 订阅五、iOS 端 ChatGPT Plus 订阅失败解决方法六、美区AppStore账号ID注册教程: 之前&…

【Svelte】一个简单的前端框架

Svelte.js的学习成本高吗? Svelte是新手编码初学者的完美平台。只需一个HTML/CSS和JavaScript技能组合,您就可以从头开始构建您的第一个网站,而无需额外的知识。 这使得学习曲线非常小,不像它的大多数替代方案。除此之外&#xf…

ChatGLM-6b 多任务微调

ChatGLM-6b也是一种预训练模型,它也可以通过微调来适应下游任务。实验表明,使用ChatGLM-6b微调和Bert类预训练模型微调的效果相近。如果采用多任务设计,ChatGLM-6b的效果会更好。你可以在这里了解更多关于ChatGLM-6B的信息: ChatGLM-6Bhttps:…

边缘化中FEJ图例的理解

如图所示,在解释为什么需要FEJ(First Estimation Jacobian)时,通常会将这个图拿出来说事。但是,很多时候只是一笔带过,这个图看的云里雾里的,不是非常明白(可能是我理解力的问题),所以&#xff…