每日学术速递5.20

news2024/9/22 4:22:14

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Improved baselines for vision-language pre-training

标题:改进视觉语言预训练的基线

作者:Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal

文章链接:https://arxiv.org/abs/2305.08675

摘要:

        对比学习已成为学习多模态表示的有效框架。CLIP 是该领域的一项开创性工作,通过使用对比损失对成对的图像文本数据进行训练,取得了令人瞩目的成果。最近的工作声称使用受自监督学习启发的额外非对比损失对 CLIP 进行了改进。然而,有时很难将这些额外损失的贡献与用于训练模型的其他实现细节(例如数据增强或正则化技术)区分开来。为了阐明这个问题,在本文中,我们首先提出、实施和评估通过将对比学习与自监督学习的最新进展相结合而获得的几个基线。特别是,我们使用已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模式。我们发现这些基线优于 CLIP 的基本实现。然而,当使用更强的训练方法时,优势就消失了。事实上,我们发现通过使用在其他子领域流行的众所周知的训练技术,一个简单的 CLIP 基线也可以得到实质性的改进,下游零样本任务的相对改进高达 25%。此外,我们发现应用图像和文本增强足以弥补先前工作所获得的大部分改进。借助我们改进的 CLIP 训练方法,我们在四个标准数据集上获得了最先进的性能,并且始终优于之前的工作(在最大数据集上高达 +4%),同时变得更加简单。

Subjects: cs.CL

2.ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

标题:ArtGPT-4:使用 Adapter-enhanced MiniGPT-4 进行艺术视觉-语言理解

作者:Zhengqing Yuan, Huiwen Xue, Xinyi Wang, Yongming Liu, Zhuanzhe Zhao, Kun Wang

文章链接:https://arxiv.org/abs/2305.07490

项目代码:https://huggingface.co/Tyrannosaurus/ArtGPT-4

摘要:

        近年来,大型语言模型 (LLM) 在自然语言处理 (NLP) 方面取得了重大进展,ChatGPT 和 GPT-4 等模型在各种语言任务中取得了令人瞩目的能力。然而,训练如此大规模的模型具有挑战性,并且通常很难找到与模型规模相匹配的数据集。使用新方法微调和训练参数较少的模型已成为克服这些挑战的有前途的方法。MiniGPT-4 就是这样一种模型,它通过利用新颖的预训练模型和创新的训练策略,实现了与 GPT-4 相当的视觉语言理解。然而,该模型在图像理解方面仍然面临一些挑战,特别是在艺术图片方面。已经提出了一种称为 ArtGPT-4 的新型多模式模型来解决这些限制。ArtGPT-4 使用 Tesla A100 设备在短短 2 小时内就图像文本对进行了训练,仅使用了大约 200 GB 的数据。该模型可以描绘具有艺术气息的图像并生成视觉代码,包括美观的 HTML/CSS 网页。此外,本文提出了用于评估视觉语言模型性能的新颖基准。在随后的评估方法中,ArtGPT-4 得分比当前 \textbf{state-of-the-art} 模型高出 1 分以上,在 6 分制上仅比艺术家低 0.25 分。

3.StructGPT: A General Framework for Large Language Model to Reason over Structured Data

标题:StructGPT:用于推理结构化数据的大型语言模型的通用框架

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2305.09645

项目代码:https://github.com/RUCAIBox/StructGPT

摘要:

        在本文中,我们研究了如何以统一的方式提高大型语言模型〜(LLM)对结构化数据的零样本推理能力。受 LLM 工具增强研究的启发,我们开发了一种 Iterative Reading-then-Reasoning~(IRR)方法来解决基于结构化数据的问答任务,称为StructGPT。在我们的方法中,我们构建了专门的函数来从结构化数据中收集相关证据reading),并让 LLM 基于收集到的信息 reasoning)集中推理任务。特别地,我们提出了一个invoking-linearization-generation过程来支持 LLM 在外部接口的帮助下对结构化数据进行推理。通过使用提供的接口迭代此过程,我们的方法可以逐渐接近给定查询的目标答案。对三种类型的结构化数据进行的大量实验证明了我们方法的有效性,它可以显着提高 ChatGPT 的性能,并实现与全数据监督调整基线相当的性能。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/547530.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10-《简单算法》

10-《简单算法》 一、时间复杂度二、空间复杂度三、排序算法1.比较排序1.1冒泡排序:1.2选择排序:1.3插入排序:1.4归并排序(非常重要)1.5快速排序(非常重要)1.6堆排序1.7排序算法稳定性 2.线性排序2.1桶排序2.2计数排序…

数据结构初阶(3)(链表:链表的基本概念、链表的类型、单向不带头非循环链表的实现、链表的优缺点 )

接上次博客:和数组处理有关的一些OJ题;ArrayList 实现简单的洗牌算法(JAVA)(ArrayList)_di-Dora的博客-CSDN博客 目录 链表的基本概念 链表的类型 单向、不带头、非循环链表的实现 遍历链表并打印节点值: 在链…

uni-app小程序uni.navigateBack返回上一个页面并传递参数.返回上个页面并刷新

返回上一个打开的页面并传递一个参数。有种办法就是使用 假如从B页面返回A页面: var pages getCurrentPages(); var prevPage pages[pages.length - 2]; //上一个页面 prevPage.setData({ mdata:1 })经过测试,在uni.app中使用B页面使用setData设置A页…

【Spring篇】AOP案例

🍓系列专栏:Spring系列专栏 🍉个人主页:个人主页 一、案例:业务层接口执行效率 1.需求分析 这个需求也比较简单,前面我们在介绍 AOP 的时候已经演示过 : 需求 : 任意业务层接口执行均可显示其执行效率(执行时长&…

如何选对适合你的FPGA?快速掌握选型技巧!

FPGA厂家和芯片型号众多,在开发过程中,特别是新产品新项目时,都会面临FPGA选型的问题。 如何选择出适合的FPGA型号非常关键,需要评估需求、功能、成本、存储器、高速收发器等各种因素,选出性能与成本平衡的FPGA芯片。…

从零玩转设计模式之外观模式-waiguanmos

title: 从零玩转设计模式之外观模式 date: 2022-12-12 15:49:05.322 updated: 2022-12-23 15:34:40.394 url: https://www.yby6.com/archives/waiguanmos categories: - 设计模式 tags: - 设计模式 什么是外观模式 外观模式是一种软件设计模式,它提供了一种将多个…

进阶必看:高速PCB Layout设计的技术指南

当今电子行业中,高速PCB电路越来越广泛,已成为当代PCB工程师的重要技能,而在高速PCB电路中,高速PCB Layout设计是一项高难度高技术的工作,其设计质量直接关系到电路的性能。所以做好PCB Layout设计是非常非常重要的。 …

Boost开发指南-1.2progress_display

Progress_display progress_display可以在控制台上显示程序的执行进度,如果程序执行很耗费时间,那么它能够提供一个友好的用户界面,不至于让用户在等待中失去耐心。 progress_display位于名字空间boost,为了使用progress_displa…

内网自建代理ChatGPT

使用GPT比较频繁,一开始翻墙还能接受,但是用美国节点访问其他国外网站,确实比较麻烦。因此决定自己转发一个出来。 一、获取OpenAI授权密钥 首先,进入platform.openai.com-Personal-View API keys 不过OpenAI的key并不是免费的&…

VMware虚拟机三种网络模式详解之Bridged(桥接模式)

VMware虚拟机三种网络模式详解 Bridged(桥接模式) 由于Linux目前很热门,越来越多的人在学习Linux,但是买一台服务放家里来学习,实在是很浪费。那么如何解决这个问题?虚拟机软件是很好的选择,常…

登高作业安全带穿戴识别系统 yolov5

登高作业安全带穿戴识别系统通过yolov5python网络框架模型技术,登高作业安全带穿戴识别算法模型实现对登高作业人员是否穿戴安全带进行监测并及时发出警报。YOLO系列算法是一类典型的one-stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结…

前端web入门-HTML-day02

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 列表 无序列表 有序列表 定义列表 表格 基本使用 合并单元格 跨列合并 跨行合并 表单 input …

网络安全里主要的岗位有哪些?小白如何快速入门学习黑客?

入门Web安全、安卓安全、二进制安全、工控安全还是智能硬件安全等等,每个不同的领域要掌握的技能也不同。 当然入门Web安全相对难度较低,也是很多人的首选。主要还是看自己的兴趣方向吧。 本文就以下几个问题来说明网络安全大致学习过程👇 网…

软件设计师 数据库刷题项并包含知识点总结

**两级映像 有概念模式和内模式跟物理独立性相关,有外模式和概念模式跟逻辑独立性相关 ** 属性列就是RS共同拥有的ABC,一般去除后面的,所以就只有前面三个ABC,元组就是有没有自然连接成功的,就是R.AS.A R.BS.B… 选项里…

[人工智能原理]

软件工程 定义 采用工程概念、原理、技术、方法来开发、维护软件,把经过时间考验而证明正确的管理技术和当前能够得到的最好技术方法结合起来,经济开发出高质量软件并有效的维护 基本目标 目标 可用性 正确性 合算性 原则 采用适合的开发范型、开…

计算机操作系统(慕课版)第一章课后题答案

第一章 操作系统引论 一、简答题 1.在计算机系统上配置OS的目标是什么?作用表现在哪几个方面? 在计算机系统上配置OS,主要目标是实现:方便性、有效性、可扩充性和开放性; OS的作用主要表现在以下3个方面: 1…

matplotlib后端@backend@高清图输出格式控制@SVG格式输出

文章目录 notebookmatplotlib🎈matplotlib backendbackendfrontend后端类型AGG配置后端Note不区分大小写三种配置方式在matplotlibrc文件中使用rcParams["backend"]参数:使用MPLBACKEND环境变量:使用matplotlib.use()函数&#xff…

阿里三面过了,却无理由挂了,HR反问一句话:为什么不考虑阿里?

进入互联网大厂一般都是“过五关斩六将”,难度堪比西天取经,但当你真正面对这些大厂的面试时,有时候又会被其中的神操作弄的很是蒙圈。 近日,某位测试员发帖称,自己去阿里面试,三面都过了,却被…

SpringCloud微服务调用方式(RestTemplate)

服务调用方式 RPC和HTTP 无论是微服务还是SOA,都面临着服务间的远程调用。那么服务间的远程调用方式有哪些呢? 常见的远程调用方式有以下2种: RPC:Remote Produce Call远程过程调用,类似的还有 。自定义数据格式&am…

由浅入深Netty组件实战

目录 1 EventLoop1.1 演示 NioEventLoop 处理 io 事件1.2 演示 NioEventLoop 处理普通任务1.3 演示 NioEventLoop 处理定时任务 2 Channel2.1 ChannelFuture2.2 CloseFuture 3 Future & Promise3.1 例1:同步处理任务成功3.2 例2:异步处理任务成功3.3…