每日学术速递5.14

news2024/12/24 10:54:07

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.An Inverse Scaling Law for CLIP Training

标题:CLIP 训练的逆比例定律

作者:Xianhang Li, Zeyu Wang, Cihang Xie

文章链接:https://arxiv.org/abs/2305.07017

项目代码:https://github.com/UCSC-VLAA/CLIPA

摘要:

        CLIP 是第一个连接图像和文本的基础模型,最近在计算机视觉领域取得了许多突破。然而,其相关的培训成本高得令人望而却步,对其广泛探索构成了重大障碍。在本文中,我们提出了一个令人惊讶的发现,即 CLIP 训练存在逆比例定律,即使用的图像/文本编码器越大,可用于训练的图像/文本标记的序列长度越短。此外,我们展示了减少图像/文本标记长度的策略在确定该缩放定律的质量方面起着至关重要的作用。由于这一发现,即使使用学术资源,我们也能够成功地训练 CLIP。例如,在 A100 八 GPU 服务器上,我们的 CLIP 模型在 ~2 天内实现了 63.2% 的零样本 top-1 ImageNet 准确度,在 ~3 天内达到了 67.8%,在~4 天内达到了 69.3%。通过减少与 CLIP 相关的计算障碍,我们希望激发该领域的更多研究,尤其是来自学术界的研究。

2.InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

标题:动态视频的自适应人类抠图

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2305.06500

项目代码:https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

摘要:

        在预训练和指令调优管道的驱动下,出现了可以解决各种语言领域任务的通用语言模型。然而,由于额外的视觉输入会增加任务差异,因此构建通用视觉语言模型具有挑战性。尽管视觉语言预训练已得到广泛研究,但视觉语言指令调优的探索相对较少。在本文中,我们基于预训练的 BLIP-2 模型对视觉语言指令调优进行了系统全面的研究。我们收集了各种 26 个公开可用的数据集,将它们转换为指令调优格式,并将它们分为两个集群,用于保持指令调优和保持零样本评估。此外,我们还引入了指令感知视觉特征提取,这是一种使模型能够提取针对给定指令定制的信息特征的关键方法。由此产生的 InstructBLIP 模型在所有 13 个保留数据集中实现了最先进的零样本性能,大大优于 BLIP-2 和更大的 Flamingo。当对单个下游任务进行微调时,我们的模型也会带来最先进的性能(例如,ScienceQA IMG 的准确率为 90.7%)。此外,我们定性地展示了 InstructBLIP 相对于并发多模态模型的优势。

3.Bot or Human? Detecting ChatGPT Imposters with A Single Question

标题:机器人还是人类?用一个问题检测 ChatGPT 冒名顶替者

作者:Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://github.com/hongwang600/FLAIR

摘要:

        像 ChatGPT 这样的大型语言模型最近在自然语言理解和生成方面展示了令人印象深刻的能力,支持各种应用程序,包括翻译、论文写作和聊天。但是,有人担心它们可能会被滥用于恶意目的,例如欺诈或拒绝服务攻击。因此,开发检测参与对话的一方是机器人还是人类的方法至关重要。在本文中,我们提出了一个名为 FLAIR 的框架,即通过单个查询和响应寻找大型语言模型的真实性,以在线方式检测对话机器人。具体来说,我们针对可以有效区分人类用户和机器人的单个问题场景。这些问题分为两类:一类是人类容易但机器人很难的问题(例如,计数、替换、定位、噪声过滤和 ASCII 艺术),另一类是机器人容易但人类很难的问题(例如记忆)和计算)。我们的方法显示了这些问题在有效性方面的不同优势,为在线服务提供商提供了一种新方法来保护自己免受恶意活动的侵害并确保他们为真实用户提供服务。我们在此 https URL 上开源了我们的数据集,并欢迎社区贡献以丰富此类检测数据集。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】Linux编辑器-gcc/g++使用

目录 一、背景知识 二、gcc是如何完成的 1、预处理(进行宏替换) 2、编译(生成汇编) 3、汇编(生成机器可识别代码) 4、链接(生成可执行文件或库文件) 4.1、静态库 4.2、动态库 4.3、动静态库的比较 三、gcc常见的选项 一、背景知识 计算机是二进制读取文件的,我们…

HHDBCS及HHDESK的资源加密功能

安全性,是头等重要的事情。HHDBCS及HHDESK均有一项实用功能,资源加密。 HHDBCS 打开HHDBCS,出现连接管理界面(或者在运行过程中,点击连接管理),点击如下图箭头所指处的图标即可 HHDESK 点击主…

全球范围内的数字化时代,挑战和价值有哪些?

近年来,数字经济的发展趋势越来越明显,尤其是随着疫情的影响,加速了传统产业向数字化、网络化和智能化产业的转型和升级。全球数字经济规模不断扩大,体量连年增长,根据中国信息通信研究院报告显示,2019年全…

VMware虚拟机,匹配库中的文件系统文件夹层次结构

不需要把虚拟机文件复制到本地就不需要勾选“匹配库中的文件系统文件夹层次结构”这个选项。 但是,即便是勾选“匹配库中的文件系统文件夹层次结构”这一选项,也可以不勾选下一个选项卡的任何选项。

Midjourney AI 官方中文版已开启内测申请;OpenAI 正准备向公众发布一款新的开源语言模型。

🚀 Midjourney AI 官方中文版已开启内测申请,搭载在 QQ 频道上,召唤机器人进行作画。 Midjourney AI 官方中文版已开启内测申请,搭载在 QQ 频道上,召唤机器人进行作画。 可调用 MJ 和 Niji 的最新模型和所有参数&…

Python源码怎么运行?

要运行Python源码,您需要安装Python解释器。Python解释器是一种软件,它可以读取Python源代码并将其转换为计算机可以理解和执行的指令。 在Windows操作系统上运行Python源代码的步骤: 在您的计算机上下载并安装Python解释器。您可以从Pyth…

COM接口规则的存在是有原因的

可能有些人认为接口上的 COM 接口规则没有必要设计的那么严格,但我想说的是,这些规则的存在是有原因的。 假设你在你的产品代码中新增加了版本号为 N 的接口,由于这个接口是内部使用的,没有任何公开文档。所以你可以随意修改它&a…

Sentinel 热点参数限流

何为热点?热点即经常访问的数据。很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据,并对其访问进行限制。比如: 商品 ID 为参数,统计一段时间内最常购买的商品 ID 并进行限制用户 ID 为参数,针对一段时间…

Prompt工程师指南[资料整合篇]:Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等,超全面资料

Prompt工程师指南[资料整合篇]:Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等,超全面资料 1.论文合集 The following are the latest papers (sorted by release date) on prompt engineering. We update this on a daily bas…

Ozeki VOIP SIP SDK 10.3.199 Crack

Ozeki VOIP SIP SDK 使用Ozeki VoIP SIP SDK,您有机会制作自己的VoIP产品,例如软电话,甚至您自己的PBX。 Ozeki VoIP SIP SDK介绍 Ozeki VoIP SIP SDK 是一个软件开发工具包,允许您使用 SIP 协议进行 VoIP 呼叫。它可以很容易地…

LNMP平台对接redis服务

LNMP见我2023-04-17 10:51:16 发布的企业网站架构部署与优化 LNMP https://blog.csdn.net/Richard_Sniper/article/details/130158518?spm1001.2014.3001.5501 1、安装 LNMP 各个组件 2、安装 redis 服务 3、安装 redis 扩展 官网:http://redis.io/ 下载包&am…

解读直接RF采样架构及优势

多年来,数字收发机被应用在多种类型的应用中,包括地面蜂窝网络、卫星通信和基于雷达的监视、地球观测和监控。过去,收发机的系统工程师在这些应用中使用中频架构。现在,高速数据转换器的最新发展,使新型基于射频直接采…

gif怎么转换成mp4格式?

gif怎么转换成mp4格式?GIF动态图片是一种常见的图片文件,平时我们聊天时会使用到表情包、广告宣传场景也会使用到gif动图,而MP4则是目前广泛应用的视频格式,相信大家都知道这一点。将GIF图片转换为视频格式是一种非常实用的方法。…

SpringCloud实用篇02

文章目录 SpringCloud实用篇020.学习目标1.Nacos配置管理1.1.统一配置管理1.1.1.在nacos中添加配置文件1.1.2.从微服务拉取配置 1.2.配置热更新1.2.1.方式一1.2.2.方式二 1.3.配置共享1)添加一个环境共享配置2)在user-service中读取共享配置3&#xff09…

选择无论文答辩硕士,那只能选择免联考双证中国人民大学与加拿大女王大学金融硕士

硕士的论文和答辩是一种检验硕士阶段的学习研究成果的一种方式,通过答辩可以让老师清楚的了解论文的价值所在。但从选题背景、研究意义到研究思路、理论基础、研究方法再到关键技术点、实践难点等等,这一个复杂的过程让很多考生在最后这一关被淘汰出局。…

咚咚咚,穷人版生产力工具,好用到飞起

每个程序员都有自己的生产力工具,不管你是深耕职场多年的老鸟,还是在学校努力学习的小鸟,应该都有自己囊里私藏的好辅助。比如帮你完成从头脑风暴草图到创建线框图/原型的UI工具,让代码规范和交付更为可靠的版本控制工具等等。 今…

23种设计模式的必备结构图

这里总结了23种设计模式的结构图及定义,样例代码在 Github:studeyang/design-pattern。 一、创建型模式 1.1 简单工厂模式 1.2 工厂方法模式 工厂方法模式,定义一个用于创建对象的接口,让子类决定实例化哪一个类。工厂方法使一…

metaRTC6.0 janus推流操作指南

概要 Janus 是一个非常有名的 WebRTC 流媒体服务器,它是以 Linux 风格编写的服务程序,采用 C 语言实现,Janus 提供插件机制来支持不同的业务逻辑,配合官方自带插件就可以用来实现高效的webRTC Server服务。 metaRTC6.0新版本支持向janus推流…

【国内某组态软件和plc的通信漏洞挖掘】

因为已从原单位离职,复现的环境也已经丢失,再加上也没怎么提交过漏洞,导致上传cnvd失败,故发在此处,万一有用的话,有缘人可自行提交漏洞库。 (一) 环境 组态软件IP地址&#xff1a…

freemark模板导出word-01-简单文本内容

在一些项目中,会遇到导出固定格式的word文档,这个时候我们可以使用模板freemarker来实现,本文先分享简单的字符串填充。 比如现在有一个word模板的样式如下 我们填充好内容后(重点坑点:先采用记事本类似的将${A1}编辑好&#xff…