每日学术速递6.11

news2024/11/20 18:23:20

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Model

标题:Video-ChatGPT:通过大型视觉和语言模型实现详细的视频理解

作者:Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan

文章链接:https://arxiv.org/abs/2306.05424

项目代码:https://github.com/mbzuai-oryx/Video-ChatGPT

摘要:

        我们==由大型语言模型 (LLM) 推动的对话代理正在提供一种与视觉数据交互的新方式。虽然已经对基于图像的对话模型进行了初步尝试,但这项工作通过引入 Video-ChatGPT 解决了基于视频的对话领域尚未开发的问题。它是一种多模态模型,将视频自适应视觉编码器与 LLM 相结合。该模型能够理解和生成关于视频的类似人类的对话。我们引入了一个包含 100,000 个视频指令对的新数据集,用于训练通过手动和半自动管道获取的 Video-ChatGPT,该数据集易于扩展且对标签噪声具有鲁棒性。我们还为基于视频的对话模型开发了一个量化评估框架,以客观地分析所提出模型的优缺点。我们的代码、模型、指令集和演示在此 https URL 上发布。

2.Emergent Correspondence from Image Diffusion

标题:图像扩散的紧急对应

作者:Luming Tang, Menglin Jia, Qianqian Wang, Cheng Perng Phoo, Bharath Hariharan

文章链接:https://arxiv.org/abs/2306.03881

项目代码:https://diffusionfeatures.github.io/

摘要:

        寻找图像之间的对应关系是计算机视觉中的一个基本问题。在本文中,我们表明在没有任何明确监督的情况下,图像扩散模型中会出现对应关系。我们提出了一种简单的策略,从扩散网络中提取这种隐含知识作为图像特征,即扩散特征 (DIFT),并使用它们建立真实图像之间的对应关系。在没有对特定任务数据或注释进行任何额外的微调或监督的情况下,DIFT 能够在识别语义、几何和时间对应方面优于弱监督方法和有竞争力的现成特征。特别是对于语义对应,来自 Stable Diffusion 的 DIFT 在具有挑战性的 SPair-71k 基准测试中能够分别优于 DINO 和 OpenCLIP 19 和 14 个精度点。它甚至在 18 个类别中的 9 个类别上的表现优于最先进的监督方法,同时在整体表现上保持同等水平。项目页面:这个 https URL

3.Local Boosting for Weakly-Supervised Learning(KDD 2023)

标题:弱监督学习的局部提升

作者:Rongzhi Zhang, Yue Yu, Jiaming Shen, Xiquan Cui, Chao Zhang

文章链接:https://arxiv.org/abs/2306.02859

摘要:

        Boosting 是一种常用的技术,通过将一组基本模型组合成一个强大的集成模型来增强它们的性能。虽然被广泛采用,但提升通常用于监督学习,其中数据被准确标记。然而,在弱监督学习中,大部分数据都是通过弱噪声源标记的,因此设计有效的增强方法仍然很重要。在这项工作中,我们表明由于存在噪声标签,基本学习器的凸组合的标准实现几乎无法工作。相反,我们提出了LocalBoost,这是一种用于弱监督提升的新颖框架。LocalBoost 从两个维度迭代提升集成模型,即源内和源间。源内提升将局部性引入基学习器,并通过在粒度变化的错误区域上训练新的基学习器,使每个基学习器能够专注于特定的特征机制。对于源间增强,我们利用条件函数来指示样本更有可能出现的弱源。为了解决弱标签,我们进一步设计了一种先估计后修改的方法来计算模型权重。对七个数据集的实验表明,我们的方法明显优于普通增强方法和其他弱监督方法。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669342.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SCI论文插图怎么做?有这一篇文章就够了

SCI插图的整体要求 SCI杂志种类很多,对插图的要求也各有不同,但是以下几条是通用的: 1. 插图尺寸要符合SCI期刊要求 2. 同篇文稿插图中文字须统一字号及字体 3. 须提交SCI期刊指定文件类型的插图 4. 插图文件命名须符合SCI期…

C++基础(15)——STL常用算法(遍历和查找)

前言 本文介绍了C中STL常用遍历和查找算法。 9.1:常用遍历算法(for_each、transform) 9.1.1:foreach for_each:遍历容器,transform:搬运一个容器中的数据到另一个容器中 for_each中使用普通…

自建iOS消息推送服务Bark

老苏的 DSM6.17 系统恢复之后,发现丢了一些套件,在安装 phpMyAdmin 套件时,显示需要用到 PHP7.4 但是在套件里搜索却只有 PHP7.3 从 https://archive.synology.cn/download/Package/PHP7.4 下载了最低的 7.4.9-0003 手动安装时居然显示 DSM6.…

Java进程调度的基本过程(详细易理解)

目录 一.什么是进程? 二.进程是如何创建的 三.进程如何调度的 优先级: 状态: 记账信息: 上下文: 线程是什么: 为什么要有线程: 坏处: 一.什么是进程? 了解这个问题之前,我们需要先打开我们桌面上的的学习资料 啪的一下,很快啊,点双击学习资料.exe之后,在后台(ctrl…

spring security oauth2 整合 JWT

前言 在这个基础上&#xff0c;进行整合。 spring security oauth2学习 -- 快速入门_本郡主是喵的博客-CSDN博客 1.jwt的一般使用 先把 reids,common-pools 等依赖删掉。 删掉redis的下相关配置 1.1 导入依赖 <!--jjwt--><dependency><groupId>io.json…

正则表达式(2)

文章目录 正则表达式一.正则表达式1.含义2.通配符2.1通配符含义作用2.2常见的通配符 3.元字符&#xff08;字符匹配&#xff09;4.表示次数5.位置锚定6.分组或其他 二.扩展正则表达式1.表示次数2.举例 正则表达式 一.正则表达式 1.含义 &#xff08;1&#xff09;是一种特殊…

基于Java智慧城市实验室主页系统设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a; ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ &#x1f345; 文末获取源码联系 &#x1f345; &#x1f447;&#x1f3fb; 精…

一、枚举类型——常量特定方法

Java 的枚举机制可以通过为每个枚举实例编写不同的方法&#xff0c;来赋予它们不同的行为。要实现这一点&#xff0c;你可以在枚举类型中定义一个或多个抽象方法&#xff0c;然后为每个枚举实例编写不同的实现&#xff0c;例如&#xff1a; ConstantSpecificMethod.java import…

使用 TensorFlow.js 将机器学习引入您的 Web 应用程序

如何使用 TensorFlow.js 在您的 Web 应用程序中实施机器学习 原文作者: Abhay Singh Rathore 机器学习 (ML) 不再是一个崇高、遥不可及的概念。借助 TensorFlow.js 等库&#xff0c;开发人员现在可以将 ML 整合到他们的 Web 应用程序中。例如&#xff0c;您可以创建一个系统&am…

革新智造业丨云和恩墨数据智能产品 zAIoT 将工控设备KPI分析性能提升百倍

点击关注 随着智能制造业的迅猛发展&#xff0c;工控设备在生产过程中起到至关重要的作用。为了确保生产效率和产品质量的提高&#xff0c;企业需要对工控设备进行全面的分析和评估。 工控设备KPI是指在生产线/车间设备的运行和维护过程中&#xff0c;需要监控的关键指标参数&a…

Vue----Vue的模板语法

【原文链接】Vue----Vue的模板语法 Vue 模板语法的描述 Vue使用一种基于HTML的模板语法&#xff0c;使我们能够声明式地将其组件实例的数据绑定到呈现的DOM上&#xff0c;所有的Vue模板都是语法层面合法的HTML&#xff0c;可以被符合规范的浏览器和HTML解析器解析 文本插值 …

Java性能权威指南-总结16

Java性能权威指南-总结16 线程与同步的性能线程池与ThreadPoolExecutor设置最大线程数设置最小线程数 线程与同步的性能 能够轻松编写多线程程序也是Java的一个标志性特征。Java性能方面的吸引力显而易见&#xff1a;如果有两个CPU可用&#xff0c;那么一个应用能够完成的工作…

计算机网络笔记(更新中)

本文是个人笔记&#xff0c;都是概念&#xff0c;没基础不建议看。 绪论 计算机网络的定义 最简单的定义&#xff1a;计算机网络是一些互相连接的、自治的计算机的集合因特网&#xff08;Internet&#xff09;是“网络的网络” 计算机网络的组成&#xff08;物理组成&#x…

STM32单片机(七)ADC模拟数字转换器----第一节:ADC模数转换器

❤️ 专栏简介&#xff1a;本专栏记录了从零学习单片机的过程&#xff0c;其中包括51单片机和STM32单片机两部分&#xff1b;建议先学习51单片机&#xff0c;其是STM32等高级单片机的基础&#xff1b;这样再学习STM32时才能融会贯通。 ☀️ 专栏适用人群 &#xff1a;适用于想要…

autoDL上A100运行wiki出错:NVIDIA A100-PCIE-40GB(最后安装好torch+dgl了);学校服务器加2.X版本pytorch

1、A100运行wiki出错&#xff1a;NVIDIA A100-PCIE-40GB with CUDA capability sm_80 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. If you want to use the NVIDIA A100-PCIE…

CTFshow-pwn入门-pwn26-pwn28

什么是ASLR 大多数的攻击都基于这样一个前提&#xff0c;即攻击者知道程序的内存布局&#xff0c;需要提前知道shellcode或者其他一些数据的位置。因此&#xff0c;引入内存布局的随机化能够有效增加漏洞利用的难度&#xff0c;其中一种技术就是ASLR&#xff08;Address Space…

Qt颜色、文件、字体对话框

项目目录 界面 一、颜色对话框 QColor color QColorDialog::getColor(QColor(255,0,0));qDebug()<<"r"<<color.red()<<" g "<<color.green()<<" b "<<color.blue(); 二、文件对话框 //文件对话框QString…

《网络安全0-100》-网络攻击方式

网络攻击方式 DoS DDoS攻击 DoS攻击和DDoS攻击都是网络攻击的一种&#xff0c;它们的区别如下&#xff1a; DoS攻击(Denial of Service&#xff0c;拒绝服务攻击)&#xff1a;指攻击者通过向目标计算机或网络发送大量的合法请求&#xff0c;占用其网络资源和带宽&#xff0c;…

Java API

目录 1.JSON 2.多线程 3.网络编程 1.JSON &#xff08;1&#xff09;定义&#xff1a; 1.轻量级的文本数据交换格式 2.具有自我描述性【看到某个JSON数据就能知道它的特点】 3.比XML传输速度快【跨平台】 (2)语法规则&#xff1a; 1.语法&#xff1a; 2.构成要素&#xff…

Cortext-M3系列:M3内核概述(1)

引言&#xff1a; 本系列博客记录的是博主以前学习单片机时期的一些关于MCU内核方面的知识点和笔记&#xff0c;分享给一起学习的小伙伴&#xff0c;也作为复习用处。文中出现的Cortex-M3、CM3、M3均指的是ARM公司的产品Cortex-M3&#xff0c;后面不再赘述。本系列的博客仅仅只…