任你五花八门预训练方法,我自监督学习依然能打!

news2025/1/17 5:56:51

长时间没看论文,外面已经发展成这样了?

以下都是新paper,挑了几个感兴趣的,一起粗略看看吧~

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

在这里插入图片描述

GitHub | https://github.com/hsouri/Battle-of-the-Backbones

arXiv | https://arxiv.org/abs/2310.19909

基于神经网络的计算机视觉框架通常主要由骨干(Backbones)构成,即一个经过预训练或随机初始化的特征提取器。几年前,首选项基本是在ImageNet上训练的卷积神经网络

然而,最近出现了很多采用各种算法和数据集进行预训练的骨干网络。虽然这些操作提高了部分网络的性能,但对于从业者来说,很难做出关于选择哪个骨干的决定

Battle of the Backbones (BoB) 通过对一系列经过预训练的模型进行基准测试,包括视觉语言模型、通过自监督学习训练的模型以及Stable Diffusion骨干,在从分类到目标检测再到OOD泛化等多样的计算机视觉任务中,使这个选择变得更加容易

此外,通过对1500多次训练的全面分析,揭示了现有方法的优势和劣势,为学界指明了推进计算机视觉的有希望的方向

虽然vision transformers(ViTs)和自监督学习(SSL)越来越受欢迎,但他们发现在大型训练集上以监督方式预训练的卷积神经网络在大多数任务中仍然表现最佳

此外,在相同架构和相似大小的预训练数据集上的同类比较中,作者发现自监督学习的Backbone仍然具有很强的竞争力,这表明未来的研究应该使用先进的架构和更大的预训练数据集进行自监督学习预训练

MM-VID: Advancing Video Understanding with GPT-4V(ision)

在这里插入图片描述

arXiv | https://arxiv.org/abs/2310.19773

MM-VID充分发挥了GPT-4V的能力,并结合了在视觉、音频和语音领域的专业工具,以促进对视频的高级理解

旨在解决长视频和复杂任务(如对长达一小时的内容进行推理以及理解跨多个剧集的情节)带来的挑战。利用GPT-4V进行视频到脚本的生成,将多模态元素转录成一个长文本脚本

生成的脚本详细描述了角色的移动、动作、表情和对话,为大型语言模型(LLMs)实现视频理解提供了数据。使得音频描述、角色识别和多模态高级理解成为可能

实验结果展示了处理不同视频流派和各种视频长度方面的有效性。此外,还展示了在交互环境中应用MM-VID的潜力,例如视频游戏和图形用户界面

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

在这里插入图片描述

GitHub | https://github.com/LLaVA-VL/LLaVA-Interactive-Demo

arXiv | https://arxiv.org/abs/2311.00571

LLaVA-Interactive是一个用于多模态人机交互的研究原型。该系统能够通过获取多模态用户输入并生成多模态响应,与用户进行多轮对话

值得注意的是,LLaVA-Interactive不仅限于语言提示,还支持视觉提示,以对齐交互中人类的意图。该系统结合了LLaVA的视觉聊天、SEEM的图像分割以及GLIGEN的图像生成和编辑等三种预建AI模型的多模态技能,无需额外的模型训练

为了展示LLaVA-Interactive的潜力并激发未来多模式交互系统的研究,论文中演示了多种应用场景

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

在这里插入图片描述

GitHub | http://kylesargent.github.io/zeronvs/

arXiv | https://arxiv.org/abs/2310.17994

飞飞团队~,这篇论文介绍了一种3D感知扩散模型,ZeroNVS,用于野外场景的单图像新视角合成。虽然现有方法用于带有遮罩背景的单个对象,但本文提出了新的技术来解决野外多对象场景和复杂背景引入的挑战

具体而言,在捕获以对象为中心的室内和室外场景的混合数据源上训练生成先验。为了解决由深度尺度模糊等数据混合引入的问题,提出了一种新颖的相机调节参数化和归一化方案

此外,观察到在对360°场景进行蒸馏期间,Score Distillation Sampling(SDS)往往会截断复杂背景的分布,因此提出了SDS anchoring以提高合成新视角的多样性

zero-shot settin下,提出的模型在DTU数据集上在LPIPS方面取得了新的最先进结果,甚至超过了专门在DTU上训练的方法

他们进一步将具有挑战性的Mip-NeRF 360数据集作为单图像新视角合成的新baseline,并在这一设置中展示了强大的性能

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

arXiv | https://arxiv.org/abs/2310.19512

视频生成在学术界和工业界越来越受到关注。尽管商业工具可以生成合理的视频,但对于研究人员和工程师来说,可用的开源模型数量有限。在这项工作中,作者介绍了两个用于高质量视频生成的扩散模型,即文本到视频(T2V)模型和图像到视频(I2V)模型

T2V模型根据给定的文本输入合成视频,而I2V模型则包含额外的图像输入。所提出的T2V模型可以生成分辨率为1024*576的电影画质视频,其在质量方面优于其他开源T2V模型。I2V模型旨在生成严格遵循所提供参考图像内容的视频,保持其内容、结构和风格的完整性

该模型是第一个能够将给定图像转换为视频剪辑并保持内容约束的开源I2V基础模型。作者相信这些开源视频生成模型将为社区内的技术进步做出重要贡献

以上就是本期全部内容,期待点赞在看,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1225185.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ajax,axios,fetch

文章目录 ajax工作原理ajax发请求四个步骤创建xmlhttprequest对象设置请求方式设置回调函数发送请求 自封装ajax axiosaxios 特性如何用配置拦截器fetch 三者区别 ajax 工作原理 Ajax的工作原理相当于在用户和服务器之间加了—个中间层(AJAX引擎),使用户操作与服务…

.NET 8 正式 GA 遥遥领先

.NET 8 一正式 已正式 GA。 微软称 .NET 8 提供了数以千计的性能、稳定性和安全性改进,以及平台和工具增强功能,有助于提高开发者的工作效率和创新速度。 比如 .NET 8 为 Android 和 WASM 引入了全新的 AOT 模式、改进 System.Text.Json,以…

二、ST-Link驱动的安装

1、灵动mm32单片机 (1)上海灵动微电子股份有限公司 (2)mm32单片机支持ST-Link下载程序。 2、ST-Link驱动的安装 (1)下载地址 ST-Link 官网下载地址 (2)点击获取软件下载ST-Link驱动。(需要登陆ST官网账户) (3)下载后解压,根据电脑位数安装 .exe 文件即可。 6…

kubenetes-容器网络接口CNI

一、CNI Kubernetes 网络模型设计的基础原则是: 所有的Pod能够不通过NAT(网络地址转换)就能相互访问。所有的节点能够不通过NAT就能相互访问。容器内看见的IP地址和外部组件看到的容器IP是一样的。 Kubernetes的集群里,IP地址是以Pod为单位进行分配的…

3dMax2024新功能和工作流增强功能速览

3dMax2024新功能和工作流增强功能速览 Autodesk发布的3dMax2024引入了一系列新功能和工作流增强功能,如下所示: 更新的“指定控制器”卷展栏:这个现代化的功能为动画师提供了更高效的工作方式,简化了他们的动画流程。 布尔修饰符…

【数据分享】2023年我国省市县三级的独角兽企业数量(Excel/Shp格式)

企业是经济活动的参与主体。一个城市的企业数量决定了这个城市的经济发展水平!比如一个城市的金融企业较多,那这个城市的金融产业肯定比较发达;一个城市的制造业企业较多,那这个城市的制造业肯定比较发达。 之前我们给大家分享了…

wpf devexpress绑定grid到总计和分组统计

此主题描述了如何在gridcontrol中的视图模型和显示定义总计和分组统计 在视图模型中指定统计 1、创建 SummaryItemType 枚举你想要在GridControl中显示的统计类型: public enum SummaryItemType { Max, Count, None } 2、创建一个grid统计描述类 public class S…

【uniapp】华为APP真机运行(novas系列)

依华为手机为例,首先数据线连接电脑,然后在手机上做如下操作: 1)打开设置 2)设置——关于手机 3)连续点击软件版本号,此时手机处于开发者模式 4) 回到设置——系统和更新 5)点击开…

进阶理解:leetcode115.不同的子序列(细节深度)

这道题是困难题,本章是针对于动态规划解决,对于思路进行一个全面透彻的讲解,但是并不是对于基础讲解思路,而是渗透到递推式和dp填数的详解,如果有读者不清楚基本的解题思路,请看我的这篇文章算法训练营DAY5…

Lstm+transformer的刀具磨损预测

视频讲解: 基于Lstm+transformer的刀具磨损预测实战_哔哩哔哩_bilibili 结果展示: 数据展示: 主要代码: # pip install openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple/ # pip install optuna -i https://pypi.tuna.tsinghua.edu.cn/simple/ import numpy as np…

CI/CD -gitlab

目录 一、常用命令 二、部署 一、常用命令 官网:https://about.gitlab.com/install/ gitlab-ctl start # 启动所有 gitlab 组件 gitlab-ctl stop # 停止所有 gitlab 组件 gitlab-ctl restart # 重启所有 gitlab 组件 gitlab-ctl statu…

基于token的鉴权机制-JWT

在实际开发项目中,由于Http是一种无状态的协议,我们想要记录用户的登录状态,或者为用户创建身份认证的凭证,可以使用Session认证机制或者JWT认证机制。 什么是JWT? 网络应用环境间传递声明执行的一种基于JSON的开放标准。适用于…

设计模式-外观模式-笔记

“接口隔离”模式 在组件构建过程中,某些接口之间的依赖常常带来很多问题、甚至根本无法实现。采用添加一层间接(稳定)接口,来隔离本来互相紧密相关的接口是一种常见的解决方案。 经典模式:Facade、Proxy、Adapter、…

【APUE】补充 — 基于管道的线程池

目录 一、引言 二、代码实现 三、思考 一、引言 在线程章节的 3.2 部分,我们曾经提到过线程池的实现 在当时的代码中,我们仅仅用的一个 int 类型的变量来表示这个“池”,用来存放任务 显然这个池太小了,如果下游线程很多&am…

强化学习在文生图中的应用:Training Diffusion Models with Reinforcement Learning

论文链接:Training Diffusion Models with Reinforcement Learning项目地址:Training Diffusion Models with Reinforcement Learning官方代码:https://github.com/kvablack/ddpo-pytorch/tree/maintrl实现:https://huggingface.co/docs/trl/ddpo_trainer🤗关注公众号 fu…

【LeetCode刷题-双指针】--16.最接近的三数之和

16.最接近的三数之和 方法&#xff1a;排序双指针 class Solution {public int threeSumClosest(int[] nums, int target) {Arrays.sort(nums);int ans nums[0] nums[1] nums[2];for(int i 0;i<nums.length;i){int start i1,end nums.length - 1;while(start < en…

复合、委托、继承

1. 单例模式 静态实例对象在getInstance函数中定义&#xff0c;这样只有在调用函数时才会生成对象 2. 复合 1. 类中封装另一个类某些功能&#xff1b; 2. 构造、析构的调用过程 指明了复合中如何调用被包含类的构造函数&#xff0c;可以直接写在初始化列表位置&#xff1b; 3.…

Java的IO流-缓冲流

字节缓冲流 package com.itheima.d2;import java.io.*;public class Test1 {public static void main(String[] args) {try (InputStream is new FileInputStream("IO/src/itheima01.txt");//1、定义一个字节缓冲输入流包装原始的字节输入流InputStream bis new Bu…

企业是否需要单独一套设备管理系统?

在现代企业中&#xff0c;设备管理是一个至关重要的环节。随着科技的不断进步和信息化的发展&#xff0c;企业对设备管理的要求也越来越高。为了提高设备管理的效率和准确性&#xff0c;许多企业开始考虑是否需要单独一套设备管理系统。本文将从设备管理系统的介绍、和其他系统…

融合语言模型中的拓扑上下文和逻辑规则实现知识图谱补全11.18

融合语言模型中的拓扑上下文和逻辑规则实现知识图谱补全 摘要1 引言2 相关工作2.1 事实嵌入法2.2 拓扑嵌入方法2.3 规则融合方法2.4 基于LM的方法 3 准备3.1 知识图谱和拓扑上下文3.2 KG中的逻辑规则4.3 三元组嵌入 5 实验和结果5.1 数据集和评价指标 摘要 知识图补全&#xf…