视觉CV-AIGC一周最新技术精选(2023-11)

news2024/11/30 14:40:54

PG-Video-LLaVA: Pixel Grounding Large Video-Language Models

115b57f2e2d7a6abf2fa56b52c460277.png
  • https://github.com/mbzuai-oryx/Video-LLaVA

  • 将基于图像的大型多模态模型(LMM)扩展到视频领域是具有挑战性的。最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT)。

  • 为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通过转录音频提示为文本来丰富视频上下文的理解。框架用一个现成的跟踪器和一个新颖的grounding模块,使其能够根据用户的指令在视频中空间上和时间上定位对象。

  • 使用基于视频的生成和问答基准测试评估了PG-Video-LLaVA,并引入了专门为测量基于提示的视频对象grounding性能而设计的新基准测试。此外,提出用Vicuna来替代VideoChatGPT中使用的GPT-3.5,用于基于视频的对话基准测试,以确保结果的可重复性,这是有关GPT-3.5的专有性质的一个问题。框架建立在最先进的基于图像的LLaVA模型基础上,并将其优势扩展到视频领域,在基于视频的交流和参照任务中取得了有希望的成果。

XAGen: 3D Expressive Human Avatars Generation

a60ab7b261ab75cd04ec0c20719328bf.png

  • https://github.com/magic-research/xagen

  • GAN模型使得生成逼真和可控的人体图像成为可能。然而,现有方法主要关注主要身体关节的控制,忽视了表情、颌位、手势等表达属性的操纵。

  • 这项工作提出XAGen,第一个能够对人体角色进行身体、面部和手部表情控制的3D生成模型。为了提高面部和手部等小尺度区域的保真度,设计一种多尺度和多部分的3D表示方法来模拟细节。基于这种表示方法,提出一种多部分渲染技术,将身体、面部和手部的合成分离开来,以便于模型训练和提高几何质量。

  • 此外,设计了多部分鉴别器来评估生成角色的外观和精细控制能力。实验证明,XAGen在逼真度、多样性和表情控制能力方面超越现有方法。

T-Rex: Counting by Visual Prompting

978817094a322df1462b677480170b0f.png
  • https://trex-counting.github.io/

  • T-Rex12,一种交互式物体计数模型,旨在首先检测,然后计数任意物体。将物体计数形式化为一种集成视觉提示的开放式物体检测任务。用户可以通过在参考图像上标记点或框来指定感兴趣的物体,然后T-Rex可以检测到所有具有相似模式的物体。

  • 在TRex的视觉反馈指导下,用户还可以通过提示缺失或错误检测的物体来交互地改进计数结果。T-Rex在几个类不可知计数基准上取得了最先进的性能。为进一步发挥其潜力,建立一个涵盖多样场景和挑战的新的计数基准。

  • 定量和定性结果均显示,T-Rex具有出色的零样本计数能力。还展示了T-Rex在各种实际应用场景中的潜力,说明其在视觉提示领域的潜力。

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

e2d9196fd2d313c361ae078977db4122.png
  • https://ziplora.github.io/

  • 目前,为了概念(目标对象)驱动的个性化而对生成模型进行微调的方法,通常能够在以主题(目标对象)驱动或风格驱动为基础的生成中取得较强的结果。最近,低秩适应(LoRA)被提出作为实现概念驱动个性化的一种参数高效的方式。虽然最近的工作探索了将独立的LoRA组合起来实现学习风格和主题的联合生成,但现有技术并未能可靠地解决问题;它们往往要么牺牲主题的准确性,要么牺牲风格的准确性。

  • 提出ZipLoRA,一种廉价且有效地合并独立训练的风格和主题LoRA的方法,以实现在任何用户提供的主题和风格下的生成。在对广泛的主题和风格组合进行的实验中,ZipLoRA能够生成具有显著改进的有意义结果,同时保持了再情景化的能力。

Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection

5f3892bf7d90744ff3aeb56bed2cc4d4.png
  • https://fdmas.github.io/AIGCDetect/

  • AI生成的图像可能会导致普遍的虚假信息传播。因此,开发一种检测器来识别AI生成的图像非常紧迫。大多数现有的检测器对未见的生成模型性能大幅下降。本文提出一种新的AI生成图像检测器,能够识别广泛范围内各种生成模型创建的虚假图像。

  • 方法利用图像中丰富纹理区域与贫纹理区域之间的像素间相关性对比,来检测AI生成的图像。丰富纹理区域的像素比贫纹理区域的像素的波动更大。这种差异反映了丰富纹理区域的熵大于贫纹理区域的熵。对现有的生成模型来说,合成逼真的丰富纹理区域更具挑战性。

  • 基于这个原理,将图像分成多个局部块,并将它们分别重构为由丰富纹理区域和贫纹理区域组成的两个图像。然后,提取丰富纹理区域和贫纹理区域之间的像素间相关性差异特征。这个特征用于AI生成的图像分析,在不同的生成模型中起到了普适指纹的作用。

  • 此外,建立了一个全面的AI生成的图像检测基准,包括16种流行的生成模型,用于评估现有基线方法和我们的方法的有效性。基准为后续研究提供了排行榜。实验结果表明,方法在性能上显著优于现有的基准方法。

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

e3b460615e398bedb3009179395a62d2.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1253414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL sever2008中的游标

目录 一、游标概述 二、游标的实现 三、优缺点 3.1优点: 3.2缺点: 四、游标类型 4.1静态游标 4.2动态游标 4.3只进游标 4.4键集驱动游标 4.5显示游标: 4.6隐式游标 五、游标基本操作 5.1声明游标 5.1.1.IS0标准语法 5.1.1.1语…

nodejs+vue+python+PHP+微信小程序-书吧租阅管理系统的设计与实现-安卓-计算机毕业设计

在当今高度发达的信息中,信息管理改革已成为一种更加广泛和全面的趋势。为确保中国经济的持续发展,信息时代日益更新,书吧租阅管理系统仍在蓬勃发展。同时,随着信息社会的快速发展,各种管理系统面临着越来越多的数据需…

leetcode刷题日志-15.三数之和

这道题还是有点难度,我能想到的就是三重循环,但是题目限制不能重复,所以这道题三重循环完还要去重,太过于麻烦。看了题解以后,大佬们还是厉害,大概思路是这样子的:先对数组进行排序,…

pandas根据列正逆序排序

题目:根据 buy_quantity 列进行排名,相同值分配相同的最低排名。 import pandas as pd# 创建一个示例 DataFrame data {item_id: [1, 2, 3, 4, 5, 6, 7], buy_quantity: [1, 2, 2, 3, 3, 4, 5]} df pd.DataFrame(data)# 使用 rank() 函数为 buy_quant…

电商数据|淘宝商品数据接口接入|参数|获取商品订单物流|电商数据分析

授权认证 授权不是开放平台对服务商应用的授权 ,而是需要开放平台的客户(用户)对服务商应用的授予,比如ERP应用,也就是淘宝的店铺商家对应用进行授权,使其能够拉取到店铺的订单来完成订单履约。 淘宝授权页…

C++ day39 动态规划 不同路径 不同路径Ⅱ

题目1:62 不同路径 题目链接 :不同路径 对题目的理解 机器人位于m*n的网格中的左上角start,求解走到网格右下角finish的移动路径 动规五部曲 1)dp数组的含义以及下标i的含义 dp[i][j]:从start(0,0&…

继承性和多态性实验

继承性和多态性实验 一、实验题目二、实验目的三、实验内容与实现1:【实验内容】2:【实验实现】雇员类(Employee)的实现,如下图所示:2:经理类(Manager)的实现,如下图所示…

Feast:概念

实体 实体是语义相关特征的集合。用户定义实体以映射其用例的领域。 例如,打车车服务可以将客户和司机作为实体,这些实体将相关特征分组,对应于这些客户和司机。 driver Entity(namedriver, join_keys[driver_id]) # 司机实体 customer E…

⑨【Stream】Redis流是什么?怎么用?: Stream [使用手册]

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ ⑨Redis Stream基本操作命令汇总 一、Redis流 …

系列十六、Spring IOC容器的扩展点

一、概述 Spring IOC容器的扩展点是指在IOC加载的过程中,如何对即将要创建的bean进行扩展。 二、扩展点 2.1、BeanDefinitionRegistryPostProcessor 2.1.1、概述 BeanDefinitionRegistryPostProcessor是bean定义的后置处理器,在BeanDefinition加载后&a…

HarmonyOS应用开发者高级认证【题库答案】

HarmonyOS应用开发者基础认证【题库答案】 一、判断题 云函数打包完成后,需要到AppGallery Connect创建对应函数的触发器才可以在端侧中调用(错)在column和Row容器组件中,aligntems用于设置子组件在主轴方向上的对齐格式&#xf…

BUUCTF [HBNIS2018]低个头 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 得到的 flag 请包上 flag{} 提交。来源: https://github.com/hebtuerror404/CTF_competition_warehouse_2018 密文: 下载附件,得到一个.txt文件。 解题思路: 1、低头…

数字图像处理-Matlab实验

实验一 图像增强 实验内容: 对于给定的低对比度测试图像,利用灰度图像直方图均衡化算法进行图像视觉效果增强。 对于给定的低照度彩色测试图像,结合颜色空间转换和灰度图像直方图均衡化算法进行图像视觉效果增强。 实验数据: Test1_1.jpg: Test1_2.jpg: 实验步骤: %% …

基于ncurse实现的俄罗斯方块

1. 需求分析 方块的类型方块的变形方块的消除方块的存储方块的移动接受用户的输入 2. 概要设计 2.1 方块类型与变形 一共有七种,变换的方式如下。变换后的任意形状方块实际上可以存在一个4x4的矩阵中。 我们再压一下位,就可以存在16位中。 2.2 方块…

python之静态服务器程序开发

文章目录 Python静态Web服务器开发Web静态服务器初识搭建Python自带的静态Web服务器静态Web服务器返回固定页面数据静态Web服务器返回指定页面数据静态Web服务器多任务版静态Web服务器面向对象开发静态Web服务器命令行启动动态绑定端口号 Python静态Web服务器开发 Web静态服务…

求集合的笛卡尔乘积

求集合的笛卡尔乘积 一:【实验目的】二:【实验内容】三:【实验原理】四:代码实现: 一:【实验目的】 通过编实现给定集合A和B的笛卡尔积CAA,DAB,EBA,FAAB,GA(A*B). 二:【实验内容】…

Linux系统常用指令大全(图文详解)

目录 前言 一、UNIX的登录与退出 1、登录 (1)执行格式: (2)步骤 2、退出 二、UNIX命令格式 三、常用命令 1、目录操作 (1)显示目录文件 ls (2)建新目录 …

PgSQL技术内幕-Analyze做的那些事-pg_stat_all_tables

PgSQL技术内幕-Analyze做的那些事-pg_stat_all_tables pg_stat_all_tables视图中记录有analyze信息,比如何时做的analyze、表元组个数(活元组、死元组)等。重启后发现该视图中表的统计信息重置不见了,发生了什么? 1、p…

纵观手机市场,手机即鏖战全面屏

9月13日,在相继发布Apple TV、Apple Watch 和iPhone 8/8 Plus之后,当大家都以为苹果新品发布会临近结束之时,苹果前CEO史蒂夫乔布斯的这句经典名言再现屏幕,iPhone X终于揭开了神秘面纱。 “One more thing”。 9月13日&#xff…

Java每日一题:26. 删除有序数组中的重复项

删除有序数组中的重复项 分析: 数组是有序的,因此重复的元素会相邻 每次取出两个数进行比较,因此,需要有两个变量去存储每次取出的值 采用双指针方法: 指针p和q, pnum1,qnum2 p和q进行比较&…