CV每日论文--2024.6.28

news2024/11/17 1:50:16

1、On Scaling Up 3D Gaussian Splatting Training

中文标题:扩展 3D 高斯泼溅训练

简介:3D高斯点描(3DGS)由于其卓越的视觉质量和渲染速度,越来越受欢迎用于3D重建。然而,3DGS的训练目前仅在单个GPU上进行,由于内存限制,它的处理高分辨率和大规模3D重建任务的能力受到限制。

为了解决这个问题,我们开发了Grendel,这是一个分布式系统,旨在将3DGS参数分区并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集,Grendel采用稀疏全对全通信将必要的高斯传输到像素分区,并执行动态负载平衡。与现有的一次使用一个摄像头视图图像进行训练的3DGS系统不同,Grendel支持使用多个视图进行批量训练。

我们探索了各种优化超参数缩放策略,并发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明,Grendel通过在多个GPU上扩展3DGS参数来提高渲染质量。在Rubble数据集上,我们将4040万个高斯分布在16个GPU上,获得了27.28的测试PSNR,而在单个GPU上使用1120万个高斯时,只有26.28的PSNR。

Grendel是一个开源项目,可在 https://github.com/nyu-systems/Grendel-GS 上获得。

2、MultiDiff: Consistent Novel View Synthesis from a Single Image

中文标题:MultiDiff:从单个图像合成一致的新颖视图

简介:我们介绍了一种新颖的方法——MultiDiff,用于从单个RGB图像一致地合成场景的新视角。从单个参考图像合成新视角的任务本质上是高度不适定的,因为存在多个未观察区域的合理解释。

为了解决这个问题,我们采用了形式上的单目深度预测和视频扩散模型等强先验。单目深度使我们能够将模型的条件设置为目标视角的变形参考图像,从而提高几何稳定性。视频扩散先验为3D场景提供了强有力的代理,使模型能够学习生成图像之间的连续且像素精确的对应关系。与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。

为了进一步提高一致性和图像质量,我们引入了一种新颖的结构噪声分布。我们的实验结果表明,MultiDiff在具有挑战性的真实世界数据集RealEstate10K和ScanNet上优于最先进的方法。最后,我们的模型自然支持多视角一致的编辑,无需进一步调整。

3、ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

中文标题:ChronoMagic-Bench:文本转延时视频生成的变形评估基准

简介:我们提出了一个新的文本到视频(T2V)生成基准,名为ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同,ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。

该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四类主要的延时视频:生物、人类创造、气象和物理现象,这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。

为了准确地将人类喜好与基准对齐,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度,反映随时间的变化程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。

基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p延时视频和详细标题,确保具有高物理相关性和大形态变化幅度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1884733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于C语言+控制台的学生信息管理系统

博主介绍: 大家好,本人精通Java、Python、Php、C#、C、C编程语言,同时也熟练掌握微信小程序和Android等技术,能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验,能够为学生提供各类…

Python:Python环境搭建

二、Python环境搭建 1.Python安装指南 (1)打开文件夹双击python-3.8.5-amd64.exe,进入安装页面,选择自定义安装,并且勾选环境变量。 (2)自定义安装时,跳出窗口,所有功能…

大力出奇迹:大语言模型的崛起与挑战

随着人工智能(AI)技术的迅猛发展,特别是在自然语言处理(NLP)领域,大语言模型(LLM)的出现与应用,彻底改变了我们与机器互动的方式。本文将探讨ChatGPT等大语言模型的定义、…

IPIDEA代理IP助力高效数据采集

IPIDEA代理IP助力高效数据采集 文章目录 IPIDEA代理IP助力高效数据采集📑前言一、爬虫数据采集痛点二、代理IP解决爬虫痛点2.1 为什么可以2.2 选择代理IP的关键因素 三、IPIDEA海外IP代理的优势3.1 IPIDEA的显著优势3.2 IPIDEA的代理类型及应用 四、IPIDEA爬虫实战4…

复分析——第10章——Θ函数应用(E.M. Stein R. Shakarchi)

第10章 Θ函数的应用 (Applications of Theta Functions) The problem of the representation of an integer n as the sum of a given number k of integral squares is one of the most celebrated in the theory of numbers. Its history may be traced back to Diopha…

JS逆向技巧总结

总的来说,JavaScript 逆向可以分为三大部分:寻找入口、调试分析和模拟执行。下面分别进行介绍。 一,寻找入口 一个网站加载了很多 JavaScript 文件,那么怎么从这么多 JavaScript 里面找到关键的位置,那就是一个关键问…

Outlook发送大文件的问题是什么?怎么解决?

Outlook不仅是一款电子邮件客户端,还包括日历、任务、笔记、联系人等功能,同时与Microsoft Office套件中的其他应用程序(如Word、Excel、PowerPoint等)集成紧密,方便用户在不同应用程序之间切换,提高工作效…

计算机毕业设计Python+Spark股票基金推荐与预测系统 股票基金可视化 股票基金推荐系统 股票基金可视化系统 股票基金数据分析 股票基金爬虫大数据

目 录 摘 要 Abstract 第1章 前 言 1.1 项目的背景和意义 1.2 研究现状 1.3 项目的目标和范围 1.4 论文结构简介 第2章 技术与原理 2.1 开发原理 2.2 开发工具 2.3 关键技术 第3章 需求建模 3.1 系统可行性分析 3.2 功能需求分析 3.3 非功能性…

Kafka-服务端-副本同步-源码流程

杂 在0.9.0.0之前,Kafka提供了replica lag.max.messages 来控制follower副本最多落后leader副本的消息数量,follower 相对于leader 落后当超过这个数量的时候就判定该follower是失效的,就会踢出ISR,这里的指的是具体的LEO值。 对…

为Stable Diffusion换件新衣服

你是不是已经看腻Stable Diffusion默认的webui了,想要换件新衣服。Lobe Theme这个插件就可以帮助你。 首先,我们启动 SD,如果没有安装,可以参考https://mp.csdn.net/mp_blog/creation/editor/139196688。 然后找到扩展选项卡&…

网络安全--计算机网络安全概述

文章目录 网络信息系统安全的目标网络安全的分支举例P2DR模型信息安全模型访问控制的分类多级安全模型 网络信息系统安全的目标 保密性 保证用户信息的保密性,对于非公开的信息,用户无法访问并且无法进行非授权访问,举例子就是:防…

鸿蒙OS开发者高级学习第2课:自由流转(含习题答案)

自由流转两种形态:相继使用(跨端迁移);同时使用( 多端协同) 习题:

linux 用户、用户组操作

一、用户组操作 用户组(group)就是具有相同特征的用户(user)的集合体;比如有时我们要让多个用户具有相同的权限,比如查看、修改某一文件或执行某个命令,这时我们需要用户组,我们把用…

8种数据迁移工具

前言 最近有些小伙伴问我,ETL数据迁移工具该用哪些。 ETL(是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理、转换、迁移的场景。 今天特地给大家汇总了一些目前…

Ubuntu 22.04 安装中文字体

笔者在用OpenCV4.9处理图片加水印时,中文乱码。原来是Ubuntu 22.04发行版缺少中文字体支持,因此,笔者就找资料安装了需要的中文字体,特此记录,以备后查。 1、打开终端: 2、更新软件包列表: su…

7基于SpringBoot的SSMP整合案例-表现层开发

目录 1.基于Restfu1进行表现层接口开发 1.1创建功能类 1.2基于Restful制作表现层接口 2.接收参数 2使用Apifox测试表现层接口功能 保存接口: 分页接口: 3.表现层一致性处理 3.1先创建一个工具类,用作后端返回格式统一类:…

图形编辑器基于Paper.js教程05:鼠标画矩形与正方形

优化矩形绘制:在Paper.js中有效管理鼠标事件 在图形应用开发中,准确和高效地处理用户输入,如鼠标事件,是提升用户体验的关键。本文通过一个使用Paper.js的示例,展示如何优化矩形绘制过程,特别是处理不同方…

【大模型】基于ChatGLM进行微调及应用 [更新中......]

文章目录 一、前言二、说明2.1 代码结构2.2 依赖包版本 三、启动对话演示3.1 命令行交互 cli_demo.py3.2 网页交互 web_demo.py 四、微调模型4.1 基于 P-Tuning v2 微调模型4.1.1 软件依赖4.1.2 下载数据集4.1.3 下载模型文件4.1.4 操作步骤 4.2 基于 Full Parameter 微调模型4…

大模型简介

大模型框架 大模型基于深度学习,利用大量数据和计算资源训练具有大量参数的神经网络模型。通过不断地调整模型参数,使得模型能够在各种任务中取得最佳表现。 通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求…

记一次EasyExcel的错误使用导致的频繁FullGC

记一次EasyExcel的错误使用导致的频繁FullGC 一、背景描述二、场景复现三、原因分析四、解决方案五、思考复盘 一、背景描述 繁忙的校招结束了,美好的大学四年也结束了,作者也有10个月没有更新了。拿到心仪的offer之后也开始了苦B的打工生活。 最近接到…