Stability AI 3D:开创3D视觉技术新篇章,提升多视角连贯性与生成质量

news2024/11/29 16:40:37

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

今天,他们在3D技术界掀起了一场风暴,发布了稳定视频3D(简称SV3D https://huggingface.co/stabilityai/sv3d)——一个基于稳定视频扩散技术的创新模型,大大提升了3D视觉质量和视角的连贯性。

这次发布的SV3D分为两个版本:SV3D_u和SV3D_p。SV3D_u能够从单一图片输入出发,无需任何摄像机调整,就能生成环绕视频。而SV3D_p则在此基础上进一步发展,不仅支持单张图片和环绕视图作为输入,还能创建沿特定摄像机路径的3D视频。 

无论是商业使用还是个人学习探索,SV3D都已准备就绪,商业用途需要Stability AI的会员资格,而个人学习者可以在Hugging Face下载模型权重,并参阅他们的研究论文。

他们的SV3D模型接受单一物体图片作为输入,创造出该物体的全新多视角视图。利用这些新视角,SV3D能够生成3D网格。

当他们之前发布稳定视频扩散模型时,就已经强调了该视频模型在多个应用领域的灵活性。现在,基于这个坚实的基础,他们激动地推出了稳定视频3D,这个新模型在3D技术领域取得了巨大的进步。相比之前发布的Stable Zero123以及其他开源选择,如Zero123-XL,稳定视频3D提供了更加出色的质量和多视角一致性。

此次发布的两个版本分别是:

- SV3D_u:这个版本能够基于单张图片输入生成环绕视频,无需摄像机设置。
- SV3D_p:这个版本在SV3D_u的基础上扩展了功能,支持单张图片和环绕视图作为输入,允许沿特定摄像机路径创建3D视频。

视频扩散的优势在于,通过将稳定视频扩散模型与摄像机路径条件化相结合,他们的稳定视频3D能够生成物体的多视角视频。与在Stable Zero123中使用的图像扩散模型相比,视频扩散模型在一般化和生成输出的视角连贯性方面提供了显著优势。此外,他们提出了改进的3D优化方法,利用稳定视频3D的能力生成任意绕物体的轨道。通过实现这些技术,并结合解耦的照明优化以及新的掩码得分蒸馏采样损失函数,稳定视频3D能够可靠地从单张图片输入中生成高质量的3D网格。

稳定视频3D在3D生成方面带来了重大进步,尤其是在新视角合成(NVS)方面。与先前的方法相比,他们的模型能够从任何给定角度提供连贯的视图,并具有出色的一般化能力。这不仅增强了姿态控制能力,还确保了跨多个视图的对象外观一致性,进一步提升了3D生成的真实感和精确度。

通过多视角一致性的优化,他们的稳定视频3D提高了3D神经辐射场(NeRF)和网格表示的质量,从而改善了直接从新视角生成的3D网格的质量。他们设计了一个掩码得分蒸馏采样损失,以进一步提高在预测视角中不可见区域的3D质量。此外,为了解决烘焙入照明的问题,稳定视频3D采用了解耦的照明模型,与3D形状和纹理共同优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1529790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ASPICE规范之系统追溯矩阵

系统追溯矩阵的需求来自 ISO26262 举例在描述系统追溯矩阵时:客户需求->系统需求;系统需求->客户需求;系统需求->软件需求;系统需求->硬件需求

有实际意义的伦敦金交易策略参考

一谈起有实际意义的伦敦金交易策略参考,很多人以为是讨论的是什么飞天遁地的技术,其实这些都是没有实际意义。对普通投资者来说,什么才是有实际意义的呢?那就是生存。要讨论实际有意义的伦敦金交易策略参考,就是投资者…

【计算机网络_网络层】IP协议

文章目录 1. IP的基本概念1.1 什么是IP协议1.2 为什么要有IP协议 2. IP的协议格式3. 网段划分(重要)3.1 为什么要进行网段划分3.2 网段划分的规则3.2.1 古老的划分方案3.2.2 现代的划分方案 4. 特殊的IP地址5. 解决IP地址的数量限制问题6. 私有IP和公网I…

【视频异常检测】Real-world Anomaly Detection in Surveillance Videos 论文阅读

Real-world Anomaly Detection in Surveillance Videos 论文阅读 Abstract1. Introduction2. Related Work3. Proposed Anomaly Detection Method3.1. Multiple Instance Learning3.2. Deep MIL Ranking Model 4. Dataset4.1. Previous datasets4.2. Our dataset 5. Experiment…

java8:LinkedList的实现原理

概述 先来看看源码中的这一段注释,我们先尝试从中提取一些信息: Doubly-linked list implementation of the List and Deque interfaces. Implements all optional list operations, and permits all elements (including null).All of the operations …

【Linux(1)】Linux的一些基本指令(补充上一篇)

思维导图 学习内容 通过上面的学习目标,我们可以列出要学习的内容: linux的一些指令:cd mkdir cp touch which rm cat alias 一些基本的概念:指令的概念,用户家目录是什么...... 一、Linux的一些指令 1.1 重新认识…

【SpringSecurity】十三、基于Session实现授权认证

文章目录 1、基于session的认证2、Demosession实现认证session实现授权 1、基于session的认证 流程: 用户认证成功后,服务端生成用户数据保存在session中服务端返回给客户端session id (sid),被客户端存到自己的cookie中客户端下…

信息发布系统

特色功能 画布功能---可任意拖动各控件的播放位置及大小,可任意选择屏幕背景色或添加背景图 同步联屏---毫秒级同步功能 视频切换无黑屏 触摸查询系统 会议预定系统 终端显示-会议综合屏 终端显示-会议预定屏 终端显示-移动端 广告发布系统 硬件产品-智能终端 硬件…

[uni-app] uni.createAnimation动画在APP端无效问题记录

文章目录 uni.createAnimation动画描述动画代码templatejs部分 问题原因改进方案template js部分改动git 改进截图 uni.createAnimation 动画描述 实现一个以左上角为锚点,以Z轴做平面抬起及落下的动画效果 动画代码 template <image v-if"showHot(item.cname)&quo…

查找众数及中位数 - 华为OD统一考试(C卷)

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题解&#xff1a; Java / Python / C 题目描述 众数是指一组数据中出现次数量多的那个数&#xff0c;众数可以是多个。 中位数只是指把一组数据从小到大排列&#xff0c;最中间的那个数&#xff0c;如果这组数…

Filter and Listener and AJAX and JSON

一、Filter Filter 表示过滤器&#xff0c;是 JavaWeb 三大组件(Servlet、Filter、Listener)之一。过滤器可以把对资源的请求拦截下来&#xff0c;从而实现一些特殊的功能。&#xff08;拦截指定资源&#xff09; 正常情况下&#xff0c;浏览器可以访问服务器上的所有的资源&…

【机器学习】无监督学习算法之:高斯混合模型

高斯混合模型 1、引言2、高斯混合模型2.1 定义2.2 原理2.3 实现方式2.4 算法公式2.4.1 概率密度函数2.4.2 EM算法之E步骤2.4.2 EM算法之M步骤 2.5 代码示例 3、总结 1、引言 小屌丝&#xff1a;鱼哥&#xff0c;给俺讲一讲什么是高斯啊 小鱼&#xff1a;高斯&#xff1f; 小…

苹果意将Gemini引入iPhone;英伟达发布新AI GPU;Grok正式开源

苹果正在谈判将 Gemini 引入 iPhone Mark Gurman 报道&#xff0c;苹果正在谈判将 Google 的生成式 AI 大模型 Gemini 引入 iPhone。 知情人士透露&#xff0c;两家公司正在积极谈判&#xff0c;让苹果获得 Gemini 授权&#xff0c;为今年 iPhone 软件的一些新功能提供动力。苹…

HCIA——30奈奎斯特定理、香农定理

学习目标&#xff1a; 计算机网络 1.掌握计算机网络的基本概念、基本原理和基本方法。 2.掌握计算机网络的体系结构和典型网络协议&#xff0c;了解典型网络设备的组成和特点&#xff0c;理解典型网络设备的工作原理。 3.能够运用计算机网络的基本概念、基本原理和基本方法进行…

Spring Boot 自动化单元测试类的编写过程

前言 Web环境模拟测试 企业开发不仅要保障业务层与数据层的功能安全有效&#xff0c;也要保障表现层的功能正常。但是我们一般对表现层的测试都是通过postman手工测试的&#xff0c;并没有在打包过程中代码体现表现层功能被测试通过。那么能否在测试用例中对表现层进行功能测…

【NLP笔记】RNN总结

文章目录 经典RNN单向RNN双向RNNDeep RNNRNN特性总结 变体RNNLSTMGRU 参考及转载内容&#xff1a; 循环神经网络&#xff08;RNN&#xff09;深度学习05-RNN循环神经网络完全理解RNN&#xff08;循环神经网络&#xff09; 传统的CNN&#xff08;Covolutional Neural Network&am…

【考研数学】汤家凤《1800题》值不值得做?

属于中等偏上的水平&#xff0c;想要基础扎实把1800拿下就错不了&#xff01; 这1800道题&#xff0c;真的不是盖的&#xff0c;数量相当可观&#xff01;想搞定它们&#xff0c;可得抓紧时间&#xff0c;不然真做不完。而且&#xff0c;想要效果更佳&#xff0c;还得来个二刷…

Django分页器

Django分页器 分页器前瞻之url urls.py不需要做修改 urlpatterns [path(test/, views.test,nametest), ]假设此时在原有的路径http://127.0.0.1:8000/app01/test后面添加/?page2 然后再后端获取到page def test(request):page request.GET.get(page)print(page) # 2retu…

MATLAB环境下基于改进最大相关峭度解卷积的滚动轴承故障诊断

相关峭度解卷积MCKD是一种新的解卷积方法&#xff0c;其设计了一个新的目标函数—相关峭度&#xff0c;并以此为优化目标设计一系列的FIR滤波器&#xff0c;为实现最好的效果&#xff0c;需要从中找到最优滤波器并最终实现对信号中噪声的抑制和对信号中冲击成分的突出的目的。M…

O2OA红头文件流转与O2OA版式公文编辑器基本使用

O2OA开发平台在流程管理中&#xff0c;提供了符合国家党政机关公文格式标准&#xff08;GB/T 9704—2012&#xff09;的公文编辑组件&#xff0c;可以让用户在包含公文管理的项目实施过程中&#xff0c;轻松地实现标准化公文格式的在线编辑、痕迹保留、手写签批等功能。并且可以…