【三维重建】【深度学习】NeRF代码Pytorch实现--数据加载(上)

news2025/1/20 13:35:04

【三维重建】【深度学习】NeRF代码Pytorch实现–数据加载(上)

论文提出了一种5D的神经辐射场来作为复杂场景的隐式表示,称为NeRF,其输⼊稀疏的多⻆度带pose的图像训练得到⼀个神经辐射场模型。简单来说就是通过输入同一场景不同视角下的二维图片和相机位姿,对场景进行三维隐式建模,并通过体素渲染方程实现了合成任意新视角下的场景图片。本篇博文将根据代码执行流程解析数据加载过程中具体的功能模块代码。


文章目录

  • 【三维重建】【深度学习】NeRF代码Pytorch实现--数据加载(上)
  • 前言
  • load_llff_data
  • _load_data
  • _minify
  • recenter_poses
  • poses_avg
  • viewmatrix
  • 总结


前言

在详细解析NeuS网络之前,首要任务是搭建NeRF【win10下参考教程】所需的运行环境,并完成模型的训练和测试,展开后续工作才有意义。
本博文是对NeuS数据加载过程中涉及的部分功能代码模块进行解析,其他代码模块后续的博文将会陆续讲解。

博主将各功能模块的代码在不同的博文中进行了详细的解析,点击【win10下参考教程】,博文的目录链接放在前言部分。


load_llff_data

在run_nerf.py文件的train函数里被调用。

# 加载llff格式数据集
images, poses, bds, render_poses, i_test = load_llff_data(args.datadir, args.factor,
                                                                  recenter=True, bd_factor=.75,
                                                                  spherify=args.spherify)

load_llff_data在load_llff.py文件内,由于内容太多,博主将这个函数的代码分段进行讲解。_load_data加载数据集的图片、位姿和边界;recenter_poses对所有相机位姿进行旋转平移变换完成归一化。

# poses[3,5,N] N是数据集个数, 3×3是旋转矩阵R,3×1(第4列)是平移矩阵T,3×1(第5列)是h,w,f
# bds[2,N] 采样far,near信息,即深度值范围
# imgs[h,w,c,N]
poses, bds, imgs = _load_data(basedir, factor=factor) # factor=8 downsamples original imgs by 8x
print('Loaded', basedir, bds.min(), bds.max())

# 列变换 [x,y,z,t,whf]--->[y,-x,z,t,whf]
poses = np.concatenate([poses[:, 1:2, :], -poses[:, 0:1, :], poses[:, 2:, :]], 1)  # [3,5,N]

# 变换维度:调换第-1轴到第0轴位置
poses = np.moveaxis(poses, -1, 0).astype(np.float32)    # [N,3,5]
imgs = np.moveaxis(imgs, -1, 0).astype(np.float32)      # [N,h,w,c]
images = imgs
bds = np.moveaxis(bds, -1, 0).astype(np.float32)        # [N,2]

# 获得缩放因子,以bds.min为基准,有点类似归一化
sc = 1. if bd_factor is None else 1./(bds.min() * bd_factor)
# 对位姿的平移矩阵t进行缩放
poses[:, :3, 3] *= sc
# 对边界进行缩放
bds *= sc

# 计算pose的均值,将所有pose做个均值逆转换
if recenter:
    poses = recenter_poses(poses)

其中以下代码段是为了完成位姿格式的转换。

# 列变换 [x,y,z,t,whf]--->[y,-x,z,t,whf]
poses = np.concatenate([poses[:, 1:2, :], -poses[:, 0:1, :], poses[:, 2:, :]], 1)  # [3,5,N]

列变换后相机坐标系的示意图:


_load_data

加载数据集的resize后的图片(可选)、pose位姿和bds边界信息。其中_minify函数对原始图像进行resize操作。

def _load_data(basedir, factor=None, width=None, height=None, load_imgs=True):
    # 存放数据集的位姿和边界信息(深度范围) [images_num,17] eg:[20,17]
    poses_arr = np.load(os.path.join(basedir, 'poses_bounds.npy'))

    # [images_num,17]--->[3,5,images_num] eg:[3,5,20]
    # 3×3是旋转矩阵R,3×1(第4列)是平移矩阵T,3×1(第5列)是h,w,f
    poses = poses_arr[:, :-2].reshape([-1, 3, 5]).transpose([1, 2, 0])

    # bounds 边界(深度)范围[2,images_num] eg:[2,20]
    bds = poses_arr[:, -2:].transpose([1, 0])

    # 获取第一张图像的地址,图像必须是jpg或png格式
    img0 = [os.path.join(basedir, 'images', f) for f in sorted(os.listdir(os.path.join(basedir, 'images'))) \
            if f.endswith('JPG') or f.endswith('jpg') or f.endswith('png')][0]

    # 获取图像shape[h,w,c]
    sh = imageio.imread(img0).shape

    # 文件名后缀:
    sfx = ''
    # 按照要求resize图像
    # 下采样倍数
    if factor is not None:
        sfx = '_{}'.format(factor)
        _minify(basedir, factors=[factor])
        factor = factor
    # 指定分辨率中的高度
    elif height is not None:
        # 计算出原始尺寸高度和指定高度的比值
        factor = sh[0] / float(height)
        # 按照比值计算出对应的宽度
        width = int(sh[1] / factor)
        # 指定分辨率的方式resize
        _minify(basedir, resolutions=[[height, width]])
        sfx = '_{}x{}'.format(width, height)
    # 指定分辨率中的宽度
    elif width is not None:
        # 计算出原始尺寸高度和指定宽度的比值
        factor = sh[1] / float(width)
        # 按照比值计算出对应的高度
        height = int(sh[0] / factor)
        # 指定分辨率的方式resize
        _minify(basedir, resolutions=[[height, width]])
        sfx = '_{}x{}'.format(width, height)
    else:
        # 不进行尺寸上的任何处理
        factor = 1
    # 获取新尺寸图像的保存路径
    imgdir = os.path.join(basedir, 'images' + sfx)
    # 判断目录是否存在
    if not os.path.exists(imgdir):
        print(imgdir, 'does not exist, returning' )
        return
    # 获取所有新尺寸图像的文件路径
    imgfiles = [os.path.join(imgdir, f) for f in sorted(os.listdir(imgdir)) if f.endswith('JPG') or f.endswith('jpg') or f.endswith('png')]
    # 判断图片pose和新图片的数目是否一致
    if poses.shape[-1] != len(imgfiles):
        print('Mismatch between imgs {} and poses {} !!!!'.format(len(imgfiles), poses.shape[-1]) )
        return

    # 读取新图像的shape[h/factor,w/factor,c]
    sh = imageio.imread(imgfiles[0]).shape
    # 图像尺寸缩小了,相对于的w和h也要改变(替换)
    poses[:2, 4, :] = np.array(sh[:2]).reshape([2, 1])
    # 更新f值 f=f_ori/factor
    poses[2, 4, :] = poses[2, 4, :] * 1./factor

    # 只加载位姿和边界
    if not load_imgs:
        return poses, bds
    
    # 加载图片
    def imread(f):
        if f.endswith('png'):
            return imageio.imread(f, format="PNG-PIL", ignoregamma=True)
        else:
            return imageio.imread(f)
    # 读取所有新图像并归一化
    imgs = [imread(f)[..., :3]/255. for f in imgfiles]
    # 拼接所有图像[h/factor,w/factor,c,images_num]
    imgs = np.stack(imgs, -1)  
    print('Loaded image data', imgs.shape, poses[:,-1,0])
    return poses, bds, imgs

poses位姿3×5矩阵的表示:
[ R t h w f ] \left[ {\begin{array}{cc} R&t&{\begin{array}{cc} h\\ w\\ f \end{array}} \end{array}} \right] Rthwf
R是旋转矩阵3×3,t是位移矩阵3×1,剩下的3×1就是图片尺寸和焦距。


_minify

根据下采样的倍数或者指定分辨率对原始图像进行resize操作,并以png格式保存到新的文件夹中。

def _minify(basedir, factors=[], resolutions=[]):
    needtoload = False
    # 按照下采样倍数
    for r in factors:
        # 判断本地是否已经存有下采样factors的图像
        imgdir = os.path.join(basedir, 'images_{}'.format(r))
        if not os.path.exists(imgdir):
            needtoload = True
    # 按照分辨率下采样
    for r in resolutions:
        # 判断本地是否已经存有对应具体分辨率的图像
        imgdir = os.path.join(basedir, 'images_{}x{}'.format(r[1], r[0]))
        if not os.path.exists(imgdir):
            needtoload = True

    # 如果有直接退出
    if not needtoload:
        return
    # 如果没有需要重新加载

    # 汇制命令语句(操作系统自带此功能)
    from subprocess import check_output
    # 获取原始图片的路径
    imgdir = os.path.join(basedir, 'images')
    # 获取所有图片地址,并排除其他非图像文件
    imgs = [os.path.join(imgdir, f) for f in sorted(os.listdir(imgdir))]
    imgs = [f for f in imgs if any([f.endswith(ex) for ex in ['JPG', 'jpg', 'png', 'jpeg', 'PNG']])]
    imgdir_orig = imgdir.replace("\\", "/")
    # 获得执行py文件当前所在目录
    wd = os.getcwd()

    for r in factors + resolutions:
        # 下采样的倍数 int类型
        if isinstance(r, int):
            # 保存新尺寸图像的文件夹
            name = 'images_{}'.format(r)
            # resize的大小
            resizearg = '{}%'.format(100./r)
        # 指定分辨率 list类型
        else:
            name = 'images_{}x{}'.format(r[1], r[0])
            resizearg = '{}x{}'.format(r[1], r[0])
        # 新尺寸图像的保存路径
        imgdir = os.path.join(basedir, name).replace("\\", "/")
        if os.path.exists(imgdir):
            continue
        print('Minifying', r, basedir)
        # 创建新尺寸图像的保存文件夹
        os.makedirs(imgdir)

        # 将原始图片拷贝到指定新尺寸图像的保存文件夹下
        check_output('cp {}/* {}'.format(imgdir_orig, imgdir), shell=True)
        # 获取图片的数据格式
        ext = imgs[0].split('.')[-1]
        # 绘制执行命令语句
        args = ' '.join(['magick ', 'mogrify', '-resize', resizearg, '-format', 'png', '*.{}'.format(ext)])
        # 切换到新尺寸图像的保存路径
        os.chdir(imgdir)
        # 对新尺寸图像的保存路径中的原始图片进行resize,并用png格式保存
        check_output(args, shell=True)
        # 切回当前执行py文件所在目录
        os.chdir(wd)
        # 因为新尺寸图像的保存路径下除了png格式的新尺寸图像,还有原始尺寸图像需要删除,要是原始图像也是png格式则直接覆盖
        if ext != 'png':
            check_output('rm {}/*.{}'.format(imgdir, ext), shell=True)
            print('Removed duplicates')
        print('Done')

recenter_poses

中心化相机位姿,即包括位置和朝向。

  • poses_avg函数计算出所有相机的平均位姿。
  • 相机的平均位姿的逆左乘所有相机位姿进行旋转平移变换完成归一化。
def recenter_poses(poses):
    poses_ = poses+0        # [N,3,5]
    # 作用是让平均相机位姿[3,4]变为[4,4]
    bottom = np.reshape([0,0,0,1.], [1, 4])     # [1,4]
    c2w = poses_avg(poses)  # [3,4]
    c2w = np.concatenate([c2w[:3, :4], bottom], -2)          # [4,4]

    # 作用是让所有相机位姿[3,4]变为[4,4]
    # bottom[1,1,4]--->对bottom对应维度进行复制扩展[images_num,1,1]==>[1*N,1*1,4*1]
    bottom = np.tile(np.reshape(bottom, [1, 1, 4]), [poses.shape[0], 1, 1])     # [N,1,4]
    # poses shape [images_num,4,4]
    poses = np.concatenate([poses[:, :3, :4], bottom], -2)      # [N,4,4]

    # 求c2w的逆矩阵,并与poses进行矩阵运算,目的是完成所有相机位姿的归一化
    poses = np.linalg.inv(c2w) @ poses      # [4,4]

    # 用新的旋转矩阵R替换原始的旋转矩阵R
    poses_[:, :3, :4] = poses[:, :3, :4]    # [4,4]
    # 对pose进行中心化处理
    poses = poses_
    return poses

代码的示意图如下图所示:

图中实线构成的坐标系是原始位姿,虚线构成的坐标系是经过旋转平移变换的,Pose_mean变换后的坐标系与世界坐标系是完全重合的。

相机的平均位姿的逆左乘相机的平均位姿产生的新的位姿(单位矩阵)是完全与世界坐标系重合的(原点和坐标轴都重合),那么利用同一个 旋转平移变换矩阵(相机的平均位姿的逆) 左乘所有的相机位姿是对所有的相机位姿做一个全局的旋转平移变换完成归一化,这样变换后的所有相机的平均位姿就处在世界坐标系的原点,所有光心的质心(平均位姿的光心)也由世界坐标系上的一个非原点转变成了原点。

平移矩阵t可以理解成光心,因为从原点平移t。


poses_avg

计算所有图片对应相机位姿的均值,即包括位置和朝向。

  • 位置:对全部相机的中心求均值得到center。
  • 朝向:所有相机的Z轴求和归一化平得到vec2(平均单位方向向量),:所有相机的Y轴求和得到up(主方向向量),通过viewmatrix函数得到全部相机的外参均值。
def poses_avg(poses):
    # 获取图像的尺寸和焦距
    hwf = poses[0, :3, -1:]             # [3,1]
    # 计算全部平移矩阵t的均值
    center = poses[:, :3, 3].mean(0)    # [N,3]
    # 全部旋转矩阵R的第三列求和并归一化(方向向量相加再归一化等效于平均单位方向向量)
    vec2 = normalize(poses[:, :3, 2].sum(0))    # [3]
    # 全部旋转矩阵R的第二列求和(方向向量相加理解成所有方向向量的主方向向量)
    up = poses[:, :3, 1].sum(0)         # [3]
    #
    c2w = np.concatenate([viewmatrix(vec2, up, center), hwf], 1)    # [3,5]
    return c2w

代码的示意图如下图所示:


viewmatrix

构造相机矩阵的的函数,通过z轴的平均单位方向向量和y轴的主方向向量计算出x轴的单位方向向量,然后z轴的平均单位方向向量和x轴的单位方向向量计算出y轴的单位方向向量,最后xyz三轴的三维方向向量加上平均相机中心构造出所有相机的平均位姿。

def viewmatrix(z, up, pos):
    # z轴平均单位方向向量
    vec2 = normalize(z)         # [3,1]
    # y轴主方向向量
    vec1_avg = up               # [3,1]
    # 计算出x的单位方向向量
    vec0 = normalize(np.cross(vec1_avg, vec2))              # [3,1]
    # 计算出y州的单位方向向量
    vec1 = normalize(np.cross(vec2, vec0))                  # [3,1]
    m = np.stack([vec0, vec1, vec2, pos], 1)    # [3,4]
    return m

代码的示意图如下图所示:

虚线表现计算出的新轴的单位方向向量,这里y轴为什么也要重新计算?有观点认为这是因为有可能原始的y并不与z互相垂直,存在计算误差?


总结

尽可能简单、详细的介绍数据加载过程中部分代码:_load_data加载数据和recenter_poses对所有相机位姿完成归一化。后续会讲解其他功能模块的代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/925599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抢鲜体验!vLive虚拟直播5大实用新功能上线!

vLive虚拟直播系统2.6.2版本全新上线!新版本一共更新了5项实用功能,能让你的直播操作更加方便。现在就跟随小编一起来看看吧! 1.本地下载场景支持一键迁移 用户下载后的场景可以直接迁移至另一个磁盘,无需重复下载。 2.信号源添加…

《深度学习计算机视觉 》书籍分享(包邮送书三本)

深度学习计算机视觉介绍 随着计算机技术的发展和进步,计算机视觉领域得到了广泛的关注和研究。而深度学习作为一种强大的机器学习方法,已经成为计算机视觉领域的重要工具之一。本文将介绍深度学习在计算机视觉中的应用和取得的成果。 深度学习是一种模…

MeterSphere常用操作/脚本记录

设置变量 vars.put(“key”,“value”); //存为场景变量 设置环境变量 vars.put(${__metersphere_env_id}“key”,“value”); //存为环境变量 随机生成手机号 String phone “178123${__RandomString(5,0123456789)}”; //178123开头,后面5位随机 获取当前请求…

Python爬虫分布式架构 - Redis/RabbitMQ工作流程介绍

在大规模数据采集和处理任务中,使用分布式架构可以提高效率和可扩展性。本文将介绍Python爬虫分布式架构中常用的消息队列工具Redis和RabbitMQ的工作流程,帮助你理解分布式爬虫的原理和应用。 为什么需要分布式架构? 在数据采集任务中&#…

子查询和事务隔离以及用户管理

一、子查询 子查询是另一个语句中的select语句嵌套在另一个select中。注意子查询语法上必须使用()包起来。 嵌套的那个语句返回的结果有可能是: 一个字段,一行记录,一个列或一个表。嵌套的位置 where / having语句里面作为条件使用在from语…

DPLVO

在这篇论文核心: 实现了dso的点线优化框架实现了线特征的参数最小化 点的投影与线的投影 点在相机中是一个射线的投影,线其实是一个平面的投影。在vins等系统中采用逆深度对点特征进行表达,三维点只需要一维度的表达就可以了,大…

从VMware Workstation的虚拟机导入到esxi主机中

从VMware Workstation的虚拟机导入到esxi主机中 是从VMware Workstation中的虚拟机导入部署到ESXI主机中使用,使用真实环境导出和部署的过程,我为了帮助到有些初学者仅供参考,我做了知识共享。 1、打开VMware Workstation中的一个虚拟机&…

下半场开哨!AIGC+智能汽车,谁在引领市场新风口

“智能汽车已经成为AIGC应用的下一个‘重地’。” 中科创达副总裁、畅行智驾CEO屠科在8月22日于南京举办的《软件赋能汽车智能化转型发展高峰论坛》上发表演讲时表示:在AIGC时代,汽车的“智能属性”将加速释放,智能驾驶也将迎来快速发展。 中…

Windows 基础结构密码管理

在大多数 IT 环境中,Windows 服务器和系统是基础结构的重要组成部分。本地、域和服务帐户构成了对 Windows 基础结构的核心访问,因此,对于任何组织来说,破坏这些特权帐户中的任何一个都是最糟糕的情况: 本地管理员帐户…

在线翻译插件

今天找到一个浏览器在线插件,支持翻译本地PDF文档。 链接 支持各种浏览器,这里以Chrome为例。下载安装完扩展程序之后,如下操作: 选择需要翻译的PDF就OK了

基于Java+SpringBoot+vue前后端分离英语知识应用网站设计实现

博主介绍:✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专…

OAuth2.0 客户端实战

上一次课程,我们了解了 OAuth 认证是怎么回事,以及了解了四种认证方式,今天我们将以 Github 为例,了解一下如何用 Flask 第三方应用 在之前的介绍 JWT 的时候,了解过 Authlib 库,Authlib 是集 JWT、OAuth1…

使用 eBPF 在云中实现网络可观测性

可观测性是一种了解和解释应用当前状态的能力,也是一种知道何时出现问题的方法。随着在 Kubernetes 和 OpenShift 上以微服务形式进行云部署的应用程序越来越多,可观察性受到了广泛关注。许多应用程序都有严格的承诺,比如在停机时间、延迟和吞…

战略企业家派:企业家愿景形成的过程

战略企业家派:战略的是企业家愿景形成的过程【安志强趣讲267期】 趣讲大白话:企业家才是关键因素 **************************** 战略企业家派的代表是熊彼特 他认为企业家的职责在创新 只有创新才能赢得更多利润 创新是新产品或新生产方式的各种组合 提…

学习心得04:CUDA

2018年的时候,看过同事使用CUDA。因为工作忙,所以也没请教。 近来买了本入门的CUDA书,学习了一番。有两个心得: 工作拆分。 CUDA是并行计算,也就是大量重复的可拆分的计算。数组最符合这个要求。简单点就是把数组外面…

接口多态 面试题及习题

基础题目 第一题:概念辨析 什么是接口,如何定义接口? 接口,是Java语言中一种引用类型,是方法的集合。使用interface关键定义接口,其中可以定义抽象方法,默认方法,私有方法&#xf…

实例044 在关闭窗口前加入确认对话框

实例说明 用户对程序进行操作时,难免会有错误操作的情况,例如不小心关闭程序,如果尚有许多资料没有保存,那么损失将非常严重,所以最好使程序具有灵活的交互性。人机交互过程一般都是通过对话框来实现的,对话…

基于SpringBoot母婴商城系统【附开题|万字文档(LW)和搭建文档】

主要功能 前台界面: ①首页、商品信息推荐、商品资讯展示、查看更多等 ②商品信息、商品名称、标签、品牌等 ③添加购物车、立即购买、点我收藏、评论等 ④个人中心、我的订单、我的地址、我的收藏、支付等 后台登录: ①首页、个人中心:修改…

ElasticSearch-集成ik分词器

本文已收录于专栏 《中间件合集》 目录 背景介绍版本选择优势说明集成过程1.下载安装包2.解压安装包3.重启ElasticSearch服务3.1通过ps -ef | grep elastic查看正在启动的es进程号3.2使用kill -9 xxx 杀死进程3.3使用 ./elasticsearch 启动es服务 分词测试细粒度分词方式分词请…

git操作:将一个仓库的分支提交到另外一个仓库分支

这个操作,一般是同步不同网站的同个仓库,比如说gitee 和github。某个网站更新了,你想同步他的分支过来。然后基于分支开发或者其它。 操作步骤 1.本地先clone 你自己的仓库。也就是要push 分支的仓库。比如A仓库,把B仓库分支&am…