3D点云深度学习处理的基本概念

news2025/1/19 7:57:27

权重矩阵更新学习方法概述

  1. 参数初始化:

需要对权重矩阵初始化参数(通常使用随机初始化方法,如正态分布或者均匀分布生成随机数)

  1. 前向传播:

前向传播中,模型计算权重矩阵和输入数据的结果,得到输出。

  1. 误差计算:

根据模型的输出和标签计算误差。在NLP(自然语言处理)任务中,常使用损失函数是交叉墒损失函数。

  1. 反向传播:

利用误差更新权重矩阵。通过链式法则(Chain Rule)计算损失函数相对于权重矩阵的梯度。

然后使用梯度下降法(Gradient Descent)或其他优化算法(如Adam)更新权重矩阵

Wq = Wq - learning_rate * dL/dWq

Wk = Wk - learning_rate * dL/dWk

Wv = Wv - learning_rate * dL/dWv

其中learning_rate是学习率,dL/dWq、dL/dWk、dL/dWv分别为损失函数相对于权重矩阵Wq、Wk、Wv的梯度。

  1. 迭代训练:

上述步骤完成一个完整的训练迭代。训练过程中,权重矩阵会被不断更新。

迭代训练过程中,模型可以学习到合适的权重矩阵,从而提高模型预测或分类的准确性。

名词说明:

梯度,量化损失函数关于模型参数(权重矩阵)变化时,损失函数的变化。【计算损失函数关于权重矩阵的导数】

举例说明梯度计算(损失函数对于权重矩阵的计算过程)

使用一个简化的神经网络(单层感知机)解决二分类问题。假设输入数据是二维的,因此权重矩阵 W 及偏置项 b 可分别表示为:

W = [w1, w2]

b = b0

对于单个数据点 (x1, x2),假设真实目标标签为 y_true,模型预测的输出为:

y_pred = sigmoid(w1 * x1 + w2 * x2 + b0)

其中 sigmoid 函数用于将输出转换成概率值。接下来,我们使用二元交叉熵损失(Binary Cross Entropy Loss):

L(y_true, y_pred) = -[y_true * log(y_pred) + (1 - y_true) * log(1 - y_pred)]

为了更新权重矩阵 W 和偏置项 b,需要计算损失函数 L 关于 W 和 b 的梯度。这里,直接给出梯度的计算结果:

dL/dw1 = (y_pred - y_true) * x1

dL/dw2 = (y_pred - y_true) * x2

dL/db0 = (y_pred - y_true)

现在,我们用一个具体的数据点和参数值来计算梯度。假设:

(x1, x2) = (1.0, 2.0)

y_true = 1

W = [0.5, -0.1]

b0 = 0.2

首先计算 y_pred

y_pred = sigmoid(0.5 * 1.0 + (-0.1) * 2.0 + 0.2) ≈ 0.509

接下来计算梯度:

dL/dw1 = (0.509 - 1) * 1.0 ≈ -0.491

dL/dw2 = (0.509 - 1) * 2.0 ≈ -0.982

dL/db0 = (0.509 - 1) ≈ -0.491

梯度值告诉我们损失函数在当前参数值下的变化方向。现在根据预设的学习率和梯度更新参数:

learning_rate = 0.1

W_new = [0.5 - 0.1 * (-0.491), -0.1 - 0.1 * (-0.982)] ≈ [0.549, 0.098]

b_new = 0.2 - 0.1 * (-0.491) ≈ 0.249

这个例子展示了如何在具体值条件下计算神经网络中参数的梯度,并用梯度更新参数以减少损失函数值。在实际模型(如多层神经网络)中,这个过程会更复杂,但基本原理是相同的。

构建图结构并提取图特征

代码中图的节点是数据点,边是由K近邻算法(KNN)确定。

具体:

1、找到每个数据点的K个最近邻(KNN)。

计算目标点与邻居点之间的欧氏距离平方,返回其距离矩阵D

通过距离矩阵D,得到距离目标点最近的邻居点。返回值是k个邻居点(特征)和k个邻居点和中心点所连边的索引值idx

2、根据索引值idx,从x(输入)中筛选(找)出其k个邻居点的特征。

import tensorflow as tf


def dyn_dil_get_graph_feature(x, k=16, d=1, use_fsd=False, return_central=True):
    idx = dil_knn(x, k, d, use_fsd)  # 找到每个数据点的K个最近邻;idx是每个数据点与其k个最近邻之间的索引关系。

    # 根据这个索引关系求出从输入特征x中提取出每个点及其邻居点的特征
    if return_central:
        central, neighbors = get_graph_features(x, idx,
                                                True)  # 这里返回的central【shape(batch_size, num_points, k, 3)】和neighbors【shape(batch_size, num_points, k, 3)】。
        return central, neighbors, idx  # 返回中心点特征、邻域点特征、以上两者所连的边的索引值
    else:
        neighbors = get_graph_features(x, idx, False)
    return neighbors, idx


def get_graph_features(x, idx, return_central=True):
    if len(x.get_shape()) > 3:  # 去掉形状为1的维度,使x的shape为(batch_size, num_point, 3)【三维】
        x = tf.squeeze(x, axis=2)
    pc_neighbors = tf.gather_nd(x, idx)  # 根据索引idx从x中提取邻居点的特征(将有idx索引的点从x中提取出来)
    # idx的shape(batch_size, num_point, 2) 表示每个点的k个邻居在x中的位置【二维】即:索引。

    if return_central:

        # 中心点的特征;首先将x在倒数第二个维度上扩展一维,idx.shape[2]=k,,然后将每个点的特征复制k份,使其形状与邻居点特征相同,方便后面运算。
        pc_central = tf.tile(tf.expand_dims(x, axis=-2), [1, 1, idx.shape[2],
                                                          1])  # pc_central的shape和邻居点的shape相同。idx.shape[2]=k。返回的pc_central的shape(batch_size, num_points, k, 3),即有k份shape(batch_size, num_points, 3)的。
        return pc_central, pc_neighbors
    else:
        return pc_neighbors


def dil_knn(x, k=16, d=1, use_fsd=False):
    if len(x.get_shape()) > 3:
        x = tf.squeeze(x, axis=2)  # 压缩到三维
    idx = knn(x, k=k * d)  # [B N K 2] 使用knn函数找到每个目标点的k*d个邻居点的索引。然后使用d扩展率,筛选出k个邻居点的索引。
    if d > 1:
        if use_fsd:
            idx = idx[:, :, k * (d - 1):k * d, :]
        else:
            idx = idx[:, :, ::d, :]
    return idx


def knn(x, k=16, self_loop=False):
    if len(x.get_shape()) > 3:
        x = tf.squeeze(x, axis=2)  # 维度压缩至3维
    # 找到k+1个邻居的索引idx
    _, idx = knn_point_2(k + 1, x, x, unique=True, sort=True)
    if not self_loop:  # 是否自环,即是否去掉最近的邻居(自己)
        idx = idx[:, :, 1:, :]
    else:
        idx = idx[:, :, 0:-1, :]
    return idx


# KNN的具体实现。 k:邻居点数目;points:目标点;queries是查询点;
def knn_point_2(k, points, queries, sort=True, unique=True):
    with tf.name_scope("knn_point"):
        batch_size = tf.shape(queries)[0]
        point_num = tf.shape(queries)[1]

        D = batch_distance_matrix_general(queries, points)  # 计算查询点和目标点之间的距离,返回距离矩阵。
        if unique:
            prepare_for_unique_top_k(D, points)
        distances, point_indices = tf.nn.top_k(-D, k=k, sorted=sort)  # (N, P, K) 找到距离最近的k个邻居。返回值是k个点的值(负数)和它们的索引。
        batch_indices = tf.tile(tf.reshape(tf.range(batch_size), (-1, 1, 1, 1)), (1, point_num, k, 1))
        indices = tf.concat([batch_indices, tf.expand_dims(point_indices, axis=3)], axis=3)
        return -distances, indices  # 返回目标点和k个最近点的距离和索引值。


# 计算查询点和目标点之间的距离
def batch_distance_matrix_general(A, B):  # A是查询点;B是目标点。

    # A * A表示逐元素相乘。reduce_sum表示求和,axis=2最后一个维度。保持结果的维度数和原始数据相同
    r_A = tf.reduce_sum(A * A, axis=2, keepdims=True)
    r_B = tf.reduce_sum(B * B, axis=2, keepdims=True)
    m = tf.matmul(A, tf.transpose(B, perm=(0, 2, 1)))  # 计算了A点乘B的结果
    D = r_A - 2 * m + tf.transpose(r_B, perm=(0, 2, 1))  # 然后求欧式距离的平方
    return D


def prepare_for_unique_top_k(D, A):
    indices_duplicated = tf.py_func(find_duplicate_columns, [A], tf.int32)
    D += tf.reduce_max(D) * tf.cast(indices_duplicated, tf.float32)

1、计算A和B点之间的欧氏距离,对于两个d维度的向量A和B,他们的欧氏距离平方计算公式为:

||A - B||^2 = (A - B) • (A - B) = A • A - 2A • B + B • B

“•”向量的点积。

A和B的shape和x的shape相同(batch_size, num_points, 3)

A解释:

第一个维度1个元素,第二个维度2个元素,第三个维度3个元素。

第一个维度表示batch_size大小。第二个维度表示num_points大小。第三个维度表示点的x,y,z坐标。A这个Tensor的形状shape(1, 2, 3)。

A =

[

[ [1, 2, 3],

[4, 5, 6] ]

]

B = [[[7, 8, 9], [10, 11, 12]]]

2、点云使用矩阵表示,深度学习中叫做Tensor(张量)。

3、idx如何表示center和neighbor之间边的索引

neighbor的shape(batch_size, num_point, k, 3)

center的shape(batch_size, num_point, k, 3)

idx的shape(batch_size, num_point, k, 2)

例如:idx的shape(i, j, m, : )

表示

第"i"个批处理数据

第"j"个中心点

第"m"个邻居点
表示中心点和邻居点在输入数据中的索引

idx[i, j, m, 1]:表示第i个批处理数据中的第j个中心点的第m个邻居的索引值为1。

对邻居点特征和中心点特征卷积操作

## 1、计算临接点与中心点的特征差异,然后使用卷积层进行处理
message = conv2d(neighbors - central, growth_rate, [1, 1], padding='VALID',
                 scope='message', use_bias=True, activation_fn=None, **kwargs)

## 代表了中心点与其邻近点的相对关系,这可以看作是邻域信息。然后,对这些相对关系进行卷积操作,输出的结果就是新的特征,这个特征融合了中心点及其邻域的信息。
## 2、对中心点特征进行卷积操作

x_center = conv2d(x, growth_rate, [1, 1], padding='VALID',
                  scope='central', use_bias=False, activation_fn=None, **kwargs)

## 将处理过的邻居点特征与中心点特征相加,得到新节点特征
edge_features = x_center + message

1、neighbors - central获取中心点与其邻域点之间的相对关系;对它们的相对关系进行卷积操作。

对每个中心点的邻域信息进行编码:考虑每个中心点的上下文信息,即其邻近的点的特征信息,这是点云数据的局部特征。这个过程的目标是学习到一个能够表达该点以及其周围邻居点特征的新特征。这是通过卷积操作实现的,卷积操作可以看作一种加权平均,使得该中心点的新特征不仅取决于自己,也取决于他周围的点。

"表示中心点从其邻域获得的信息"的意思是,由于卷积操作考虑了该点(中心点)周围的点(邻域)的特征,因此新的特征实际上融合了周围点的信息。因此,该特征表示了该点从其周围邻居获取的信息。

2、对中心点的特征进行提取。

MLPs(多层感知器)

MLP 是一种前馈人工神经网络模型,它将多个网络层(每层都包含一些神经元或节点)连接起来。在 MLP 中,每个神经元的输入都来自前一层的所有神经元,其输出则会传输到下一层的所有神经元,这就是所谓的“全连接”。在这个过程中,每个连接都有相应的权重,这些权重在训练过程中会进行调整。

y = conv2d(y, channels, 1,
           padding='VALID', scope='conv1', **kwargs)

y = conv2d(y, channels, 1,
           padding='VALID', scope='conv2', **kwargs)

y = conv2d(y, channels, 1,
           padding='VALID', scope='conv3', **kwargs)

y = conv2d(y, channels, 1,
           padding='VALID', scope='conv4', **kwargs)

y = conv2d(y, channels * scale, 1,
           padding='VALID', scope='conv5', **kwargs)

对点云数据的卷积

图像卷积

数据形状(batch_size, height, width, channels),height,width表示图像的高和宽。

图像卷积中,卷积核在图像上滑动,计算卷积核和其覆盖的像素之间的点积,生成新的特征图。这个过程可以理解为局部特征的提取。

点云卷积(专门实现点云卷积的——>动态图卷积【Dynamic Graph Convolution】)

数据形状为(batch_size, num_points, k, 3),表示有batch_size个批次,每个批次都有num_points个点,每个点有k个邻居,每个邻居有3个坐标值(x, y, z)。

节点特征x在网络中使用矩阵或张量形式表示(图结构也是用这种形式)。在本文中,节点特征的张量x的shape(batch_size, num_points, 3)。

边的信息idx通过邻接矩阵或者边列表表示。在本文中使用KNN搜索得到邻接关系作为边信息idx,idx的这些信息以一个三维张量的形式存储,shape(batch_size, num_points, k),它存储的是每个点的邻居索引。

节点和边信息共同定义了图结构:节点和边信息存储在不同张量中,节点信息存储在特征矩阵x中,边的信息存储在KNN索引张量idx中。

图卷积(一般的图卷积都会建立邻接矩阵进行计算,这里采用的是KNN****的方法确定每个点的邻居节点,间接的建立邻居关系,可以看作是隐式的邻接矩阵)这种方法计算效率高,因为不需要存储大量的邻接矩阵,适合处理大规模的点云数据,缺点是可能无法捕获到更复杂的图结构信息。

  1. 在图卷积中,对于中心节点i,首先找到它的k个最近邻(包括节点自己i)。对于每个邻居节点j,取出他的特征向量x_j,然后用卷积核W与x_j做点乘(或者称为线性变换),得到新的特征向量Wx_j。
  2. 对所有的邻居节点,重复操作,然后将所有的Wx_j聚合起来(例如通过求和或者平均),得到中心节点i的新的特征向量。

实例:

卷积核W是3x3的矩阵。
在这里插入图片描述

对于节点i的邻居节点j,其特征向量x_j为[1, 2, 3],则W和x_j的点乘为:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/574543.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第1关:JDBC程序设计

第1关:JDBC程序设计 任务描述相关知识JDBC程序设计JDBC主要功能JDBC主要接口和函数JDBC应用程序开发实例编程要求代码参考 任务描述 本关任务:使用 JDBC 往表中插入数据。 相关知识 为了完成本关任务,你需要掌握: 1.JDBC 主要功…

SM3_CNC,轴组,G代码解析,CNC运动控制

硬件要求: 中型PLC(汇川AM600,禾川HCQ0),且带 SM3_CNC.library 库(3.5.6支持离线仿真) G代码标准: DIN66025 DIN66025-1标准G0 运动定位 G1 线性插补 G2 顺圆插补 G3 …

决策树案例以及决策树可视化

一、案例背景 泰坦尼克号沉没是历史上最臭名昭著的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。在这个案例中,我们要求完成对哪些人可能存活的分析。特别是&…

【C++系列Pn】引用——背刺指针的神秘刺客“吃我一棍”

前言 大家好吖,欢迎来到 YY 滴 C系列 ,热烈欢迎!如标题所示,本章主要内容主要来侃侃“引用”这个刺客!如下就是大纲啦~ 一.引用 1.含义与特点 引用,即取别名。它的最大特点是编译器不会为引用变量而开辟空间…

202313读书笔记|《山居七年》————我只想在广袤璀璨的星河里享受生的鲜活,独自飞,游走

202313读书笔记|《山居七年》————我只想在广袤璀璨的星河里享受生的鲜活,独自飞,游走 《山居七年》 作者张二冬,选择隐士山居是一种很自由随性的生活态度,我觉得这不是普通人可以拥有的,比如我,并未入…

Office project 2007安装

哈喽,大家好。今天一起学习的是project 2007的安装,Microsoft Office project项目管理工具软件,凝集了许多成熟的项目管理现代理论和方法,可以帮助项目管理者实现时间、资源、成本计划、控制。有兴趣的小伙伴也可以来一起试试手。…

xmind思维导图转成禅道测试用例

xmind思维导图用来编写用例胜在效率高,可以快速的理清楚需求。缺点在于没法上传禅道,但是公司有要求每次迭代要有禅道的测试用例。直接写禅道的测试用例的话,又很耗时,效率低下,与提高人效的公司年度战略不符&#xff…

apache虚拟主机头的实现方式

目录 一:基于不同的IP地址 二:基于不同的端口 三:基于不同的域名 一:基于不同的IP地址 步骤一:修改主配置文件 vim /usr/local/apache/conf/httpd.conf 声明监听不同的IP地址的80端口 Listen 192.168.2.20:80 Listen…

ChatGPT工作提效之使用python开发对接百度地图开放平台API的实战方案(批量路线规划、批量获取POI、突破数量有限制、批量地理编码)

ChatGPT工作提效系列文章目录 ChatGPT工作提效系列 ChatGPT工作提效之初探路径独孤九剑遇强则强ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句、Javascript用法、python的交互)ChatGPT工作提效之生成开发需求和报价单并转为Excel格式ChatGPT工作提效之小…

URLConnection(四)

文章目录 1. 配置客户端请求HTTP首部2. 向服务器写入数据3. URLConnection的安全考虑4. HttpURLConnection 1. 配置客户端请求HTTP首部 HTTP客户端(如浏览器)向服务器发送一个请求行和一个首部,如下: web服务器可以根据这个信息…

Visual Studio 远程调试工具(Remote Debugger)使用方法

一、关于Remote Debugger 当项目在测试环境上有bug,需要运行代码调试一下,这时就需要在测试环境上安装一个调试工具(Remote Debugger),然后在本地运行代码,远程链接到测试环境服务器来调试代码&#xff1b…

算法基础学习笔记——⑦位运算

✨博主:命运之光 ✨专栏:算法基础学习 目录 ✨位运算 ✨操作一 🍓十进制转化成二进制、八进制、十六进制(连除法) 🍓二进制、八进制、十六进制转化成十进制 🍓关于原码,反码&am…

Unity四叉树地图

当使用Unity构建大规模的游戏地图或场景时,使用四叉树数据结构可以提高性能和效率。四叉树是一种基于分割的数据结构,将空间划分为四个相等的子区域,并以递归方式构建树结构。在游戏开发中,四叉树常用于空间分区、碰撞检测和可视化…

Eclipse 教程Ⅱ

Eclipse 修改字符集 默认情况下 Eclipse 字符集为 GBK,但现在很多项目采用的是 UTF-8,这是我们就需要设置我们的 Eclipse 开发环境字符集为 UTF-8, 设置步骤如下: 在菜单栏选择 Window -> Preferences -> General -> W…

python的统计函数库scipy.stats是一个很棒的统计包

描述:在Scipy的模块中,有一个统计的木块——States,其中函数有描述统计(describe)、峰度(kurtosis)、偏度(skew)、众数(mode)、n阶矩。 分布:还有一些分布函数,正泰分布(norm)、对数正态分布(lognorm)、…… 计算:针…

Go语言介绍以及Go语言环境安装

初步介绍: Go 是一个开源的编程语言,它能让构造简单、可靠且高效的软件变得容易。 Go是从2007年末由Robert Griesemer, Rob Pike, Ken Thompson主持开发,后来还加入了Ian Lance Taylor, Russ Cox等人,并最终于2009年11月开源&am…

Manjaro linux 安装svn 并在文件管理器里显示相关图标

需要先安装svn linux版打开终端执行 1 sudo pacman -S svn 安装完成后执行一下 1 svn --version 出现这个就说明svn已经安装完成了,这个时候我们可以执行 1 svn checkout [路径] 就可以检出svn服务器上相关内容了 但是这个有的时候我们打开文件管理器想要看到被…

并发编程的三大特性之原子性

原子性 这个定义是一种规定,描述了Java中的理想就是为了能实现一个操作不能分割,不可中断,一个线程在执行的时候,另一个线程不会去影响他。 Java中的原子性可以理解为多线程操作临界资源,预期的结果和最终的结果一致。…

STM32基本外设超详细44000字教程

GPIO GPIO(General Purpose Input Output)通用输入输出口可配置为8种输入输出模式引脚电平:0V~3.3V,部分引脚可容忍5V输出模式下可控制端口输出高低电平,用以驱动LED、控制蜂鸣器、模拟通信协议输出时序等输入模式下可…

ML | 5 Logistic回归

ML | 5 Logistic回归 文章目录 ML | 5 Logistic回归Logistic回归思想基于Logistic回归和Sigmoid函数分类基于最优化方法的最佳回归系数确定梯度上升法**梯度上升法例子:**梯度下降法 训练算法:使用梯度上升找到最佳参数画出决策边界 训练算法&#xff1a…