Noise Conditional Score Networks(NCSN)学习

news2024/9/23 13:16:12

参考:
[1] https://zhuanlan.zhihu.com/p/597490389
[2] https://www.zhangzhenhu.com/aigc/Score-Based_Generative_Models.html

TOC

  • 1 基于分数的生成模型
    • 1.1 简介和动机
    • 1.2 Score Matching及其改进
      • 1.2.1 Score Matching
      • 1.2.2 Sliced score matching(不是主流,简单介绍)
      • 1.2.3 Denoising Score Matching
    • 1.3 朗之万动力学采样
    • 1.4 问题
      • 1.4.1 分数估计不准
      • 1.4.2 生成结果偏差大
  • 2 NCSN模型
    • 2.1 为什么NCSN模型可以
    • 2.2 NCSN模型详解
      • 2.2.1 噪声设计原则
      • 2.2.2 去噪分数匹配
      • 2.2.3 退火朗之万动力学采样
      • 2.2.4 模型设计
    • 2.3 结合代码具体理解:
      • 2.3.1 Loss
      • 2.3.2 采样生成
      • 2.3.3 ConditionalNorm

1 基于分数的生成模型

1.1 简介和动机

所谓的分数就是对数概率密度的梯度,既 s ( x ) = ∂ ( l o g p ( x ) ) ∂ x s(x)=\frac{\partial(logp(x))}{\partial x} s(x)=x(logp(x))。我们很难估计真实数据分布 p ( x ) p(x) p(x),但如果我们知道分数, 就可以利用分数从 p ( x ) p(x) p(x)做到随机采样,采样方法有很多。

分数就是梯度,既数据分布增大最大的方向和大小(梯度定义),对于数据概率分布来说,概率密度大的地方肯定就是我们想让模型采样数据的区域了(说明训练的图像所在分布都在附近),所以我们每次采样过程都沿着分数(梯度)的方向去走,那么最后就能走到数据分布的高概率区域,生成的数据样本也就符合原始数据分布了。

那么我们的优化目标是什么?以及我们如何采样呢?

1.2 Score Matching及其改进

1.2.1 Score Matching

分数匹配简单来说就是一种概率密度的估计方法。我们的优化目标可表示为下面式子,其中 s ( x ) = ∂ ( l o g p ( x ) ) ∂ x s(x)=\frac{\partial(logp(x))}{\partial x} s(x)=x(logp(x))
1 2 E p d a t a ( x ) [ ∣ ∣ s θ ( x ) − s d a t a ( x ) ∣ ∣ 2 ] \frac{1}{2}E_{p_{data}(x)}[||s_\theta(x)-s_{data}(x)||^2] 21Epdata(x)[∣∣sθ(x)sdata(x)2]
但是求真实的分数我们就要知道真实分布的概率密度,所有有一种score matching的方法可以巧妙地避过求真实分布的概率密度,推导如下图:
在这里插入图片描述
其中第三项不是关于 θ \theta θ的,可以视作常数项。对于第二项,有如下化简:
在这里插入图片描述
其中第二行、第三行的变换用到了分部积分,第三行直接写为 p ( x ) s θ i ( x ) ∣ − ∞ ∞ p(x)s_{\theta_i}(x)|_{-\infty}^\infty p(x)sθi(x),积分默认是从负无穷到正无穷,且假设 p ( ∞ ) = 0 p(\infty)=0 p()=0,最后合并,即可得到
在这里插入图片描述
我们的优化目标经过score matching之后变为:
E p d a t a ( x ) [ t r ( ∂ s θ ( x ) ∂ x ) + 1 2 ∣ ∣ s θ ( x ) ∣ ∣ 2 ] E_{p_{data}(x)}[tr(\frac{\partial s_\theta(x)}{\partial x})+\frac{1}{2}||s_\theta(x)||^2] Epdata(x)[tr(xsθ(x))+21∣∣sθ(x)2]
其中偏导为 s θ ( x ) s_\theta(x) sθ(x)的雅可比矩阵,tr为迹,也就是对角线之和。但由于是偏导数,所以需要多次反向传播来分别对每个分量进行计算。

1.2.2 Sliced score matching(不是主流,简单介绍)

我们使用一个对迹的估计方法( Hutchinson trace estimator)对其进行估计,并且使用自动微分对最终形式进行计算:
在这里插入图片描述
虽然更好计算了,但是计算量反增不减

1.2.3 Denoising Score Matching

之前说 p d a t a ( x ) p_{data} (x) pdata(x)不知道,我们可以自定义数据分布,使之是被知道的。具体做法是:
对原始数据加上噪声,使之满足预定好的分布,然后就知道概率密度了,就可以使用最原始的方法去计算优化目标了。

假设预定好的分布(加噪过程)为 q σ ( x ~ ∣ x ) = N ( x ~ ; x , σ 2 I ) q_\sigma(\tilde x|x)=N(\tilde x; x, \sigma^2 I) qσ(x~x)=N(x~;x,σ2I),其中 σ \sigma σ是与定义好的。加噪的数据变为: q σ ( x ~ ) = ∫ q σ ( x ~ ∣ x ) p d a t a ( x ) d x q_\sigma(\tilde x)=\int q_\sigma(\tilde x|x)p_{data}(x)dx qσ(x~)=qσ(x~x)pdata(x)dx,且在忽略与模型参数不相关的常数项后,我们可以得到:
在这里插入图片描述
其中左边为显示分数匹配(EMS),右边为去噪分数匹配(DMS)。注意:此时我们传入到模型的是加噪后的数据 x ~ \tilde x x~,加载过程就是从 N ( 0 , I ) N(0,I) N(0,I)随机采样噪声,乘上预定义的方差,再加到样本中,既 x ~ = x + σ ϵ \tilde x=x+\sigma \epsilon x~=x+σϵ。这样加载后的数据会满足预定义好的 q σ ( x ~ ∣ x ) q_\sigma(\tilde x|x) qσ(x~x)。我们网络估计出来的分数是对应噪声数据分布 q σ ( x ~ ) q_\sigma(\tilde x) qσ(x~)的,而非 p d a t a ( x ) p_{data}(x) pdata(x)的,所以就要求 σ \sigma σ很小,避免过大扰动。

所以经过denoising score matching可得优化目标:
1 2 E q σ ( x ~ ∣ x ) q d a t a ( x ) [ ∣ ∣ s θ ( x ~ ) + ∇ x ~ l o g ( q θ ( x ~ ∣ x ) ∣ ∣ 2 ] \frac{1}{2}E_{q_\sigma(\tilde x|x)q_{data}(x)}[||s_\theta(\tilde x)+\nabla_{\tilde x}log(q_\theta(\tilde x|x)||^2] 21Eqσ(x~x)qdata(x)[∣∣sθ(x~)+x~log(qθ(x~x)2]

1.3 朗之万动力学采样

采样过程如下:
x ~ t = x ~ t − 1 + ϵ 2 ∇ x ~ t − 1 l o g p ( x ~ t − 1 ) + ϵ z t \tilde x_t = \tilde x_{t-1} +\frac{\epsilon}{2} \nabla_{\tilde x_{t-1}}logp(\tilde x_{t-1}) +\sqrt\epsilon z_t x~t=x~t1+2ϵx~t1logp(x~t1)+ϵ zt
其中 z t z_t zt为从N(0,1)采样的随机项, ϵ \epsilon ϵ为预定好的的步长

1.4 问题

1.4.1 分数估计不准

流形学习角度
在这里插入图片描述
分数的估计 s ( x ) = ∂ l o g ( p d a t a ( x ) ∂ x s(x)=\frac{\partial log(p_{data}(x)}{\partial x} s(x)=xlog(pdata(x)是针对整个编码空间定义的,根据mainfold hypotheis,高维空间中的真实数据大部分倾向于分布在低维空间,也就是说,在某些空间计算梯度是没有意义的,也就导致了loss震荡不收敛的情况。

低密度概率区域角度
在这里插入图片描述
说白了就是模型训练不充分,属于低概率密度区域的数据没有足够的样本让模型去训练,所以导致这部分的分数估计不准。由上图右图可以知道,在中间低概率密度区域,梯度大小和左图真实分数不一样,对于右图而言,如果在中间的地概率密度区域采样,那么可能就陷入在这了(梯度大小太小,不更新)

1.4.2 生成结果偏差大

我们采用的郎之万动力学采样有一个缺陷,当低密度区与把概率空间分成几块的时候,郎之万动力学采样不能很好地表示其比例关系(如下不严谨推导)
在这里插入图片描述
理论上当步长很小,步数很大的时候可以得到与原分布相似的结果,但通常不这么做,太费劲。

2 NCSN模型

2.1 为什么NCSN模型可以

之前提到了两个困难:1) 高维空间的有效性,既真实数据往往只集中在少数低维空间;2)低密度区域往往因为训练样本不足导致分数匹配估计不准确;

通过添加高斯噪声可以解决以上困难:
1) 增加高斯噪声后,相当于改变了原数据分布。首先会破坏 x x x各个维度的相关性,使之的相关性逐渐减少,相当于 x x x变成了满秩。也就解决了上面说的流形学习的问题。
2) 各个分量之间添加的噪声是同等权重的,所以低密度区域的密度会变大,整个密度空间也就变得均匀。且低密度区域不仅会被填满,高密度区域所占的比例在填满后会变得更高,所以扰动后的分数更多地由比例更高的分布的分数演变而来,所以分数的方向自然就指向比例更高的分布。我的理解是以下 p 1 ( x ) p_1(x) p1(x)的值更大了,而 p 2 ( x ) p_2(x) p2(x)的值还很小。
在这里插入图片描述

2.2 NCSN模型详解

2.2.1 噪声设计原则

上面说到,添加高斯噪声可以解决提到的两个困难,并且噪声强度越大,解决的效果越明显。但我们也知道,去噪分数匹配的前提就是 q σ ( x ~ ) q_\sigma(\tilde x) qσ(x~)不能离 p d a t a ( x ) p_{data}(x) pdata(x)太远,所以添加的噪声强度不能太大。所以作者设计了各种强度的噪声, { σ i } i = 1 L \{\sigma_i\}_{i=1}^L {σi}i=1L满足 σ 1 σ 2 = . . . = σ L − 1 σ L > 1 \frac{\sigma_1}{\sigma_2}=...=\frac{\sigma_{L-1}}{\sigma_L}>1 σ2σ1=...=σLσL1>1,且 σ 1 \sigma_1 σ1足够大,使得能够填充低密度区与, σ L \sigma_L σL足够小,使得对原数据分布良好近似

2.2.2 去噪分数匹配

我们已知 q σ ( x ~ ) q_\sigma(\tilde x) qσ(x~)满足高斯分布 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I),所以其分数 ∇ l o g ( q σ ( x ~ ∣ x ) ) = − ( x ~ − x σ 2 ) \nabla log(q_\sigma(\tilde x|x))=-(\frac{\tilde x-x}{\sigma^2}) log(qσ(x~x))=(σ2x~x),所以某个噪声级别的优化目标可以变为:
l ( θ ; σ ) = 1 2 E p d a t a E x ~ ∼ N ( x , σ 2 I ) [ ∣ ∣ s θ ( x ~ , σ ) + x ~ − x σ 2 ∣ ∣ 2 ] l(\theta;\sigma)=\frac{1}{2}E_{p_{data}}E_{\tilde x\sim N(x,\sigma^2I)}[||s_\theta(\tilde x,\sigma)+\frac{\tilde x-x}{\sigma^2}||^2] l(θ;σ)=21EpdataEx~N(x,σ2I)[∣∣sθ(x~,σ)+σ2x~x2]

又NCSN使用了多个噪声级别,应该对齐损失加权后在求平均,所以
L = 1 L ∑ λ ( σ i ) l ( θ ; σ ) L = \frac{1}{L}\sum\lambda(\sigma_i)l(\theta;\sigma) L=L1λ(σi)l(θ;σ)

λ \lambda λ该如何设计呢,有以下出发点:
1) 所有加权后的噪声都应该在同一个数量级,既不受 σ \sigma σ影响,这样就不会因为加权后哪个噪声级别大或小,就重视或忽略其他级别噪声。

作者发现 s θ ( x ~ , σ ) s_\theta(\tilde x,\sigma) sθ(x~,σ)的L2范数在 1 σ \frac{1}{\sigma} σ1的水平,所以作者将 λ ( σ ) \lambda(\sigma) λ(σ)设为 σ i 2 \sigma_i^2 σi2,代入后得
在这里插入图片描述
所以term 1的量级会变为1, term 2采样自 N ( 0 , I ) N(0,I) N(0,I),所以所有噪声级别的损失都会在同一量级。

2.2.3 退火朗之万动力学采样

前文我们讨论过,郎之万动力采样法存在着不足,对于那些存在低密度区域分割成多个高密度区域的复杂分布,需要较多的采样步骤才能得到相对可靠的采样结果, 无法在一个可接受的步骤内得到较好的采样结果,针对这个问题,作者提出了一个改进的郎之万动力采样法,称为退火朗之万动力采样法 (annealed Langevin dynamics)。之所以叫退火朗之万动力采样法,是因为每次的噪音级别都在减小,所以annealed。
在这里插入图片描述
首先初始化超参 { σ i } \{\sigma_i\} {σi},然后从均匀分布或高斯分布中随机采样初始化 x ~ 0 \tilde x_0 x~0。第一层循环是噪声等级循环,由 σ 1 \sigma_1 σ1 σ L \sigma_L σL,由大到小。内部循环是一个朗之万动力学采样过程,既步数由1到T,传入 x ~ t − 1 、 σ i \tilde x_{t-1}、\sigma_i x~t1σi到模型中,预测出分数,然后代入式子进行采样。并且每次内部循环以后,下一个级别的噪声会用上一个级别噪声计算出来的 x ~ 0 \tilde x_0 x~0来当作初始化噪声,理由在下面会解释。当 i = L i=L i=L时, σ L \sigma_L σL很小,所以最终得到的分布就近似于真实数据分布

为什么要用上一个级别的噪声来计算呢?
在这里插入图片描述
在这里插入图片描述
这里 α = ϵ σ i 2 σ L 2 \alpha=\epsilon\frac{\sigma_i^2}{\sigma_L^2} α=ϵσL2σi2的设计是因为:
在这里插入图片描述

2.2.4 模型设计

模型的输出(分数)要和模型的输入图像的shape保持一致,很自然就想到用UNet模型。作者还在其中加入了空洞卷积和以噪声为条件的实例归一化(conditional instance normalization ++ ),并且对于同一个像素点,不同强度下的噪声强度也要对应估计出不同的分数,所以模型还要以噪声强度 σ i \sigma_i σi作为输入。

2.3 结合代码具体理解:

2.3.1 Loss

NCSN的损失函数可以表示为:

l ( θ ; σ ) = 1 2 E p d a t a E x ~ ∼ N ( x , σ 2 I ) [ ∣ ∣ s θ ( x ~ , σ ) + x ~ − x σ 2 ∣ ∣ 2 ] l(\theta;\sigma)=\frac{1}{2}E_{p_{data}}E_{\tilde x\sim N(x,\sigma^2I)}[||s_\theta(\tilde x,\sigma)+\frac{\tilde x-x}{\sigma^2}||^2] l(θ;σ)=21EpdataEx~N(x,σ2I)[∣∣sθ(x~,σ)+σ2x~x2]

L = 1 L ∑ λ ( σ i ) l ( θ ; σ ) λ ( σ ) = σ 2 L = \frac{1}{L}\sum\lambda(\sigma_i)l(\theta;\sigma)\\ \lambda(\sigma)=\sigma^2 L=L1λ(σi)l(θ;σ)λ(σ)=σ2
代码及其解析:

def anneal_dsm_score_estimation(scorenet, samples, labels, sigmas, anneal_power=2.):
    used_sigmas = sigmas[labels].view(samples.shape[0], *([1] * len(samples.shape[1:])))
    
    perturbed_samples = samples + torch.randn_like(samples) * used_sigmas
    
    target = - 1 / (used_sigmas ** 2) * (perturbed_samples - samples)
    
    scores = scorenet(perturbed_samples, labels)
    target = target.view(target.shape[0], -1)
    scores = scores.view(scores.shape[0], -1)
    
    loss = 1 / 2. * ((scores - target) ** 2).sum(dim=-1) * used_sigmas.squeeze() ** anneal_power
    return loss.mean(dim=0)
  • 传入的参数分别表示:
    1)scorenet: 预测分数的网络
    2)samples: 采样的样本,加噪前的样本,既 x t − 1 x_{t-1} xt1
    3)labels: 噪声的级别,可以理解为 i i i,相当于索引,就是能够区分不同的噪声即可
    4)sigmas:预定义的方差
    5)annel_power:就是 λ = σ 2 \lambda=\sigma^2 λ=σ2中的平方项

  • 第一行代码将尺寸由(bs,)变为(bs,1,1,1)

  • 第二行代码计算 x ~ = x + σ ϵ \tilde x= x+\sigma\epsilon x~=x+σϵ

  • 第三行代码计算 x ~ − x σ 2 \frac{\tilde x-x}{\sigma^2} σ2x~x

  • 第四行代码计算模型预测的分数

  • 第五行、第六行代码将尺度变换以下方便计算loss

  • 第七行计算loss,首先计算所有维度下的分数估计的误差总和,然后再求平均

2.3.2 采样生成

伪代码如下:
在这里插入图片描述

python代码如下:

def anneal_Langevin_dynamics(self, x_mod, scorenet, sigmas, n_steps_each=100, step_lr=0.00002):
    images = []

    with torch.no_grad():
        # 依次在每个噪声级别下进行朗之万动力学采样生成,噪声强度递减
        for c, sigma in tqdm.tqdm(enumerate(sigmas), total=len(sigmas), desc='annealed Langevin dynamics sampling'):
            # 噪声级别
            labels = torch.ones(x_mod.shape[0], device=x_mod.device) * c # 
            labels = labels.long()

            # 这个步长并非 Algorithm 1 中的 alpha,而是其中第6步的 alpha/2
            step_size = step_lr * (sigma / sigmas[-1]) ** 2
            
            # 每个噪声级别下进行一定步数的朗之万动力学采样生成
            for s in range(n_steps_each):
                images.append(torch.clamp(x_mod, 0.0, 1.0).to('cpu'))
                # 对应公式(vi)最后一项
                noise = torch.randn_like(x_mod) * np.sqrt(step_size * 2)
                # 网络估计的分数
                grad = scorenet(x_mod, labels)
                # 朗之万动力方程
                x_mod = x_mod + step_size * grad + noise

        return images
  • x_mod x ~ 0 \tilde x_0 x~0
  • 外部for循环中的c表示索引,而labels就是索引值
  • step_size表示 α i / 2 \alpha_i/2 αi/2,而 α i = ϵ ∗ σ i / σ L \alpha_i = \epsilon* \sigma_i/\sigma_L αi=ϵσi/σL,其中 ϵ = 0.00002 \epsilon=0.00002 ϵ=0.00002
  • 内部循环中,要将images先裁剪到0~1,是因为:
    1)方便后期变换为0-255
    2)模型兼容性:归一化到0-1,后期采样时对模型归一化就具有意义。
    3)可视化和存储:将图像数据裁剪到0到1的范围内可以直接用于可视化或存储为标准格式的图像文件(如JPEG或PNG),这些格式期望输入数据在这个范围内。

2.3.3 ConditionalNorm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1487407.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Achronix以创新FPGA技术推动智能汽车与先进出行创新

全球领先的高性能现场可编程门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)提供商Achronix Semiconductor公司宣布,该公司将参加由私募股权和风险投资公司Baird Capital举办的“Baird车技术…

基于主从模式的Reactor的仿muduo网络库

🌇个人主页:平凡的小苏 📚学习格言:命运给你一个低的起点,是想看你精彩的翻盘,而不是让你自甘堕落,脚下的路虽然难走,但我还能走,比起向阳而生,我更想尝试逆风…

备战蓝桥杯————差分数组2

目录 引言 一、拼车 题目描述 解题思路及代码 结果展示 二、航班预定统计 题目描述 解题思路及代码 结果展示 总结 引言 在现代交通管理中,拼车服务和航班预订系统是提高资源利用效率、优化用户体验的关键技术。随着城市交通压力的增大和航空业的快速发…

TIOBE 2024榜单启示:程序员如何把握未来编程趋势与机遇

程序员如何选择职业赛道? 程序员的职业赛道就像是一座迷宫,有前端的美丽花园,后端的黑暗洞穴,还有数据科学的神秘密室。你准备好探索这个充满挑战和机遇的迷宫了吗?快来了解如何选择职业赛道吧! 方向一…

unity-1

创建游戏对象(游戏物体) 可通过unity中的菜单栏中的Gameobject创建;也可在Hierarchy(层级)中创建, 双击即可居中看到。 在Hierarchy空白处右键即可看到,能创建游戏对象。 在Scene框中&#x…

ubuntu环境下docker容器详细安装使用

文章目录 一、简介二、ubuntu安装docker1.删除旧版本2.安装方法一3. 安装方法二(推荐使用)4.运行Docker容器5. 配置docker加速器 三、Docker镜像操作1. 拉取镜像2. 查看本地镜像3. 删除镜像4. 镜像打标签5. Dockerfile生成镜像 四、Docker容器操作1. 获取…

07OpenCV 图像模糊

文章目录 图像掩膜操作模糊原理均值滤波高斯滤波中值滤波双边滤波算子代码 图像掩膜操作 图像掩膜操作 模糊原理 Smooth/Blur是图像处理中最简单和常用的操作之一 使用操作的原因之一就是为了给图像预处理时候减低噪声 图像噪声是指存在于图像数据中的不必要的或多余的干扰信…

docker基线安全修复和容器逃逸修复

一、docker安全基线存在的问题和修复建议 1、将容器的根文件系统挂载为只读 修复建议: 添加“ --read-only”标志,以允许将容器的根文件系统挂载为只读。 可以将其与卷结合使用,以强制容器的过程仅写入要保留的位置。 可以使用命令&#x…

C++笔试题(选择+编程)

个人主页:Lei宝啊 愿所有美好如期而遇 选择题 请找出下面程序中有哪些错误() int main() {int i 10;int j 1;const int *p1;//(1)int const *p2 &i; //(2)p2 &j;//(3)int *const p3 &i;//(4)*p3 20;//(5)*p2 30;//(6…

uniapp和vue项目配置多语言,实现前端切换语言

在uniapp中配置多语言功能,实现前端切换语言,可以按照以下步骤进行: 1. 创建语言包 首先,创建一个名为 lang 的目录,并在该目录下为每种支持的语言创建对应的JSON或JS文件。例如: lang/en.js&#xff08…

Vue3和ElementPlus封装table组件

最近学习vue3.2并自己在写一个项目,然后发现好几个页面都是列表页,重复写table和column也是觉得累,学习的项目列表页不算多,要是公司项目就不一样了,所以就想着自己封装一个table组件,免去大量重复工作和co…

综合实验nginx+nfs+kpa

综合实验 实验目的: 静态资源和动态资源分别存放在远端存储NFS上,NFS上数据实现实时备份,用户通过负载访问后端的web服务。实现ngixn负载高可用,当keepalived master宕机,vip能自动跳转到备用节点 实验环境&#xff…

游戏引擎分层简介

游戏引擎分层架构(自上而下) 工具层(Tool Layer) 在一个现代游戏引擎中,我们最先看到的可能不是复杂的代码,而是各种各样的编辑器,利用这些编辑器,我们可以制作设计关卡、角色、动画…

多功能声学综合馆:塑造未来城市空间的先锋

现代城市需要多功能声学综合馆,这不仅是一座建筑,更是空间的变革者,为城市注入活力,展现着未来的发展方向。让我们一同探讨多功能声学综合馆的种种优势,它是如何为城市带来独特的价值。 1. 灵活性与多功能性的典范&am…

【RT-DETR有效改进】结合SOTA思想利用双主干网络改进RT-DETR(全网独家创新,重磅更新)

一、本文介绍 本文给大家带来的改进机制是结合目前SOTAYOLOv9的思想利用双主干网络来改进RT-DETR(本专栏目前发布以来改进最大的内容,同时本文内容为我个人一手整理全网独家首发 | 就连V9官方不支持的模型宽度和深度修改我都均已提供,本文内…

RK3568平台开发系列讲解(基础篇)中断线程化

🚀返回专栏总目录 文章目录 一、什么是中断线程化二、中断线程化接口三、中断线程化案例沉淀、分享、成长,让自己和他人都能有所收获!😄 一、什么是中断线程化 中断线程化是一种优化技术, 用于提高多线程程序的性能。 中断线程化的核心思想是将中断处理和主线程的工作分…

paimon取消hive转filesystem

目录 概述实践关键配置spark sql 结束 概述 公司上一版本保留了 hive ,此版优化升级后,取消 hive。 实践 关键配置 同步数据时,配置如下,将形成两个库 # ods库 CREATE CATALOG paimon WITH (type paimon,warehouse hdfs:///d…

ospf协议以及案例

OSPF协议网络类型 OSPF协议支持四种网络类型,分别是点到点网络,广播型网络,NBMA网络和点到多点网络。 1、点到点网络是指只把两台路由器直接相连的网络。一个运行PPP的64K串行线路就是一个点到点网络的例子。 2、广播型网络是指支持两台以上…

第二篇【传奇开心果系列】Python的自动化办公库技术点案例示例:深度解读Pandas金融数据分析

传奇开心果博文系列 系列博文目录Python的自动化办公库技术点案例示例系列 博文目录前言一、Pandas 在金融数据分析中的常见用途和功能介绍二、金融数据清洗和准备示例代码三、金融数据索引和选择示例代码四、金融数据时间序列分析示例代码五、金融数据可视化示例代码六、金融数…

第四届信息通信与软件工程国际会议(ICICSE 2024)即将召开!

2024年第四届信息通信与软件工程国际会议(ICICSE 2024)将于2024年5月10-12日在中国北京举办。本次会议由北京工业大学、IEEE以及Comsoc 联合主办。随着当今社会信息化的高速发展,电子信息技术的应用更是随处可见。其中,信息通信与…