【第十二章:Sentosa_DSML社区版-机器学习之回归】

news2024/11/16 13:55:31

目录

12.1 线性回归

12.2 决策树回归

12.3 梯度提升决策树回归

12.4 保序回归

12.5 XGBoost回归

12.6 随机森林回归

12.7 广义线性回归

12.8 LightGBM回归

12.9 因子分解机回归

12.10 AdaBoost回归

12.11 KNN回归

12.12 高斯过程回归

12.13 多层感知机回归


【第十二章:Sentosa_DSML社区版-机器学习之回归】

12.1 线性回归

1.算子介绍

        线性回归模型(BuildLRNode)是一个非常经典有效的回归模型,它假设所有特征变量和目标变量之间存在线性关系。通过训练来求得各个特征的权重以及截距。同时可以通过L1,L2正则化来减少模型的过拟合风险,增强模型的通用性。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

reg_param

正则化参数

必填

Double

0.0

>=0.0

正则化参数

fit_intercept

是否拟合截距

必选

Boolean

单选:是,否

是否拟合截距

standardization

是否对数据归一化

必选

Boolean

单选:是,否

是否对数据归一化

elastic_net

弹性网络混合参数

必填

Double

 0.0

[0,1] 当loss=huber时,只能=0

弹性网络则是同时使用了L1和L2作为正则化项,参数中elastic_net为L1范数惩罚项所占比例。若=0时,弹性网络只剩L2范数的惩罚项。若等于1弹性网络退化为L1范数的惩罚项参数值越大对参数惩罚越大,越不容易过拟合

max_iteration

最大迭代次数

必填

Int

 100

>0

最大迭代数

tolerance

收敛偏差

必填

Double

1E-6

>=0

收敛偏差,越小精确度越高,迭代次数越多

loss

优化损失函数

必选

String

squaredError

单选:squaredError huber

优化损失函数。支持的选项: “squaredError”和“huber”。

solver

优化求解算法

必选

String

auto

单选:l-bfgs、normal、auto,loss=huber时,只支持l-bfgs

优化求解算法。支持的选项:“l-bfgs”,“normal”和“auto”。默认值:“auto” ;l-bfgs:限制内存BFGS算法,normal:使用正规方程解决回归问题,auto:自动选择

aggregation_depth

聚合树的深度

必填

Int

2

>=2

设置聚合树的深度参数。如果特征的维度较大,或者分区较大时,该参数应该设置足够大

epsilon

shape参数

必填

Double

1.35

loss=huber且>1.0

控制稳健性的shape参数。 必须是>1.0。在较大的epsilon值下,huber标准变得更接近于最小二乘回归; 对于小的epsilon值,该标准更类似于L1回归。默认值为1.35,以获得尽可能多的稳健性,同时保持正态分布数据的95%统计效率.仅在“损失”为“huber”时有效。

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        当优化损失函数为squareError时,线性回归的属性设置如图所示

线性回归属性设置一

        当优化损失函数为huber时,线性回归的属性设置如图所示

线性回归属性设置二

        其中弹性网格混合参数是同时使用L1和L2作为正则化项时, L1范数惩罚项所占比例,具体参照算子属性表格。正则化参数是损失函数中整个正则化项的参数。当运行到达最大迭代次数或收敛偏差小于设定的收敛偏差时停止迭代。聚合树深度为spark优化算法的参数,默认为2,当特征维度过大或数据分区过大时,建议调为更大的值。

(3)算子的运行

        线性回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接线性回归算子,右击算子,点击运行,得到线性回归模型。

运行线性回归算子获得线性回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

线性回归模型算子流

        右击模型,查看模型的模型信息,如图所示

线性回归模型信息

        模型的运行结果如图所示

线性回归模型运行结果

        模型的评估结果如图所示

线性回归模型评估结果

12.2 决策树回归

1.算子介绍

        决策树分类器是一种简单易用的非参数分类器模型,它会在用户选定的特征列上不断进行分裂,使得在每一分支对目标变量纯度逐渐增高。直至到达分支目标变量一致,或者满足用户设置的终止条件。回归树与分类树比较类似,不同的是分类树最后的决策的结果是离散型的值,回归树决策的结果是输出一个实数。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

max_depth

树的最大深度

必填

Int

5

>=0且<=30

树的最大深度

max_bins

连续型属性划分最大分桶数

必填

Int

32

>=2

连续型属性划分最大分桶数

min_instances_per_node

最小实例数

必填

Int

1

>=1

最小实例数

min_infoGain

最小信息增益

必填

Double

0.0

>=0.0

在树节点上考虑分割的最小信息增益

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        决策树回归算子属性设置如图所示

决策树回归算子属性设置

        前端可配置属性如图所示,树的最大深度,连续型属性划分最大分桶数,最小实例数,最小信息增益都是用来控制构建聚合树时的分裂程度。

(3)算子的运行

        决策树回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接决策树回归算子,右击算子,点击运行,得到决策树回归模型。

运行决策树回归算子获得决策树回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

决策树回归模型算子流

        右击模型,查看模型的模型信息,如图所示

决策树回归模型信息

        模型的运行结果如图所示

决策树回归模型运行结果

        模型的评估结果如图所示

决策树回归模型评估结果

12.3 梯度提升决策树回归

1.算子介绍

        梯度提升树是一个Boosting聚合模型,它是由多个决策树一起组合来预测。多个决策树之间是顺序组合关系,每一个决策树模型都会修正之前所有模型预测的误差。这样经过多个模型的修正,从而提升了整个聚合模型的预测精度。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

max_depth

树的最大深度

必填

Int

5

>=0且<=30

树的最大深度

max_bins

连续型属性划分最大分桶数

必填

Int

32

>=2

连续型属性划分最大分桶数

min_instances_per_node

最小实例数

必填

Int

1

>=1

最小实例数

min_infoGain

最小信息增益

必填

Double

0.0

>=0.0

在树节点上考虑分割的最小信息增益

sub_sampling_rate

子树的训练比例

必填

String

1.0

(0,1]

用于学习每个决策树的训练数据的比例

loss_type

最小化的损失函数

必选

String

squared

squared,absolute

GBT试图最小化的损失函数。(不区分大小写)支持:“squared”,“absolute”

max_iter

最大迭代次数

必填

Int

100

>0

最大迭代次数

step_size

步长

必填

Double

1.0

(0.0,1.0]

feature_subset_strategy

树节点拆分的策略

必选

String

auto

单选: auto,all,onethird,sqrt,log2,n,选择n时,则由用户输入具体>0的数值。

“auto”:自动选择,如果子树个数为1时,则使用全部特征。如果子树个数> 1时(森林),则设置为onethird(特征数量);“all”:使用所有特征;“onethird”:使用1/3的特征;“sqrt”:使用sqrt(特征数量);“log2”:使用log2(特征数量);“n”:当n在范围(0,1.0]时,为n*特征数。当n在范围(1,+∞)时,为特征数和n值两个之间的最小值。

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        梯度提升决策树回归的属性设置如图所示

梯度提升决策树回归属性设置

        前端可配置属性如图所示,树的最大深度,连续型属性划分最大分桶数,最小实例数,最小信息增益都是用来控制构建梯度提升决策树时的分裂程度。子树的训练比例指,在学习每个决策树时所用训练数据的比例。子树的训练比例和步长都是为了防止过拟合。树节点拆分策略为树的每个节点拆分时要考虑的特征数,各选项的具体意义见算子的属性说明表格。

(3)算子的运行

        梯度提升决策树回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接梯度提升决策树回归算子,右击算子,点击运行,得到梯度提升决策树回归模型。

运行梯度提升决策树回归算子获得梯度提升决策树回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

梯度提升决策树回归模型算子流

        右击模型,查看模型的模型信息,如图所示

梯度提升决策树回归模型信息

        模型的运行结果如图所示

梯度提升决策树回归模型运行结果

        模型的评估结果如图所示

梯度提升决策树回归模型评估结果

12.4 保序回归

1.算子介绍

        保序回归是一种特殊的线性回归,如果在业务上具有单调性,则可以使用保序回归。比如,药剂的使用量与毒性满足药剂使用量越大,毒性越大/越小这样的单调性。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

feature_index

特征列

必选

String

连续型feature列

特征列名

isotonic

输出序列设置

必选

Boolean

递增

单选:递增,递减

输出序列是否递增或递减

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        保序回归的属性设置如图所示

保序回归属性设置

(3)算子的运行

        保序回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Label列,再接保序回归算子并设置Feature列,右击算子,点击运行,得到保序回归模型。

运行保序回归算子获得保序回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。在保序回归模型后接排序算子对feature列进行排序,之后接折线图算子,可以看保序回归预测列的运行结果。

保序回归模型算子流

        右击模型,查看模型的模型信息

保序回归模型信息

        模型的运行结果如图所示

保序回归模型运行结果

        模型的评估结果如图所示

保序回归模型评估结果

12.5 XGBoost回归

1.算子介绍

        XGBoost是Extreme Gradient Boosting的缩写,它是一个优化的分布式梯度增强库,具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM),可以快速、准确地解决许多数据科学问题。并且在分布式运行环境下进行了优化,可以解决数十亿规模的样本训练问题。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

num_round

迭代次数

必填

Int

100

[1,Int. MaxValue]

算法的迭代次数(树的数量)

eta

学习率

必填

Double

1.0

[0.0,1.0]

更新中减少的步长来防止过拟合。

gamma

最小分裂损失

必填

Double

0

[0, Double.MaxValue]

在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。这个参数的值和损失函数息息相关,所以是需要调整的。

max_depth

树的最大深度

必填

Int

6

[1, Int.MaxValue]

这个值也是用来避免过拟合的。max_depth越大,模型会学到更具体更局部的样本。

min_child_weight

最小叶子节点样本权重和

必填

Double

1

[0, Double.MaxValue]

这个参数用于避免过拟合。当它的值较大时,可以避免模型学习到局部的特殊样本。 但是如果这个值过高,会导致欠拟合。这个参数需要使用CV来调整。

subsample

子采样率

必填

Double

1

(0,1]

将其设置为0.5意味着XGBoost随机收集了一半的数据实例以生成树,这将防止过度拟合,子采样将在每次boosting迭代中发生一次。

colsample_bytree

每棵树随机采样的列数占比

必填

Double

0.8

(0,1]

用来控制每棵随机采样的列数的占比(每一列是一个特征)。 我们一般设置成0.8左右, 典型值:0.5-1范围: (0,1]

tree_method

树构造算法

必填

String

auto

可选择"auto",“hist”,“approx”

auto:使用启发式方法选择最快的方法, hist: 更快的直方图优化的近似贪婪算, approx:使用分位数草图和梯度直方图的近似贪婪算法

grow_policy

添加节点方式

必填

String

depthwise

仅在tree_method为hist的时候生效可选择:depthwise, lossguide

 depthwise:

在最靠近根的节点处拆分,

lossguide: 在损耗变化最大的节点处拆分

max_bins

最大箱数

必填

Integer

256

仅在tree_method设置为hist时使用, [1, Int. MaxValue)

用于存储连续特征的最大不连续回收箱数,增加此数目可提高拆分的最佳性,但需要增加计算时间。

single_precision_histogram

是否单精度

必填

Boolean

仅在tree_method设置为hist时使用,

可选:是,否

否:双精度

是: 单精度

scale_pos_weight

正负样本不均衡调节权重

必填

Double

1

>0

在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值.

lambda

L2正则化项

必填

Double

1

>= 0

关于权重的L2正则化项。增加此值将使模型更加保守。

alpha

L1正则化项

必填

Double

0

>=0

关于权重的L1正则化项。增加此值将使模型更加保守。

objective

学习目标

必填

String

reg: squarederror

可选:reg:squarederror, reg:squaredlogerror, reg:gamma, reg:tweedie

reg:squarederror:

平方损失回归,

reg:squaredlogerror:

对数平方损失回归,

reg:gamma:使用对数链接进行伽马回归

eval_metric

评估指标

必选

String

根据优化目标默认

可选择[“rmse”,”rmsle”,”mae”,”gamma-deviance”]

rmse:均方根误差; rmsle:均方根对数误差

mae:平均绝对误差; gamma-deviance:伽马回归偏差

base_score

初始预测分数

必填

Double

0.5

>0

所有实例的初始预测分数,全局偏差. 在迭代次数少的情况下,可加快收敛速度, 对于足够数量的迭代,更改此值不会产生太大影响

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        XGBoost回归算子的属性设置如图所示

XGBoost回归算子属性设置

        前端可配置属性如图所示,评估指标即算法的损失函数,有均方根误差、均方根对数误差、平均绝对误差、伽马回归偏差四种;学习率,树的最大深度,最小叶子节点样本权重和,子采样率,最小分裂损失,每棵树随机采样的列数占比,L1正则化项和L2正则化项都是用来防止算法过拟合。当子节点样本权重和不大于所设的最小叶子节点样本权重和时不对该节点进行进一步划分。添加节点方式、最大箱数、是否单精度,这三个参数是当树构造方法是为hist的时候,才生效。最小分裂损失指定了节点分裂所需的最小损失函数下降值。参数的具体意义参考算子属性说明表格。

(3)算子的运行

        XGBoost回归算子为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接XGBoost回归算子,右击算子,点击运行,得到XGBoost回归模型。

运行XGBoost回归算子获得XGBoost回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

XGBoost回归模型算子流

        右击模型,查看模型的模型信息

XGBoost回归模型信息

        模型的运行结果如图所示

XGBoost回归模型运行结果

        模型的评估结果如图所示

XGBoost回归模型评估结果

12.6 随机森林回归

1.算子介绍

        随机森林是一种常用的分类和回归方法。它是一种Bagging的模型聚合方法。它内部集成了大量的决策树模型。每个模型都会选取一部分特征和一部分训练样本。最终由多个决策树模型来共同决定预测值。随机森林算法可以充分利用集群的性能,提高最终聚合模型的精度,并且大大改善模型的过拟合问题。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

max_depth

树的最大深度

必填

Int

5

>=0且<=30

树的最大深度:深度0表示1叶节点; 深度1表示1个内部节点+ 2个叶节点

max_bins

连续型属性划分最大分桶数

必填

Int

32

>=2

用于离散连续特性和选择如何在每个节点上分割特性的最大容器数

min_instances_per_node

最小实例数

必填

Int

1

>=1

每个子节点在分割后必须拥有的最小实例数,

min_infoGain

最小信息增益

必填

double

0.0

>=0.0

在树节点上考虑分割的最小信息增益

feature_subset_strategy

树节点拆分的策略

必选

String

auto

单选:auto,all,onethird,sqrt,log2,选择n时,则由用户输入具体>0的数值。

“auto”:自动选择,如果子树个数为1时,则使用全部特征。如果子树个数> 1时(森林),则设置为onethird(特征数量);“all”:使用所有特征;“onethird”:使用1/3的特征;“sqrt”:使用sqrt(特征数量);“log2”:使用log2(特征数量);“n”:当n在范围(0,1.0]时,为n*特征数。当n在范围(1,+∞)时,为特征数和n值两个之间的最小值。

num_trees

树的数量

必填

Int

20

>=1

要训练的树数

subsampling_rate

子树的训练比例

必填

Double

1.0

(0,1]

用于学习每个决策树的训练数据的一部分,范围。(默认= 1.0)

Wight

权重列

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        随机森林回归的属性设置如图所示

随机森林回归算子属性设置

        前端可配置属性如图所示,树的最大深度,连续型属性划分最大分桶数,最小实例数,最小信息增益都是用来控制构建随机森林时树的分裂程度。子树的训练比例指,在学习每个决策树时所用训练数据的比例。树节点拆分策略为树的每个节点拆分时要考虑的特征数,各选项的具体意义见算子的属性说明表格。

(3)算子的运行

        随机森林回归算子为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接随机森林回归算子,右击算子,点击运行,得到随机森林回归模型。

运行随机森林回归算子获得随机森林回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

随机森林回归模型算子流

        右击模型,查看模型的模型信息

随机森林回归模型信息

        模型的运行结果如图所示

随机森林回归模型运行结果

        模型的评估结果如图所示

随机森林回归模型评估结果

12.7 广义线性回归

1.算子介绍

        广义线性模型[generalize linear model]是线性模型的扩展,通过联结函数建立相应变量的数学期望值与线性组合的预测变量之间的关系。其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的一种发展。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

family

分布方式

必选

String

gaussian

单选gaussian,binomial,poisson,gamma,tweedie

用于描述模型中使用的错误分布

link

连接函数

必选

String

idenity

当family=tweedie时,无此项配置;当family=gaussian时,可选项有identity,log,inverse;family=binomial时,可选项有logit,probit,cloglog;family=poisson时,可选项为identity,log,sqrt;family=gamma时,可选项有identity,log,inverse

为链接函数的名称提供了线性预测函数与分布函数平均值之间的关系

fit_intercept

是否拟合截距

必选

Boolean

单选:是,否

是否拟合截距

variance_power

方差函数的幂

必填

double

0.0

0 和 [1, 无穷大)family=Tweedie

为Tweedie分布的方差函数的幂,提供了分布的方差和均值之间的关系,仅支持 Tweedie系分布方式0对应Gaussian1对应Poisson2对应Gamma系

link_power

冥链函数的索引

必选

double

1

family=Tweedie0,1,-1,0.5

冥链函数的索引,仅适用于Tweedie家族,0,1,-1或0.5分别对应于Log,Identity,Inverse或Sqrt链路。不设置时,默认值为1-variance_power

max_iter

最大迭代次数

必填

Int

25

> 0

最大迭代次数

reg_param

正则化参数

必填

double

0.0

>=0

正则化参数

tol

收敛偏差

必填

double

1E-6

>= 0

收敛偏差

offset_column

偏移量列名

非必填

String

前继算子的输出列

偏移量列名

Wight

权重列

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        广义线性回归算子的属性设置如图所示

广义线性回归算子属性设置

(3)算子的运行

        广义线性回归算子为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接广义线性回归算子,右击算子,点击运行,得到广义线性回归模型。

运行广义线性回归算子获得广义线性回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的预测结果进行评估。

广义线性回归模型算子流

        右击模型,查看模型的模型信息

广义线性回归模型信息

        模型的运行结果如图所示

广义线性回归模型运行结果

        模型的评估结果如图所示

广义线性回归模型评估结果

12.8 LightGBM回归

1.算子介绍

        LightGBM属于Boosting集合模型中的一种,它和XGBoost一样是对GBDT的高效实现。LightGBM在很多方面会比XGBoost表现更为优秀。它有以下优势:更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。

2.算子类型

        机器学习/分类算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

objective

学习目标

必填

String

regression

regression,regression_l1,huber,fair,poisson,quantile,mape,gamma,tweedie

regression别名regression_l2、mse、mean_squared_error,采用l2损失;

regression_l1别名mean_absolute_error、mae,采用l1损失;

huber:huber损失;

fair:fair损失;

poisson:poisson损失;

quantile:quantile损失;

quantile_l2与quantile 类似,但是使用 L2 损失

mape别名mean_absolute_percentage_error

gamma 目标符合gamma分布

tweedie 目标符合tweedie分布

boosting_tye

基学习器

必填

String

gbdt

gbdt,rf,dart,goss

gbdt:梯度提升数,rf:随机森林,dart:dropout+mart,goss:单边梯度重采样

num_iterations

迭代次数

必填

Integer

100

[1, Int.MaxValue]

迭代次数

learning_rate

学习率

必填

Double

0.1

(0,1]

学习率

max_depth

最大深度

必填

Integer

-1

[Int.MinValue, Int.MaxValue]

树模型最大深度的限制,当数据量较小时,用来处理过拟合,树仍然通过leaf-wise生长,<=0意味着没有限制

num_leaves

叶子数量

必填

Integer

31

[2, Int.MaxValue]

叶子数量

min_sum_hessian_in_leaf

最小叶子节点Hessian和

必填

Double

1e-3

[0, Int.MaxValue]

可以防止过拟合

bagging_fraction

Bagging比例

必填

Double

1.0

(0,1]

可以在不进行重采样的情况下随机选择部分数据来加速训练,为了启用bagging。rf时这个参数需要小于1,且bagging_freq > 0。

bagging_freq

Bagging频率

必填

Integer

0

[0, Int.MaxValue]

0意味着关闭bagging, k意味着k次迭代进行一次bagging,此外如果要用bagging,bagging_fraction必须同时小于1.0。

bagging_seed

Bagging种子

必填

Integer

3

>0

Bagging种子。

lambda_l2

L2正则化项

必填

Double

0

>= 0

关于权重的L2正则化项。增加此值将使模型更加保守。

lambda_l1

L1正则化项

必填

Double

0

>=0

关于权重的L1正则化项。增加此值将使模型更加保守。

feature_fraction

特征采样比例

必填

Double

1.0

(0.0,1.0]

如果该参数小于1.0, 在每个迭代,lightgbm会随机选择部分特征进行训练,加速训练,防止过拟合

early_stopping_round

提前终止迭代

必填

Integer

0

>=0

如果一个验证集的metric在过去的 early_stopping_round轮次中没有提升则终止训练,<=0意味着关闭

max_bin

最大箱数

必填

Integer

255

(0,infinite)

较少的箱数可能会降低精度,但是会避免过拟合

boost_from_average

从均值开始提升

必填

Boolean

单选:是,否

只在regression中使用

调整初始分数到标签的平均值,以便更快地收敛

is_provide_training_metric

输出训练metric结果

必填

Boolean

单选:是,否

训练时提供metric结果

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        LightGBM回归的属性设置如图所示

LightGBM回归属性设置

(3)算子的运行

        LightGBM回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接LightGBM回归算子,右击算子,点击运行,得到LightGBM回归模型。

运行LightGBM回归算子获得LightGBM回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的分类结果进行评估。算子流如图4.7.2.8-3所示。

LightGBM回归模型算子流

        右击模型,查看模型的模型信息

LightGBM回归模型信息

        模型的运行结果如图所示

LightGBM回归模型运行结果

        模型的评估结果如图所示

LightGBM回归模型评估结果

12.9 因子分解机回归

1.算子介绍

        因子分解机是一种基于矩阵分解的机器学习算法,可以解决特征组合以及高维稀疏矩阵问题的强大的机器学习算法,首先是特征组合,通过对两两特征组合,引入交叉项特征,提高模型得分;其次是高维灾难,通过引入隐向量(对参数矩阵进行矩阵分解),完成对特征的参数估计。目前FM算法是推荐领域被验证的效果较好的推荐方案之一。

2.算子类型

        机器学习/回归算子。

3.算子属性说明              

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

solver

优化求解算法

必选

String

adamW

单选:adamW,gd

优化求解算法

bias

是否拟合截距

必选

Boolean

true,false

是否拟合截距,即0次项

one_way_interaction

是否拟合一次项

必选

Boolean

true,false

是否拟合一次项

dimension

二次项维度

必选

Int

8

>0

二次项维度

reg_params

正则化参数

必选

Double

0.01

>0

正则化系数

max_itert

最大迭代次数

必选

Int

100

>0

最大迭代次数

init_stdev

二次项初始标准差

必选

Double

0.05

>0.0

二次项初始标准差

step_size

步长

必选

Double

0.01

>0.0

步长

tolerance_conver_iter

迭代的收敛误差

必选

Double

1E-6

>0.0

迭代的收敛误差

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        当优化求解算法选择adamW时,因子分解机回归算子的属性设置如图所示

优化求解算法选择adamW时因子分解机属性设置

        adamW(Adam Weight Decay Regularization):Adam可以看作是RMSprob和动量SGD的结合,目的在于抑制震荡加速收敛。 Adamw则是在Adam的更新策略中采用了计算整体损失函数的梯度来进行更新而不是只计算不带正则项部分的梯度进行更新之后再进行权重衰减。

        当优化求解算法选择gd时,因子分解机的属性设置如图所示

优化求解算法选择GD时因子分解机属性设置

        GD (Gradient Descent): 最为经典的凸优化优化器,通过loss反向传导计算参数的梯度,沿着负梯度的方向更新参数。

(3)算子的运行

        因子分解机回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。为了训练得到更好的模型,训练数据需要使用标准化算子或者归一化算子进行处理。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列(Label列需满足:能转换为Double类型或者就是Double类型),再接因子分解机分类算子,右击算子,点击运行,得到因子分解机分类模型。

运行因子分解机分类算子获得模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的分类结果进行评估。

因子分解机模型算子流

        右击模型,查看模型的模型信息

因子分解机回归模型信息

        模型的运行结果如图所示

因子分解机模型运行结果

        模型的评估结果如图所示

因子分解机模型评估结果

12.10 AdaBoost回归

1.算子介绍

        AdaBoost是一种Boosting集成方法,主要思想就是将弱的基学习器提升(boost)为强学习器,根据上轮迭代得到的学习器对训练集的预测表现情况调整训练集中的样本权重, 然后据此训练一个新的基学习器,最终的集成结果是多个基学习器的组合。

2.算子类型

        机器学习/分类算子。

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

max_depth

树的最大深度

必填

Int

5

>=0且<=30

树的最大深度

max_bins

连续型属性划分最大分桶数

必填

Int

32

>=2

连续型属性划分最大分桶数

min_instances_per_node

最小实例数

必填

Int

1

>=1

最小实例数

min_infoGain

最小信息增益

必填

Double

0.0

>=0.0

在树节点上考虑分割的最小信息增益

feature_subset_strategy

树节点拆分的策略

必填

String

auto

单选:auto,all,onethird,sqrt,log2,选择n时,则由用户输入具体>0的数值。

“auto”:自动选择,如果子树个数为1时,则使用全部特征。如果子树个数> 1时(森林),则设置为sqrt(特征数量);“all”:使用所有特征;“onethird”:使用1/3的特征;“sqrt”:使用sqrt(特征数量);“log2”:使用log2(特征数量);“n”:当n在范围(0,1.0]时,为n*特征数。当n在范围(1,+∞)时,为特征数和n值两个之间的最小值。

subsampling_rate

子树的训练比例

必填

String

1.0

(0,1]

用于学习每个决策树的训练数据的比例

max_iter

迭代次数

必填

Int

10

>0

迭代次数,决定Adaboost子树的数量

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        AdaBoost回归算子的属性设置如图所示

AdaBoost回归属性设置

        前端可配置属性如图所示,树的最大深度,连续型属性划分最大分桶数,最小实例数,最小信息增益都是用来控制构建子决策树时的分裂程度。子树的训练比例指,在学习每个决策树时所用训练数据的比例。子树的训练比例都是为了防止过拟合。树节点拆分策略为树的每个节点拆分时要考虑的特征数,各选项的具体意义见算子的属性说明表格。

(3)算子的运行

        AdaBoost回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接AdaBoost回归算子,右击算子,点击运行,得到AdaBoost回归模型。

运行AdaBoost回归算子获得AdaBoost回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的回归结果进行评估。

AdaBoost回归模型算子流

        右击模型,查看模型的模型信息

AdaBoost回归模型信息

        模型的运行结果如图所示

AdaBoost回归模型运行结果

        模型的评估结果如图所示。

AdaBoost回归模型评估结果

12.11 KNN回归

1.算子介绍

        K-近邻算法是一种惰性学习模型(lazy learning),也称为基于实例学习模型,这与勤奋学习模型(eager learning)不一样。

        勤奋学习模型在训练模型的时候会很耗资源,它会根据训练数据生成一个模型,在预测阶段直接带入数据就可以生成预测的数据,所以在预测阶段几乎不消耗资源。

        惰性学习模型在训练模型的时候不会估计由模型生成的参数,他可以即刻预测,但是会消耗较多资源,例如KNN模型,要预测一个实例,需要求出与所有实例之间的距离。

        K-近邻算法是一种非参数模型,参数模型使用固定的数量的参数或者系数去定义模型,非参数模型并不意味着不需要参数,而是参数的数量不确定,它可能会随着训练实例数量的增加而增加,当数据量大的时候,看不出解释变量和响应变量之间的关系的时候,使用非参数模型就会有很大的优势,而如果数据量少,可以观察到两者之间的关系的,使用相应的模型就会有很大的优势。

        存在一个样本集,也就是训练集,每一个数据都有标签,也就是我们知道样本中每个数据与所属分类的关系,输入没有标签的新数据后,新数据的每个特征会和样本集中的所有数据对应的特征进行比较,算出新数据与样本集其他数据的欧几里得距离,这里需要给出K值,这里会选择与新数据距离最近的K个数据,其中出现次数最多的分类就是新数据的分类,一般k不会大于20。

        KNN在做回归和分类的主要区别,在于最后做预测时候的决策不同。在分类预测时,一般采用多数表决法。在做回归预测时,一般使用平均值法。

        多数表决法:分类时,哪些样本离我的目标样本比较近,即目标样本离哪个分类的样本更接近。

        平均值法: 预测一个样本的平均身高,观察目标样本周围的其他样本的平均身高,我们认为平均身高是目标样本的身高。

2.算子类型

        机器学习/回归算子。

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

k

K值

必填

Int

5

>=2

K近邻的K值

Wight

权重列设置

非必填

String

在建模时,有时不同的样本可能有不同的权重。我们需要支持用户在建模时指定权重列。

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        KNN回归算子属性设置如图所示

KNN回归算子属性设置

(3)算子的运行

        KNN回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接KNN算子,右击算子,点击运行,得到KNN回归模型。

运行KNN回归算子获得KNN回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的回归结果进行评估。

KNN回归模型算子流

        右击模型可以查看模型的模型信息

模型信息

        模型的运行结果如图所示

KNN回归模型运行结果

        模型的评估结果如图所示

KNN回归模型评估结果

12.12 高斯过程回归

1.算子介绍

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

Kernel

核函数类型

必选

String

RBF

RBF

ARDRBF

核函数类型

maxIteration

最大迭代次数

必选

Int

10

正整数

最大迭代次数

tolerance

收敛偏差

必选

Double

1e-6

(0,+∞)

收敛偏差

activeSetSize

模型预测的采样点数

必选

int

1000

正整数

模型预测的采样点数

datasetSizeForExpert

用作超参优化的数据块大小

必选

Int

1000

正整数

用作超参优化的数据块大小

sigma2

噪声的方差参数

必选

Double

2e-1

(0.1,+∞)

噪声的方差参数

activesetProvider

数据采样方法

必选

String

KMeans

GreedilyOptimization、

KMeans、

Random

数据采样方法

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        高斯回归算子属性设置如图所示

高斯回归算子属性设置

(3)算子的运行

        高斯回归为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接高斯回归算子,右击算子,点击运行,得到高斯回归模型。

高斯回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的回归结果进行评估。

高斯回归模型算子流

        右击模型可以查看模型的模型信息

模型信息

        模型的运行结果如图所示

高斯回归模型运行结果

        模型的评估结果如图所示

高斯回归模型评估结果

12.13 多层感知机回归

1.算子介绍

        多层感知是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上,多层感知机层与层之间是全连接的,最底层是输入层,中间是隐藏层,最后是输出层。

2.算子类型

        机器学习/回归算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

layers

隐藏层数设置(逗号分隔的整数)

必填

List<String>

逗号分隔的整型

从输入层到输出层的层数。用逗号分隔的整数,例如780,100,10表示780个输入,100个神经元的隐藏层和10个神经元的输出层

solver

优化算法

必选

String

l-bfgs

单选:l-bfgs gd

优化算法。支持选项:“l-bfgs”/“gd”默认l-bfgs

max_iteration

最大迭代次数

必填

Int

100

>0

最大迭代次数

tolerance

收敛偏差

必填

Double

1E-6

>= 0

收敛偏差

step_size

步长

必填

Double

0.03

>0

步长参数范围: (0,+∞)

优化算法选择gd时显示

feature_weight

是否计算特征重要性

必填

Boolean

单选:是,否

是否计算特征重要性

Calculate_actual_predicted_scatter_plot

是否计算实际值-预测值散点图

必填

Boolean

单选:是,否

是否计算实际值-预测值散点图

calculate_residual_histogram

是否计算残差直方图

必填

Boolean

单选:是,否

是否计算残差直方图

skip_null_value

是否跳过空值

必填

Boolean

单选:是,否

是否跳过空值

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        当优化算法为拟牛顿法时,多层感知机回归的属性设置如图所示。

多层感知机回归算子属性设置

        当优化算法为梯度下降时,多层感知机回归的属性设置如图所示

多层感知机回归算子属性设置

        算子将非数值型Feature转换为数值型,且自动计算输入层神经元个数和输出层神经元个数,用户只需设置隐藏层神经元个数,各隐藏层之间用逗号分隔。

(3)算子的运行

        多层感知机为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

        首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等);然后接类型算子,设置Feature列和Label列,再接多层感知机回归算子,右击算子,点击运行,得到多层感知机回归模型。

运行多层感知机回归获得多层感知机回归模型

        模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行。模型后也可接评估算子,对模型的回归结果进行评估。

多层感知机回归模型算子流

        右击模型,查看模型的模型信息

多层感知机回归模型信息

        模型的运行结果如图所示

多层感知机回归模型运行结果

        模型的评估结果如图所示

多层感知机回归模型评估结果


  

  为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版https://sentosa.znv.com/

Sentosa_DSML算子流开发视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159980.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue Echart使用

一、在vue中使用Echarts 1.安装Echarts npm install echarts --save2.准备一个呈现图表的盒子 给盒子起名字是建议使用id选择器 这个盒子通常来说就是我们熟悉的 div &#xff0c;这个 div 决定了图表显示在哪里&#xff0c;盒子一定要指定宽和高 <div id"main&quo…

构建智能化直播美颜工具:视频美颜SDK的开发指南

本篇文章&#xff0c;笔者将为开发者提供一份详细的指南&#xff0c;帮助你从零开始构建智能化直播美颜工具&#xff0c;并了解视频美颜SDK的实现路径和优化策略。 一、视频美颜SDK的核心功能 视频美颜SDK主要功能是通过一系列图像处理算法&#xff0c;对主播的面部进行实时优…

安卓13删除下拉栏中的设置按钮 android13删除设置按钮

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 顶部导航栏下拉可以看到,底部这里有个设置按钮,点击可以进入设备的设置页面,这里我们将更改为删除,不同用户通过这个地方进入设置。也就是下面这个按钮。 2.问题分析…

[vulnhub] Hackademic.RTB1

第一次打靶机&#xff0c;思路看的红队笔记 https://www.vulnhub.com/entry/hackademic-rtb1,17/ 环境&#xff1a;kali Linux - 192.168.75.131&#xff0c;靶机 - 192.168.75.132 主机发现和端口扫描 扫描整个网络有哪台机子在线&#xff0c;不进行端口扫描 nmap -sP 192.16…

WordPress精选文章如何添加侧边栏和页面?

WordPress精选帖子是一项功能&#xff0c;可让用户在其网站主页或其他值得注意的部分突出显示特定帖子。这些精选帖子通常以视觉上独特的方式显示&#xff0c;例如以滑块、网格或轮播格式显示&#xff0c;以提高其可见性和对访问者的吸引力。 网站所有者可以手动选择他们想要推…

构建 Spring Data JPA 项目所需的依赖与配置

一、使用 Spring Boot Initializr 添加依赖的步骤&#xff08;IntelliJ IDEA 中的操作&#xff09; 打开 IntelliJ IDEA&#xff0c;选择 New Project > Spring Initializr。填写项目的 Group、Artifact、Project Metadata 等基础信息。选择 Maven Project&#xff0c;并选…

【第十六章:Sentosa_DSML社区版-机器学习之生存分析】

【第十六章&#xff1a;Sentosa_DSML社区版-机器学习之生存分析】 16.1 加速失效时间回归 1.算子介绍 加速失效时间回归模型Accelerated failure time (AFT)是一个监督型参数化的回归模型&#xff0c;它可以处理删失数据。它描述了一个生存时间的对数模型&#xff0c;所以它通…

【C语言从不挂科到高绩点】19-指针01【重点知识】

Hello!彦祖们,俺又回来了!!!,继续给大家分享 《C语言从不挂科到高绩点》课程!! 本节将为大家讲解C语言中非常重要的知识点-指针: 本套课程将会从0基础讲解C语言核心技术,适合人群: 大学中开设了C语言课程的同学想要专升本或者考研的同学想要考计算机等级证书的同学想…

论文阅读 | 一种基于潜在向量优化的可证明安全的图像隐写方法(TMM 2023)

TMM 2023 中国科学技术大学 针对现有的可证明安全的图像隐写不能抵抗有损图像操作&#xff0c;而现有的生成图像隐写不能证明安全问题&#xff0c;提出一种基于潜在向量优化的可证明安全的图像隐写方法&#xff08;名为PARIS&#xff09;&#xff0c;该方法受到逆采样器和噪声…

JAVA零基础入门——高级教程之集合框架

目录 1. 关于集合框架 1.1 集合接口 1.2 集合实现类 1.3 集合算法及迭代器和比较器的使用 2. 数据结构 2.1 ArrayList 2.2 LinkedList 2.3 HashMap 2.4 HashSet 3. 迭代器 1. 关于集合框架 集合框架是使用数据结构&#xff08;参见本文2. 数据结构&#xff09;来满…

【Qualcomm】高通SNPE框架的使用 | 原始模型转换为量化的DLC文件 | 在Android的CPU端运行模型

目录 ① 激活snpe环境 ② 设置环境变量 ③ 模型转换 ④ run on Android 首先&#xff0c;默认SNPE工具已经下载并且Setup相关工作均已完成。同时&#xff0c;拥有原始模型文件&#xff0c;本文使用的模型文件为SNPE 框架示例的inception_v3_2016_08_28_frozen.pb文件。imag…

如何只用 CSS 制作网格?

来源&#xff1a;how-to-make-a-grid-like-graph-paper-grid-with-just-css 在看 用于打印到纸张的 CSS 这篇文章时&#xff0c;对其中的网格比较好奇&#xff0c;作者提供了 stackoverflow 的链接&#xff0c;就看到了来源的这个问题和众多回复。本文从里面挑选了一些个人比较…

面试知识点总结篇一

一、C语言和C有什么区别 C语言是面向过程&#xff0c;强调用函数将问题分解为多个子任务&#xff0c;按顺序逐步进行。数据和操作分开C则是面向对象&#xff0c;面向对象是一种基于对象和类的编程范式&#xff0c;关注如何利用对象来抽象和模拟现实世界的实体。因此引入了类&a…

计算机毕业设计 校园新闻管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

77、Python之函数式编程:一文搞懂functools模块的核心应用

引言 Python作为一种支持多范式的编程语言&#xff0c;除了在“一切皆对象”的理念支持下的&#xff0c;函数对象也是一等公民、各种高阶函数的自然实现、lambda表达式快速编写纯函数之外。还有一个内置的模块functools&#xff0c;能够更好地支持我们在Python中应用函数式编程…

[笔记]某视觉三维定位系统参数表

表中的参数是彼此关联的&#xff0c;其实是就是视频解算的速度。里面的1秒直接对应1FPS300m秒直接对应3FPS0-20m的识别范围&#xff0c;与摄像头分辨率、视在焦距与摄像头基线有明确的对应关系。它的矩阵非正方。怀疑一组用于远距&#xff0c;一组用于近距&#xff0c;属于固定…

从入门到精通:Spring Boot 100个技术关键词

Spring Boot 是一个基于Spring框架的快速开发框架&#xff0c;旨在简化Spring应用的初始搭建以及开发过程。通过掌握本指南中的100个关键技术关键词&#xff0c;你将逐步了解Spring Boot的核心概念、自动配置、依赖管理、Web开发、数据库操作、安全性、测试等方面的知识。每个关…

基于真实山地场景下的超多目标优化算法求解无人机三维路径规划,MATLAB代码

超多目标优化算法是一类专门用于解决存在三个以上目标函数的最优化问题的算法。这类问题在现实世界中非常常见&#xff0c;例如在工程设计、资源管理、机器学习等领域。由于目标之间的冲突性&#xff0c;很难找到一个单一的解来同时优化所有目标&#xff0c;因此超多目标优化算…

音视频入门基础:FLV专题(4)——使用flvAnalyser工具分析FLV文件

一、引言 有很多工具可以分析FLV格式&#xff0c;这里推荐flvAnalyser。其支持&#xff1a; 1.FLV 文件分析&#xff08;Tag 列表、时间戳、码率、音视频同步等&#xff09;&#xff0c;HEVC(12)/AV1(13) or Enhanced RTMP v1 with fourCC(hvc1/av01)&#xff1b; 2.RTMP/HTT…

全栈开发(二):springBoot3连接mysql数据库

spring.application.namedemo2 spring.datasource.urljdbc:mysql://localhost:3306/数据库名字?useUnicodetrue&characterEncodingUTF-8&serverTimezoneUTC spring.datasource.username账号 spring.datasource.password密码 spring.datasource.driver-class-namecom.m…