论文学习(一):基于遥感技术的凉山州森林火险预测方法研究

news2024/11/24 6:41:17

文章目录

  • 摘要部分
  • 一、绪论
  • 二、研究区历史火情分析
    • 2.1凉山州森林火灾年际变化特征
    • 2.2凉山州森林火灾月际变化特征
    • 2.3凉山州森林火灾空间分布特征
    • 2.4森林火灾等级与起火原因分析
  • 三、数据与方法
    • 3.1数据来源
    • 3.2数据预处理
    • 3.3研究方法
      • 3.3.1逻辑回归:最大似然估计
      • 3.3.2决策树
      • 3.3.4随机森林
      • 3.3.5K近邻算法
      • 3.3.6XGBoost算法
    • 3.4精度评估方法
      • 3.4.1混淆矩阵
      • 3.4.2准确率指标
      • 3.4.3ROC曲线
  • 四、火险因子与火点分布规律研究
    • 4.1植被覆盖度
    • 4.2植被类型
    • 4.3可燃物含水率与温度植被干旱指数
    • 4.4地形因子
    • 4.5气象因子
    • 4.6人为因素
    • 4.7因子多重线性检验
  • 五、基于机器学习的凉山州森林火险模型构建
    • 5.1构建数据集
    • 5.2模型训练
      • 5.2.1逻辑回归训练模型
      • 5.2.2决策树算法训练模型
      • 5.2.3随机森林算法
      • 5.2.4K近邻算法
      • 5.2.5XGBoost算法
    • 5.3模型结果与讨论
    • 5.4林火风险模型驱动因子
    • 5.5案例应用与分析
    • 5.6精度比较


DOI:10.27486/d.cnki.ggjys.2023.000007
标题:基于遥感技术的凉山州森林火险预测方法研究
链接:知网

摘要部分

研究内容:构建有区域特色的高精度火灾风险预测模型
研究背景:选取凉山地区,基于多源遥感数据、气象因子、社会经济等数据,采用多种机器学习训练模型构建林火风险预测模型,选出区域最优模型。
研究方法:构建逻辑回归、决策树、随机森林、K_近邻和XGBoost五个算法的林火风险预测模型,采用混淆矩阵和ROC曲线进行评价。

一、绪论

研究目标:针对凉山州地理特色,挖掘遥感数据的特点,构建高精度火灾风险预测模型
研究内容:

  • 火情时空分布规律
    • 时空分布规律研究:2005-2018年火点的时空分布特征,研究林火随年份、月份的时间变化规律及17个县级行政区的空间分布特征。
    • 林火等级及原因:统计林火等级、面积、起火原因。
  • 火险因子分析:研究14个火险因子与火点分布之间的关系,即利用14个火险因子构建数据集。
  • 高精度林火风险模型构建:构建逻辑回归、决策树、随机森林、K_近邻和XGBoost五个算法的林火风险预测模型。

二、研究区历史火情分析

  对森林火灾规律进行时空分析,共875场林火。

2.1凉山州森林火灾年际变化特征

  2005-2018森林火点数量年际变化:
在这里插入图片描述
火点共875个,平均每年63个,年份之间差异巨大,整体为波动状态。

2.2凉山州森林火灾月际变化特征

在这里插入图片描述
在这里插入图片描述
  主要集中在1-4月(89%),之后急剧下降。

2.3凉山州森林火灾空间分布特征

  Arcmap将14年火点数据与行政区矢量图结合,发现火点主要集中于凉山州西部,且西北部火点数量明显多于西南部:
在这里插入图片描述
在这里插入图片描述

2.4森林火灾等级与起火原因分析

  森林火灾分为一般火灾、较大火灾、重大火灾、特大火灾四种,总体起火时间集中在1-4月:
在这里插入图片描述
起火原因如下:
在这里插入图片描述
在这里插入图片描述
  2017年1月至2019年1月之间,火场面积相对平稳,2019年1月后,出现较大波动和多峰值。

三、数据与方法

3.1数据来源

  选用可燃物、地形、气象、人为四方面因子进行火险预测。

  • 可燃物:植被覆盖度、植被类型、可燃物含水率、温度植被干旱指数。
    • 可燃物含水率:单位质量或重量可燃物的水分含量。
    • 可燃物好含水率:表征区域干旱程度
    • 植被覆盖度:影响林火的发生概率、火行为的蔓延和林火烈度。
    • 植被类型:遥感数据通过分析植物的光谱特征反映生长和分布状况,植被光谱特征受到植物叶子的颜色、组织构造、含水量和植被的覆盖度等的影响,不同植被的特征可通过遥感影像反演,从而对植被特征进行划分。
  • 地形因素:高程、坡度、坡向、降雨量、气温。
  • 坡度:影响可燃物含水率的变化,平缓地区降水容易积累,含水率高。
  • 坡向:接收阳光照射不同,温度、水分、植被都会有差异。
  • 高程:高程升高,气温下降而形成植被的垂直分布特征,影响林火的发生。
  • 气象因子:连续无降水日、风俗、相对较小湿度。
  • 人为因素:居民点、道路。

在这里插入图片描述
在这里插入图片描述

  • 植被覆盖度:中国区域250m植被覆盖度数据集,合成方式为月最大值合成,采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。
  • 可燃物含水率:单位质量或重量可燃物的水分含量,用%表示。可燃物指地表堆积可燃物,MODIS(中分辨率成像光谱仪,用于观测波段)第七波段对水分敏感。NDII7可较好表征可燃物含水率,值越小代表地表湿度越低。
    在这里插入图片描述

3.2数据预处理

  生成植被类型图:
在这里插入图片描述
植被类型包括农田(旱作农田+灌溉农田)、草地(草本植被+草原)、常绿阔叶林(开阔的常绿阔叶林+郁闭的常绿阔叶林)、落叶阔叶林(开放落叶阔叶林+郁闭落叶阔叶林)、常绿针叶林(开阔常绿针叶林+郁闭常绿针叶林)、灌木林(灌木地+常绿灌木地)。

  温度植被干旱指数TVDI(Temperature Vegetation Dryness Index)研究区域干旱程度,计算方法:
在这里插入图片描述

  • T s m i n = a + b ∗ N D V I Tsmin=a+b*NDVI Tsmin=a+bNDVI:湿边方程
  • T s m a x = c + d ∗ N D V I Tsmax=c+d*NDVI Tsmax=c+dNDVI:干边方程

在这里插入图片描述
计算出逐月的TVDI值。
  可燃物含水率采用归一化红外指数7(NDII7),较低的干燥植被比更易发生燃烧。采用MOD09GA数据计算NDII7指数来表征可燃物的含水率。NDII7计算方法:
N D I I 7 = ( B 1 − B 2 ) / B 1 + B 2 NDII7=(B1-B2)/B1+B2 NDII7=B1B2/B1+B2
  B1=band2+6.0band1-7.0band3,B2=band7,有:

  • band1:红光波段反射率
  • band2:修正前的近红外波段反射率
  • band3:蓝光波段反射率
  • band7:7波段反射率

在这里插入图片描述

3.3研究方法

3.3.1逻辑回归:最大似然估计

  对于一个样本 ( x , y ) (x,y) (x,y) x x x由d个特征描述, x x x y y y之间有隐含映射 f ( x ) = y f(x)=y f(x)=y。线性模型目的是学习一个函数 f ~ \tilde{f} f~来最大限度拟合隐含映射 f f f,表达式:
f ~ ( w , b , x ) = w x + b = y ~ \tilde{f}(w,b,x)=wx+b=\tilde{y} f~(w,b,x)=wx+b=y~
其中,w、b分别为权重矩阵和偏置,后者用于增加线性模型的拟合能力。损失函数常使用均方误差函数:
m i n ( y − y ~ ) 2 = m i n ( y − w x − b ) 2 min(y-\tilde{y})^2=min(y-wx-b)^2 min(yy~)2=min(ywxb)2
E = ( y − w x − b ) 2 E=(y-wx-b)^2 E=(ywxb)2,对E求w、b的偏导:
在这里插入图片描述
令偏导数等于0得:
在这里插入图片描述
  普通的线性回归模型主要用于处理和预测连续型数据的算法。而逻辑回归由线性回归变化而来,是一种线性分类器,主要用于处理分类任务。其本质是使用sigmoid函数将线性回归的值转换到(0,1)之间,这个值就是分到设定类的概率。sigmoid函数定义如下:
在这里插入图片描述
在这里插入图片描述

将z=wx+b带入得到:
在这里插入图片描述
化简:
( 1 − y ) / y = e − w x + b (1-y)/y=e^{-wx+b} (1y)/y=ewx+b
两边同取对数(b的符号不重要,保持为+号),得到:
在这里插入图片描述

  • y:类别1的概率。
  • 1-y:类别0的概率

  逻辑回归的运算过程如下:
在这里插入图片描述

  本实验是二分类任务,故使用单位阶越函数将结果转化为两种类别以实现分类:

在这里插入图片描述

  • z>0:类别1
  • z=0:任意类别
  • z<0:类别2

即,以0.5作为sigmoid函数输出的分界线,当sigmoid函数输出值小于0.5时,表示样本的标签认为是0,反之则认为标签是1,这样既可得到一个分类模型。

  本实验的逻辑回归中通过最大似然估计求取参数值。最大似然原理如下:
在这里插入图片描述
极大似然估计的思想即为,忽略低概率事件而直接将高概率事件认为是真实事件。

详解间:CSDN

3.3.2决策树

  详细计算案例可参考:CSDN
  决策树算法常用于分类和回归任务。它通过对数据集进行反复的二分划分,构建一棵树状结构,每个非叶节点代表一个特征属性上的决策,每个叶节点代表一个类别标签或回归值。

  • 信息熵:用于量化信息的不确定性,是对可能性的一种度量,一个事件的不确定性越大,我们从该事件的发生中获得的信息就越多。注意,熵永远都是非负的,当随机变量的取值确定(仅有一个取值)时,熵为0,而当所有类别发生的概率都相等时(即分布是均匀分布),熵达到最大值。

计算方式:
在这里插入图片描述

  • H ( X ) H(X) H(X):随机变量X的熵。
  • x i x_i xi:随机变量的一个可能取值。
  • p ( x i ) p(x_i) p(xi):该取值的概率。
  • n n n:随机变量所有可能取值的数目。

信息熵反应了样本集的纯度,其值越小,样本集的纯度越高,即大多数样本属于同一个类别。

  • 信息增益:通过父节点的信息熵减去所有子节点加权信息熵的总和得到。ID3算法会选择具有最大信息增益的特征作为当前节点的最优划分属性。信息增益的计算公式为:

在这里插入图片描述

  • H(D):原始数据集D的信息熵

信息增益的含义为,知道某个特征的信息之后,数据集不确定性减少的程度。

  经典决策树算法ID3流程如下:

  • 1.计算父节点信息熵。
  • 2.计算不同特征的信息熵增益,即,按照这个特征划分数据后得到的子节点的加权信息熵,加权信息熵是指每个子节点的信息熵乘以一个权重,这个权重是子节点样本数占父节点样本数的比例。
  • 3.在所有特征中选择信息增益最大的一个作为当前节点的最优划分特征。
  • 4.对每个由最优特征划分出的子数据集,重复以上过程,直到满足停止条件(如所有样本属于同一类别或没有更多特征可用)。

  例:
在这里插入图片描述

  • F1:样本属性1,取值包括A、B、C。
  • F2:样本属性2,取值包括D、E、F。

  样本信息熵:
在这里插入图片描述
计算每一个属性的信息增益。当以F1作为样本的划分依据时,由于F1有A、B、C共三个取值,故将样本划分为3类 S 1 、 S 2 、 S 3 S_1、S_2、S_3 S1S2S3

  • S 1 S_1 S1:6个样本,正反例各占3/6.
  • S 2 S_2 S2:6个样本,正例占4/6,反例占2/6.
  • S 3 S_3 S3:5个样本,正例占1/5,反例占4/5.

计算三种按特征F1划分之后三个子集的信息熵:
在这里插入图片描述
从而得出样本按F1划分后的信息增益:
在这里插入图片描述
同理可计算出按F2划分时的信息增益:
在这里插入图片描述
可知,按F2划分时信息增益较大(即,不确定因素下降),故按F2将样本集划分为三个子集。在每个子集内再次计算按F1、F2划分时的信息增益,并不断重复上树过程,直到满足停止条件(子集中所有样本的标签相同或没有更多特征可用于分裂)。

3.3.4随机森林

  详解可见:CSDN
  决策树算法是一种基于if-then-else规则的有监督学习算法,基本逻辑如下:
在这里插入图片描述
  随机森林算法则由多种决策树组成,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。在这里插入图片描述
  随机森林的构建思路为,每棵决策树训练时都从原始数据集进行有放回的随机抽样(即Bootstrap抽样),并在每个节点分裂时随机选择部分特征进行最佳分裂。最终结果通过对所有树的预测结果进行投票(分类)或平均(回归)来确定。步骤如下:

  • Bootstrap抽样:从原始数据集中随机抽取多个样本子集,每个子集用于训练一棵决策树。
  • 特征选择:在每个节点分裂时,随机选择部分特征。计算信息增益并进行划分。
  • 决策树构建:根据选定的样本子集和特征,构建多棵决策树。
  • 结果集成:对于分类任务,通过对所有树的预测结果进行投票决定最终分类结果;对于回归任务,通过对所有树的预测结果进行平均决定最终回归结果。

3.3.5K近邻算法

  K近邻(KNN)算法常用于分类、回归任务。基本思想为:给定一个待分类样本,找出与其距离最近的k个训练样本(邻居),然后通过这k个邻居的类别来决定待分类样本的类别,即这K个样本的多数属于某个类,就把该输入样本分类到这个类中。而在分类任务中,一般通过k个邻居的目标变量值的平均值来预测待测样本的目标变量值。

3.3.6XGBoost算法

  XGBoost(极端梯度提升树)由大量决策树构成,与随机森林不同,组成XGBoost的决策树之间有先后顺序,后一棵决策树的生成会考虑前一棵决策树的预测结果,使得先前决策树做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一棵决策树。

3.4精度评估方法

3.4.1混淆矩阵

  混淆矩阵用于总结模型预测结果,并存储到矩阵中:
在这里插入图片描述
混淆矩阵中,每一列代表了预测值,每一行代表了真实值。含义如下:

  • True Positive (TP):模型将实际为正类别的样本正确预测为正类别。
  • False Negative (FN):模型将实际为正类别的样本错误预测为负类别。
  • False Positive (FP):模型将实际为负类别的样本错误预测为正类别。
  • True Negative (TN):模型将实际为负类别的样本正确预测为负类别。

通过混淆矩阵,可计算出一系列的性能指标。举例,当下有一个垃圾邮件检测器,将电子邮件分为垃圾邮件(正类别)和非垃圾邮件(负类别)两类。测试集共有100个样本,预测结果如下:

  • 模型将60封实际是垃圾邮件的邮件预测为垃圾邮件(True Positive, TP = 60)。
  • 模型将10封实际是垃圾邮件的邮件错误地预测为非垃圾邮件(False Negative, FN = 10)。
  • 模型将5封实际上不是垃圾邮件的邮件错误地预测为垃圾邮件(False Positive, FP = 5)。
  • 模型将25封实际上不是垃圾邮件的邮件正确预测为非垃圾邮件(True Negative, TN = 25)。
真实标签\预测标签预测为垃圾邮件(正类别)预测为非垃圾邮件(负类别)
实际是垃圾邮件(正类别)1——>1,TP=601——>0,FN=10
实际是非垃圾邮件(负类别)0——>1,FP=50——>0,TN=25

3.4.2准确率指标

  常见准确率指标如下:

  • 精确度(Accuracy):模型预测正确的样本数与总样本数之比。

A c c u r a c y = ( T P + T N ) / ( T P + F P + F N + T N ) Accuracy=(TP+TN)/(TP+FP+FN+TN) Accuracy=(TP+TN)/(TP+FP+FN+TN)

  • 召回率(Recall):模型正确预测正例样本的比例。

在这里插入图片描述

  • 准确率(Precision):模型预测为正例的样本中,真正例的比例。

在这里插入图片描述

  • F1值:综合了准确率和召回率。

在这里插入图片描述

3.4.3ROC曲线

  计算案例见:CSDN
  ROC曲线常用于评价二分类器的优劣。
在这里插入图片描述
ROC曲线的计算基于真阳性率(TPR)和伪阳性率(FPR),其横坐标是伪阳性率,指标越低代表误判率越低,纵坐标是真阳性率,该指标越高代表预测准确度越高。

  • 真阳性率(TPR):也称为召回率,即正样本被正确分类为正样本的比例,计算公式为:

在这里插入图片描述

  • 伪阳性率(FPR):表示负样本不能被正确分类的比例,计算公式为:

在这里插入图片描述
  ROC图中有虚线作为基准线(最低标准),蓝色曲线为ROC曲线,ROC曲线离基准线越远,模型预测效果越好。有:

  • ROC 曲线接近左上角:模型预测准确率很高。
  • ROC 曲线略高于基准线:模型预测准确率一般。
  • ROC 低于基准线:模型未达到最低标准,无法使用。

  AUC(Area Under Curve)是ROC曲线下与坐标围成的面积,取值范围为[0.5,1],值越大代表模型预测效果越好。

四、火险因子与火点分布规律研究

  使用植被覆盖度反映可燃物的载量,利用可燃物含水率和温度植被干旱指数表征可燃物的干燥程度。

4.1植被覆盖度

在这里插入图片描述
  植被覆盖度有如下等级:

  • 低覆盖度:≤30%
  • 中低覆盖度:30~45%
  • 中覆盖度:45~60%
  • 高覆盖度:60%

在这里插入图片描述
  随着植被覆盖度的增加,火点呈现急剧增加的趋势。

  • 高植被覆盖度地区:726个火点分布。
  • 中覆盖度地区:118个火点分布。
  • 中低覆盖度地区:50以下。

4.2植被类型

  2005年植被类型与火点分布:
在这里插入图片描述
  2010年植被类型与火点分布:
在这里插入图片描述

  2015年植被类型与火点分布:
在这里插入图片描述
在这里插入图片描述
  火点在不同植被类型熵分布差异较大。

4.3可燃物含水率与温度植被干旱指数

  可燃物含水率:

在这里插入图片描述
  火点对应可燃物含水率在[0,0.8]之间,有:

  • [0.4,0.7]:745个
  • [0.5,0.6]:322个
  • [0.4,0.5]:304个

  温度植被干旱指数(TDVI),是一种基于光学与热红外遥感通道反演植被覆盖度区域表层土壤水分反演指数,用于反映某一时段区域的相对干旱程度:
在这里插入图片描述
TDVI越大,表示土壤干旱程度越高。有:

  • [0.5,0.6]:170个
  • [0.6,0.7]:162个

4.4地形因子

  • 高程:某点沿铅垂线方向到绝对基面的距离。火点与高程分布的关系:

在这里插入图片描述
火点相对集中分布于1800~3188m的高程之间。不同高程,植被类型及其易燃性不同,因此火点分布差异较大,在高程较低的地方建设用地较多,森林少,林火少;高程较高的地方植被生长受限,林火风险较低。
在这里插入图片描述

  • 坡度:研究区坡度分为平、缓、斜、陡、急、险共6级。

在这里插入图片描述
在这里插入图片描述
坡度较缓的地方相对开发程度高,林火较少;坡度陡,降水停留时间短且流失块,可燃物更干燥。

  • 坡向:坡向分为北坡、东北坡、东南坡、南坡、西南坡、西坡、西北坡八种。

在这里插入图片描述
火点在坡向分布上相对均匀。但不同坡向植被会因太阳辐射的差异而含水量不同,一般阳坡植被含水量低、可燃性高。
在这里插入图片描述

4.5气象因子

  • 降雨量:火点分布集中在降水量较多和较少的地区,较多的地区植被生长茂盛,可燃物堆积量大,易引发火灾;较少的地区相对干燥,同样易引发火灾。

在这里插入图片描述

  • 气温:指火点对应时间前15日平均最高气温。

在这里插入图片描述

  • 连续无降水日:火点前30日连续无降水日的规律。集中在8日、23日、27日火点数量较多,火点分布在连续无降水日较大的区域较多。

在这里插入图片描述

  • 风速:火点对应前两日的最大风速与火点之间的规律。总体变化趋势为,随着风速增加,火点数量也出现增加,[7,11]区间内则虽风速增加,火点数量逐渐减少。

在这里插入图片描述

4.6人为因素

  • 居民点:计算研究区居民点密度并叠加火点图。

在这里插入图片描述
在这里插入图片描述
火点随居民点密度的增加出现明显的下降,居民点密度大的地区植被数量少,且火灾在开始时容易被发现;而居民点密度小的地区一旦发生林火,一般很难发现。

  • 道路:道路分布与密度反映认为活动的范围和频次。

在这里插入图片描述

4.7因子多重线性检验

  • 数据归一化处理:将需要处理的数据去量纲并映射到指定范围。归一化将不同单位或量级的指标数据变为纯量,消除因子之间不同量纲、量纲单位的影响,便于不同单位和量级的指标能够进行比较和加权。

  即,数据归一化处理将数转换为(0,1)之间的小数,并将有量纲的表达式转换为无量纲的表达式。本文使用Min-Max标准化方法对数据进行线性变换,计算正、负向因子的方式如下:
在这里插入图片描述

  • 多重共线性分析:回归方程中各变量之间可能存在近似的线性关系(某一变量可由其他变量线性组合代替),很大程度影响模型可解释性、增加数据冗余性、影响计算速度。在分析多个预选取因子与林火风险概率之间的关系时,应当进行多重共线性检验,排除存在显著共线性的风险因子,提高预测模型的准确性。常见共线性检测方法包括相关系数法、方差膨胀因子、特征值法。

  本文采用方差膨胀因子法,度量多个自变量之间的多重共线性程度,计算公式为:
在这里插入图片描述
R 2 R^2 R2表示自变量与其他自变量之间的决定系数,若VIF大于10,则表明自变量存在较严重的多重共线性问题。
在这里插入图片描述
使用SPSS软件进行风险因子的共线性检验。通过共线性统计中的容差与VIF(方差膨胀因子)判断自变量的共线性,容差和VIF互为倒数。有:

  • 容差≤0.1:因子间存在严重共线性。
  • VIF<3:因子间没有共线性问题。

初步确定,因子共线性较低。采用皮尔逊相关系数再次检验因子相关性,其用于科学反映变量间相关程度,计算方式为:
在这里插入图片描述
其中,x、y为火险因子,var为二者方差。皮尔逊系数取值为[-1,1],认:

  • 绝对值大于0.8的因子有高度相关性。
  • 绝对值在[0.4,0.8]的因子相关性中等。
  • 绝对值在[0,0.4)的因子相关性低。

在这里插入图片描述
只有道路密度和居民点密度之间皮尔逊系数为0.48,可认为14个因子均可用于模型构建。

五、基于机器学习的凉山州森林火险模型构建

5.1构建数据集

  使用arcmap软件在研究区生成随机点,剔除与火点重合的点,并随机匹配2005-2017年防火期任意日期,生成了非火点数据集。训练集、验证集和测试集划分比例如下:
在这里插入图片描述
  在创建标签数据集后需完成数据预处理工作。首先对数据进行标准化处理,选择均值-标准差标准化方式,将属性值映射到-1到1之间,并使属性值更接近正态分布。如数据集 ( x i , y i ) (x^i,y^i) (xiyi),其中 x i x^i xi为输入数据向量,共14维, y i y^i yi则为样本数据对应的标签,且以1表火点,0表非火点。对输入数据进行均值-标准差标准化处理:
在这里插入图片描述
其中 x j x_j xj表示该样本第 j j j个因子的值, u j 、 δ j u_j、δ_j ujδj分别表示数据集所有样本第 j j j个因子的均值、标准差。

5.2模型训练

5.2.1逻辑回归训练模型

  为防止过拟合,需确定最优迭代次数,故计算不同迭代次数下逻辑回归算法中各特征权重在验证集上的变化并绘制权重变化曲线。高程的权重与偏置随迭代次数的变化曲线如下:
在这里插入图片描述
可见,随迭代次数的增加,权重和偏置都快速收敛,最优迭代次数为30次。得到迭代30次时权重系数的值(维度为1*14):
在这里插入图片描述
而偏置为-0.218,逻辑回归算法在测试集上的准确率为58.4%。

5.2.2决策树算法训练模型

  构建并优化决策树,使其能拟合林火风险和14个林火影响因子之间的映射。使用基尼系数作为决策树叶节点划分的标准,当所有样本都被准确划分到不同类别时,决策树训练停止。决策树构建过程如下:
在这里插入图片描述
  不同分类任务,决策树有不同参数需确定。以决策树深度为例,使用训练集对有不同最大深度的决策树进行训练,准确率随最大深度的变化曲线如下:
在这里插入图片描述
注意,最大深度仅仅是模型训练时设定的参数,实际决策树未达到最大深度就可能已完成对数据集的划分,实际树深度和最大深度关系如下图:
在这里插入图片描述
  在最大深度与准确率关系的图中,随最大深度的增加,准确率也不断提升,当层数达到21时,准确率在0.66附近波动。而在最大深度与实际深度的关系图中,当最大深度超过21时,实际深度不再增加。表明决策树深度达到21时已学习到火点或非火点与林火影响因子之间的映射,故决策树最大深度应选为21。
  展示决策树前三层结构:
在这里插入图片描述
决策树从根节点处按温度植被干旱指数划分为两个子集,对应基尼系数为0.498;两个子集分别按照坡向和坡度进行划分,以此类推,直至划分出最终结果,完成决策树训练。

5.2.3随机森林算法

  随机森林由多棵决策树组成,将训练集划分为不同子集对不同树进行训练综合得到最好的分类结果。随机森林最重要的参数是包含决策树的数目,使用控制变量法得到随机森林在验证集上准确率随决策树数目变化的曲线:
在这里插入图片描述
可确定最优决策树数目为200.随机森林生成流程如下:
在这里插入图片描述
随机展示一棵决策树的结构,其准确率为72.9%:
在这里插入图片描述

5.2.4K近邻算法

  使用控制变量法绘制准确率随K值变化的曲线,确定最优K值为40,准确率为65.73%:
在这里插入图片描述
K近邻算法流程如下:
在这里插入图片描述

5.2.5XGBoost算法

  训练流程如下(仅有前四层结构):
在这里插入图片描述
需通过控制变量法确定最优决策树数目和最优决策树深度,绘制关系图:
在这里插入图片描述
选择决策树数目为200,决策树层数为18,XGBoost准确率为74%。随机展示两棵决策树前四层:
在这里插入图片描述

5.3模型结果与讨论

在这里插入图片描述

  • 逻辑回归:植被覆盖度、道路密度等因子与火险概率有显著线性关系,故拟合效果相对较好,而可燃物含水率、坡向等因子与火险概率无完全的线性关系,故拟合效果差。
  • K近邻算法:精度高,但对数据集依赖性较高,存在大量样本需要分类时,计算效率较低。
  • 决策树算法:能较好拟合火险因子和火险概率之间的高度非线性映射。但在火险因子较多时,在风险预测时常陷入局部最优解,导致整体精度较低。
  • 随机森林:构建多棵不同决策树,改善决策树算法问题,大大提高精度,但因子较多,存在少量数据缺失和无效值,随机森林对缺失值敏感,精度会受到影响。
  • XGBoost:整合了多棵决策树,且解决随机森林对缺失值敏感的问题,效果最佳。

  五种模型混淆矩阵如下:
在这里插入图片描述

  • 随机森林和XGBoost在火点预测上火点个数最多为115,但非火点预测中XGBoost比随机森林稍好。

  五种模型ROC曲线如下:
在这里插入图片描述
  随机森林与XGBoost火点预测准确度最高,AUC最高位0.787.

5.4林火风险模型驱动因子

  以下是对逻辑回归、决策树、随机森林、XGBoost林火风险预测模型的驱动因子权重和特征重要性进行分析(K近邻原理是计算样本数据间的距离,无法定量表示不同林火风险因子的重要性):
在这里插入图片描述

  • 逻辑回归模型:高程、最小湿度是负相关性较高的因子,植被覆盖度、道路密度是正相关性较高的因子。
  • 决策树模型:气象因素中的风速、人为因素对模型影响较大。
  • 随机森林模型:高程、最小相对湿度、居民点密度是重要性较高的几个因子。
  • XGBoost:气象因子、可燃物因子、人为因素是重要性较高的几个因子。

5.5案例应用与分析

  使用XGBoost模型以凉山州2018年四场真实历史火点为验证数据,得到凉山州森林火灾风险空间概率分布图,并得到以下预测:
在这里插入图片描述
使用自然断点法进行火险等级划分,将火险等级划分为极低风险区、低风险区、中风险区、高风险区和极高风险区。得到:

在这里插入图片描述

5.6精度比较

  将模型结果与森林火险气象等级预报进行比较:

  • 2月18日:气象预报预测火点处为火险气象较高区,模型预测结果为高风险区。
  • 4月5日、18日和5月11日:火点未分布在气象预报风险区,但分布在模型预测高风险区。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2109371.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

iOS——持久化

iOS的数据存储机制 沙盒机制 应用沙盒文件夹包含了&#xff1a; Application(应用程序包)&#xff1a;包含了所有的资源文件和和可执行文件&#xff0c;上架前经过数字签名&#xff0c;上架后不可修改。 Documents&#xff1a;文档目录&#xff0c;要保存程序生成的数据&…

华为OD机试 - 最大相连男生数 - 矩阵(Python/JS/C/C++ 2024 E卷 200分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

[数据集][目标检测]水面垃圾检测数据集VOC+YOLO格式2027张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;2027 标注数量(xml文件个数)&#xff1a;2027 标注数量(txt文件个数)&#xff1a;2027 标注…

信创实践(3):基于x2openEuler将CentOS升级成openEuler,享受其带来的创新和安全特性

引言&#xff1a; 在当前的 IT 行业中&#xff0c;创新和安全性是两大关键趋势。随着 CentOS 停止维护&#xff0c;许多用户正在寻找替代方案&#xff0c;以保持其系统的更新和安全。openEuler 作为一个强大的开源操作系统&#xff0c;成为了理想的迁移目标。本教程将指导您如…

大语言模型的上下文窗口(Context Windows):对人工智能应用的影响

大语言模型&#xff08;LLMs&#xff09;极大地提升了人工智能在理解和生成类人文本方面的能力。其中一个影响其效用的基本方面是它们的 “上下文窗口”—— 这个概念直接影响着这些模型接收和生成语言的有效性。我将深入探讨上下文窗口是什么、它们对人工智能应用的影响以及组…

【通俗理解】Baseline在竞赛中的意义——性能比较的标准尺

【通俗理解】Baseline在竞赛中的意义——性能比较的标准尺 关键词提炼 #Baseline #竞赛标准 #算法性能 #性能比较 #改进评估 #魔改基础 #优势彰显 第一节&#xff1a;Baseline的类比与核心概念【尽可能通俗】 1.1 Baseline的类比 Baseline在竞赛中就像是一场跑步比赛的起跑…

【IEEE独立出版 | 最终截稿时间:2024年9月9日23:59】第三届人工智能、物联网和云计算技术国际会议(AIoTC 2024)

【IEEE独立出版 | 最终截稿时间&#xff1a;2024年9月9日23:59】 第三届人工智能、物联网和云计算技术国际会议&#xff08;AIoTC 2024&#xff09; 2024 3rd International Conference on Artificial Intelligence, Internet of Things and Cloud Computing Technology 202…

轻松驾驭开学季,智慧校园综合解决方案!

智慧校园是指运用先进的信息技术手段和智能化系统&#xff0c;对学校内部各种教育资源、管理流程和服务进行数字化、网络化、智能化的整合与优化&#xff0c;提供高效便捷的教育教学和管理服务环境的校园。 智慧校园建设从哪些方面入手呢&#xff1f; 1.智慧食堂管理系统 基于…

[3.4]【机器人运动学MATLAB实战分析】平面RRR机器人正运动学MATLAB计算

本文重点介绍平面RRR机械手结构的正运动学方程的算例,这些是工业机器人中经常遇到的。平面RRR机器人运动学建模如下: 机器人模型: 表1三连杆平面臂的DH参数 由于所有关节都是转动型的,对每一个关节都具有相同的定义的齐次变换矩阵结构,即: 则计算正运动学方程得:

xAI巨无霸超级计算机上线:10万张H100 GPU,计划翻倍至20万张

在短短四个多月的时间里&#xff0c;埃隆马斯克的X公司&#xff08;前身为Twitter&#xff09;推出了世界上最强劲的人工智能训练系统。名为Colossus的超级计算机使用了多达10万张NVIDIA H100 GPU进行训练&#xff0c;并计划在未来几个月内再增加5万张H100和H200 GPU。 “本周末…

时间序列神器Prophet教程-入门教程

公众号&#xff1a;尤而小屋编辑&#xff1a;Peter作者&#xff1a;Peter 大家好&#xff0c;我是Peter~ 今天给大家分享一个时间序列预测神器Prophet的简易入门教程。 什么是Prophet Prophet是一种基于加法模型的时间序列预测工具&#xff0c;由Facebook的数据科学团队开发…

实战训练与源码教程:用Real-ESRGAN对抗生成超分技术实现超高清图像!

目录 前言 超分数据如何构造呢&#xff1f; Real-ESRGAN 1. 高质量细节重建 2. 真实感和自然度 3. 处理真实世界数据 4. 多尺度和多种类型的输入 5. 视觉效果的提升 超分如何退化 1. 模糊处理 2. 噪声处理 3. 压缩失真 4. 训练数据的退化模拟 2.经典退化模型◆退…

【苍穹外卖】Day 7 缓存、购物车相关接口

1 缓存 存在问题&#xff1a; 用户端小程序展示的菜品数据都是通过査询数据库获得&#xff0c;如果用户端访问量比较大&#xff0c;数据库访问压力随之增大 >解决&#xff1a; 通过 Redis 来缓存菜品数据&#xff0c;减少数据库查询操作 缓存逻辑分析&#xff1a; 每个分…

PyDracula:用 PySide6 和 PyQt6打造现代感 Python GUI 的利器

PyDracula 是一个基于 PySide6 或 PyQt6 的 Python GUI 库&#xff0c;它以其现代、美观、易于定制的特点而闻名。PyDracula 融合了流行的 Dracula 主题&#xff0c;并提供了丰富的功能&#xff0c;让开发者可以轻松构建出具有吸引力的图形界面。本文将详细介绍 PyDracula 的核…

【Godot4.3】CanvasShape资源化改造

概述 通过把之前自定义的CanvasShape类变成资源类型&#xff0c;将可以同时用于CanvasItem绘图和创建扩展的Node2D和Polygon2D节点等。 本篇就完成CanvasShape类的资源化改造&#xff0c;并记录改造过程和思路。 CanvasShape资源类型体系 CanvasShape仍然为图形基类&#xf…

Android Auto未来可能支持无线电广播

通过Android Auto&#xff0c;可以在车载收音机上使用 Google 地图、音乐、收听播客&#xff0c;还能获取天气等基本信息。最近&#xff0c;国外科技媒体9to5Google通过分析 Android Auto v12.3 和 v12.4的应用程序的代码发现了一些提示信息&#xff0c;特别提到了 AM、FM、HD …

【Protobuf】xml、json与protobuf有什么区别,protobuf详解(保姆篇)

文章目录 简介Protobuf 的原理安装 Protobuf 编译器在 Python 中使用 Protobuf安装语言特定的 Protobuf 库定义消息结构生成代码使用 Protobuf 进行序列化和反序列化 在 Java 中使用 Protobuf安装和配置编译 .proto 文件使用生成的 Java 类创建和序列化对象 代码注释 高级特性嵌…

LabVIEW灵活集成与调试的方法

在LabVIEW开发中&#xff0c;为了构建一个既便于调试又能灵活集成到主VI中的控制VI&#xff0c;开发者需要采用适当的编程方式和架构。常见的选择包括模块化设计、状态机架构以及事件驱动编程。这些方法有助于简化调试过程、提高系统的稳定性&#xff0c;并确保代码的重用性和可…

day43-测试平台搭建之前端vue学习-基础2

目录 一、数据代理 二、事件处理 三、计算属性 四、监控属性 五、绑定样式 六、今日学习思维导图 一、数据代理 1.1.数据代理&#xff1a;通过一个对象代理对另外一个对象中属性的操作 (读/写) 1.2.Vue中数据代理的好处&#xff1a;更加方便的操作data中的数据 1.3.基本原…

vue2结合element-ui使用tsx格式实现formily自定义组件

简洁 在公司实习&#xff0c;需要参与开发一个基于formily的低代码平台&#xff0c;实现自定义formily组件&#xff0c;在此记录一下。 示例源码 demo源码 实现思路 开始实现自定义组件之前最好先看一下formily官网的core、vue、element部分&#xff0c;如果有能力也可以阅…