1、连续值处理
到目前为止,我们在决策树01、02中仅讨论了基于离散属性来生成决策树,而现实任务中常会遇到连续属性,所以在本章的学习中,我们将会讨论如何在决策树学习中使用连续属性。
1.1、概念
取值范围是连续的实数值或者整数值的属性就是「连续属性」,与离散属性相对立。
这种属性通常可以用一个区间来描述,比如身高、体重、温度等。连续属性的取值通常是在一个连续的范围内变化的,因此它们的值可以是任何一个范围内的实数值或者整数值,而不是一组离散的取值。
1.2、背景
由于连续属性的可取值数目不再有限,因此不能直接根据「连续属性」的可取值来对节点进行划分,此时,想要生成决策树,就需要使用「连续属性离散化」技术解决。
连续属性离散化技术:
①概念:是「数据变换」的一种方式,用于生成决策树。
②方法:连续属性离散化-CSDN博客
- 无监督离散化
- 等宽法
- 灯频法
- K-means聚类分析
- ...
- 有监督离散化
本文采用了二分法(bi-partition)对连续属性进行处理,这正是C4.5决策树算法中采用的机制。
1.3、方法
给定样本集D和连续属性a,假设a在D上出现了n个不同的取值,将这些值从小到大进行排序,记为集合Ai,可表示为:
基于划分点t(),可将D分为子集和,其中:
对于连续属性a相邻取值和来说,t在区间中任意取值所产生的划分结果相同,因此对连续属性a,我们可以考察a1~a(n-1)取值的候选划分点的集合Ta:
然后,我们将按照离散属性一样来考察这n-1个划分点,选择最优的划分点来对样本集合进行划分:
其中是样本D给予划分点t二分之后的「信息增益」,则需要我们求出「信息增益」最大的划分点。
1.4、案例
给定西瓜数据集D如下表:
表1:西瓜数据集——离散属性&连续属性
编号 色泽(A1) 根蒂(A2) 敲声(A3) 纹理(A4) 脐部(A5) 触感(A6) 密度(A7) 含糖率(A8) 是否好瓜(Y) x1 青绿 蜷缩 浑浊 清晰 凹陷 硬滑 0.697 0.460 是Y1 x2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376 是Y1 x3 乌黑 蜷缩 浑浊 清晰 凹陷 硬滑 0.634 0.264 是Y1 x4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.608 0.318 是Y1 x5 浅白 蜷缩 浑浊 清晰 凹陷 硬滑 0.556 0.215 是Y1 x6 青绿 稍蜷 浑浊 清晰 稍凹 软粘 0.403 0.237 是Y1 x7 乌黑 稍蜷 浑浊 稍糊 稍凹 软粘 0.481 0.149 是Y1 x8 乌黑 稍蜷 浑浊 清晰 稍凹 硬滑 0.437 0.211 是Y1 x9 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 0.666 0.091 否Y2 x10 青绿 硬挺 清脆 清晰 平坦 软粘 0.243 0.267 否Y2 x11 浅白 硬挺 清脆 模糊 平坦 硬滑 0.245 0.057 否Y2 x12 浅白 蜷缩 浑浊 模糊 平坦 软粘 0.343 0.099 否Y2 x13 青绿 稍蜷 浑浊 稍糊 凹陷 硬滑 0.639 0.161 否Y2 x14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 0.657